1、Gemini 3核心能力提升分析 推理能力提升: 推理能力是模型的基座能力,支撑Web coding、阅读理解及图像视频生成等应用。为客观测评大模型的理解与思维能力,学界及业界开发了HLE(Humility last exam)测试题,该测试涵盖2500多道科学题,涉及100多个专业知识领域,其中14%为文本、图文、多模态题目,较为全面。测试显示,Gemini 3在未借助外部搜索和编程工具时得分为37.5%,而此前GPT 5.1仅为26.5%,提升明显;若结合深度思考能力及外部工具,Gemini 3得分可提升至45.8%。此外,其推理能力在部分领域已达到博士级水平。 多模态能力突破: 多模态能力是Gemini 3相较于GPT模型的显著增量,尤其体现在输入输出两端。此前GPT 5发布时多模态能力未达预期,未设计输出端多模态,输入端多模态提升也有限,仍属语言模型范畴。而Gemini 3输入输出端均支持文本、图像、视频、音频和代码的生成、识别与输入,更接近通用大模型形态。测试数据佐证其多模态能力提升:在评估屏幕内容理解的Spring Spot测试中,Gemini 3得分为72.7%,远高于GPT 5.1的3.5%;在评估终端操作工具使用能力的Terminal Bench测试中,得分达54.2%,较GPT 5.1有明显提升。这种多模态能力不仅体现在认知理解,更为未来Agent读取界面信息、决策交互提供了基础。 集成Agent编程环境: 谷歌基于Gemini 3能力,发布了集成的Agent编程环境Anti Gravity,这是一个AI驱动的集成开发环境(AI IDE)。该平台封装了AI政策功能,支持自动填空式代码填充等AI能力,同时可为智能体赋予更多权限,使其能代替用户进行服务器端、浏览器端访问,实现更便捷、自主的端到端软件开发功能。 2、NanoBanana Pro增量优势解析 物理世界认知与信息检索: NanoBanana Pro首个核心增量是融入Generative 3推理与搜索能力,使生成内容更具时效性与准确性,体现在知识理解和物理世界认知两方面。比如生成学科插图、厨艺教学内容时,需结合外部信息搜索并具备物理世界认知。这让其从‘玩具类工具’升级为‘工作室级生产力工具’,支持设计级图片、视频生成。该能力在输入prompt后,结合Generative 3认知理解融合实现。 多语言文本生成能力: NanoBanana Pro优化了多语言文本生成能力。传统模型生成文本有缺陷,英文稍好,中文常乱码或扭曲。而它支持多语种文本生成,可实现文理字体与书法形式多样化展现,英、中及其他语言均能自然呈现。在含文字的B端生产力场景中,传统模型需二次开发修正文字,它可直接生成自然字体文本,避免二次开发,是明显优势。 人物/物体一致性控制: NanoBanana Pro具备人物或物体一致性控制及微调能力。保持一致性是分镜式图片或视频生成的关键,官网示例显示,其最多可用14张图片保持5个元素在生成过程中的一致性。此外,它还支持微调操作,可对图片尺寸或细节进行小范围调整,替代传统P图软件二次加工,提升创作效率。 3、AI产品发布的投资机会 算力侧受益逻辑: 从算力端来看,模型训练与推理阶段均会对算力产生显著需求。训练模型时,需大量GPU及算力机器;推理阶段,更多调用模型或进行生成操作时,也会拉动算力消耗。因谷歌相关产品性能提升及应用场景扩展,其对算力消耗形成明显支撑,利好谷歌产业链的相关算力公司。这些标的主要在电子通信领域,未具体列举。 应用侧受益方向: 应用侧的受益方向分为AIGC类与企业服务类。AIGC类标的因谷歌产品能力提升更直观而优先受益,尤其是图片生成能力的提升肉眼可见,相关工具型产品可开放合作接入模型能力。具体标的有万兴(含海外业务)、美图(国际版可合作)、虹软(偏向生成图片、视频类)等。企业服务类应用落地进展相对较快,ERP、CRM、OA、MES等领域结合AI能力可实现降本增效或增收,是企业关注的核心需求点。国内虽无法直接使用相关产品,但模型能力的进步迭代增强了应用落地预期,有海外业务的企业可接入相关模型,此类标的也会受益。整体看,应用类标的调整一段时间后,未来1 - 2个月若出现资金重分配或高低切换,可能存在投资机会。
1、Gemini3核心能力提升分析 推理能力提升:推理能力是模型的基座能力
纯真灵魂
2025-11-23 22:09:14
0
阅读:0