谷歌公司近日宣布,正式推出其最新一代人工智能模型Gemini 3,标志着公司在通用人工智能(AGI)研发道路上迈出关键一步。这款被定位为全球领先的多模态理解模型,不仅在推理能力上实现突破性进展,更通过集成智能体编程和氛围编程技术,为用户提供前所未有的交互体验。
据技术白皮书披露,Gemini 3 Pro在LMArena排行榜以1501分的Elo评分刷新纪录,在数学推理基准测试MathArena Apex中取得23.4%的先进水平。该模型在处理复杂科学问题时展现出博士级认知能力,在未借助外部工具的情况下,于"人类终极考试"中取得37.5%的得分率,GPQA Diamond基准测试准确率更达到91.9%。特别值得关注的是,其多模态处理能力在MMMU-Pro和Video-MMMU测试中分别获得81%和87.6%的优异成绩。
产品团队着重介绍了新推出的深度思考模式(Deep Think mode),这项增强功能通过扩展推理链路长度和优化多模态理解机制,使模型在ARC-AGI-2基准测试中取得45.1%的突破性成绩。测试数据显示,该模式在GPQA Diamond测试中的表现较基础版本提升2个百分点,达到93.8%的准确率,展现出处理新型认知挑战的显著优势。
在应用场景拓展方面,Gemini 3实现了三大核心突破。学习领域,模型可自动解析手写菜谱、学术论文等跨模态资料,生成交互式学习卡片和可视化图表。某测试案例中,系统成功将匹克球比赛视频转化为技术分析报告,并制定个性化训练方案。构建层面,WebDev Arena排行榜显示,该模型以1487分的ELO值领跑零样本生成领域,在终端操作测试Terminal-Bench 2.0中取得54.2%的完成率。
针对开发者群体,谷歌同步推出智能体开发平台Antigravity。该平台通过专属界面赋予AI智能体直接操作编辑器、终端和浏览器的权限,实现端到端软件任务自主规划。实测案例表明,系统可独立完成航班追踪应用的代码编写与浏览器验证流程。平台整合了计算机使用模型Gemini 2.5 Computer Use和图像编辑模型Nano Banana,形成完整的开发工具链。
长期规划能力测试中,Gemini 3在Vending-Bench 2基准测试中展现卓越表现。通过管理模拟自动售货机业务,模型在持续一年的运营周期内保持工具使用一致性,决策回报率较前代提升17%。这项突破使得系统能够协助用户完成整理邮箱、规划旅行等复杂多步骤任务,Google AI Ultra订阅用户现已可通过Gemini Agent体验相关功能。
安全评估体系方面,新模型接受了业界最严苛的测试流程。除内部前沿安全框架检验外,还邀请英国人工智能安全研究所等第三方机构参与评估。测试结果显示,模型在抗提示注入攻击、抵御网络滥用等方面表现显著提升,谄媚性指标下降32%。完整的安全评估报告已通过模型卡形式对外公开。