AI竞争进入下半场:从“卷参数”到“卷单价”

如果你还沉浸在去年“谁家模型跑分最高”的叙事中,那么今年的谷歌I/O大会可能会让你有些不适应。整场大会最核心的武器,并非某个仅仅存在于演示视频中的AGI(通用人工智能),而是一个定位为“中杯”的模型 —— Gemini 3.5 Flash。

AI竞争进入下半场:从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第1张

竞赛的下半场,不再是“谁的模型跑分更高”,而是“比谁更便宜、更可执行、更能嵌入现实工作流”。Gemini 3.5 Flash以不到同类前沿模型一半的成本,提供了前沿级别的能力,打开了一场关于定价权与竞争范式的深层博弈。

价格上涨了三倍,仍然有“极致性价比”?

在Terminal-Bench 2.1编码测试中,Gemini 3.5 Flash得分76.2%,逼近GPT-5.5的78.2%;在多步骤工作流MCP Atlas测试中,它以83.6%的成绩领先Claude Opus 4.7的79.1%和GPT-5.5的75.3%。

AI竞争进入下半场:从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第2张不过,Gemini 3.5 Flash并非没有短板。在涉及硬核抽象推理的测试上,比如ARC-AGI-2(抽象推理图谱)和Humanity‘s Last Exam(人类终极考试),得分不仅低于

-5.5,也不如自家的上一代Pro模型。

Gemini 3.5 Flash的API定价为1.5美元/百万输入token、9美元/百万输出token,相比上一代Gemini 3 Flash Preview(0.5/3美元),价格上涨了3倍,是3.1 Flash-Lite的6倍。事实上,各大厂商都在上调价格:GPT-5.5相比GPT-5.4上涨了2倍,Claude Opus 4.7相比Opus 4.6实际使用成本增加35%。

虽然绝对价格比自己的“丐版”贵了,但在“性能-价格”坐标系中:对比Claude Opus 4.7的输出价格为25美元/百万输出token,GPT-5.5为30美元,完成相同智力任务,Gemini 3.5 Flash成本仅为Claude Opus 4.7的约36%、GPT-5.5的约30%。

AI竞争进入下半场:从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第3张

在Artificial Analysis的“智能指数”测试中,Gemini 3.5 Flash(high)需要花费1552美元才能完成完整测试,成本是3.1 Pro的75%更多;而Claude Opus 4.7(Max)则需要5117美元,GPT-5.5(xhigh)需要3357美元。

此外,谷歌还推出了极低的缓存定价(每百万token仅0.15美元)。对于需要处理长文档、长期记忆的RAG(检索增强生成)应用,这个价格让竞争对手的定价几乎成了“天价”。而更关键的是速度。而每秒超过280个token的输出速度,使其达到了GPT-5.5和Claude Opus 4.7的4倍 —— 不仅能节省算力费用,还能节省时间成本和算力资源占用。在处理相同吞吐量的任务时,你需要部署的实例更少。

AI竞争进入下半场:从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第4张

从某种意义上说,Flash并非只是一个“中端产品”,而是谷歌用规模优势打出的成本-性能极致组合牌:牺牲了解决“奥数题”的深度推理能力,换取了极致的工具使用能力和极快的响应速度。对于绝大多数企业应用场景(客服、数据分析、代码生成),后者才是刚需,而前者往往属于“性能过剩”。

在GPT-5.5和Claude 4 Opus还在为了那百分之几的跑分提升而疯狂堆高推理成本时,谷歌选择了一条“工程师路线”:与其让模型去解一辈子用不到的微积分,不如让它又快又好地帮你写好代码、处理好邮件。

为什么AI竞争从“模型参数”转向“单位经济”?

过去两年,企业拥抱AI的最大障碍并非能力不足,而是成本失控。许多公司在季度中期就发现token预算耗尽,不得不限制内部使用。当技术基本盘稳定、模型智能差距缩小时,价格竞争反而变得更加重要。

过去一年,顶级模型与次级模型之间的能力差距,已经从“天壤之别”缩小到了“10%-20%”以内。当GPT-5.5、Claude Opus 4.7、Gemini 3.5 Flash在前沿基准上差距不过几个百分点时,用户的决策天平将迅速从“谁更强”倒向“谁的单位成本产出更高”。

摩根士丹利的研究报告指出,全球数据中心建设耗资巨大,而算力的边际成本正在成为压垮企业利润的最后一根稻草。当算力支出成为天文数字,任何模型厂商都无法再靠“烧钱换规模”维持下去。AI正在告别“补贴换流量”的粗放模式,走向“结果价值导向”的精细化运营。

当AI从“问答”走向“执行”,从单次交互走向持续托管任务,token消耗量是指数级的。这正是谷歌的战略窗口:利用超大规模资本支出、全球云基建和海量用户数据,将推理成本压至竞争对手无法企及的水平。谷歌内部各产品每月处理的token量达到3.2千万亿,较去年I/O增长7倍。AI Mode推出一年,月活已超10亿;Gemini应用月活从去年4亿增至9亿多。

值得注意的是,Gemini 3.5 Flash不仅仅是一个API,它是谷歌整个生态的“心脏起搏器”。Gemini Spark(全天候个人助理)、Antigravity 2.0(多智能体协同平台)以及全面升级的Google Search,底层都由3.5 Flash驱动。

AI竞争进入下半场:从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第5张

谷歌披露,其内部AI开发工具日处理token量从3月的5000亿飙升至如今的3万亿,每隔几周翻倍。绝大多数AI公司训练模型依赖公开数据或人工标注,而谷歌依靠每天数万亿次的真实工程交互。竞争对手可以复制模型架构,但复制不了这个“真实世界实验室”。

AI下半场的三大竞争主轴

· 从“模型大小”竞争转向“单位成本智能”竞争:头部模型凭借规模效应和架构优化,将推理成本不断压缩。企业将不再纠结于“该用哪个旗舰模型”,而是建立“技术评估+成本建模+架构优化”的三维决策体系,不同任务跑不同模型,实现成本与性能的最优平衡。

· 从“通用聊天”竞争转向“智能体执行”竞争:全球AI Agent市场规模年复合增长率达187%,中国企业系统化部署需求占比超过65%。搜索引擎正在从“找到信息”进化为“替你持续关注并执行”。AI正在从“副驾驶”跃迁至“能替你干活的代理”。

· 从“单一模型”竞争转向“生态飞轮”竞争:谁拥有最多的真实用户、最深的上下文数据、最广泛的应用场景,谁就能在模型迭代中获取天然的代际优势。谷歌同时拥有搜索、邮箱、办公套件、视频平台和全球最大的用户基数,这一优势正在转化为持续的竞争力。

结语

谷歌用Gemini 3.5 Flash解决了“用得起”的问题,用内部3万亿token飞轮解决了“进化快”的问题,用Spark和Omni解决了“干得了”的问题。当竞争对手还在卷下一个跑分时,谷歌已经重新划定了比赛场地。

对开发者而言,这无疑是最好的时代:一流的智能不再意味着一流的价格,多模态和智能体的全面普及正在大幅降低应用的门槛。而对中小模型厂商来说,这个赛道正在变得越来越残酷:头部玩家不仅比你聪明,还比你便宜、比你快、比你有更多的数据、比你更了解真实世界的需求。

当皮查伊说“Flash改变了游戏规则”时,他并非言过其实。这场从“模型之战”到“经济模型之战”的转型,才刚刚开始。