AI竞争进入下半场：从“卷参数”到“卷单价”

admin 行业资讯 (1) 刚刚

如果你还沉浸在去年“谁家模型跑分最高”的叙事中，那么今年的谷歌I/O大会可能会让你有些不适应。整场大会最核心的武器，并非某个仅仅存在于演示视频中的AGI（通用人工智能），而是一个定位为“中杯”的模型 —— Gemini 3.5 Flash。

AI竞争进入下半场：从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第1张

竞赛的下半场，不再是“谁的模型跑分更高”，而是“比谁更便宜、更可执行、更能嵌入现实工作流”。Gemini 3.5 Flash以不到同类前沿模型一半的成本，提供了前沿级别的能力，打开了一场关于定价权与竞争范式的深层博弈。

价格上涨了三倍，仍然有“极致性价比”？

在Terminal-Bench 2.1编码测试中，Gemini 3.5 Flash得分76.2%，逼近GPT-5.5的78.2%；在多步骤工作流MCP Atlas测试中，它以83.6%的成绩领先Claude Opus 4.7的79.1%和GPT-5.5的75.3%。

AI竞争进入下半场：从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第2张

不过，Gemini 3.5 Flash并非没有短板。在涉及硬核抽象推理的测试上，比如ARC-AGI-2（抽象推理图谱）和Humanity‘s Last Exam（人类终极考试），得分不仅低于

-5.5，也不如自家的上一代Pro模型。

Gemini 3.5 Flash的API定价为1.5美元/百万输入token、9美元/百万输出token，相比上一代Gemini 3 Flash Preview（0.5/3美元），价格上涨了3倍，是3.1 Flash-Lite的6倍。事实上，各大厂商都在上调价格：GPT-5.5相比GPT-5.4上涨了2倍，Claude Opus 4.7相比Opus 4.6实际使用成本增加35%。

虽然绝对价格比自己的“丐版”贵了，但在“性能-价格”坐标系中：对比Claude Opus 4.7的输出价格为25美元/百万输出token，GPT-5.5为30美元，完成相同智力任务，Gemini 3.5 Flash成本仅为Claude Opus 4.7的约36%、GPT-5.5的约30%。

AI竞争进入下半场：从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第3张

在Artificial Analysis的“智能指数”测试中，Gemini 3.5 Flash（high）需要花费1552美元才能完成完整测试，成本是3.1 Pro的75%更多；而Claude Opus 4.7（Max）则需要5117美元，GPT-5.5（xhigh）需要3357美元。

此外，谷歌还推出了极低的缓存定价（每百万token仅0.15美元）。对于需要处理长文档、长期记忆的RAG（检索增强生成）应用，这个价格让竞争对手的定价几乎成了“天价”。而更关键的是速度。而每秒超过280个token的输出速度，使其达到了GPT-5.5和Claude Opus 4.7的4倍 —— 不仅能节省算力费用，还能节省时间成本和算力资源占用。在处理相同吞吐量的任务时，你需要部署的实例更少。

AI竞争进入下半场：从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第4张

从某种意义上说，Flash并非只是一个“中端产品”，而是谷歌用规模优势打出的成本-性能极致组合牌：牺牲了解决“奥数题”的深度推理能力，换取了极致的工具使用能力和极快的响应速度。对于绝大多数企业应用场景（客服、数据分析、代码生成），后者才是刚需，而前者往往属于“性能过剩”。

在GPT-5.5和Claude 4 Opus还在为了那百分之几的跑分提升而疯狂堆高推理成本时，谷歌选择了一条“工程师路线”：与其让模型去解一辈子用不到的微积分，不如让它又快又好地帮你写好代码、处理好邮件。

为什么AI竞争从“模型参数”转向“单位经济”？

过去两年，企业拥抱AI的最大障碍并非能力不足，而是成本失控。许多公司在季度中期就发现token预算耗尽，不得不限制内部使用。当技术基本盘稳定、模型智能差距缩小时，价格竞争反而变得更加重要。

过去一年，顶级模型与次级模型之间的能力差距，已经从“天壤之别”缩小到了“10%-20%”以内。当GPT-5.5、Claude Opus 4.7、Gemini 3.5 Flash在前沿基准上差距不过几个百分点时，用户的决策天平将迅速从“谁更强”倒向“谁的单位成本产出更高”。

摩根士丹利的研究报告指出，全球数据中心建设耗资巨大，而算力的边际成本正在成为压垮企业利润的最后一根稻草。当算力支出成为天文数字，任何模型厂商都无法再靠“烧钱换规模”维持下去。AI正在告别“补贴换流量”的粗放模式，走向“结果价值导向”的精细化运营。

当AI从“问答”走向“执行”，从单次交互走向持续托管任务，token消耗量是指数级的。这正是谷歌的战略窗口：利用超大规模资本支出、全球云基建和海量用户数据，将推理成本压至竞争对手无法企及的水平。谷歌内部各产品每月处理的token量达到3.2千万亿，较去年I/O增长7倍。AI Mode推出一年，月活已超10亿；Gemini应用月活从去年4亿增至9亿多。

值得注意的是，Gemini 3.5 Flash不仅仅是一个API，它是谷歌整个生态的“心脏起搏器”。Gemini Spark（全天候个人助理）、Antigravity 2.0（多智能体协同平台）以及全面升级的Google Search，底层都由3.5 Flash驱动。

AI竞争进入下半场：从“卷参数”到“卷单价”_http://www.hnzqjt.cn_行业资讯_第5张

谷歌披露，其内部AI开发工具日处理token量从3月的5000亿飙升至如今的3万亿，每隔几周翻倍。绝大多数AI公司训练模型依赖公开数据或人工标注，而谷歌依靠每天数万亿次的真实工程交互。竞争对手可以复制模型架构，但复制不了这个“真实世界实验室”。

AI下半场的三大竞争主轴

· 从“模型大小”竞争转向“单位成本智能”竞争：头部模型凭借规模效应和架构优化，将推理成本不断压缩。企业将不再纠结于“该用哪个旗舰模型”，而是建立“技术评估+成本建模+架构优化”的三维决策体系，不同任务跑不同模型，实现成本与性能的最优平衡。

· 从“通用聊天”竞争转向“智能体执行”竞争：全球AI Agent市场规模年复合增长率达187%，中国企业系统化部署需求占比超过65%。搜索引擎正在从“找到信息”进化为“替你持续关注并执行”。AI正在从“副驾驶”跃迁至“能替你干活的代理”。

· 从“单一模型”竞争转向“生态飞轮”竞争：谁拥有最多的真实用户、最深的上下文数据、最广泛的应用场景，谁就能在模型迭代中获取天然的代际优势。谷歌同时拥有搜索、邮箱、办公套件、视频平台和全球最大的用户基数，这一优势正在转化为持续的竞争力。

结语

谷歌用Gemini 3.5 Flash解决了“用得起”的问题，用内部3万亿token飞轮解决了“进化快”的问题，用Spark和Omni解决了“干得了”的问题。当竞争对手还在卷下一个跑分时，谷歌已经重新划定了比赛场地。

对开发者而言，这无疑是最好的时代：一流的智能不再意味着一流的价格，多模态和智能体的全面普及正在大幅降低应用的门槛。而对中小模型厂商来说，这个赛道正在变得越来越残酷：头部玩家不仅比你聪明，还比你便宜、比你快、比你有更多的数据、比你更了解真实世界的需求。

当皮查伊说“Flash改变了游戏规则”时，他并非言过其实。这场从“模型之战”到“经济模型之战”的转型，才刚刚开始。

美退役海军中将接受采访画面引争议：颈部怪异被质疑戴面具

外界猛然发现，以色列军事基地已分布在中东、非洲多国

AI竞争进入下半场：从“卷参数”到“卷单价”

相关推荐

中国贸促会：在筹备适时组织中国企业赴美交流，促进两国工商界深化务实合作

联想发出史上最强财报：股价应声暴涨18.63%！创下逾26年新高

OpenAI 推 Beta 版 ChatGPT for PowerPoint，可生成 / 编辑 / 完善幻灯片

《海贼王》最终章再添超强战力！又一颗神级恶魔果实亮相

最新文章