智谱 GLM-5.1 高速版 AI 模型发布，跑出全球最快速度 400 tokens/s

admin 行业资讯 (1) 刚刚

IT之家 5 月 22 日消息，智谱今日宣布面向部分企业客户提供 GLM-5.1 高速版 API“GLM-5.1-highspeed”。

该模型输出速度达到 400 tokens/s，刷新当前全球大模型厂商 API 的速度上限。

智谱 GLM-5.1 高速版 AI 模型发布，跑出全球最快速度 400 tokens/s_http://www.hnzqjt.cn_行业资讯_第1张

更重要的是，在过去，“快”往往意味着“小”，高速模型几乎总是轻量级模型。GLM-5.1 高速版打破了这一行业惯例，首次在国产大模型中，将旗舰级能力与低延迟同时带入生产环境。

GLM-5.1 高速版 API“GLM-5.1-highspeed”由智谱 GLM 团队与 TileRT 团队联合打造，在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

模型推理速度的理论上限由硬件决定，但真实系统通常距离物理极限仍存在巨大差距。核心问题在于推理框架的调度方式。当前主流框架仍以 operator / kernel 作为基本调度单元，每个算子都要经历“host 启动 → 读权重 → 计算 → 写回 → 同步”的严格完整链路。当推理进入单 token、小 batch、多卡 TP 的场景后，算子被切到微秒级，原本可忽略的调度、访存与同步开销会被迅速放大。

TileRT 的设计思路，是彻底抛弃 Runtime 层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

GLM-5.1 高速版适用于 AI 编程、实时交互、商业决策、实时语音等对响应延迟要求高的场景，现已面向智谱 MaaS 平台部分企业客户开放服务。

IT之家附模型链接如下：

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed

美官员：特朗普政府已开始制定对古巴军事行动方案

Q4业绩全面爆发！联想集团全年营收逼近6000亿元净利润增速为营收两倍

智谱 GLM-5.1 高速版 AI 模型发布，跑出全球最快速度 400 tokens/s

相关推荐

尼克斯2-0骑士 哈特新高26分 布伦森19分14助 米切尔26分

F1七冠王汉密尔顿：我并未考虑退役，仍计划在这里待一段时间

酷态科新品 5 月 27 日发布

【读财报】寿险公司合规透视：34家机构领罚单

最新文章

尼克斯2-0骑士哈特新高26分布伦森19分14助米切尔26分