智谱AI推出GLM-5V-Turbo:为“龙虾”装上视觉之眼

AI快讯 2026-04-09 AI小易

什么是 GLM-5V-Turbo?

2026年4月2日,智谱 AI 正式发布了 GLM-5V-Turbo。这是一款专为视觉编程场景打造的多模态 Coding 基座模型。与传统的纯文本编程模型不同,GLM-5V-Turbo 从预训练阶段就深度融合了视觉与文本能力,使其具备了“看图写代码”的核心技能。

ScreenShot_2026-04-10_093756_613.png

该模型能够直接理解设计稿、屏幕截图和网页界面,并据此生成完整且可运行的代码。其上下文窗口扩展至 200K,并支持画框、截图、读网页等多模态工具调用,极大地降低了开发者构建视觉应用的门槛。

核心特性:为龙虾装上眼睛

在 AI Agent(智能体)领域,GLM-5V-Turbo 的发布具有里程碑意义,它被形象地描述为“为龙虾装上了眼睛”。
  • 真正的视觉感知:接入该模型后,OpenClaw、AutoClaw 等“龙虾”智能体拥有了真正的视觉理解能力。它们不再盲目操作,而是能看懂屏幕上的 GUI 元素、图表和网页布局。

  • 完整任务闭环:实现了从“看懂环境”到“规划动作”再到“执行任务”的完整闭环。

  • 实战技能上线:AutoClaw 已经上线了“股票分析师”技能。借助 GLM-5V-Turbo,龙虾可以直接读懂 K 线图和券商研报图表,60 秒内并行采集四路数据源,并自动生成图文并茂的研报。

性能评测与行业反馈

GLM-5V-Turbo 在多项权威基准测试中表现优异,证明了其在视觉能力增强的同时,未牺牲纯文本编程能力。
  • 基准测试领先:在设计稿还原(Design2Code)、视觉代码生成(Vision2Web)、AndroidWorld、WebVoyager 等基准测试中均取得领先成绩。

  • Agent 任务表现出色:在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval、ZClawBench 上表现突出。

  • 行业认可:字节跳动 TRAE、美团、快手万擎等企业参与了内测。整体反馈认为,其视觉能力的引入并未削弱纯文本编程能力,依然稳居国内第一梯队。

📊 部分基准测试对比(分数越高越好)
表格
<svg xmlns="http://www.w3.org/2000/svg" width="18" height="18" viewBox="0 0 24 24"></svg>
测试项目GLM-5V-TurboKimiClaude Opus 4.6
Design2Code (设计稿还原)94.891.377.3
Flame-VLM-Code (代码生成)93.888.898.8
AndroidWorld (安卓操作)75.743.162.0
WebVoyager (网页浏览)88.584.388.0

如何使用与体验

智谱 AI 为开发者提供了多种接入和体验方式:
  • 官方 Skills:已上线 ClawHub,涵盖图像 Captioning、视觉 Grounding、文字识别、表格识别、文生图等能力,支持一键安装。

  • 直接体验:用户可通过 AutoClaw 或 Z.ai 平台直接体验其强大的视觉交互能力。

  • API 接入:开发者可以通过 BigModel 开放平台 API 将其集成到自己的应用中。

GLM-5V-Turbo 的推出,标志着 AI 从“纯文本对话”向“视觉交互与操作”的重要跨越,为未来的智能体应用奠定了坚实的视觉基础。

©️版权声明:若无特殊声明,本站所有文章版权均归 百易AI导航(baiyiai.com)原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章