智谱AI推出GLM-5V-Turbo:为“龙虾”装上视觉之眼
什么是 GLM-5V-Turbo?
2026年4月2日,智谱 AI 正式发布了 GLM-5V-Turbo。这是一款专为视觉编程场景打造的多模态 Coding 基座模型。与传统的纯文本编程模型不同,GLM-5V-Turbo 从预训练阶段就深度融合了视觉与文本能力,使其具备了“看图写代码”的核心技能。

该模型能够直接理解设计稿、屏幕截图和网页界面,并据此生成完整且可运行的代码。其上下文窗口扩展至 200K,并支持画框、截图、读网页等多模态工具调用,极大地降低了开发者构建视觉应用的门槛。
核心特性:为龙虾装上眼睛
在 AI Agent(智能体)领域,GLM-5V-Turbo 的发布具有里程碑意义,它被形象地描述为“为龙虾装上了眼睛”。真正的视觉感知:接入该模型后,OpenClaw、AutoClaw 等“龙虾”智能体拥有了真正的视觉理解能力。它们不再盲目操作,而是能看懂屏幕上的 GUI 元素、图表和网页布局。
完整任务闭环:实现了从“看懂环境”到“规划动作”再到“执行任务”的完整闭环。
实战技能上线:AutoClaw 已经上线了“股票分析师”技能。借助 GLM-5V-Turbo,龙虾可以直接读懂 K 线图和券商研报图表,60 秒内并行采集四路数据源,并自动生成图文并茂的研报。
真正的视觉感知:接入该模型后,OpenClaw、AutoClaw 等“龙虾”智能体拥有了真正的视觉理解能力。它们不再盲目操作,而是能看懂屏幕上的 GUI 元素、图表和网页布局。
完整任务闭环:实现了从“看懂环境”到“规划动作”再到“执行任务”的完整闭环。
实战技能上线:AutoClaw 已经上线了“股票分析师”技能。借助 GLM-5V-Turbo,龙虾可以直接读懂 K 线图和券商研报图表,60 秒内并行采集四路数据源,并自动生成图文并茂的研报。
性能评测与行业反馈
GLM-5V-Turbo 在多项权威基准测试中表现优异,证明了其在视觉能力增强的同时,未牺牲纯文本编程能力。基准测试领先:在设计稿还原(Design2Code)、视觉代码生成(Vision2Web)、AndroidWorld、WebVoyager 等基准测试中均取得领先成绩。
Agent 任务表现出色:在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval、ZClawBench 上表现突出。
行业认可:字节跳动 TRAE、美团、快手万擎等企业参与了内测。整体反馈认为,其视觉能力的引入并未削弱纯文本编程能力,依然稳居国内第一梯队。
📊 部分基准测试对比(分数越高越好)
基准测试领先:在设计稿还原(Design2Code)、视觉代码生成(Vision2Web)、AndroidWorld、WebVoyager 等基准测试中均取得领先成绩。
Agent 任务表现出色:在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval、ZClawBench 上表现突出。
行业认可:字节跳动 TRAE、美团、快手万擎等企业参与了内测。整体反馈认为,其视觉能力的引入并未削弱纯文本编程能力,依然稳居国内第一梯队。
如何使用与体验
智谱 AI 为开发者提供了多种接入和体验方式:官方 Skills:已上线 ClawHub,涵盖图像 Captioning、视觉 Grounding、文字识别、表格识别、文生图等能力,支持一键安装。
直接体验:用户可通过 AutoClaw 或 Z.ai 平台直接体验其强大的视觉交互能力。
API 接入:开发者可以通过 BigModel 开放平台 API 将其集成到自己的应用中。
GLM-5V-Turbo 的推出,标志着 AI 从“纯文本对话”向“视觉交互与操作”的重要跨越,为未来的智能体应用奠定了坚实的视觉基础。
官方 Skills:已上线 ClawHub,涵盖图像 Captioning、视觉 Grounding、文字识别、表格识别、文生图等能力,支持一键安装。
直接体验:用户可通过 AutoClaw 或 Z.ai 平台直接体验其强大的视觉交互能力。
API 接入:开发者可以通过 BigModel 开放平台 API 将其集成到自己的应用中。
©️版权声明:若无特殊声明,本站所有文章版权均归 百易AI导航(baiyiai.com)原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
ICP备案:沪ICP备2026056879号