智谱GLM-5V-Turbo：看设计稿直接生成代码，龙虾Agent看懂屏幕

文章博客 2026-04-11 AI小易

2026年4月2日，智谱AI正式发布了GLM-5V-Turbo，它是一款面向视觉编程场景打造的多模态Coding基座模型；它与此前的纯文本编程模型不一样；GLM-5V-Turbo从预训练阶段一开始就深度融合视觉与文本能力；它能够直接看懂设计稿、截图、网页界面；它还能据此生成完整可运行的代码；其上下文窗口扩展到了200K；它支持画框、截图、读网页等多模态工具调用。

在 Agent 场景这块，接入 GLM - 5V - Turbo 之后，OpenClaw、AutoClaw 这类龙虾 Agent 有了实实在在的视觉感知能力，能明白屏幕上的 GUI 元素、图表及网页布局，达成“看懂环境→规划动作→执行任务”的完整闭环。AutoClaw 已推出“股票分析师”Skill，龙虾可直接理解读懂 K 线图与券商研报图表，60 秒并行采集四路数据源并输出图文研报。

关于评测数据这方面，模型于设计稿还原、视觉代码生成、AndroidWorld、WebVoyager这些基准之上取得了领先地位，在用于衡量龙虾Agent任务执行质量的PinchBench、ClawEval、ZClawBench上也同样有着突出的表现。字节跳动TRAE、美团、快手万擎都参与了内测评价，整体反馈表明其视觉能力的引入并没有削弱纯文本编程能力，依旧属于国内第一梯队。

专为官方 Skills 上线的 ClawHub，涉及图像 Captioning 能力，包含视觉 Grounding 这一内容，还有文字识别的本事，以及表格识别的功能，甚至文生图的相关能力也有，操作时一键安装就能进行体验。用户体验既有借助 AutoClaw 直接开展的方式，也有依靠 Z.ai 直接感受的办法，甚至通过 BigModel 开放平台 API 接入这种途径也可以实现。