智谱GLM-5V-Turbo:看设计稿直接生成代码,龙虾Agent看懂屏幕
2026年4月2日,智谱AI正式发布了GLM-5V-Turbo,它是一款面向视觉编程场景打造的多模态Coding基座模型;它与此前的纯文本编程模型不一样;GLM-5V-Turbo从预训练阶段一开始就深度融合视觉与文本能力;它能够直接看懂设计稿、截图、网页界面;它还能据此生成完整可运行的代码;其上下文窗口扩展到了200K;它支持画框、截图、读网页等多模态工具调用。
![]()
在 Agent 场景这块,接入 GLM - 5V - Turbo 之后,OpenClaw、AutoClaw 这类龙虾 Agent 有了实实在在的视觉感知能力,能明白屏幕上的 GUI 元素、图表及网页布局,达成“看懂环境→规划动作→执行任务”的完整闭环。AutoClaw 已推出“股票分析师”Skill,龙虾可直接理解读懂 K 线图与券商研报图表,60 秒并行采集四路数据源并输出图文研报。
关于评测数据这方面,模型于设计稿还原、视觉代码生成、AndroidWorld、WebVoyager这些基准之上取得了领先地位,在用于衡量龙虾Agent任务执行质量的PinchBench、ClawEval、ZClawBench上也同样有着突出的表现。字节跳动TRAE、美团、快手万擎都参与了内测评价,整体反馈表明其视觉能力的引入并没有削弱纯文本编程能力,依旧属于国内第一梯队。
![]()
专为官方 Skills 上线的 ClawHub,涉及图像 Captioning 能力,包含视觉 Grounding 这一内容,还有文字识别的本事,以及表格识别的功能,甚至文生图的相关能力也有,操作时一键安装就能进行体验。用户体验既有借助 AutoClaw 直接开展的方式,也有依靠 Z.ai 直接感受的办法,甚至通过 BigModel 开放平台 API 接入这种途径也可以实现。
ICP备案:沪ICP备2026056879号