智谱GLM-5V-Turbo:看设计稿直接生成代码,龙虾Agent看懂屏幕

文章博客 2026-04-11 AI小易

2026年4月2日,智谱AI正式发布了GLM-5V-Turbo,它是一款面向视觉编程场景打造的多模态Coding基座模型;它与此前的纯文本编程模型不一样;GLM-5V-Turbo从预训练阶段一开始就深度融合视觉与文本能力;它能够直接看懂设计稿、截图、网页界面;它还能据此生成完整可运行的代码;其上下文窗口扩展到了200K;它支持画框、截图、读网页等多模态工具调用。

GLM-5V-Turbo

在 Agent 场景这块,接入 GLM - 5V - Turbo 之后,OpenClaw、AutoClaw 这类龙虾 Agent 有了实实在在的视觉感知能力,能明白屏幕上的 GUI 元素、图表及网页布局,达成“看懂环境→规划动作→执行任务”的完整闭环。AutoClaw 已推出“股票分析师”Skill,龙虾可直接理解读懂 K 线图与券商研报图表,60 秒并行采集四路数据源并输出图文研报。

关于评测数据这方面,模型于设计稿还原、视觉代码生成、AndroidWorld、WebVoyager这些基准之上取得了领先地位,在用于衡量龙虾Agent任务执行质量的PinchBench、ClawEval、ZClawBench上也同样有着突出的表现。字节跳动TRAE、美团、快手万擎都参与了内测评价,整体反馈表明其视觉能力的引入并没有削弱纯文本编程能力,依旧属于国内第一梯队。

智谱发布 GLM-5V-Turbo:多模态 Coding 基座模型,一张图片生成代码,为龙虾装上眼睛

专为官方 Skills 上线的 ClawHub,涉及图像 Captioning 能力,包含视觉 Grounding 这一内容,还有文字识别的本事,以及表格识别的功能,甚至文生图的相关能力也有,操作时一键安装就能进行体验。用户体验既有借助 AutoClaw 直接开展的方式,也有依靠 Z.ai 直接感受的办法,甚至通过 BigModel 开放平台 API 接入这种途径也可以实现。

©️版权声明:若无特殊声明,本站所有文章版权均归 百易AI导航(baiyiai.com)原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章