15B参数轻量级模型,微软开源Phi-4推理视觉版,高性价比首选
微软近日正式开源了其最新研发的多模态推理模型 Phi-4-reasoning-vision-15B。该模型凭借15B 的参数规模,在保持轻量化的同时,实现了高性能与低成本的理想平衡,为资源受限环境下的复杂视觉任务提供了全新选择。
精细化数据驱动的“小钢炮”
不同于业内动辄消耗万亿级 token 的模型,Phi-4-reasoning-vision 仅使用了200B 多模态 token 进行训练。研发团队将数据质量置于首位,通过深度清洗开源数据、生成定向合成数据以及精密的领域数据配比(如增加数学数据可同步提升计算机操作能力),使其在科学推理和屏幕定位任务上表现优异。
![]()
创新的混合推理策略
该模型的一大亮点是采用了“混合推理路径”设计:
得益于 SigLIP-2动态分辨率编码器的加入,该模型对高分辨率截图中的细小元素具有极强的感知力。这使其成为开发计算机操作助手(CUA)的理想选择,能够精准识别并操作网页或手机界面上的按钮与输入框。
目前,Phi-4-reasoning-vision-15B 已在多个开源平台发布。微软希望通过这款紧凑型模型,证明在多模态领域,“更小、更快”也能与“更强”并行,进一步推动空间智能与实时交互技术的普及。
©️版权声明:若无特殊声明,本站所有文章版权均归 百易AI导航(baiyiai.com)原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
ICP备案:沪ICP备2026056879号