阿里通义发布最强开源多模态推理模型QVQ

2025-02-20 0 345

AILSJ最新消息,2024年12月25日,阿里云通义千问正式发布全球首个开源多模态推理模型 QVQ-72B-Preview。该模型以超强的视觉理解与推理能力引领行业,特别在解决数学、物理和科学等复杂问题上表现尤为出色。目前,开发者可通过 魔搭社区 和 HuggingFace 平台 直接体验。

核心技术亮点:

  • 视觉推理能力突破:
    • QVQ 基于 Qwen2-VL-72B 模型优化,支持逐步推理与深度视觉分析,显著提升复杂问题的解答能力。
    • 模型能够精准感知视觉内容,对图片进行详细的推理,如物体高度估算、数量推断,以及“梗图”内涵的识别。
  • 卓越的评测表现:
    • MMMU(多模态任务理解):得分 70.3,达到大学推理水平。
    • MathVista(数学推理):超越 OpenAI o1,展现强大图形推理能力。
    • MathVision 和 OlympiadBench:在多学科广度和奥赛难度测试中分别超过 Claude 3.5 和 GPT-4o。
  • 开源与生态支持:
    • QVQ-72B 已开源至 HuggingFace,并受到全球开发者热烈追捧。
    • 截至目前,通义千问的模型衍生数已突破 7.8万个,成为全球规模最大的 AI 模型群。
  • QVQ-72B-Preview 是阿里云在 AI 推理领域的又一重磅突破,其强大的视觉推理能力与开放生态为开发者提供了全新工具,加速推动多模态 AI 技术的应用落地。

    若非本站原创的文章,特别作如下声明:
    本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。
    不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
    凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
    如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!

    AI老司机 AI行业动态 阿里通义发布最强开源多模态推理模型QVQ https://www.ailsj.cn/516.html

    相关文章

    发表评论
    暂无评论