视觉语言模型来了：支持中英文等多种语言

来源：中关村在线2023-08-30 12:23:17

(资料图片仅供参考)

阿里云今日发布了大规模视觉语言模型Qwen-VL，并已在ModeScope平台上开源。此前，阿里云已经开源了通用模型Qwen-7B和对话模型Qwen-7B-Chat。据介绍，Qwen-VL是一款支持中英文等多种语言的视觉语言模型。与以往的视觉语言模型相比，Qwen-VL不仅具备图文识别、描述、问答和对话的基本能力，还新增了视觉定位和图像中文字理解等功能。 Qwen-VL以Qwen-7B为基础，引入视觉编码器，使模型支持视觉信号输入。该模型支持的图像输入分辨率为448，而此前开源的LVLM模型通常仅支持224分辨率。官方表示，Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL的表现远超同等规模的通用模型。在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，以便开发者快速搭建具备多模态能力的对话应用。通义千问团队还表示，为了测试模型的多模态对话能力，他们构建了一套基于GPT-4打分机制的测试集“试金石”。在对Qwen-VL-Chat及其他模型进行对比测试后，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好的结果。

关键词：

责任编辑：sdnew003

返回首页返回商务首页

视觉语言模型来了：支持中英文等多种语言

相关新闻

热文排行

财经

综合

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题

视觉语言模型来了：支持中英文等多种语言

相关新闻

热文排行 财经 综合 黄金360

关注 热门主题

综合热门 热门主题

科技热门 热门主题

热文排行

财经

综合

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题