通义千问发布新一代端到端旗舰模型Qwen2.5

更新时间：2025-03-30 19:49:50 发布时间：3天前浏览：7710 评论：0

内容摘要阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。据介绍，Qwen2.5-Omni采用T

阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。

该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

据介绍，Qwen2.5-Omni采用Thinker-Talker双核架构。

其中，Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容。

而Talker模块则类似发声器官，以流式方式接收Thinker实时输出的语义表征与文本，流畅合成离散语音单元。

测试中，Qwen2.5-Omni在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 通义千问发布新一代端到端旗舰模型Qwen2.5

本文链接: http://group.ztc188.com/news/show-356774.html (转载时请保留)

去ta空间

24小时热闻

今日推荐