通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

2025-03-27 0 593

快科技3月27日消息,阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。

该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

据介绍,Qwen2.5-Omni采用Thinker-Talker双核架构。

其中,Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。

而Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通

【本文结束】如需转载请务必注明出处:快科技

责任编辑:随心

文章内容举报

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在。
点赞 (0)
常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 如果出现购买后没有跳转下载链接,请更换浏览器登陆本站会员中心在购买记录里面查找链接。如果链接失效出现无法下载的情况,请联系客户修复并补发资源。
查看详情

相关文章

发表评论
暂无评论