国产精品,九九国产精品,欧洲国产一区二区三区视频在线

DoNews > 商業(yè) > 阿里首個(gè)端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開(kāi)源

阿里首個(gè)端到端全模態(tài) AI 模型 Qwen3-Omni 發(fā)布并開(kāi)源

楊亮 2025-09-23 10:27:37

323928

分享到

DoNews9月23日消息，阿里云今日發(fā)布并開(kāi)源了全新的 Qwen3-Omni、Qwen3-TTS，以及對(duì)標(biāo)谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是業(yè)界首個(gè)原生端到端全模態(tài) AI 模型，能夠處理文本、圖像、音頻和視頻多種類(lèi)型的輸入，并可通過(guò)文本與自然語(yǔ)音實(shí)時(shí)流式輸出結(jié)果，解決了長(zhǎng)期以來(lái)多模態(tài)模型需要在不同能力之間進(jìn)行權(quán)衡取舍的難題。

Qwen3-Omni 是原生端到端的多語(yǔ)言全模態(tài)基礎(chǔ)模型，其核心特性主要包括：

跨模態(tài)最先進(jìn)表現(xiàn)：通過(guò)早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練，模型具備原生多模態(tài)能力。在實(shí)現(xiàn)強(qiáng)大音頻與音視頻性能的同時(shí)，單模態(tài)的文本與圖像效果保持不降。

在 36 項(xiàng)音頻 / 視頻基準(zhǔn)測(cè)試中，22 項(xiàng)達(dá)到了最新水平，其中 32 項(xiàng)在開(kāi)源范圍內(nèi)處于領(lǐng)先；在自動(dòng)語(yǔ)音識(shí)別（ASR）、音頻理解與語(yǔ)音對(duì)話方面表現(xiàn)可與 Gemini 2.5 Pro 相當(dāng)。

多語(yǔ)言：支持 119 種文本語(yǔ)言、19 種語(yǔ)音輸入語(yǔ)言以及 10 種語(yǔ)音輸出語(yǔ)言。

語(yǔ)音輸入語(yǔ)言：英語(yǔ)、中文、韓語(yǔ)、日語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、馬來(lái)語(yǔ)、荷蘭語(yǔ)、印尼語(yǔ)、土耳其語(yǔ)、越南語(yǔ)、粵語(yǔ)、阿拉伯語(yǔ)、烏爾都語(yǔ)。

語(yǔ)音輸出語(yǔ)言：英語(yǔ)、中文、法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)。

創(chuàng)新架構(gòu)：基于 MoE（專家混合）的“思考者–表達(dá)者”設(shè)計(jì)，并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強(qiáng)大的通用表征能力，同時(shí)采用多碼本設(shè)計(jì)以將延遲降至最低。

實(shí)時(shí)音頻 / 視頻交互：低延遲流式交互，支持自然的輪流對(duì)話和即時(shí)的文本或語(yǔ)音響應(yīng)。

靈活控制：可通過(guò)系統(tǒng)提示詞自定義行為，實(shí)現(xiàn)細(xì)粒度控制與輕松適配。

精細(xì)音頻描述： Qwen3-Omni-30B-A3B-Captioner 已開(kāi)源，這是一個(gè)通用型、細(xì)節(jié)豐富、低幻覺(jué)率的音頻描述模型，填補(bǔ)了開(kāi)源社區(qū)在該領(lǐng)域的空白。

TTS 即文本轉(zhuǎn)語(yǔ)音，阿里云此次發(fā)布的 TTS 支持 17 種音色選擇，每一種音色均支持 10 種語(yǔ)言。其中不僅包含多國(guó)語(yǔ)言，有：普通話、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)；還支持了更多中國(guó)方言：閩南語(yǔ)、吳語(yǔ)、粵語(yǔ)、四川話、北京話、南京話、天津話和陜西話。

此外，Qwen3-TTS-Flash 在多項(xiàng)評(píng)估基準(zhǔn)上均取得了 SoTA 的表現(xiàn)，超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，特別是在語(yǔ)音穩(wěn)定性和音色相似度。

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級(jí)版本，和字節(jié)前幾天發(fā)布的即夢(mèng) 4.0 圖像模型一樣主要是一致性上巨大提升。

與 8 月份發(fā)布的 Qwen-Image-Edit 相比，Qwen-Image-Edit-2509 的主要改進(jìn)包括：

多圖像編輯支持：對(duì)于多圖像輸入，Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構(gòu)，并通過(guò)圖像拼接進(jìn)一步訓(xùn)練，以實(shí)現(xiàn)多圖像編輯。它支持各種組合，如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場(chǎng)景”。目前在 1 到 3 張輸入圖像時(shí)表現(xiàn)最佳。

增強(qiáng)的單圖像一致性：對(duì)于單圖像輸入，Qwen-Image-Edit-2509 顯著提高了編輯的一致性，特別是在以下方面：

改進(jìn)的人像編輯一致性：更好地保留面部身份，支持各種肖像風(fēng)格和姿勢(shì)變換；

改進(jìn)的產(chǎn)品編輯一致性：更好地保留產(chǎn)品身份，支持產(chǎn)品海報(bào)編輯；

改進(jìn)的文字編輯一致性：除了修改文字內(nèi)容外，還支持編輯文字字體、顏色和材質(zhì)；

原生支持 ControlNet：包括深度圖、邊緣圖、關(guān)鍵點(diǎn)圖等。

另外，Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開(kāi)源。