DoNews9月23日消息,阿里云今日發(fā)布并開(kāi)源了全新的 Qwen3-Omni、Qwen3-TTS,以及對(duì)標(biāo)谷歌 Nano Banana 圖像編輯工具的 Qwen-Image-Edit-2509。
Qwen3-Omni 是業(yè)界首個(gè)原生端到端全模態(tài) AI 模型,能夠處理文本、圖像、音頻和視頻多種類(lèi)型的輸入,并可通過(guò)文本與自然語(yǔ)音實(shí)時(shí)流式輸出結(jié)果,解決了長(zhǎng)期以來(lái)多模態(tài)模型需要在不同能力之間進(jìn)行權(quán)衡取舍的難題。
Qwen3-Omni 是原生端到端的多語(yǔ)言全模態(tài)基礎(chǔ)模型,其核心特性主要包括:
跨模態(tài)最先進(jìn)表現(xiàn):通過(guò)早期以文本為核心的預(yù)訓(xùn)練和混合多模態(tài)訓(xùn)練,模型具備原生多模態(tài)能力。在實(shí)現(xiàn)強(qiáng)大音頻與音視頻性能的同時(shí),單模態(tài)的文本與圖像效果保持不降。
在 36 項(xiàng)音頻 / 視頻基準(zhǔn)測(cè)試中,22 項(xiàng)達(dá)到了最新水平,其中 32 項(xiàng)在開(kāi)源范圍內(nèi)處于領(lǐng)先;在自動(dòng)語(yǔ)音識(shí)別(ASR)、音頻理解與語(yǔ)音對(duì)話方面表現(xiàn)可與 Gemini 2.5 Pro 相當(dāng)。
多語(yǔ)言:支持 119 種文本語(yǔ)言、19 種語(yǔ)音輸入語(yǔ)言以及 10 種語(yǔ)音輸出語(yǔ)言。
語(yǔ)音輸入語(yǔ)言:英語(yǔ)、中文、韓語(yǔ)、日語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、馬來(lái)語(yǔ)、荷蘭語(yǔ)、印尼語(yǔ)、土耳其語(yǔ)、越南語(yǔ)、粵語(yǔ)、阿拉伯語(yǔ)、烏爾都語(yǔ)。
語(yǔ)音輸出語(yǔ)言:英語(yǔ)、中文、法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ)。
創(chuàng)新架構(gòu):基于 MoE(專家混合)的“思考者–表達(dá)者”設(shè)計(jì),并結(jié)合 AuT 預(yù)訓(xùn)練以獲得強(qiáng)大的通用表征能力,同時(shí)采用多碼本設(shè)計(jì)以將延遲降至最低。
實(shí)時(shí)音頻 / 視頻交互:低延遲流式交互,支持自然的輪流對(duì)話和即時(shí)的文本或語(yǔ)音響應(yīng)。
靈活控制:可通過(guò)系統(tǒng)提示詞自定義行為,實(shí)現(xiàn)細(xì)粒度控制與輕松適配。
精細(xì)音頻描述: Qwen3-Omni-30B-A3B-Captioner 已開(kāi)源,這是一個(gè)通用型、細(xì)節(jié)豐富、低幻覺(jué)率的音頻描述模型,填補(bǔ)了開(kāi)源社區(qū)在該領(lǐng)域的空白。
TTS 即文本轉(zhuǎn)語(yǔ)音,阿里云此次發(fā)布的 TTS 支持 17 種音色選擇,每一種音色均支持 10 種語(yǔ)言。其中不僅包含多國(guó)語(yǔ)言,有:普通話、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)、韓語(yǔ);還支持了更多中國(guó)方言:閩南語(yǔ)、吳語(yǔ)、粵語(yǔ)、四川話、北京話、南京話、天津話和陜西話。
此外,Qwen3-TTS-Flash 在多項(xiàng)評(píng)估基準(zhǔn)上均取得了 SoTA 的表現(xiàn),超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特別是在語(yǔ)音穩(wěn)定性和音色相似度。
Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升級(jí)版本,和字節(jié)前幾天發(fā)布的即夢(mèng) 4.0 圖像模型一樣主要是一致性上巨大提升。
與 8 月份發(fā)布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改進(jìn)包括:
多圖像編輯支持:對(duì)于多圖像輸入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架構(gòu),并通過(guò)圖像拼接進(jìn)一步訓(xùn)練,以實(shí)現(xiàn)多圖像編輯。它支持各種組合,如“人 + 人”、“人 + 產(chǎn)品”和“人 + 場(chǎng)景”。目前在 1 到 3 張輸入圖像時(shí)表現(xiàn)最佳。
增強(qiáng)的單圖像一致性:對(duì)于單圖像輸入,Qwen-Image-Edit-2509 顯著提高了編輯的一致性,特別是在以下方面:
改進(jìn)的人像編輯一致性:更好地保留面部身份,支持各種肖像風(fēng)格和姿勢(shì)變換;
改進(jìn)的產(chǎn)品編輯一致性:更好地保留產(chǎn)品身份,支持產(chǎn)品海報(bào)編輯;
改進(jìn)的文字編輯一致性:除了修改文字內(nèi)容外,還支持編輯文字字體、顏色和材質(zhì);
原生支持 ControlNet:包括深度圖、邊緣圖、關(guān)鍵點(diǎn)圖等。
另外,Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也已經(jīng)開(kāi)源。