您的位置：首頁>新金融 >

焦點資訊：阿里兩款千問語音新模型齊發(fā)：動物也能“原聲”說人話了！

來源：快科技 2025-12-24 18:21:45

快科技12月24日消息，阿里今日升級語音模型家族Qwen3-TTS，發(fā)布音色創(chuàng)造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC兩款全新模型。

在生成效果上，全新模型的表現(xiàn)顯著超越GPT-4o。

Qwen3-TTS新模型可實現(xiàn)DIY聲音設(shè)計和像素級音色模仿，甚至讓動物"原生"開口說人話。

(資料圖)

其音色自然、效果穩(wěn)定、生成高效，可大大加速語音大模型在有聲小說、AI漫劇、影視配音等多專業(yè)領(lǐng)域落地。

其中，音色創(chuàng)造模型支持通過自然語言描述生成定制化的音色形象，具有極強的可控生成能力。

在指令遵循評測InstructTTS-Eval中，Qwen3-TTS綜合表現(xiàn)顯著優(yōu)于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同類模型。

在強調(diào)表達一致性與沉浸感的角色扮演測試中，模型整體效果超過Gemini-2.5-pro-preview-tts。

音色克隆模型則專注于"音色模仿"，僅需3秒的語音樣本，即可精準復刻原始聲線。

在MiniMax TTS Multilingual Test Set測試集中，Qwen3-TTS-VC顯示出其在多語言語音準確性與穩(wěn)定性方面的優(yōu)勢。

它的平均詞錯誤率（WER）指標上表現(xiàn)突出，整體結(jié)果全面優(yōu)于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。

此外，Qwen3-TTS-VC 還可自動生成英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等9種語音。

值得注意的是，它連動物音色也能復刻，只需錄入家中寵物的原始聲音，就能用模型讓它"開口說人話"。

目前，兩款模型均在阿里云百煉平臺上架Flash版本API，響應(yīng)速度極快，可完全滿足工業(yè)級語音合成需求。

千問語音生成模型系列Qwen3-TTS仍在不斷升級，目前可支持50種音色，10大主流語言和閩南語、吳語、粵語、四川話、北京話、南京話、天津話、陜西話等8大方言，可真實還原地方口音特色與語言神韻。

久操久热,迫在眉睫电影在线观看完整版,电影大尺度未删减合辑,五月综合网站,av丝袜在线,一区二区三区视频在线,国产剧情网站