久操久热,迫在眉睫电影在线观看完整版,电影大尺度未删减合辑,五月综合网站,av丝袜在线,一区二区三区视频在线,国产剧情网站

您的位置:首頁(yè)>新金融 >

焦點(diǎn)資訊:阿里兩款千問語(yǔ)音新模型齊發(fā):動(dòng)物也能“原聲”說(shuō)人話了!

來(lái)源:快科技  

快科技12月24日消息,阿里今日升級(jí)語(yǔ)音模型家族Qwen3-TTS,發(fā)布音色創(chuàng)造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC兩款全新模型。

在生成效果上,全新模型的表現(xiàn)顯著超越GPT-4o。

Qwen3-TTS新模型可實(shí)現(xiàn)DIY聲音設(shè)計(jì)和像素級(jí)音色模仿,甚至讓動(dòng)物"原生"開口說(shuō)人話。


(資料圖)

其音色自然、效果穩(wěn)定、生成高效,可大大加速語(yǔ)音大模型在有聲小說(shuō)、AI漫劇、影視配音等多專業(yè)領(lǐng)域落地。

其中,音色創(chuàng)造模型支持通過自然語(yǔ)言描述生成定制化的音色形象,具有極強(qiáng)的可控生成能力。

在指令遵循評(píng)測(cè)InstructTTS-Eval中,Qwen3-TTS綜合表現(xiàn)顯著優(yōu)于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同類模型。

在強(qiáng)調(diào)表達(dá)一致性與沉浸感的角色扮演測(cè)試中,模型整體效果超過Gemini-2.5-pro-preview-tts。

音色克隆模型則專注于"音色模仿",僅需3秒的語(yǔ)音樣本,即可精準(zhǔn)復(fù)刻原始聲線。

在MiniMax TTS Multilingual Test Set測(cè)試集中,Qwen3-TTS-VC顯示出其在多語(yǔ)言語(yǔ)音準(zhǔn)確性與穩(wěn)定性方面的優(yōu)勢(shì)。

它的平均詞錯(cuò)誤率(WER)指標(biāo)上表現(xiàn)突出,整體結(jié)果全面優(yōu)于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。

此外,Qwen3-TTS-VC 還可自動(dòng)生成英文、德語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、日語(yǔ)、韓語(yǔ)、法語(yǔ)、俄語(yǔ)等9種語(yǔ)音。

值得注意的是,它連動(dòng)物音色也能復(fù)刻,只需錄入家中寵物的原始聲音,就能用模型讓它"開口說(shuō)人話"。

目前,兩款模型均在阿里云百煉平臺(tái)上架Flash版本API,響應(yīng)速度極快,可完全滿足工業(yè)級(jí)語(yǔ)音合成需求。

千問語(yǔ)音生成模型系列Qwen3-TTS仍在不斷升級(jí),目前可支持50種音色,10大主流語(yǔ)言和閩南語(yǔ)、吳語(yǔ)、粵語(yǔ)、四川話、北京話、南京話、天津話、陜西話等8大方言,可真實(shí)還原地方口音特色與語(yǔ)言神韻。

關(guān)鍵詞: 音色 原聲 動(dòng)物 tts 四川話 南京話

最新文章