微軟語音發(fā)布升級版HiFiNet聲碼器：韻律更自然、高保真效果更完美

2021-06-25 14:58:15來源：IT之家

6 月 24 日消息微軟日前發(fā)布新一代深度神經(jīng)網(wǎng)絡(luò) HiFiNet 聲碼器，與微軟上一代語音技術(shù)相比，由 HiFiNet 聲碼器合成的神經(jīng)網(wǎng)絡(luò)版聲音質(zhì)量再創(chuàng)新高，主要體現(xiàn)在發(fā)音更準確、韻律更自然、高保真效果更完美，更受客戶青睞。自推出以來，被廣泛應(yīng)用到有聲讀物、在線教育、車載語音助手等領(lǐng)域。

IT之家獲悉，HiFiNet 是微軟神經(jīng)網(wǎng)絡(luò)版語音合成技術(shù)中最新的聲音編碼器，是決定音頻質(zhì)量的關(guān)鍵因素。根據(jù)專業(yè)評估語音自然度的 MOS 測試結(jié)果顯示，由 HiFiNet 聲碼器合成的語音音質(zhì)可與用于訓練的真人錄音樣本相媲美，并同時改善毛刺、噪音等音頻質(zhì)量問題，輸出的音質(zhì)具備更高保真度，更大程度還原真人錄音。

語音質(zhì)量的優(yōu)劣會直接影響收聽者的感受，為提升用戶收聽的舒適度，在 Azure 語音合成系統(tǒng)中，神經(jīng)網(wǎng)絡(luò)聲學模型基于深度學習網(wǎng)絡(luò)，使用真人錄音作為原始數(shù)據(jù)進行迭代訓練。首先，提取真人錄音的聲學特征。然后，利用真人錄音的聲學特征自動生成兩組音頻：一組真實聲波(原始錄音)和一組偽波(合成聲波)。最后，由鑒別器區(qū)分真實聲波和偽波。隨著訓練次數(shù)的增多，聲波生成器也會愈發(fā)“聰明”，直至生成鑒別器也無法區(qū)分的偽波，這意味著機器合成的聲音已經(jīng)和原始錄音相差無幾，從而給用戶帶來更貼近自然的體驗。

由微軟 HiFiNet 聲碼器合成的音頻質(zhì)量更接近真人原始錄音。

采樣率越高，聲音還原越真實。Azure 神經(jīng)網(wǎng)絡(luò)版語音合成聲學模型默認每秒鐘采樣 24,000 次 (24 千赫茲)，為還原特殊場景中更為復(fù)雜、細微的聲音內(nèi)容，HiFiNet 聲碼器每秒鐘采樣 48,000 次(48 千赫茲)，滿足用戶對語音質(zhì)量的嚴格要求，讓用戶盡享高清語音體驗。

除語音質(zhì)量外，HiFiNet 合成速度較之其他模型也有顯著的提升，進一步提升了語音合成的實時率。據(jù) RTF(Real Time Factor，實時率，用來測量語音合成速度的工具)測試結(jié)果顯示，HiFiNet 在 GPU 設(shè)備上運行的速度是第一代高性能聲碼器的 3 倍，在 CPU 設(shè)備上運行的速度是第一代高性能聲碼器的 2 倍。

目前，內(nèi)置 HiFiNet 聲碼器的 Azure 認知服務(wù)神經(jīng)網(wǎng)絡(luò)版語音合成服務(wù)已支持超過 70 多個國家和地區(qū)的語言，提供超過 170 個自然逼真的音色供開發(fā)者選擇。

關(guān)鍵詞：微軟語音

每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

微軟語音發(fā)布升級版HiFiNet聲碼器：韻律更自然、高保真效果更完美

推薦內(nèi)容