8 月 18 日消息智能語音技術的飛速發展,讓 AI 合成語音的聽感更加自然、逼真,讓越來越多企業實現了與客戶的多模態互動。基于微軟 Azure 云平臺創建聲音定制服務定制的專屬個性化聲音,已被廣泛應用在諸如語音助手、聊天機器人、在線學習、有聲讀物或新聞播報等多種使用場景。
傳統上,完成一個定制聲音時間周期長、復雜度高。需要發音人錄制成千上萬句語料作為訓練數據,再由擁有深度神經網絡和語音合成專業背景的專家針對客戶的語音數據進行聲學模型和語音合成器的訓練及調優,整個過程往往需要數月的時間。微軟推出基于深度神經網絡的聲音定制服務,所需訓練數據更少,只要 300 至 2000 句語料數據(約 30-120 分鐘);訓練調優的難度和復雜度更加簡化,即使沒有深度神經網絡和語音合成專業背景的用戶也可實現自助訓練,得到媲美人類發音的效果。用戶需注冊 Azure 云平臺 Speech Studio,申請獲得深度神經網絡聲音定制權限后,即可一鍵完成個性化聲音模型的訓練,并快速部署 API,適用于各種場景的應用開發。
除平臺自助服務,微軟專家還可為有需求的客戶提供包括聲音畫像設計、發音人選擇、錄音指導、模型評估和調優等全流程的語音定制支持和輔導,幫助英國 BBC 廣播公司、Swisscom 瑞士電信、美國 AT&T 旗下的華納兔八哥體驗店、美國 Progressive 前進保險公司、Duolingo 多鄰國和國內的小米、華人運通等不同行業的客戶成功打造了自己的專屬定制聲音。
IT之家獲悉,美國 AT&T 體驗店兔八哥語音助手,采用了微軟的聲音定制服務,并以兔八哥配音演員的授權聲音創建了這一虛擬動畫人物的語音模型,以奇趣的風格與顧客對話,回答常見的問題,增強了顧客粘性。
微軟 AI 語音技術在 AT & T 體驗店的兔八哥上的應用:
Flo 是美國 Progressive 前進保險公司打造的虛擬銷售助理,性格樂觀開朗、俏皮可愛。幾年前,美國前進保險公司就邀請專業配音演員使用微軟的聲音定制服務為 Flo 配音,讓 Flo 可以自然地交流互動,深得客戶喜愛,打破了大眾對智能語音客服機械感的固有認識。
語言學習公司多鄰國通過使用微軟的聲音定制服務,為 9 個各具特色的卡通角色分別定制了個性化聲音,讓語言學習更加趣味十足。同時,這一服務支持多語言能力,可以讓每一個卡通角色同時會英語、西班牙語、法語、德語、日語等多國語言。
作為一家平臺型公司,微軟表示,在降低技術門檻,促進技術普惠的同時,也在堅持負責任地使用人工智能,并以公平、可靠與安全、隱私與保障、包容、透明、負責六個基本道德準則指導人工智能的發展和應用。