這不僅是因?yàn)榉g機(jī)產(chǎn)品種類(lèi)的火爆,在京東搜索翻譯機(jī),能夠出現(xiàn)超過(guò)7300件商品。在這背后,則是越來(lái)越多的玩家爭(zhēng)相步入該市場(chǎng):科大訊飛自2016年底便推出曉譯翻譯機(jī),經(jīng)過(guò)2017年底的升級(jí)后,于今年4月推出訊飛2.0翻譯機(jī);今年1月,搜狗公司的旅行翻譯寶正式亮相,3月在京東正式啟動(dòng)預(yù)售;5月,小米生態(tài)鏈公司香蕉出行推出魔芋AI翻譯機(jī),并在微軟Build開(kāi)發(fā)者大會(huì)上得以展示;7月19日,獵豹移動(dòng)發(fā)布AI翻譯產(chǎn)品——小豹AI翻譯棒,為翻譯機(jī)市場(chǎng)再添戰(zhàn)火。
除此之外,據(jù)記者不完全統(tǒng)計(jì),目前市面上還有準(zhǔn)兒翻譯機(jī)、網(wǎng)易有道翻譯蛋、百度途鴿翻譯機(jī)等。甚至,有智能手機(jī)廠(chǎng)商還專(zhuān)門(mén)推出主打翻譯功能的手機(jī)。
“智能語(yǔ)音目前最實(shí)在落地的場(chǎng)景便是翻譯,如果產(chǎn)品確實(shí)能夠做好的話(huà),市場(chǎng)空間很大。”人工智能研究中心副總經(jīng)理向陽(yáng)向記者表示,“不過(guò)現(xiàn)在許多產(chǎn)品性能并不足夠穩(wěn)定,效果也不太突出,仍有待進(jìn)一步改進(jìn)。”
技術(shù)趨成熟
翻譯機(jī)的工作流程總體可以解讀為三個(gè)步驟。
首先是翻譯機(jī)內(nèi)置麥克風(fēng)辨識(shí)使用者說(shuō)話(huà)的語(yǔ)言及內(nèi)容,并將語(yǔ)音轉(zhuǎn)換為文字,然后通過(guò)機(jī)器翻譯引擎進(jìn)行文字對(duì)文字的翻譯,將原始語(yǔ)言轉(zhuǎn)化為目標(biāo)語(yǔ)言。最后,將翻譯的內(nèi)容進(jìn)行語(yǔ)音合成并播放出來(lái)。
因此,翻譯機(jī)的工作離不開(kāi)三項(xiàng)技術(shù)核心:自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition)、機(jī)器翻譯(Machine Translation)和語(yǔ)音合成(Speech Synthesis,或稱(chēng)Text-to-Speech,TTS)。
其中,語(yǔ)音識(shí)別就好比“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”,該技術(shù)讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。自2009年以來(lái),將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率,同時(shí)借助大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)取得突飛猛進(jìn)的進(jìn)步。
在此方面,微軟公司研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%。近幾年來(lái),各大科技巨頭自動(dòng)語(yǔ)音識(shí)別能力幾乎均提升至95%以上。根據(jù)Gartner預(yù)測(cè),到2020年,人類(lèi)30%的瀏覽活動(dòng)將由語(yǔ)音識(shí)別系統(tǒng)幫助完成。
語(yǔ)音合成又名文語(yǔ)轉(zhuǎn)換,是將文本轉(zhuǎn)換為語(yǔ)音的技術(shù)。如果說(shuō)語(yǔ)音識(shí)別技術(shù)是讓計(jì)算機(jī)學(xué)會(huì)“聽(tīng)”人的話(huà),將輸入的語(yǔ)音信號(hào)轉(zhuǎn)換成文字,那么語(yǔ)音合成技術(shù)就是讓計(jì)算機(jī)程序把我們輸入的文字“說(shuō)”出來(lái),將任意輸入的文本轉(zhuǎn)換成語(yǔ)音輸出。從語(yǔ)音合成發(fā)展歷史來(lái)看,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度是合成技術(shù)的技術(shù)難點(diǎn)所在。不過(guò)隨著技術(shù)演進(jìn),當(dāng)前語(yǔ)音合成技術(shù)在音質(zhì)、復(fù)雜度和自然度方面已有了極大改善。
機(jī)器翻譯同樣在近幾年內(nèi)經(jīng)歷了劇變。在2013年之前,基于統(tǒng)計(jì)模型的機(jī)器翻譯一直都是主流,此后基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT, Neural Mahcine Translation) 逐漸興起。
記者了解到,人工神經(jīng)網(wǎng)絡(luò)翻譯擁有一個(gè)有海量節(jié)點(diǎn)的深度神經(jīng)網(wǎng)絡(luò),通過(guò)傳導(dǎo)運(yùn)算,實(shí)現(xiàn)生成另一種語(yǔ)言的譯文。2016年底,谷歌翻譯開(kāi)發(fā)并使用了Google神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT, Google NMT)。與之前的統(tǒng)計(jì)模型相比,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯具有譯文流暢、準(zhǔn)確易理解、翻譯速度快等優(yōu)點(diǎn)。
在種種技術(shù)成熟的加持下,如今的翻譯機(jī)也具備了相當(dāng)?shù)膶?shí)力。訊飛翻譯負(fù)責(zé)人翟吉博向記者透露,通過(guò)語(yǔ)音識(shí)別、語(yǔ)義理解等AI技術(shù),訊飛翻譯機(jī)2.0語(yǔ)音識(shí)別準(zhǔn)確率能夠達(dá)到98%,目前已能夠?qū)崿F(xiàn)對(duì)34種語(yǔ)言的即時(shí)互譯;訊飛語(yǔ)音引擎也已支持22種中國(guó)方言識(shí)別,該能力將逐步整合進(jìn)訊飛翻譯機(jī),目前2.0產(chǎn)品支持粵語(yǔ)、河南話(huà)、四川話(huà)、東北話(huà)四種方言。
搜狗相關(guān)人士則向記者介紹,搜狗翻譯硬件采用了搜狗相關(guān)AI技術(shù)。在語(yǔ)音識(shí)別方面,搜狗可做到準(zhǔn)確率超過(guò)98%。
市場(chǎng)需求大
相關(guān)智能語(yǔ)音技術(shù)已基本成熟,而之所以催生出翻譯機(jī)這一硬件形態(tài),則源于天然巨大的市場(chǎng)需求。
據(jù)《2017年中國(guó)出境旅游大數(shù)據(jù)報(bào)告》顯示,2017年中國(guó)公民出境旅游突破1.3億人次,花費(fèi)達(dá)1152.9億美元,中國(guó)已成為泰國(guó)、日本、韓國(guó)、越南、俄羅斯等多個(gè)國(guó)家的第一大入境旅游客源地。但一直以來(lái),語(yǔ)言不通是出境游人群最大的痛點(diǎn)。
“翻譯本身是一個(gè)重大的市場(chǎng)需求。”搜狗副總裁吳滔表示,“中國(guó)每年出境人次很高,旅行、留學(xué)、商務(wù)等各類(lèi)跨國(guó)交流需求都很旺盛,中國(guó)每年的出境人數(shù)在全球范圍內(nèi)處在非常高的位置,人們對(duì)翻譯機(jī)的需求一直都在,跨越語(yǔ)言的交流都需要翻譯來(lái)幫忙,但是之前是受限于技術(shù)無(wú)法實(shí)現(xiàn)很好的翻譯效果。隨著技術(shù)的進(jìn)步,有了更好的翻譯模型,能把翻譯做得更好、更準(zhǔn)。所以放眼未來(lái),翻譯產(chǎn)品的受眾不會(huì)是窄眾。”
然而,在手機(jī)翻譯軟件盛行的情況下,為何一定要以硬件形態(tài)出現(xiàn)?翟吉博表示,軟硬件一體化產(chǎn)品能夠更好解決真實(shí)場(chǎng)景的用戶(hù)需求。“我們的用戶(hù)大多是用過(guò)翻譯APP,但在使用過(guò)程中感受并不佳。”他向記者解釋道,例如,在國(guó)外嘈雜的環(huán)境下,手機(jī)對(duì)音源的識(shí)別率并不高;若通過(guò)文本輸入再翻譯,則非常耗時(shí)且便捷性不夠。
此外,在翟吉博看來(lái),手機(jī)作為私人物品,并不符合人與人當(dāng)面交流的溝通工具的屬性,在國(guó)外復(fù)雜網(wǎng)絡(luò)環(huán)境下,手機(jī)APP也未必能達(dá)到好的體驗(yàn)。因此,他認(rèn)為,在真實(shí)環(huán)境下,軟硬件一體化產(chǎn)品是更優(yōu)解決方案。
從產(chǎn)品的熱銷(xiāo)情況可一窺其火爆程度。據(jù)翟吉博介紹,目前訊飛翻譯機(jī)2.0在京東平臺(tái)擁有99%的好評(píng)率,銷(xiāo)售額破億。搜狗方面人士則告訴記者,搜狗旅行翻譯寶在開(kāi)售一小時(shí)后各地陸續(xù)售罄,當(dāng)天銷(xiāo)售額破1000萬(wàn)。
不過(guò),圍繞當(dāng)下愈演愈烈的翻譯機(jī)戰(zhàn)場(chǎng),各家也在基本的翻譯功能之上,加入更優(yōu)化的體驗(yàn)。翟吉博強(qiáng)調(diào),定義AI+翻譯的四大標(biāo)準(zhǔn)包括清、懂、準(zhǔn)和美。訊飛翻譯機(jī)2.0不僅做到了語(yǔ)音和物件、語(yǔ)音和圖像翻譯,更在離線(xiàn)翻譯、方言翻譯等A.I。翻譯最具有難度的環(huán)節(jié)上持續(xù)發(fā)力。
與此同時(shí),針對(duì)真實(shí)使用環(huán)境,訊飛翻譯機(jī)擁有諸多考慮。例如,嘈雜環(huán)境下,翻譯機(jī)在硬件和算法上進(jìn)行了特殊處理,在網(wǎng)絡(luò)情況不穩(wěn)定時(shí)翻譯機(jī)可變?cè)贫朔g為NMT離線(xiàn)翻譯功能。在對(duì)背景噪音處理上,翻譯機(jī)通過(guò)四麥?zhǔn)耙艚翟耄瑤椭玫刈R(shí)別人聲。
搜狗方面則表示,搜狗翻譯寶目前支持中英日韓 4 種語(yǔ)言的離線(xiàn)互譯,并推出拍照翻譯功能,幫助翻譯路牌、菜單等。
不過(guò)目前,翻譯機(jī)仍處于新興市場(chǎng),且價(jià)格普遍徘徊在幾百元至數(shù)千元不等,而大多數(shù)游客每年出國(guó)旅游不過(guò)兩三次,線(xiàn)下使用頻率不高。“目前翻譯機(jī)垂直市場(chǎng)中,用戶(hù)對(duì)企業(yè)的認(rèn)知還需要一段時(shí)間。”吳滔表示,“不過(guò)未來(lái)隨著用戶(hù)認(rèn)知的提升,翻譯硬件市場(chǎng)逐步打開(kāi),我相信這個(gè)市場(chǎng)將會(huì)非常巨大。”
關(guān)鍵詞: