機器之心專欄
機器之心編輯部
復(fù)旦大學(xué)自然語言處理實驗室發(fā)布模型魯棒性評測平臺 TextFlint。該平臺涵蓋 12 項 NLP 任務(wù),囊括 80 余種數(shù)據(jù)變形方法,花費超 2 萬 GPU 小時,進行了 6.7 萬余次實驗,驗證約 100 種模型,選取約 10 萬條變形后數(shù)據(jù)進行了語言合理性和語法正確性人工評測,為模型魯棒性評測及提升提供了一站式解決方案。
項目地址:https://github.com/textflint
官方網(wǎng)站:http://textflint.io
論文鏈接:https://arxiv.org/pdf/2103.11441.pdf
引言
近年來,隨著自然語言處理技術(shù)的不斷突破,深度學(xué)習(xí)模型在各項 NLP 任務(wù)中的表現(xiàn)正在穩(wěn)步攀升。2018 年 1 月,在斯坦福大學(xué)發(fā)起的 SQuAD 閱讀理解評測任務(wù)中,來自微軟亞洲研究院的自然語言計算組所提出的算法率先趕超了人類。短短三年后,微軟的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多種自然語言處理任務(wù)的綜合評測集合 SuperGLUE 上再次超越了人類。近日 IBM 號稱 “首個能在復(fù)雜話題上與人類辯論的 AI 系統(tǒng)” 的 Project Debater 登上了 Nature 雜志的封面,該系統(tǒng)在 78 類辯題中獲得了接近人類專業(yè)辯手的平均評分。我們不禁要問,人類真的被打敗了嗎?
事實上,縱使這些 NLP 模型在實驗數(shù)據(jù)集上的表現(xiàn)十分驚人,在實際應(yīng)用中我們卻很難感知到自然語言處理系統(tǒng) “超越人類” 的語言理解水平。難倒這些看似 “聰明” 的模型,只需要一個簡單的“逗號”,即便是基于赫赫有名的預(yù)訓(xùn)練語言模型 BERT 的算法也不例外。
例如,“漢堡很好吃薯條一般”對漢堡的評價是正面的,但當(dāng)我們插入 “,” 時,一些模型就會將 “漢堡很好吃,薯條一般” 判別為對漢堡的負面評價。一個微小且無關(guān)緊要的改動就能使自然語言處理系統(tǒng)失效,諸如此類的例子屢見不鮮。
魯棒性何為
為何大殺四方的優(yōu)秀模型在紛繁復(fù)雜的現(xiàn)實場景中紛紛折戟沉沙?其中一個很重要的原因是此前缺乏對模型魯棒性的重視和深入探討,導(dǎo)致模型只能在特定語料中圈地為王,在模型的效果評測中也僅僅關(guān)心在特定測試語料上的性能。如何幫助模型走出這樣的困局,給自然語言處理領(lǐng)域帶來質(zhì)的飛躍,是實現(xiàn)下一步技術(shù)發(fā)展的緊要任務(wù)。
魯棒性是機器學(xué)習(xí)模型的一項重要評價指標(biāo),主要用于檢驗?zāi)P驮诿鎸斎霐?shù)據(jù)的微小變動時,是否依然能保持判斷的準(zhǔn)確性,也即模型面對一定變化時的表現(xiàn)是否穩(wěn)定。魯棒性的高低直接決定了機器學(xué)習(xí)模型的泛化能力。在研究領(lǐng)域中,許多模型只能在某一特定的數(shù)據(jù)集上呈現(xiàn)準(zhǔn)確的結(jié)果,卻不能在其他數(shù)據(jù)集上復(fù)刻同樣優(yōu)異的表現(xiàn),這就是由于模型對新數(shù)據(jù)中的不同過于敏感,缺乏魯棒性。
在現(xiàn)實世界的應(yīng)用場景中,模型要面對的是更加紛繁復(fù)雜的語言應(yīng)用方式,待處理的數(shù)據(jù)里包含著更加龐雜的變化。一旦缺乏魯棒性,模型在現(xiàn)實應(yīng)用中的性能就會大打折扣。在測試數(shù)據(jù)集上獲得高分是遠遠不夠的,機器學(xué)習(xí)模型的設(shè)計目標(biāo)是讓模型在面對新的外部數(shù)據(jù)時依然維持精準(zhǔn)的判斷。因此,為了確保模型的實際應(yīng)用價值,對模型進行魯棒性評測是不可或缺的。
方法 & 實驗
目前已有一些正在關(guān)注模型魯棒性的工作,但大多只針對單個的 NLP 任務(wù),或是只使用了少量的數(shù)據(jù)變形方法,缺乏系統(tǒng)性的工具集合。針對這一問題,復(fù)旦大學(xué)自然語言處理實驗室展開了大規(guī)模的魯棒性測評工作,在桂韜博士、王梟博士、張奇教授、黃萱菁教授的主導(dǎo)下,20 余位博士生和碩士生共同參與,歷時 9 個月,開發(fā)了面向自然語言處理的多語言魯棒性測評一站式平臺TextFlint
關(guān)鍵詞: 模型 好不好 復(fù)旦大學(xué) 一鍵