文 | 學(xué)術(shù)頭條
在游戲中,親手創(chuàng)造一個與眾不同的角色,樂趣不言而喻。但有時往往是“游戲五分鐘,捏臉兩小時”。
從主機、PC 到手機游戲,隨著硬件配置不斷迭代,游戲在畫面精細(xì)度和玩法操控度方面也越發(fā)強大,很多游戲開發(fā)商為了滿足玩家們的個性化需求,都提供了一整套為游戲角色 “捏臉” 的系統(tǒng),能讓玩家根據(jù)自己的審美細(xì)化設(shè)定角色外觀。
與此同時,游戲背后的計算機科學(xué)家們也一直在努力設(shè)計新的技術(shù),使游戲體驗更加沉浸化,以期達(dá)到引人入勝的效果,其中就包括自動創(chuàng)建接近真人的游戲角色的方法。
圖|一款游戲的捏臉過程
不過,目前大多數(shù)現(xiàn)有的創(chuàng)建和定制游戲角色的方法都要求玩家手動調(diào)整角色的面部特征,以便重新創(chuàng)建自己的面部或捏成其他人的面部,一個玩家通常需要幾個小時耐心去手動調(diào)整數(shù)百個參數(shù)(例如臉型、眼睛)來創(chuàng)建一個類似于指定肖像的角色,
最近,一些開發(fā)人員也嘗試開發(fā)一些新方法,通過分析真實人物的面部圖像,自動定制角色的面部,但這些方法實際效果通常不佳,要么過程復(fù)雜,要么對人臉形狀和紋理的自由度有限。
來自網(wǎng)易伏羲 AI 實驗室和密歇根大學(xué)的研究人員最近發(fā)明了一種深度學(xué)習(xí)的方法,名為 MeInGame,它可以通過分析一個人臉的單個肖像而自動生成游戲人物臉,這項技術(shù)在 arXiv 上預(yù)先發(fā)表的一篇論文中提出。
開發(fā)這項技術(shù)研究人員在論文中寫道:“我們提出了一種自動創(chuàng)建人物面部的方法,可以從一張肖像中預(yù)測生成面部的形狀和紋理,并可以集成到大多數(shù)現(xiàn)有的 3D 游戲中。”
不少捏臉高手為了在游戲中捏出一個指定人物的臉可謂煞費苦心,甚至總結(jié)了一套復(fù)雜的教程和參數(shù)包,而今后,可能只需要輸入一張人臉照片就能輕松搞定了。
讓仿真人臉進入游戲世界
現(xiàn)有游戲中的人臉定制系統(tǒng),很多是基于三維變形模型(3DMM)計算實現(xiàn)的,作為一種經(jīng)典的三維人臉形狀和反照率的統(tǒng)計模型,3DMM 在人臉分析、模型擬合、圖像合成等方面有著廣泛的應(yīng)用。
雖然基于 3DMM 的方法可以從單個圖像中恢復(fù)出精確的三維人臉,但其網(wǎng)格的拓?fù)浣Y(jié)構(gòu)與大多數(shù)游戲中使用的網(wǎng)格不同,為了獲得逼真的紋理,現(xiàn)有的方法需要大量的人臉紋理數(shù)據(jù)進行訓(xùn)練,而建立這樣的數(shù)據(jù)集往往既費時又費力。
此外,這些數(shù)據(jù)集并不總是包含隨機收集的真實圖像,因此,在這些數(shù)據(jù)集上訓(xùn)練的模型在呈現(xiàn)新數(shù)據(jù)時,很難表現(xiàn)出一致的良好性能,進一步而言,這種在實驗室條件下進行的方法在真實情況下可能無法很好地落地推廣,盡管人們已提出了許多基于深度學(xué)習(xí)的三維人臉重建方法,目前在游戲中的應(yīng)用仍然較少。
圖|第一行為輸入肖像;第二行是由 MeInGame 方法生成的游戲中的角色;MeInGame 方法對光照變化、陰影和遮擋具有很強的魯棒性,可以很好還原個性化的細(xì)節(jié),如膚色、妝容和皺紋等。(來源:arxiv)
MeInGame 的貢獻在于:
1、提出了一種低成本的三維人臉數(shù)據(jù)集生成方法。所創(chuàng)建的數(shù)據(jù)集在種族和性別上是平衡的,面部形狀和紋理都是從原始圖像中創(chuàng)建;
2、提出了一種將重建的三維人臉形狀轉(zhuǎn)化為游戲網(wǎng)格的方法,可以直接在游戲環(huán)境中使用,該方法不依賴于網(wǎng)格連通性,計算效率高;
3、為了消除光照和遮擋的影響,他們訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),在一個通用的訓(xùn)練范式下,從 “野生” 人臉圖像中預(yù)測一個完整的漫反射貼圖。
在未來,這個研究小組設(shè)計的角色臉生成方法可以集成到許多 3D 視頻游戲中,實現(xiàn)與真人非常相似的角色自動生成。MeInGame 模型的代碼和用于訓(xùn)練該模型的數(shù)據(jù)集已在線發(fā)布,游戲開發(fā)者可通過以下網(wǎng)址訪問:
https://github.com/FuxiCV/
該方法不僅能應(yīng)用于游戲,由于 COVID-19 的疫情影響,人們不得不保持社交距離,很多數(shù)會議活動都改為在線 / 虛擬會議,甚至在 3D 游戲中舉辦學(xué)術(shù)研討會,隨著越來越多的社交活動從面對面走向網(wǎng)絡(luò)化,用戶在虛擬環(huán)境中自動生成 3D 角色也會讓社交的形式變得非常有趣。
模型原理和測試效果
對于 MeInGame 模型的特點,研究人員在論文中闡釋說:“給定一張輸入的人臉照片,我們首先基于 3D 變形人臉模型(3DMM)和卷積神經(jīng)網(wǎng)絡(luò)(CNNs)重建 3D 人臉,然后將 3D 人臉的形狀轉(zhuǎn)移到模板網(wǎng)格上。該網(wǎng)絡(luò)以人臉照片和展開的粗 UV 紋理圖為輸入,預(yù)測光照系數(shù)和細(xì)化紋理圖。”
圖|MeInGame 方法概述。(來源:arxiv)
利用神經(jīng)網(wǎng)絡(luò)的強大功能,可以有效地去除輸入中不需要的光照分量和遮擋。由于典型游戲引擎的渲染過程是不可微的,他們還利用可微渲染方法將渲染輸出中的梯度反向傳播到訓(xùn)練過程中需要參數(shù)更新的各個模塊。
這樣,所有的網(wǎng)絡(luò)組件都能以端到端的方式順利訓(xùn)練。為了減少訓(xùn)練數(shù)據(jù)的依賴性,除了可微繪制外,他們還設(shè)計了一種新的基于半監(jiān)督學(xué)習(xí)的訓(xùn)練流水線,使用配對數(shù)據(jù)進行監(jiān)督學(xué)習(xí),使用未標(biāo)記數(shù)據(jù)進行自我監(jiān)督學(xué)習(xí)。因此,MeInGam 網(wǎng)絡(luò)能夠以半監(jiān)督的方式進行訓(xùn)練,減少對預(yù)定義紋理貼圖的依賴。
最后,通過將生成的人臉網(wǎng)格和紋理加載到游戲環(huán)境中,就可以為玩家創(chuàng)建逼真的游戲角色。
值得注意的是,研究人員將人臉形狀和紋理的重建作為一個自我監(jiān)督的人臉相似性度量問題。在可微繪制的基礎(chǔ)上,設(shè)計了一個繪制循環(huán),從與輸入人臉照片相似的預(yù)測形狀和紋理中強制進行二維人臉繪制。
MeInGame 方法由幾個可訓(xùn)練的子網(wǎng)絡(luò)組成。首先,圖像編碼器以人臉圖像為輸入,產(chǎn)生潛在特征;其次,將圖像特征展平并輸入光照回歸器,一個由幾個完全連接的層組成的輕型網(wǎng)絡(luò),并預(yù)測光照系數(shù)(光照方向、環(huán)境光、漫反射和鏡面反射顏色);然后,研究人員引入了一種紋理編碼器,將輸入圖像和粗紋理映射的特征串接在一起,然后輸入到紋理解碼器中,產(chǎn)生精細(xì)的紋理映射。
最后,使用游戲網(wǎng)格、精細(xì)紋理貼圖、姿勢和照明系數(shù),研究人員使用可微渲染器將面部網(wǎng)格渲染為 2D 圖像,并強制該圖像與輸入的面部照片相似。
為了進一步改進結(jié)果,他們還引入了兩個鑒別器,一個用于人臉圖像,另一個用于生成人臉紋理圖。此外,還創(chuàng)建了一個種族和性別平衡(RGB)數(shù)據(jù)集,并將其命名為 “RGB 3D 人臉數(shù)據(jù)集”,與其他需要多視點圖像的方法不同,他們的方法只使用單視點圖像即可,并且容易獲取。
研究人員基于英特爾 i7 CPU 和英偉達(dá) 1080Ti GPU 上運行實驗,使用 PyTorch3D(v0.2.0)及其依賴項。給定一幅人像和粗紋理圖,MeInGame 網(wǎng)絡(luò)只需要 0.4s 就可以生成一幅 1024×1024 精細(xì)紋理圖。
圖|MeInGame 創(chuàng)建游戲角色(來源:arxiv)
研究人員在實驗中還進行了定性和定量比較,呈現(xiàn)效果不錯。他們將 MeInGame 方法與其他一些最先進的游戲角色自動創(chuàng)建方法 / 系統(tǒng)進行了比較,包括《一夢江湖》、Loomie、《逆水寒》和 ZEPETO 中的角色定制系統(tǒng)。
最終,MeInGame 的結(jié)果在面部形狀和外觀方面都比其他結(jié)果更類似于輸入圖像,他們還將其與最先進的基于 3DMM 的方法進行了比較,盡管能從單個圖像重建 3D 人臉,但突出的問題是,3DMM 只模擬面部特征,不包括一個完整的頭部模型以及紋理,使其難以直接用于游戲環(huán)境。
此外,研究人員也邀請了 30 人進行評估。每個人分配了 480 組結(jié)果。每組結(jié)果包括一幅肖像、MeInGame 的結(jié)果和一個來自其他的結(jié)果,參與者被要求從兩個結(jié)果中選擇一個更好的,并將其與參考肖像進行比較,用戶報告的分?jǐn)?shù)也反映了 MeInGame 結(jié)果的質(zhì)量。
圖|一些實驗數(shù)據(jù)對比參考(來源:arxiv)
在總結(jié)中,研究人員提到了 MeInGame 方法仍然有的一些局限性。例如,當(dāng)存在嚴(yán)重遮擋(例如帽子)時,該方法無法產(chǎn)生可靠的結(jié)果,因為渲染器無法對頭部網(wǎng)格外的對象創(chuàng)建的陰影進行建模。其次,同一個人在嚴(yán)重光照變化下的兩幅肖像的結(jié)果也有差別,結(jié)果會受到不同顏色燈光的影響。
圖|MeInGame 方法的特殊情況(來源:arxiv)
AI 陰暗面不容忽視
話說回來,技術(shù)的落地應(yīng)用,往往并不是技術(shù)本身的問題,有時候會牽扯到一些社會問題,比如個人隱私或者肖像權(quán)。
本文提出了一種新的游戲角色人臉自動生成方法,該方法可以輕松產(chǎn)生與輸入照片在臉形和紋理方面相似的角色臉,考慮到建立同時具有形狀和紋理的三維人臉數(shù)據(jù)集的成本很高,研究人員還提出了一種低成本的方法來生成所需的數(shù)據(jù)訓(xùn)練,于技術(shù)而言,該方法的性能要大大優(yōu)于現(xiàn)有的方法,能為游戲互動增添不少樂趣。
但是在游戲中隨意創(chuàng)建一個其他真人的臉,越來越逼真,會不會牽扯到很多社會倫理問題?這是 AI 技術(shù)自誕生以來就面臨的陰暗面問題,此前,市面上有些 AI 換臉的技術(shù)就曾把一些明星、名人的臉無縫移植到一些不雅視頻乃至無厘頭作品中,造成的影響非常糟糕。
所以技術(shù)雖好,如何去合法合規(guī)地運用,可能也是 MeInGame 在落地時需要考慮到的問題。