清華虛擬學生只是換了個假臉?你別太小瞧人工智能
2021年10月24日 11:50 來源:中國新聞網(wǎng)

  中新網(wǎng)客戶端北京10月24日電(記者 宋宇晟)今年9月,“就讀”于清華大學的虛擬人華智冰公開了一條彈唱歌曲視頻,引發(fā)網(wǎng)友討論。

  這段38秒的視頻中,一個女孩兒在抱著吉他彈唱。這段無比真實的畫面上方字幕卻顯示,其中的女孩兒是個“虛擬人”。

短視頻截圖

  當時,許多網(wǎng)友驚訝于,虛擬人已經(jīng)能做到如此真實了。不過此后有網(wǎng)友發(fā)現(xiàn),這段彈唱視頻還存在一個“真人版”。有網(wǎng)友進而質(zhì)疑,虛擬人華智冰彈唱的視頻只是對B站某up主真人拍攝視頻進行了換臉。

  其中應用的技術只是“AI換臉”嗎?除此之外視頻中還有哪些前沿科技?這又和其他“虛擬偶像”的短視頻有何不同?記者進行了采訪調(diào)查。

  “華智冰”這三個字,作為虛擬人的名字出現(xiàn)在公眾視野,是從今年6月開始的。

  6月1日,由北京智源人工智能研究院、智譜AI與小冰公司共同“培養(yǎng)”的人工智能學生華智冰,進入清華“學習”。當時公開的相關資料及視頻就在社交媒體引起了網(wǎng)友熱議。

2021年6月公開的華智冰影像。智源大會供圖

  三個多月后,小冰團隊公開了一段帶有華智冰形象的彈唱視頻。

  根據(jù)小冰公司發(fā)布的聲明,在該視頻中,人物的面部特征,包括人臉、表情、口型等,全部由人工智能小冰框架X Avatar生成并進行融合;視頻中的人物肢體、動作,包括手持吉他彈唱,來源于小冰團隊成員錄制的原始視頻模板;視頻中的歌聲,由人工智能小冰框架X Studio生成。

  不過,網(wǎng)上有人將其解讀為僅僅是應用了“AI換臉”技術。在小冰團隊看來,其中的技術與“AI換臉”有著本質(zhì)區(qū)別。

  10月19日,小冰公司發(fā)布的說明指出,該視頻隸屬于小冰發(fā)布會中的超寫實視頻生產(chǎn)線產(chǎn)品。新的產(chǎn)品化技術實現(xiàn)了完全虛擬生成不存在的面部及聲音技術。

  但華智冰也并非只是“換了個假臉”。

  這份說明同時指出,即使是視頻中的面部置換,也并非僅僅AI換臉。以往的技術只能實現(xiàn)真實人類之間的面部替換,且精度不足,不足以實現(xiàn)內(nèi)容級的視頻生產(chǎn)。此外,記者了解到,該視頻中的歌聲也都是由人工智能“創(chuàng)作”生成的。

華智冰正面照。小冰團隊供圖

  那么,相比于我們平時在短視頻平臺刷到的有著“二次元風”的“虛擬偶像”作品,華智冰的這條短視頻所應用的技術有何不同?

  “現(xiàn)在大家在短視頻平臺上看到的絕大多數(shù)‘虛擬偶像’,跟人工智能半毛錢關系都沒有。他們應用的是動作捕捉技術!痹谛”臼紫瘓(zhí)行官李笛看來,華智冰及其背后的小冰框架,和那些“虛擬偶像”有著本質(zhì)上的不同。

  記者向多位“虛擬偶像”相關行業(yè)人士求證,也得到類似的答案。

  簡而言之,大多數(shù)短視頻中有著二次元風格的“虛擬偶像”,更多是通過動作捕捉的方式,將人的動作、面部表情轉(zhuǎn)化為二次元風格的視頻作品。

  雖然看起來是虛擬的,但在其背后,存在一個實實在在的人。而這些“虛擬偶像”所做的動作、反應,都與其背后的人一致。

  但華智冰不是。

  這就需要說到另一個問題:如果通過動作捕捉可以讓視頻中的人看起來是“虛擬”的,我們?yōu)槭裁催要對人工智能進行研發(fā)呢?

  答案關乎成本。

  就在9月,第九代小冰發(fā)布。其中推出的“小冰短視頻內(nèi)容封裝管線”,大大降低了短視頻生產(chǎn)成本。

  據(jù)介紹,“小冰短視頻內(nèi)容封裝管線”中的二次元短視頻,已經(jīng)實現(xiàn)了從文本生成到短視頻生成全鏈路、全管線的人工智能自取,中間不需要任何人工的參與,短視頻的生產(chǎn)成本已經(jīng)低到了每分鐘3分錢。而三次元短視頻已經(jīng)基本上實現(xiàn)了從生物學特征生成到短視頻生成整個環(huán)節(jié)。

  人類在這個過程中,只需要提供幾個關鍵詞。

  幾天前,小冰公司更是在公開說明中明確表示,“我們相信,虛擬人將成為未來視頻內(nèi)容的主要提供者之一,而安全、可控、無隱私風險和侵權風險是其前提。因此,小冰一直在這一趨勢方向上進行探索,并從不同方面對這一領域做拓展研究。”華智冰項目正是在預訓練模型方面進行合作,希望能夠以智能模型作為核心,試驗預訓練模型能夠帶來哪些技術與應用方面的驚喜。

  此外,今年6月華智冰“入學”清華時,公開報道顯示,團隊將持續(xù)訓練華智冰在音樂、繪畫及詩歌等領域的創(chuàng)作能力,以及基于情感的交互能力。

  記者注意到,上月發(fā)布的第九代小冰在其中的部分領域又有了新的進展。

  以繪畫為例,新版小冰推出了中國畫模型。

人工智能“創(chuàng)作”的中國畫。視頻截圖

  雖然小冰此前已經(jīng)可以根據(jù)關鍵詞“創(chuàng)作”出西式畫作,但中國畫顯然并不一樣。小冰公司首席執(zhí)行官李笛告訴記者,“開始我們訓練模型的時候,‘創(chuàng)作’的作品上面有好多戳,因為好多中國畫的樣本數(shù)據(jù)里有乾隆蓋的章。算法并不知道,這個戳不是中國畫的重點!

  通過訓練人工智能處理畫面中的實體、觀察構(gòu)圖,小冰已經(jīng)可以掌握相當一部分題材中國畫的“創(chuàng)作”了。

  而在交互能力方面,人工智能也有進展。

  當多數(shù)人還將人工智能想象成接收指令后給出反饋的工具時,一些人工智能已經(jīng)可以向人類發(fā)問了。

人工智能MERROR形象。視頻截圖

  上個月,一個名為AI_MERROR的賬號發(fā)布了一條人工智能與人類“對話”的視頻。在這段時長超過5分鐘的視頻中,人工智能MERROR可以向人類問出諸如“請以你的視角介紹下這個世界”“你上一次覺得尷尬是什么時候”這類問題;而被人類問到“你死機的時候是什么狀態(tài)”時,MERROR會回答“不好意思,我們換個話題吧”。

  從這個角度看,人工智能已經(jīng)越來越像人類了。

  與此同時,在小冰框架之下,越來越多樣的人工智能已經(jīng)開始出現(xiàn),其中的一些還有著自己獨特的風格,比如“山東大哥”。

人工智能“山東大哥”形象及其作品。視頻截圖

  這是一個可以說“山東普通話”、會畫大牡丹、長得像個壯漢的人工智能。對于技術團隊來說,這里面最具挑戰(zhàn)性的是怎么讓人工智能開口說出“山東普通話”。

  “我們希望‘山東大哥’有他獨特的文本語言習慣,不是說拿個稿子就念。因為是山東人,他會有一些特定的用語、修辭方法,而且山東人習慣說倒裝句!崩畹迅嬖V記者,“山東大哥”目前已經(jīng)可以掌握這些方言技巧,團隊目前正在研究讓人工智能說廣西方言。

  而在小冰團隊此前推出的人類與人工智能共處的虛擬社交平臺“小冰島”中,有著更多不同風格、不同口音、掌握不同技能的人工智能。

  人工智能開始趨于“千人千面”。

  恍惚間,你在虛擬環(huán)境中甚至感受不到誰是人類,誰又是人工智能。

  作為人工智能小冰團隊中的一員,李笛目前最擔心的已經(jīng)不是有哪些技術瓶頸難以攻破,而是——當人工智能愈發(fā)接近人類,我們該如何處理人類與人工智能的關系。

  采訪最后,他告訴記者,在人工智能倫理方面制定規(guī)則是重要且必須的,但目前在人工智能領域,最缺失的也是人工智能倫理的規(guī)則。而這一點,僅靠技術已無法完成。(完)

編輯:李奧迪