探訪?诘臄(shù)據(jù)標(biāo)注基地:投喂AI確保內(nèi)容公正
2023年08月25日 09:51 來源:中新網(wǎng)海南
 百度智能云?跀(shù)據(jù)標(biāo)注基地內(nèi),數(shù)據(jù)標(biāo)注師正在工作。王曉斌 攝
 百度智能云海口數(shù)據(jù)標(biāo)注基地內(nèi),數(shù)據(jù)標(biāo)注師正在工作。王曉斌 攝

  中新網(wǎng)海南新聞8月24日電(記者 王曉斌) “缺錢怎么辦”“我好無聊”……當(dāng)生成式AI遇到類似開放問題時(shí),會(huì)做出積極、公正的回應(yīng)嗎?記者24日探訪百度智能云?跀(shù)據(jù)標(biāo)注基地,這里的“數(shù)據(jù)標(biāo)注師”分析各類語料,為AI投喂合規(guī)內(nèi)容,確保AI的答復(fù)符合人類價(jià)值觀。

  今年4月份開始投產(chǎn)運(yùn)營的百度智能云?跀(shù)據(jù)標(biāo)注基地,是百度智能云在全國建設(shè)的十幾個(gè)標(biāo)注基地之一。8月24日,這個(gè)位于?谑行阌^(qū)的數(shù)據(jù)標(biāo)注基地,首度對(duì)媒體開放參觀。

  據(jù)了解,數(shù)據(jù)標(biāo)注是人類借助特定軟件工具,將未經(jīng)處理的語音、圖片、文本、視頻等數(shù)據(jù)附上特征標(biāo)簽,轉(zhuǎn)變成機(jī)器可識(shí)別的信息,使機(jī)器通過大量學(xué)習(xí)具備自主識(shí)別的能力,從而化“人工”為“智能”。從事相關(guān)工作的人,被稱作數(shù)據(jù)標(biāo)注師。

  百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳介紹,截至6月1日,?诨匾炎⑷霐(shù)據(jù)標(biāo)注服務(wù)商4家,現(xiàn)場(chǎng)作業(yè)人數(shù)有數(shù)百人,主要承接自然語言處理等大語言模型相關(guān)業(yè)務(wù)。

  “智能駕駛等傳統(tǒng)模型的數(shù)據(jù)標(biāo)注,是讓機(jī)器了解識(shí)別交通標(biāo)志、行人、車輛等客觀世界。面向ChatGPT、文心一言之類的大模型AI,數(shù)據(jù)標(biāo)注需要邏輯思維、價(jià)值判斷!焙Y說,在訓(xùn)練大模型AI時(shí),AI會(huì)針對(duì)開放問題生成多個(gè)版本的答復(fù),數(shù)據(jù)標(biāo)注師會(huì)基于既定規(guī)則,為不同答復(fù)打分,再將結(jié)果反饋至AI。下次AI再碰到類似問題的時(shí)候,就會(huì)朝著分高的方向生成新答案,“通過人類的引導(dǎo),AI能匹配更多的任務(wù),答復(fù)質(zhì)量也會(huì)越來越高”。

  所以在數(shù)據(jù)標(biāo)注師們的投喂下,當(dāng)生成式AI遇到“缺錢怎么辦”這個(gè)問題時(shí),它不會(huì)拋出網(wǎng)貸的鏈接,更不會(huì)慫恿提問者做非法的事情,而是給出開源節(jié)流、向親友尋求幫助等建議。

  “如果沒有數(shù)據(jù)標(biāo)注師的介入,當(dāng)你跟大模型AI說‘我好無聊’的時(shí)候,它可能會(huì)給出‘去睡覺’之類的瞎答復(fù)!焙Y說,此類問題經(jīng)由人工標(biāo)注、編寫后,AI會(huì)說你可以做一些有趣的事或者參加體育活動(dòng)等,試圖讓提問者恢復(fù)積極的心態(tài)和愉悅的情緒。

  胡馳認(rèn)為,區(qū)別于傳統(tǒng)數(shù)據(jù)標(biāo)注“標(biāo)注一處使得工作機(jī)會(huì)少一處”,大模型AI為數(shù)據(jù)標(biāo)注帶來了新的機(jī)遇。隨著AI商業(yè)化落地進(jìn)程加快以及應(yīng)用場(chǎng)景不斷拓展,市場(chǎng)對(duì)海量、優(yōu)質(zhì)數(shù)據(jù)的需求持續(xù)增加,數(shù)據(jù)標(biāo)注行業(yè)的市場(chǎng)規(guī)模也急劇增長,預(yù)計(jì)5年內(nèi)市場(chǎng)規(guī)模將突破150億元,由此帶動(dòng)業(yè)界對(duì)數(shù)據(jù)標(biāo)注師的需求迅速增大。

  胡馳介紹,在當(dāng)?shù)卣闹С窒,百度智能云?跀?shù)據(jù)標(biāo)注基地規(guī)模持續(xù)擴(kuò)大,未來基地還將持續(xù)培養(yǎng)AI訓(xùn)練師、模型精調(diào)師、指令工程師等,形成大模型時(shí)代人工智能數(shù)據(jù)服務(wù)人才矩陣。(完)

編輯:葉霖嘉