發布時(shí)間:2022-01-03
近日,在世界權威多(duō)語言理(lǐ)解評測XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大(dà)訊飛(fēi)聯合實驗室(HFL)團隊以總平均分(fēn)84.1位列榜首,刷新世界記錄,在四個(gè)賽道中獲得(de)三項最好成績。
這(zhè)也(yě)标志著(zhe)科大(dà)訊飛(fēi)多(duō)語言理(lǐ)解與跨語言遷移能力再上新台階。
這(zhè)個(gè)難度有多(duō)高(gāo)?先來(lái)看一段話(huà):
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
上述這(zhè)段話(huà)包含了(le)英語、德語、西班牙語,而這(zhè)隻是機器多(duō)語言理(lǐ)解評測的(de)冰山一角,它要面臨的(de)是多(duō)達40種語言的(de)高(gāo)難度理(lǐ)解。翻譯成中文就是:
讓水(shuǐ)沸騰以提供蒸汽所需熱(rè)量有多(duō)種來(lái)源,最常見的(de)是在封閉空間(别稱有燃燒室 、火箱)中供應适量空氣來(lái)燃燒可(kě)燃材料。在某些情況下(xià),熱(rè)源是核反應堆、地熱(rè)能、太陽能 或來(lái)自内燃機或工業過程的(de)廢氣。如果是模型或玩具蒸汽發動機,還(hái)可(kě)以将電加熱(rè)元件作爲熱(rè)源。
最新突破:在40種語言下(xià)完成自然語言理(lǐ)解
XTREME評測由谷歌(gē)公司舉辦,旨在全面考察模型的(de)多(duō)語言理(lǐ)解與跨語言遷移能力。該評測覆蓋了(le)中文、英語、韓語、日語、阿拉伯語、越南(nán)語等40種語言,包含了(le)句對(duì)分(fēn)類、序列标注、閱讀理(lǐ)解、句子檢索賽道,共四大(dà)類九個(gè)任務。吸引了(le)國内外衆多(duō)知名高(gāo)校和(hé)研究機構參加。
XTREME評測包含4大(dà)類9個(gè)任務,分(fēn)别爲:
句對(duì)分(fēn)類:XNLI、PAWS-X(自然語言推斷)
序列标注:UDPOS(詞性标注)、PANX (命名實體識别)
閱讀理(lǐ)解:XQuAD、MLQA、TyDiQA(片段抽取型閱讀理(lǐ)解)
句子檢索:BUCC、Tatoeba(跨語言文本檢索)
與以往單語言自然語言理(lǐ)解評測任務不同的(de)是,XTREME中的(de)每一個(gè)任務都覆蓋了(le)多(duō)種語言,評測的(de)是模型在多(duō)種語言上的(de)理(lǐ)解能力平均指标,因此對(duì)系統模型的(de)多(duō)語言理(lǐ)解與跨語言遷移能力要求大(dà)大(dà)提高(gāo)。
其難度可(kě)想而知,榜單上的(de)模型也(yě)代表了(le)多(duō)語言模型的(de)頂尖水(shuǐ)平,因此獲得(de)了(le)衆多(duō)機構和(hé)高(gāo)校的(de)廣泛關注。
機器是怎麽做(zuò)到多(duō)語言理(lǐ)解的(de)?
本次哈工大(dà)訊飛(fēi)聯合實驗室提交的(de)CoFe模型以總成績84.1分(fēn)位居XTREME評測榜首,有三大(dà)法寶:
1、加入了(le)自主研發的(de)跨語言對(duì)比學習(xí)技術,鼓勵模型學習(xí)不同語言中的(de)語義相似性。
2、利用(yòng)知識蒸餾技術進行自監督學習(xí)和(hé)知識遷移,進一步提升了(le)模型在各個(gè)語言上效果的(de)穩定性。
3、創新性地融入了(le)細粒度的(de)語言學特征,幫助模型克服訓練不足的(de)困難,解決低資源語言學習(xí)不充分(fēn)的(de)問題,同時(shí)使之适應不同語言的(de)形态學特點。
也(yě)就是說,通(tōng)過本土語言學習(xí),機器可(kě)以在少量其他(tā)語言語料的(de)情況下(xià),通(tōng)過“類比”學會這(zhè)門語言,減少了(le)收集語料、語音(yīn)标注等大(dà)量工作。
這(zhè)就是多(duō)語言理(lǐ)解與跨語言遷移能力!
發布少數民族語言預訓練模型CINO
“要讓中文語音(yīn)技術由中國人(rén)做(zuò)到最好。”
成立至今,科大(dà)訊飛(fēi)初心未改,持續關注并積極推動中文相關信息處理(lǐ)技術的(de)研究與發展。少數民族語言處理(lǐ)是中文信息處理(lǐ)中不可(kě)缺少的(de)一環,也(yě)是中文信息處理(lǐ)多(duō)樣性的(de)一種體現。這(zhè)項技術的(de)進步将極大(dà)改善我國少數民族語言學習(xí)問題。
目前由于國内少數民族語言語料稀缺、獲取難度大(dà)等原因,相關技術研究相對(duì)匮乏,而主流的(de)多(duō)語言模型也(yě)無法很好地處理(lǐ)國内少數民族語言文字。爲了(le)促進中國少數民族語言信息處理(lǐ)的(de)研究與發展,近期科大(dà)訊飛(fēi)發布了(le)首個(gè)面向少數民族語言的(de)多(duō)語言預訓練模型CINO (Chinese mINOrity pre-trained language model),彌補相關資源的(de)空白,并将相關預訓練模型和(hé)任務數據開源。希望未來(lái)能夠進一步促進業内少數民族語言相關的(de)技術研究,推動少數民族語言相關技術的(de)應用(yòng)落地。未來(lái)支持各少數民族語言的(de)多(duō)語言搜索引擎等文字應用(yòng)工具或将成爲可(kě)能。