阿布扎比先進(jìn)技術(shù)研究委員會(huì)旗下的全球研究中心和應(yīng)用研究支柱部門技術(shù)創(chuàng)新研究所(TII)今天宣布推出NOOR語(yǔ)言處理模型,這是迄今為止全球規(guī)模居首的阿拉伯語(yǔ)自然語(yǔ)言處理(NLP)模型。
TII的高級(jí)研究人員和人工智能專家團(tuán)隊(duì)與LightOn聯(lián)手,對(duì)這個(gè)阿拉伯語(yǔ)NLP模型進(jìn)行了改進(jìn)。LightOn是一家專為企業(yè)提供超大規(guī)模機(jī)器智能的技術(shù)公司。NOOR模型能夠執(zhí)行超出語(yǔ)言領(lǐng)域的任務(wù),可提供覆蓋整個(gè)端到端處理管道的高質(zhì)量數(shù)據(jù),包括大規(guī)模數(shù)據(jù)抓取、過(guò)濾和管理。該模型可促進(jìn)超大規(guī)模數(shù)據(jù)的分布式訓(xùn)練和服務(wù),基于該模型的應(yīng)用具有高效推理能力,并可針對(duì)特定領(lǐng)域進(jìn)行模型調(diào)整。
TII和ASPIRE首席執(zhí)行官Ray O. Johnson博士表示:“這一進(jìn)展將大幅提升我們的研究能力和資質(zhì),并提升阿布扎比和阿聯(lián)酋作為重要研究生態(tài)系統(tǒng)的地位。我們的專家團(tuán)隊(duì)再次證明,阿布扎比和阿聯(lián)酋地區(qū)可以取得具有世界影響力的、突破性的研發(fā)成果。”
TII人工智能跨學(xué)科中心部門主任Ebtesam Almazrouei博士表示:“在自然語(yǔ)言處理領(lǐng)域,大型語(yǔ)言模型不斷涌現(xiàn)。能推出這個(gè)擁有100億個(gè)參數(shù)的先進(jìn)模型,我們感到很自豪。這是全球規(guī)模居首的阿拉伯語(yǔ)NLP模型。為訓(xùn)練該模型,我們采集了一套獨(dú)一無(wú)二的大型阿拉伯語(yǔ)數(shù)據(jù)集。相關(guān)工作歷經(jīng)數(shù)月時(shí)間,包括對(duì)各種來(lái)源數(shù)據(jù)的整理、剔除和過(guò)濾。在此特別感謝參與該項(xiàng)目的整個(gè)團(tuán)隊(duì),他們使NOOR成為世界各地學(xué)者和企業(yè)首選的阿拉伯語(yǔ)研究模型。”
TII數(shù)字科學(xué)研究中心和人工智能跨學(xué)科中心部門首席研究員Mérouane Debbah教授在發(fā)布會(huì)上表示:“通過(guò)NOOR,TII利用在大型語(yǔ)言模型方面的專有技術(shù),擴(kuò)大了現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)模型的范圍,以在新一代人工智能研究中建立跨學(xué)科的先進(jìn)專長(zhǎng)。”
NOOR擁有超過(guò)300億字的獨(dú)特?cái)?shù)據(jù)集,涵蓋網(wǎng)絡(luò)數(shù)據(jù)、書籍、詩(shī)歌、新聞文章和技術(shù)信息等來(lái)源,從而打造出全球規(guī)模居首的高質(zhì)量跨領(lǐng)域阿拉伯語(yǔ)數(shù)據(jù)集,并大幅拓寬了該模型的適用范圍。
Ebtesam Almazrouei博士表示,NOOR模型基于流行的Transformer架構(gòu),僅包含解碼器,結(jié)構(gòu)與GPT-3相似,其設(shè)計(jì)旨在處理生成類任務(wù)。經(jīng)過(guò)升級(jí)的架構(gòu)引入了機(jī)器學(xué)習(xí)領(lǐng)域的最新發(fā)展,包括更好的位置嵌入等改進(jìn)。為確保NOOR大規(guī)模數(shù)據(jù)集的質(zhì)量,TII團(tuán)隊(duì)設(shè)計(jì)了一個(gè)基于機(jī)器學(xué)習(xí)技術(shù)的自動(dòng)過(guò)濾管道。相關(guān)工具可以識(shí)別優(yōu)質(zhì)參考文本,并保障模型不受垃圾內(nèi)容污染。
NOOR利用先進(jìn)的3D并行技術(shù),在配備128個(gè)A100 GPU的高性能計(jì)算資源上進(jìn)行了訓(xùn)練,該過(guò)程采用分布式計(jì)算模式,能夠確保有效利用可用的硬件資源。
人工智能跨學(xué)科中心部門主任指出,NOOR只是該部門努力為更廣泛的阿聯(lián)酋人工智能戰(zhàn)略做出貢獻(xiàn)的第一步。
該模型以阿拉伯語(yǔ)中的“光”命名,以體現(xiàn)模型旨在啟迪人類智慧的宗旨。
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1791文章
47183瀏覽量
238263 -
模型
+關(guān)注
關(guān)注
1文章
3226瀏覽量
48809 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13552
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論