來源:學(xué)術(shù)頭條
人工智能,開始解決越來越多人類尚未解決的問題,且取得了不錯(cuò)的成果。
然而,在過去幾年中,人工智能領(lǐng)域的科學(xué)研究數(shù)量呈指數(shù)級(jí)增長,使得科學(xué)家們和從業(yè)者們很難及時(shí)跟蹤這些進(jìn)展。
數(shù)據(jù)顯示,機(jī)器學(xué)習(xí)領(lǐng)域的研究論文數(shù)量每 23 個(gè)月就會(huì)翻一番。其中一個(gè)原因是,人工智能正在數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)、醫(yī)學(xué)和生物化學(xué)等不同學(xué)科中得到利用。
通過從科學(xué)文獻(xiàn)中獲得見解,提出新的個(gè)性化研究方向和想法的工具可以顯著加速科學(xué)的進(jìn)步。在人工智能與其他各領(lǐng)域交叉的過程中,人們該如何判別哪些方向有意義并值得去做?
為此,由馬克斯·普朗克光科學(xué)研究所(MPL)人工智能科學(xué)家 Mario Krenn 領(lǐng)導(dǎo)的國際團(tuán)隊(duì)發(fā)布了一項(xiàng)關(guān)于“指數(shù)級(jí)增長知識(shí)網(wǎng)絡(luò)中的高質(zhì)量鏈接預(yù)測”的研究。相關(guān)研究論文以“Predicting the Future of AI with AI: High-Quality link prediction in an exponentially growing knowledge network”為題,發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
(來源:arXiv)
這項(xiàng)研究工作的目的是設(shè)計(jì)一個(gè)可以“閱讀、理解,然后行動(dòng)”的人工智能相關(guān)文獻(xiàn)的程序,從而為預(yù)測和建議跨領(lǐng)域研究思路打開大門。研究團(tuán)隊(duì)認(rèn)為,從長遠(yuǎn)來看,這將提高人工智能研究人員的生產(chǎn)力,開辟新的研究途徑,并指導(dǎo)該領(lǐng)域的進(jìn)步。以往的實(shí)踐證明,新的研究思路往往通過在看似不相關(guān)的主題/領(lǐng)域之間建立新的聯(lián)系而產(chǎn)生。這促使研究團(tuán)隊(duì)將人工智能文獻(xiàn)的演化制定為一個(gè)時(shí)間網(wǎng)絡(luò)建模任務(wù),并創(chuàng)建了一個(gè)可以描述自 1994 年以來人工智能文獻(xiàn)內(nèi)容和演變的語義網(wǎng)絡(luò)。同時(shí),研究團(tuán)隊(duì)也探討了一個(gè)包含 64000 個(gè)概念(也稱為節(jié)點(diǎn))和 1800 萬條節(jié)點(diǎn)間聯(lián)系的網(wǎng)絡(luò),并使用語義網(wǎng)絡(luò)作為 10 種不同的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法的輸入。其中最基本的任務(wù)之一——構(gòu)建語義網(wǎng)絡(luò)——有助于從網(wǎng)絡(luò)中提取知識(shí),并隨后使用計(jì)算機(jī)算法進(jìn)行處理。圖|在此次工作中,研究團(tuán)隊(duì)使用了 14.3 萬篇于 1992-2020 年發(fā)表在 arXiv 上的人工智能和機(jī)器學(xué)習(xí)類的論文,并使用 RAKE 和其他 NLP 工具構(gòu)建了一個(gè)概念列表。這些概念構(gòu)成了語義網(wǎng)絡(luò)的節(jié)點(diǎn),當(dāng)兩個(gè)概念同時(shí)出現(xiàn)在一篇論文的標(biāo)題或摘要中時(shí),就會(huì)畫出邊界(edge)。通過這種方式,他們構(gòu)建了一個(gè)不斷發(fā)展的語義網(wǎng)絡(luò),隨著時(shí)間的推移,更多的概念被一起研究。最終的任務(wù)是預(yù)測未連接的節(jié)點(diǎn),即在科學(xué)文獻(xiàn)中沒有一起研究的概念,將在幾年內(nèi)連接起來。(來源:arXiv)起初,研究團(tuán)隊(duì)考慮使用 GPT-3 和 PaLM 等大型語言模型來創(chuàng)建這樣的網(wǎng)絡(luò)。然而,主要的挑戰(zhàn)是,這些模型仍然難以推理,很難識(shí)別或提出新的概念組合。
于是,他們便轉(zhuǎn)向借鑒生物化學(xué)的方法,即從科學(xué)論文中共同出現(xiàn)的概念中創(chuàng)建知識(shí)網(wǎng)絡(luò);單個(gè)生物分子代表一個(gè)節(jié)點(diǎn),當(dāng)一篇論文提到兩個(gè)對應(yīng)的生物分子時(shí),兩個(gè)節(jié)點(diǎn)就連接起來。這種方法是由芝加哥大學(xué)醫(yī)學(xué)教授和人類遺傳學(xué)教授 Andrey Rzhetsky 和他的團(tuán)隊(duì)首先提出的。
研究團(tuán)隊(duì)使用這種方法捕獲了人工智能領(lǐng)域的歷史,并使用超級(jí)計(jì)算機(jī)模擬提取了有關(guān)科學(xué)家集體行為的重要陳述,基于大量論文不斷重復(fù)這一過程,從而形成一個(gè)捕獲可操作內(nèi)容的網(wǎng)絡(luò)。
基于此,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為 Science4Cast 的新基準(zhǔn)測試,并提供了十種不同的方法來解決這一基準(zhǔn)測試。研究團(tuán)隊(duì)認(rèn)為,他們的工作有助于構(gòu)建一個(gè)能夠預(yù)測人工智能研究趨勢的新工具。
以往,每當(dāng)打開任何人工智能和機(jī)器學(xué)習(xí)相關(guān)論壇時(shí),人們都會(huì)發(fā)現(xiàn),“跟上人工智能的進(jìn)步”是討論的首要話題。
或許,這一研究能夠?yàn)槿藗兙徑庖恍┻@樣的壓力。
-
AI
+關(guān)注
關(guān)注
87文章
31399瀏覽量
269808
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論