人工智能作為推動當(dāng)下科技創(chuàng)新和生產(chǎn)力整體提升的重要戰(zhàn)略性技術(shù),受到世界范圍內(nèi)的普遍關(guān)注,尤其是隨著云計算和大數(shù)據(jù)的迅速興起。人工智能迎來了新的發(fā)展契機(jī),而算法則是在幕後推動人工智能實現(xiàn)的“核心引擎”,過去六十多年來以大腦模擬、神經(jīng)處理再以神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí),每一次突破都推動著人工智能技術(shù)的迭代演進(jìn)。
當(dāng)前,人工智能已經(jīng)在物聯(lián)網(wǎng)、智能家居、機(jī)器人等多領(lǐng)域中落地應(yīng)用,與實體經(jīng)濟(jì)深度融合,迎來了發(fā)展的大好時期。豐富的應(yīng)用場景也對算法提出了新需求。自動機(jī)器學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)、可解釋深度學(xué)習(xí)等,一批算法促進(jìn)新產(chǎn)品的發(fā)展,加快社會向智能化不斷躍升。
值此之際,8月30日,由世界人工智能大會組委會主辦,上海交通大學(xué)、第四范式承辦的“2019世界人工智能大會國際前沿算法峰會”在上海世博展覽館舉行,作為此次世界人工智能大會十大主題峰會之一,國際算法峰會聚集超過1000位人工智能研究者和產(chǎn)業(yè)界實踐者,共同向底層技術(shù)發(fā)問,求解能夠推動產(chǎn)業(yè)變革的未來算法。
會上,美國卡內(nèi)基梅隆大學(xué)CMU計算機(jī)學(xué)院院長、機(jī)器學(xué)習(xí)教父、乂學(xué)教育-松鼠AI首席AI科學(xué)家Tom Mitchell教授以“Learning from Unlabeled Data”為題,做了精彩的主題報告。
機(jī)器學(xué)習(xí)教父、乂學(xué)教育-松鼠AI首席人工智能科學(xué)家Tom Mitchell發(fā)表演講
Tom Mitchell長期從事機(jī)器學(xué)習(xí)、認(rèn)知神經(jīng)學(xué)科等研究,曾編寫Machine Learning (《機(jī)器學(xué)習(xí)》)一書,這是人工智能領(lǐng)域最經(jīng)典的教材之一,他也因此被稱為機(jī)器學(xué)習(xí)之父。近年,Tom Mitchell開始深度關(guān)注AI對教育的應(yīng)用,2018年11月起任中國AI教育獨(dú)角獸公司乂學(xué)教育-松鼠AI首席AI科學(xué)家,作為松鼠AI人工智能領(lǐng)域第一負(fù)責(zé)人,Mitchell 帶領(lǐng)團(tuán)隊十多位AI科學(xué)家和幾百位AI應(yīng)用工程師以及技術(shù)團(tuán)隊,進(jìn)行人工智能在智適應(yīng)教育領(lǐng)域的基礎(chǔ)研究和相關(guān)產(chǎn)品的研發(fā)應(yīng)用等。
在此次大會上,Tom Mitchell教授指出,在我們的世界,非標(biāo)記的數(shù)據(jù)要比已標(biāo)記的數(shù)據(jù)龐大,機(jī)器學(xué)習(xí)非常重要的一點(diǎn)就是學(xué)習(xí)如何將非標(biāo)記數(shù)據(jù)進(jìn)行分類,來改善機(jī)器學(xué)習(xí)的能力。實現(xiàn)這一目標(biāo)就要求學(xué)習(xí)程序必須要具備某種架構(gòu),能弄清楚不同的函數(shù)及不同的限制關(guān)系。如果能對海量未經(jīng)標(biāo)注的數(shù)據(jù)進(jìn)行分類,不管對機(jī)器學(xué)習(xí)還是自我反思預(yù)測錯誤都將非常有意義。
當(dāng)前,以機(jī)器學(xué)習(xí)為核心的人工智能技術(shù)正在逐步推動各行各業(yè)產(chǎn)業(yè)升級,機(jī)器學(xué)習(xí)作為AI的一個重要分支,為人工智能提供了新的發(fā)展機(jī)遇。盡管如此、和人類學(xué)習(xí)的方式相比,機(jī)器學(xué)習(xí)的方法依然非常狹窄。
Tom Mitchell教授著重介紹了一種被稱之為永無止境的語言學(xué)習(xí)項目模型——NELL(Never-Ending Language Learner)框架。NELL像人類一樣,學(xué)習(xí)很多類型的知識,已經(jīng)具有自我監(jiān)督的經(jīng)驗,能利用學(xué)到的知識改善后續(xù)學(xué)習(xí),并通過充分的自我反思來避免學(xué)習(xí)中的平臺期。
“NELL理念非常簡單,相當(dāng)于有一位程序員每天24小時不間斷工作,每天程序都會有兩個任務(wù):第一是閱讀提取來自網(wǎng)絡(luò)的更多信息,并刪除舊的錯誤信息,以填充不斷增長的知識庫,其中包含對每個信息的信心和來源,比如說水是一種飲料,或者比爾蓋茨創(chuàng)立的微軟;第二,自我進(jìn)化,學(xué)習(xí)如何比昨天做得更好,如果任務(wù)跟昨天一樣,可以簡單挖掘更多準(zhǔn)確的數(shù)據(jù)。”
NELL在初始階段會有少量分類,如飲料、人、植物、城市等是本體,同時加入關(guān)系,比如說人創(chuàng)建了公司,或者飲料是食物產(chǎn)生。除此之外還會輸入樣本,大部分情況下輸入網(wǎng)端的是末標(biāo)注的數(shù)據(jù),未標(biāo)注數(shù)據(jù)的信息分類問題也是目前大部分機(jī)器學(xué)習(xí)過程中的問題所在。
Tom Mitchell教授稱,其2010年開始NELL項目,每天24小時運(yùn)作,直到去年九月,其擁有1.2億三元數(shù)據(jù)知識庫,并且每一年的邏輯推理能力、學(xué)習(xí)能力都在提升。而且基于十幾個沒有標(biāo)注的原始樣本數(shù)據(jù),NELL可以擴(kuò)展已知的關(guān)系本體,并能參加一些新型的關(guān)系。通過不斷的累計,目前每個知識庫中擁有數(shù)億個三元數(shù)據(jù)庫。比如說楓葉國是加拿大,多倫多是屬于加拿大的一座城市等,像這樣的例子均是程序從網(wǎng)絡(luò)當(dāng)中學(xué)習(xí)攫取的數(shù)據(jù)。
在教育領(lǐng)域也是如此,現(xiàn)在已經(jīng)有幾百萬人在使用人工智能教育系統(tǒng),積累了許多數(shù)據(jù),機(jī)器學(xué)習(xí)可以利用這些數(shù)據(jù)進(jìn)一步發(fā)展。
“如果機(jī)器學(xué)習(xí)應(yīng)用在智適應(yīng)教育當(dāng)中,應(yīng)該在每一領(lǐng)域都具備一種功能,去了解學(xué)生現(xiàn)在的學(xué)習(xí)狀態(tài),機(jī)器學(xué)習(xí)就是能夠發(fā)現(xiàn)這個功能是什么,我們可以用機(jī)器學(xué)習(xí)來不斷的修改它,這是機(jī)器學(xué)習(xí)在其中的核心作用。”Mitchell談到。
新的機(jī)器學(xué)習(xí)和人工智能的工具出現(xiàn)后,或許一個機(jī)器就可以收集高達(dá)十萬名學(xué)生的答卷,就可以去分析這些答卷當(dāng)中學(xué)生出錯的規(guī)律,在過去,一位老師窮其一生都不可能接觸多達(dá)這么多學(xué)生。
Tom Mitchell認(rèn)為,目前正在進(jìn)入AI對如何教育孩子產(chǎn)生重大影響的十年。
因為AI的進(jìn)步,研究人員和公司正在不斷更迭新一代系統(tǒng)。例如松鼠AI智適應(yīng)學(xué)習(xí)系統(tǒng)運(yùn)用進(jìn)化算法、深度神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、遷移學(xué)習(xí)、圖論、及其他機(jī)器學(xué)習(xí)等多種AI技術(shù),通過對學(xué)生學(xué)習(xí)過程中多維數(shù)據(jù)的全方位評估,給與最高效的學(xué)習(xí)內(nèi)容、學(xué)習(xí)路徑、學(xué)習(xí)節(jié)奏的把握以及深度的效果評估,最大化學(xué)習(xí)效率的提升,進(jìn)而實現(xiàn)在模擬優(yōu)秀特級教師的基礎(chǔ)之上,達(dá)到超越真人教學(xué)的目的。
回到NELL,其可以用擴(kuò)展kb、OntExt考慮NELL當(dāng)前本體中的每對類別,在三個步驟中搜索類別對成員之間經(jīng)常討論的關(guān)系的證據(jù)、提取兩個類別的已知實例的句子、從提取的句子中通過上下文共生矩陣構(gòu)建上下文,然后將相關(guān)的上下文聚類在一起。 每個集群對應(yīng)于兩個輸入類別實例之間可能的新關(guān)系。
如果嘗試去訓(xùn)練這兩個函數(shù),即通常所說的協(xié)同訓(xùn)練,只要這些函數(shù)有足量多的標(biāo)注數(shù)據(jù),誤差就會接近于零。并且最后能使用這些未標(biāo)注的數(shù)據(jù)學(xué)習(xí)這些函數(shù)。
比如,松鼠AI系統(tǒng)成果之中的“非關(guān)聯(lián)性知識點(diǎn)關(guān)聯(lián)概率”及“用錯因重構(gòu)知識地圖”。
在將學(xué)科中的知識點(diǎn)進(jìn)行超納米級拆分的基礎(chǔ)上,非關(guān)聯(lián)性知識點(diǎn)關(guān)聯(lián)概率基于知識地圖理論中不僅對知識點(diǎn)建立關(guān)聯(lián)性,追根溯源還對非關(guān)聯(lián)性的知識點(diǎn)建立了關(guān)聯(lián)概率,讓測試效率和學(xué)習(xí)效率可以分別比同類產(chǎn)品的知識地圖理論模型提高3-10倍。從而提高測試效率和學(xué)習(xí)效率,更加精準(zhǔn)的檢測到孩子的知識薄弱點(diǎn)。
用錯因重構(gòu)知識地圖就是將每一道題標(biāo)注不同種的錯因。進(jìn)一步重構(gòu)知識地圖。更加精準(zhǔn)定位學(xué)生錯因,知識薄弱點(diǎn)、精準(zhǔn)的給出最適合每一個孩子的學(xué)習(xí)路徑、從而提高學(xué)習(xí)效率。
“NELL理念一個非常重要的特點(diǎn)是能夠不斷的學(xué)習(xí)、不斷的改善,盡管它大部分使用的是網(wǎng)絡(luò)上未經(jīng)標(biāo)注的數(shù)據(jù),但用未標(biāo)記的數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)的邏輯,對我以及對團(tuán)隊其他成員來說都非常驚艷,希望更多的人能參與進(jìn)來,不斷優(yōu)化。”
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2909文章
44578瀏覽量
372869 -
人工智能
+關(guān)注
關(guān)注
1791文章
47208瀏覽量
238290 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132574
發(fā)布評論請先 登錄
相關(guān)推薦
評論