準(zhǔn)確地描述圖像,而不僅僅是像一個毫無頭緒的機(jī)器人,長期以來一直是人工智能的目標(biāo)。2016年,谷歌表示,其人工智能可以為圖像添加幾乎與人類一樣的字幕,準(zhǔn)確率為94%。現(xiàn)在微軟說它已經(jīng)更進(jìn)一步:研究人員已經(jīng)建立了一個比人類更精確的人工智能系統(tǒng),以至于它現(xiàn)在位于nocaps圖像捕獲基準(zhǔn)的排行榜首位。微軟聲稱,它比自2015年以來一直使用的圖像字幕模型好兩倍。
雖然這本身就是一個值得注意的里程碑,但微軟并不只是將這項(xiàng)技術(shù)獨(dú)家。它現(xiàn)在提供新的字幕模型作為Azure認(rèn)知服務(wù)的一部分,這樣任何開發(fā)者都可以把它帶到他們的應(yīng)用程序中。今天,它也可以在Seeing AI中使用,這是微軟為盲人和視障用戶開發(fā)的應(yīng)用程序,可以幫助他們了解周圍的世界。今年晚些時候,字幕模式還將改進(jìn)您在PowerPoint中用于Web、Windows和Mac的演示文稿,它還會在桌面平臺上的Word和Outlook中彈出。
Azure AI首席副總裁埃里克博伊德說:“[圖像字幕]是人工智能中最棘手的問題之一。它不僅代表著理解場景中的物體,還代表了它們是如何交互的,以及如何描述它們。”優(yōu)化字幕技術(shù)可以幫助每一個用戶:它讓你更容易在搜索引擎中找到你正在尋找的圖像。對于視障用戶來說,它可以讓網(wǎng)絡(luò)和軟件導(dǎo)航變得非常好。
看到公司吹噓他們的人工智能研究創(chuàng)新并不少見,但這些發(fā)現(xiàn)迅速部署到運(yùn)輸產(chǎn)品中的情況要罕見得多。Azure AI認(rèn)知服務(wù)CTO黃學(xué)冬,考慮到對用戶的潛在好處,力推將其快速整合到Azure中。他的團(tuán)隊(duì)用標(biāo)有特定關(guān)鍵字的圖像訓(xùn)練了這個模型,這幫助它提供了一種大多數(shù)人工智能框架所沒有的視覺語言。通常,這些類型的模型使用圖像和完整的字幕進(jìn)行訓(xùn)練,這使得模型更難了解特定對象是如何交互的。
黃學(xué)冬在一篇博客文章中說:“這種視覺詞匯的預(yù)訓(xùn)練本質(zhì)上是訓(xùn)練系統(tǒng)所需的教育;我們正在努力教育這種運(yùn)動記憶。”這就是為什么這個新模型在nocaps基準(zhǔn)中占據(jù)了一席之地,該基準(zhǔn)專注于確定人工智能對他們以前從未見過的圖像的字幕能力有多好。
但是,雖然打破基準(zhǔn)意義重大,但對微軟新模式的真正考驗(yàn)將是它在現(xiàn)實(shí)世界中的運(yùn)作方式。根據(jù)Boyd的說法,看到人工智能開發(fā)人員Saqib Shaik,他自己也是一個盲人,也在微軟推動更好的可訪問性,他將其描述為比他們之前提供的產(chǎn)品有了戲劇性的改進(jìn)。現(xiàn)在微軟已經(jīng)建立了一個新的里程碑,看看谷歌和其他研究人員的競爭模型如何競爭將是一件有趣的事情。
責(zé)任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6591瀏覽量
104031 -
人工智能
+關(guān)注
關(guān)注
1791文章
47207瀏覽量
238279
發(fā)布評論請先 登錄
相關(guān)推薦
評論