微軟開發了一種新的圖像字幕算法,在某些有限的測試中,其準確率超過了人類。該人工智能系統已被用于更新該公司為視障人士提供的助理應用程序 “Seeing AI”,并將很快被納入Word、Outlook和PowerPoint等其他微軟產品中。在那里,它將被用于為圖像創建alt文本等任務,這一功能對于提高無障礙性尤為重要。
這些應用包括微軟自己的Seeing AI,該公司于2017年首次發布。Seeing AI利用計算機視覺為視障人士描述通過智能手機攝像頭看到的世界。它可以識別家庭物品,閱讀和掃描文本,描述場景,甚至識別朋友。它還可以用來描述其他應用中的圖像,包括電子郵件客戶端、社交媒體應用和WhatsApp等消息應用。
微軟沒有披露Seeing AI的用戶數量,但Azure AI的企業副總裁Eric Boyd告訴The Verge,該軟件是 “為盲人或低視力人士提供的領先應用之一”。Seeing AI已經連續三年被盲人和低視力iOS用戶社區AppleVis評選為最佳應用或最佳輔助應用。
微軟新的圖像字幕算法將顯著提高Seeing AI的性能,因為它不僅能識別物體,還能更精確地描述它們之間的關系。因此,該算法可以在看一張圖片時,不僅能說出圖片中包含哪些物品和物體(如 “一個人、一把椅子、一個手風琴”),還能說出它們之間的互動關系(如 “一個人坐在椅子上,正在拉手風琴”)。微軟表示,該算法是其之前自2015年開始使用的圖像字幕系統的兩倍。
該算法在9月份發表的一篇預印論文中進行了描述,在一個被稱為 “nocaps ”的圖像字幕基準測試上取得了有史以來最高的分數。這是一個業界領先的圖像字幕評分板,不過它有自己的限制條件。nocaps基準測試由超過166,000個人類生成的字幕組成,描述了從Open Images Dataset中提取的約15,100張圖片。這些圖片涵蓋了一系列場景,從運動到假日抓拍,再到美食攝影等等。
責任編輯:YYX
-
微軟
+關注
關注
4文章
6591瀏覽量
104027 -
AI
+關注
關注
87文章
30757瀏覽量
268902
發布評論請先 登錄
相關推薦
評論