【導讀】讓用戶在體驗過程中關注主要部分,得先抓住用戶的眼球。
人每時每刻都在接收海量的信息,例如每秒進入視網膜的數據量就達到了10的10次方比特,但人類會選擇性地關注一些任務相關或感興趣的區域以進一步處理,比如記憶、理解和采取行動等。
如何將人類的注意力進行建模,即顯著性模型(saliency model)在神經科學、心理學、人機交互(HCI)和計算機視覺等領域開始得到廣泛關注。
預測「哪些區域可能吸引注意力」的能力在圖形、攝影、圖像壓縮和處理以及視覺質量測量等領域具有許多重要應用。
不過,使用機器學習和基于智能手機的凝視估計來加速眼動研究需要專門的硬件,每臺成本高達三萬美元,并不具備廣泛推廣的條件。
最近,谷歌的研究人員介紹了兩篇相關領域的研究論文,分別發表在CVPR 2022和CVPR 2023上,主要研究了如何利用「人類注意力的預測模型」來實現更好的用戶體驗,例如用圖像編輯操作以最大限度地減少視覺混亂、分心或偽影等問題,使用圖像壓縮來更快地加載網頁或應用程序,并引導機器學習模型實現更直觀的類人解釋和模型性能。
這兩篇論文主要關注圖像編輯和圖像壓縮,并討論了在具體應用場景下,對注意力建模的相關最新進展。
注意力引導的圖像編輯
對人體注意力進行建模,通常需要把眼睛看到的圖像作為輸入,如自然圖像或網頁的屏幕截圖等,并將預測的熱力圖作為輸出。
預測得到的熱力圖會根據「眼球跟蹤器」或「鼠標懸停/點擊」等收集到的實時注意力近似值進行評估。
之前的模型大多利用手工制作的視覺線索特征,如顏色/亮度對比度、邊緣和形狀等,最近也有一些方法轉向基于深度神經網絡來自動學習判別特征,使用的模型包括卷積、遞歸神經網絡以及視覺Transformer網絡等。
谷歌在CVPR2022上發表的一篇論文中,利用深度顯著性模型(deep saliency models)進行視覺逼真的編輯(visually realistic edits),可以顯著改變觀察者對不同圖像區域的注意力。
論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Aberman_Deep_Saliency_Prior_for_Reducing_Visual_Distraction_CVPR_2022_paper.pdf
比如移除背景中分散注意力的物體可以降低照片中的雜亂程度,從而提高用戶滿意度;同樣,在視頻會議中,減少背景中的混亂度也可以增加對主要發言者的關注度。
為了探索哪些類型的編輯效果是可實現的,以及這些效果如何影響觀眾的注意力,研究人員開發了一個優化框架,以用于使用可區分的預測顯著性模型來引導圖像中的視覺注意力。
給定輸入圖像和表示干擾物區域的二元遮罩,使用顯著性預測模型對遮罩內的像素提供指導并編輯圖像,降低遮罩區域內的顯著性。
為了確保編輯后的圖像自然且逼真,研究人員精心選擇了四種圖像編輯操作符,其中包括兩個標準圖像編輯操作(即重新著色和圖像扭曲);以及及兩個可學習的操作符,即多層卷積濾波器和生成模型(GAN)。
利用這些操作符,該框架可以產生各種強大的效果,包括重新著色、修復、偽裝、對象編輯、插入以及面部屬性編輯,并且所有這些效果都是由單個預訓練的顯著性模型驅動的,沒有任何額外的監督或訓練。
減少視覺干擾的例子,由顯著性模型與幾個操作符引導,干擾物區域被標記在顯著性圖(紅色邊框)的頂部
需要注意的是,研究人員的目標不是與產生每種效果的專用方法競爭,只是演示如何通過嵌入在深度顯著性模型中的知識來指導多個編輯操作。
個性化的顯著性建模
之前的研究假定單個顯著性模型即可完成對全部人群的預測任務,不過人類的注意力在個體之間是不同的:雖然對顯著線索的檢測是一致的,但具體的順序、解釋和注視分布可以有很大的區別,這一問題也提供了為個人或團體創建個性化用戶體驗的機會。
在CVPR2023的一篇論文中,谷歌的研究人員引入了一個用戶感知的顯著性模型,也是首個僅用單模型就可以完成預測某個用戶、一組用戶和通用人群注意力的框架。
論文鏈接:https://openaccess.thecvf.com/content/CVPR2023/papers/Chen_Learning_From_Unique_Perspectives_User-Aware_Saliency_Modeling_CVPR_2023_paper.pdf
該框架的核心是將每個參與者的視覺偏好與每個用戶的注意力熱力圖和自適應用戶遮罩進行組合,需要每個用戶的注意力標注在訓練過程中都是可用的,可用的數據集包括用于自然圖像的OSIE移動的凝視數據集、網頁的FiWI和WebSaliency數據集。
該模型并沒有預測表示所有用戶的注意力的單個顯著性熱力圖,而是預測每個用戶的注意力圖以編碼個體的注意力模式。
此外,該模型采用用戶掩碼(大小等于參與者數量的二進制向量)來指示當前樣本中參與者的存在,使得模型可以選擇一組參與者,并將偏好組合成單個熱力圖。
預測注意力與GT值,EML-Net是最先進模型的預測,對于兩個參與者/組具有相同的預測;Ours提出的用戶感知顯著性模型的預測,可以正確預測每個參與者/組的獨特偏好。第一個圖像來自OSIE圖像集,第二個圖像來自FiWI。
以顯著特征為中心的漸進式圖像解碼
除了圖像編輯,人類注意力模型也可以改善用戶的瀏覽體驗。
在上網時,最讓人感到不舒服的用戶體驗之一就是等待加載帶有圖像的網頁,特別是在網速很慢的情況下,一種改善用戶體驗的方式是圖像的漸進式解碼,可以隨著數據逐漸下載再解碼,并顯示越來越高分辨率的圖像,直到全分辨率圖像準備就緒。
漸進式解碼通常按順序進行(例如,從左到右、從上到下),使用預測注意力模型,就可以基于顯著性對圖像進行解碼,從而可以首先發送顯示最顯著區域的細節所需的數據。
例如,在肖像中,用于面部的字節可以優先于用于失焦背景的字節,因此用戶更早地感知到更好的圖像質量,并體驗到顯著減少的等待時間。
基于這個想法,預測注意力模型可以幫助圖像壓縮和更快地加載具有圖像的網頁,改善大型圖像和流媒體/VR應用的渲染。
結論
上面兩篇論文展示了人類注意力的預測模型如何通過具體的應用場景實現令人愉快的用戶體驗,例如圖像編輯操作,可以減少用戶圖像或照片中的混亂、分心或偽影,以及漸進式圖像解碼,可以大大減少用戶在圖像完全渲染時的感知等待時間。
文中提出的用戶感知顯著性模型可以進一步為個人用戶或群體個性化上述應用程序,從而實現更豐富、更獨特的體驗。
-
谷歌
+關注
關注
27文章
6172瀏覽量
105619 -
神經網絡
+關注
關注
42文章
4773瀏覽量
100885 -
圖像
+關注
關注
2文章
1087瀏覽量
40497
原文標題:CVPR 2023 | 谷歌教你用"注意力"提升產品體驗
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論