別再怕圖片搜索結果牛頭不對馬嘴了,你可以試試這個 精準圖片搜索,來自 OpenAI最新的技術 CLIP。
只需一句 “大白話”描述,便能給出想要的圖片。
例如輸入:
The word love written on the wall
就會得到這樣的結果:
可以說是相當的 精準了!這就是今天在Reddit上爆火的一個項目。
這個項目利用到的,便是 OpenAI前不久頻頻刷屏的DALL·E 中的核心模塊—— CLIP,一個負責重排序 (rerank)的模型。
這個項目使用谷歌Colab Notebook,而且在線、免費,包含200萬圖片數據集,最重要的是效果還非常的精準。
不禁引得網友直呼“ Amazing”。
簡單幾步,“大白話”在線精準搜圖
這個項目之所以如此火爆, 操作簡單是很重要的一個原因之一。
首先要做的,就是點開該項目在Colab Notebook中的地址 (見文末鏈接),登陸自己的賬號。
至于環境配置、包或庫的調用,這個項目非常貼心的已經做好了,只需要依次點擊cell左側的小三角,等待運行完成即可。
最后,來到包含如下代碼的cell:
search_query = “Two dogs playing inthe snow”
點擊運行這個cell,便可得到搜索圖片的結果,例如:
當然,這個程序似乎很懂人,若是輸入“當你的代碼跑通時的情緒”:
The feeling when your program finallyworks
得到的結果,和正常人想象中的應該是一致的:
為什么CLIP搜圖能如此精準?
OpenAI前不久推出的DALL·E,主要能實現的功能就是 可以按照文字描述、生成對應圖片。
而其呈現給我們的最終作品,其實是它生成大量圖片中的一部分。
在中間過程中,其實也有排名、打分的帥選過程。
這部分的任務,便是由 CLIP來完成:
越是它看得懂、匹配度最高的作品,分數就會越高,排名也會越靠前。
這種結構,有點像是利用生成對抗文本,以合成圖像的 GAN。
不過,相比于利用GAN擴大圖像分辨率、匹配圖像-文本特征等方法,CLIP則選擇了直接對輸出進行排名。
據研究人員表示,CLIP網絡的 最大意義在于,它緩解了深度學習在視覺任務中,最大的兩個問題。
首先,它 降低了深度學習需要的數據標注量。
相比于手動在ImageNet上,用文字描述1400萬張圖像,CLIP直接從網上已有的“文字描述圖像”數據中進行學習。
此外,CLIP還能“身兼多職”,在各種數據集上的表現都很好 (包括沒見過的數據集)。
但此前的大部分視覺神經網絡,只能在訓練的數據集上有不錯的表現。
例如,CLIP與ResNet101相比,在各項數據集上都有不錯的檢測精度,然而ResNet101在除了ImageNet以外的檢測精度上,表現都不太好。
具體來說,CLIP用到了零樣本學習 (zero-shot learning)、自然語言理解和多模態學習等技術,來完成圖像的理解。
例如,描述一只斑馬,可以用“馬的輪廓+虎的皮毛+熊貓的黑白”。這樣,網絡就能從沒見過的數據中,找出“斑馬”的圖像。
最后,CLIP將文本和圖像理解結合起來,預測哪些圖像,與數據集中的哪些文本能完成最好的配對。
網友:機器人(bot)可能不太高興
在驚嘆CLIP用“大白話”搜索圖片效果之余,一位Reddit網友還發現了一個比較有意思的搜索結果。
他在文本描述的代碼部分輸入:
What image best represents how you feel right now?
這句話在我們人類眼中,應當是詢問AI的語氣了,然后出來的圖片結果是這樣的:
還有這樣的:
嗯,看來是被“玩多了”,AI寶寶有點小脾氣了。
-
搜索
+關注
關注
0文章
69瀏覽量
16653 -
OpenAT
+關注
關注
0文章
5瀏覽量
8662 -
圖片
+關注
關注
0文章
203瀏覽量
15923 -
Clip
+關注
關注
0文章
31瀏覽量
6664 -
OpenAI
+關注
關注
9文章
1079瀏覽量
6482
發布評論請先 登錄
相關推薦
評論