互聯網內容越來越朝著視頻化方向發展,短視頻處于爆發期,一些不法分子試圖利用視頻風口牟利。3月底,深圳警方打掉了一起以短視頻APP為載體,大肆從事淫穢傳播、***以及網絡詐騙等犯罪活動。
最近,阿里安全圖靈實驗室發布了一項關于社會文化的研究,這是一種新型視頻描述方法(SGR),可用于視頻內容安全和視頻檢索等場景,助力建設互聯網清朗環境。該研究成果已經被人工智能國際頂會CVPR2021(oral)收錄。
讓***做“閱讀理解”
現有的密集型視頻描述生成方法采用自底向上的方式,即先生成大量的事件候選片段,再為每個片段獨立的生成描述,從而組合得到密集型視頻描述。然而,視頻中事件具有很強的多樣性,既可以簡單到是一個動作,也可以復雜到是若干事件的組合,這導致事件候選片段的生成目標不明確,對應的密集型描述不夠連貫和準確,且充斥著大量冗余。
對此,研究者提出了自頂向下的密集型視頻描述方法,即SGR。SGR可以實現兩類基本功能,一是讓***對視頻內容做“閱讀理解”,生成一段長文本描述視頻中心內容,二是可以根據描述性的文本精準匹配視頻中的相關片段。此前,必須人工定義關鍵詞詞庫后才能“指揮”***命中檢索,這項***技術的目標是僅通過輸入自然語言就能實現檢索,對***“說句話”,就能找到相應片段。
“視頻中如果有人拿起鼠標,點擊電腦,然后脫掉衣服,呈現黃賭毒等相關違規信息,以前的技術路徑上,***可能還要分析脫掉衣服之前的動作,其實拿鼠標和點擊電腦與后面的違規內容沒什么關聯,無需提取這些信息。”該研究第一作者、阿里安全圖靈實驗室實習算法工程師青崧介紹道。SGR解決了這個問題。
給定一個視頻,***可對視頻的關鍵候選片段無縫銜接成一個完整的故事,保證了密集型描述的連貫性,且減少了冗余。為了進一步增加視頻片段的描述細節,研發人員設計了描述提升模塊,以初步得到的密集型視頻描述和視頻片段為基準,提出專用于描述質量提升的強化學習策略,來生成細節更豐富的密集型視頻描述。
方法結構如下圖所示:
輸入一段視頻,本方法首先使用一個視頻編碼器()來為所有視頻幀提取表征。接著,段落解碼器()根據視頻幀的表征生成一段由多句描述組成的段落。
然后,由描述定位器()對段落中的每句描述在視頻中的發生時刻進行定位。最后,描述提升模塊,即描述解碼器()接受由輸出的視頻片段描述和由定位出的視頻片段表征,并輸出細節更豐富的視頻片段描述。
該項研究的共同作者、阿里安全圖靈實驗室高級算法工程師雍秦介紹,雖然目前這個技術還無法做到“1分鐘講清楚一部電影”,但可做到“兩句話講清楚一個10分鐘以內的短視頻”,這意味著通過該技術未來可迅速判斷整個視頻的關鍵信息是否包含黃賭毒等違規內容。
更快更準識別違規風險內容
通過這兩個功能,***能快速識別、準確定位違規片段,無需人類鑒黃師反復回看確認。雍秦透露,在SGR技術研究基礎上,阿里安全近期還將研發低門檻、高可用的“鑒黃”***工具,讓***對視頻不同片段打出“危險指數”,依賴信息提取直接關聯高亮風險片段,讓***鑒黃更智能、高效。
未來,在實際應用場景中,通過***來進行不良內容識別的研判準確性和效率將大幅提高,比如判斷視頻內容中是否有“一個穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”,以往要形成“暴露蘿莉裝”“鴨子坐”“吃播”三個標簽,每次依據一個標簽進行一輪審核,判斷視頻內容是否涉嫌低俗,三輪審核交叉驗證。
創新工具應用后,***只用輸入“一個穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”這句話進行一輪研判,準確性也更高。
圖說:阿里安全近期將研發低門檻、高可用的“鑒黃”***工具,該圖為示意模型。阿里安全圖靈實驗室資深算法專家華棠指出,阿里安全一直希望從源頭守護安全,這是阿里安全方法論“新一代安全架構”的核心理念。“互聯網上每天產生海量視頻,單靠人力無法維護互聯網清朗環境,違規視頻危及大眾心理健康和財產安全,創新算法可以有更多用武之地,構建美好安全的網絡生活。
編輯:lyn
-
AI
+關注
關注
87文章
30746瀏覽量
268897
發布評論請先 登錄
相關推薦
評論