永久免费看黄在线播放,亚洲天堂中文字幕在线,羞羞一区二区三区四区片

近日,OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法(iterated amplification),通過描述如何將一個復雜的任務分解成簡單的子任務而不是提供標簽數據或獎勵函數，實現了對于復雜行為和目標的描述。雖然這一方法還處于比較初級的階段，但研究人員認為這種方法將為AI安全提供一種大規模的實現手段。

如果我們想要訓練一個機器學習模型完成特定的任務，我們一定需要訓練信號來評價模型的表現并幫助模型不斷學習和改進。例如監督學習中的標簽和強化學習中的獎勵函數就是訓練訊號。機器學習體系中的一個重要假設就是這些訊號已經存在，并且算法可以按照它來學習。但實際情況是訓練信號可能來自于不知道的某個地方。如果我們沒有訓練信號就意味著我們沒有辦法學習。如果我們得到的是錯誤信號，那么算法可能會得到無意識的甚至危險的結果。所以對于新的任務和AI安全來說，提高得到訓練訊號的能力是十分必要且極具價值的。

那么讓我們看看目前是怎么獲取訓練信號的呢？有時候我們可以利用算法得到，比如在圍棋游戲中可以通過計數評分得到信號。不過大多數真實世界的任務并沒有一個數學形式表達的信號，但通常我們可以人工的手段來獲取訓練信號。但實際情況是，很多復雜的任務已經遠遠超過了人類的認知能力，我們沒辦法判斷模型的輸出是否正確，例如設計一個復雜的運輸系統或者管理龐大計算機網絡安全細節的管理系統這樣的任務，或者是預測全球長期氣候趨勢這種復雜的任務。

需要不同訓練信號的問題，訓練序號可以來自表達式評價、人類反饋，但有的任務超出了人類的能力。

本文提出的迭代放大，是一種在確定性假設下為后續任務生成訓練假設的方法。實際上，雖然人類不能在全局上直接把握復雜的問題，但我們可以假設人類可以有效的評估復雜任務中的一小塊任務是否符合要求。例如在計算機網絡安全的例子中，人們可以將“防御一系列針對于服務器和路由器的攻擊”分解為“針對服務器的攻擊”和“針對路由的攻擊”以及“兩個攻擊間可能的相關性”。此外，我們還可以假設，人類可以承擔很少的一部分任務，例如“識別出日志中的一行可疑記錄”。如果人類的分解任務能力和分擔任務能力得以落實，這兩項假設得以成立，那我們就可以為一項龐大的任務建立訓練信號，這些訊號來自于人類針對分解任務訊號的組合。

迭代放大的機制

研究人員在實際訓練放大的過程中，首先訓練AI系統從一個很小的子任務開始學習，通過尋求人類的幫助（標簽/獎勵信號）來學會解決這一子問題。隨后讓系統學習一個稍大的問題，這時候需要人類將較大的任務進行分解，AI系統依靠上一步的學習來解決這些問題。研究人員將這種解決方案用于那些稍微困難的問題，在這些問題中系統從人類處得到訓練信號，來直接訓練二級任務（此時無需人類幫助）。

隨著訓練的進行，研究人員繼續為AI提供更為復雜的復合任務，不斷構建出訓練信號。如果這個過程得以完成，AI系統將學會解決高度復雜的問題，盡管這個系統一開始沒有從任務中獲得直接的訓練信號。

這一過程在一定程度上與AlphaGo Zero專家迭代過程很像，不過個專家迭代在強化現存的訓練信號，而迭代放大則從零開始構建訓練信號。它也和最近的一些問題分解的算法很像，但區別在于它可以用于沒有先前訓練信號的問題。

實驗

先前的實驗表明，直接用AI系統解決超越人類能力的問題十分困難，同時利用人類作為訓練信號也會引入復雜性。所以研究人員的第一個實驗在于嘗試放大了算法的訓練信號，來驗證這種方法可以在簡單任務的有效性。同時也限制了對于監督學習的注意力。研究人員在5個示例算法任務上進行了嘗試。這五個算法示例都有具體的數學表達，但研究人員先排除算法信號，了利用一步步從簡單到復雜的方法從零開始解決。利用迭代放大的方法，從一些不直接的子任務中間接學習出訓練信號。

在五個任務中（排列、序列賦值、通配符匹配、最短路徑、查找并集），新的方法可以與表達式方法獲得同等甚至更好的效果。

在沒有label的情況下迭代放大法獲得了與監督學習相同甚至更好的結果

放大法在尋求解決那些超越人類直接認知和能力的問題，通過迭代的過程使得人類可以提供間接的監督信號。這項工作同時也建立在人類反饋的基礎上，通過實現獎勵預測系統，接下來的版本將會包含來自于真實人類的反饋。目前研究人員僅僅在探索的初級階段，隨著研究的深入和規模的擴大將會為很多復雜的問題帶來新的可能。

人類反饋

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
30728

瀏覽量
268886
函數

函數

+關注

關注
3

文章
4327

瀏覽量
62573
機器學習

機器學習

+關注

關注
66

文章
8406

瀏覽量
132563

原文標題：OpenAI提出全新AI安全策略—迭代放大法，助力機器實現復雜目標學習

文章出處：【微信號：thejiangmen，微信公眾號：將門創投】歡迎添加關注！文章轉載請注明出處。

ZigBee接入EPA網絡的安全策略

ZigBee接入EPA網絡的安全策略針對ZigBee技術的特點，結合EPA控制網絡的安全規范與工業現場實際應用的需要，提出ZigBee接入EPA網絡的安全策略與基于

發表于 03-19 16:47

一種參數自調節優化控制策略

2019年第1期《電工技術學報》上撰文，針對虛擬同步發電機(VSG)雙機并聯系統在采用固定的轉動慣量及阻尼系數時無法兼顧有功功率振蕩和頻率波動的問題，該文提出一種參數自調節優化控制策略。首先，...

發表于 09-03 07:50

一種參數自調節優化控制策略

和頻率波動的問題，該文提出一種參數自調節優化控制策略。首先，建立VSG雙機并聯系統的小信號模型，分析轉動慣量及阻尼系數對輸出有功特性的影響；其次，在滿足系統動穩態性能的轉動慣量及阻尼系數限定取值范圍內，根據...

發表于 09-09 09:08

基于多維整數空間的安全策略沖突檢測與消解

針對當前大部分安全策略沖突檢測與消解算法缺少靈活性和擴展性等缺點，提出一種基于多維整數空間的安全策略形式化描述方法，在此基礎上設計了一種可擴

發表于 03-24 08:49 ?13次下載

基于有向圖模型的網絡安全策略沖突研究

保證安全策略的協同工作和一致性是實現分布式系統安全管理需要首先解決的問題。本文提出了一種可適應的安全策略

發表于 01-27 15:12 ?11次下載

一種基于群組的無線傳感器網絡安全策略_師鳴若

一種基于群組的無線傳感器網絡安全策略_師鳴若

發表于 03-19 11:46 ?0次下載

基于可信計算的多級安全策略TCBMLSP分析

的一個重要方面是安全訪問控制策略的建立，其中具有代表性的是BLP、BIBA策略模型。針對現有安全策略模型BLP與BIBA結合應用存在可用性

發表于 11-09 17:01 ?4次下載

云計算環境的多域安全策略驗證管理技術

為了有效管理云系統間跨域互操作中安全策略的實施，提出一種適用于云計算環境的多域安全策略驗證管理技術。首先，研究了

發表于 12-15 13:46 ?0次下載

研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列，成功將電子皮膚的探測能力擴展到7種，實現溫度、濕度、紫外光、磁、應變、壓力和接近等多種外界刺激的實時同步監測。

發表于 01-24 15:15 ?7237次閱讀

帶你了解AI研究人員年薪百萬背后的真相

近期，紐約時報記者卡德梅茨爆料了一條令人「震驚」的消息——AI 研究人員年薪百萬（哪怕是在 OpenAI 這樣的非營利機構里），個個都是人生贏家。

發表于 05-28 17:46 ?5671次閱讀

OpenAI提出了一種回報設置方法RND

在開發RND之前，OpenAI的研究人員和加州大學伯克利分校的學者進行了合作，他們測試了在沒有環境特定回報的情況下，智能體的學習情況。因為從理論上來說，好奇心提供了一種更簡單的方法來教授智能體如何與各種環境進行交互，它不需要人為

發表于 11-05 15:15 ?3168次閱讀

以色列研究人員開發出了一種能夠識別不同刺激的新型傳感系統

據麥姆斯咨詢報道，海法以色列理工學院的研究人員開發出了一種能夠識別并區分不同刺激的創新型傳感系統。該系統基于折紙藝術，結合了以色列理工學院開發的智能墨水材料。

發表于 05-21 08:45 ?903次閱讀

研究人員推出了一種新的基于深度學習的策略

蘇黎世聯邦理工學院的研究人員最近推出了一種新的基于深度學習的策略，該策略可以在不需要大量真實數據的情況下在機器人中實現觸覺傳感。在arXiv

發表于 03-26 15:47 ?2605次閱讀

中美研究人員合作開發出了一種可以預測新冠肺炎病情的AI工具

中美兩國研究人員合作，開發出一種實驗性AI工具，可以準確預測哪些新冠肺炎（COVID-19）患者的病情會發展成嚴重的呼吸系統疾病。

發表于 04-01 14:30 ?633次閱讀

MIT研究人員提出了一種制造軟氣動執行器的新方法

麻省理工學院（MIT）的研究人員創造了一種新的制造技術，可以制造出更具成本效益的軟氣動執行器。

發表于 05-06 16:38 ?1630次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

評論

ZigBee接入EPA網絡的安全策略

一種參數自調節優化控制策略

一種參數自調節優化控制策略

基于多維整數空間的安全策略沖突檢測與消解

基于有向圖模型的網絡安全策略沖突研究

一種基于群組的無線傳感器網絡安全策略_師鳴若

基于可信計算的多級安全策略TCBMLSP分析

云計算環境的多域安全策略驗證管理技術

研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

帶你了解AI研究人員年薪百萬背后的真相

OpenAI提出了一種回報設置方法RND

以色列研究人員開發出了一種能夠識別不同刺激的新型傳感系統

研究人員推出了一種新的基于深度學習的策略

中美研究人員合作開發出了一種可以預測新冠肺炎病情的AI工具

MIT研究人員提出了一種制造軟氣動執行器的新方法