色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-10-26 10:52 ? 次閱讀

近日,OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法(iterated amplification),通過描述如何將一個復雜的任務分解成簡單的子任務而不是提供標簽數據或獎勵函數,實現了對于復雜行為和目標的描述。雖然這一方法還處于比較初級的階段,但研究人員認為這種方法將為AI安全提供一種大規模的實現手段。

如果我們想要訓練一個機器學習模型完成特定的任務,我們一定需要訓練信號來評價模型的表現并幫助模型不斷學習和改進。例如監督學習中的標簽和強化學習中的獎勵函數就是訓練訊號。機器學習體系中的一個重要假設就是這些訊號已經存在,并且算法可以按照它來學習。但實際情況是訓練信號可能來自于不知道的某個地方。如果我們沒有訓練信號就意味著我們沒有辦法學習。如果我們得到的是錯誤信號,那么算法可能會得到無意識的甚至危險的結果。所以對于新的任務和AI安全來說,提高得到訓練訊號的能力是十分必要且極具價值的。

那么讓我們看看目前是怎么獲取訓練信號的呢?有時候我們可以利用算法得到,比如在圍棋游戲中可以通過計數評分得到信號。不過大多數真實世界的任務并沒有一個數學形式表達的信號,但通常我們可以人工的手段來獲取訓練信號。但實際情況是,很多復雜的任務已經遠遠超過了人類的認知能力,我們沒辦法判斷模型的輸出是否正確,例如設計一個復雜的運輸系統或者管理龐大計算機網絡安全細節的管理系統這樣的任務,或者是預測全球長期氣候趨勢這種復雜的任務。

需要不同訓練信號的問題,訓練序號可以來自表達式評價、人類反饋,但有的任務超出了人類的能力。

本文提出的迭代放大,是一種在確定性假設下為后續任務生成訓練假設的方法。實際上,雖然人類不能在全局上直接把握復雜的問題,但我們可以假設人類可以有效的評估復雜任務中的一小塊任務是否符合要求。例如在計算機網絡安全的例子中,人們可以將“防御一系列針對于服務器和路由器的攻擊”分解為“針對服務器的攻擊”和“針對路由的攻擊”以及“兩個攻擊間可能的相關性”。此外,我們還可以假設,人類可以承擔很少的一部分任務,例如“識別出日志中的一行可疑記錄”。如果人類的分解任務能力和分擔任務能力得以落實,這兩項假設得以成立,那我們就可以為一項龐大的任務建立訓練信號,這些訊號來自于人類針對分解任務訊號的組合。

迭代放大的機制

研究人員在實際訓練放大的過程中,首先訓練AI系統從一個很小的子任務開始學習,通過尋求人類的幫助(標簽/獎勵信號)來學會解決這一子問題。隨后讓系統學習一個稍大的問題,這時候需要人類將較大的任務進行分解,AI系統依靠上一步的學習來解決這些問題。研究人員將這種解決方案用于那些稍微困難的問題,在這些問題中系統從人類處得到訓練信號,來直接訓練二級任務(此時無需人類幫助)。

隨著訓練的進行,研究人員繼續為AI提供更為復雜的復合任務,不斷構建出訓練信號。如果這個過程得以完成,AI系統將學會解決高度復雜的問題,盡管這個系統一開始沒有從任務中獲得直接的訓練信號。

這一過程在一定程度上與AlphaGo Zero專家迭代過程很像,不過個專家迭代在強化現存的訓練信號,而迭代放大則從零開始構建訓練信號。它也和最近的一些問題分解的算法很像,但區別在于它可以用于沒有先前訓練信號的問題。

實 驗

先前的實驗表明,直接用AI系統解決超越人類能力的問題十分困難,同時利用人類作為訓練信號也會引入復雜性。所以研究人員的第一個實驗在于嘗試放大了算法的訓練信號,來驗證這種方法可以在簡單任務的有效性。同時也限制了對于監督學習的注意力。研究人員在5個示例算法任務上進行了嘗試。這五個算法示例都有具體的數學表達,但研究人員先排除算法信號,了利用一步步從簡單到復雜的方法從零開始解決。利用迭代放大的方法,從一些不直接的子任務中間接學習出訓練信號。

在五個任務中(排列、序列賦值、通配符匹配、最短路徑、查找并集),新的方法可以與表達式方法獲得同等甚至更好的效果。

在沒有label的情況下迭代放大法獲得了與監督學習相同甚至更好的結果

放大法在尋求解決那些超越人類直接認知和能力的問題,通過迭代的過程使得人類可以提供間接的監督信號。這項工作同時也建立在人類反饋的基礎上,通過實現獎勵預測系統,接下來的版本將會包含來自于真實人類的反饋。目前研究人員僅僅在探索的初級階段,隨著研究的深入和規模的擴大將會為很多復雜的問題帶來新的可能。

人類反饋

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30728

    瀏覽量

    268886
  • 函數
    +關注

    關注

    3

    文章

    4327

    瀏覽量

    62573
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132563

原文標題:OpenAI提出全新AI安全策略—迭代放大法,助力機器實現復雜目標學習

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ZigBee接入EPA網絡的安全策略

    ZigBee接入EPA網絡的安全策略針對ZigBee技術的特點,結合EPA控制網絡的安全規范與工業現場實際應用的需要,提出ZigBee接入EPA網絡的安全策略與基于
    發表于 03-19 16:47

    一種參數自調節優化控制策略

    2019年第1期《電工技術學報》上撰文,針對虛擬同步發電機(VSG)雙機并聯系統在采用固定的轉動慣量及阻尼系數時無法兼顧有功功率振蕩和頻率波動的問題,該文提出一種參數自調節優化控制策略。首先,...
    發表于 09-03 07:50

    一種參數自調節優化控制策略

    和頻率波動的問題,該文提出一種參數自調節優化控制策略。首先,建立VSG雙機并聯系統的小信號模型,分析轉動慣量及阻尼系數對輸出有功特性的影響;其次,在滿足系統動穩態性能的轉動慣量及阻尼系數限定取值范圍內,根據...
    發表于 09-09 09:08

    基于多維整數空間的安全策略沖突檢測與消解

    針對當前大部分安全策略沖突檢測與消解算法缺少靈活性和擴展性等缺點,提出一種基于多維整數空間的安全策略形式化描述方法,在此基礎上設計了一種可擴
    發表于 03-24 08:49 ?13次下載

    基于有向圖模型的網絡安全策略沖突研究

    保證安全策略的協同工作和致性是實現分布式系統安全管理需要首先解決的問題。本文提出了一種可適應的安全策略
    發表于 01-27 15:12 ?11次下載

    一種基于群組的無線傳感器網絡安全策略_師鳴若

    一種基于群組的無線傳感器網絡安全策略_師鳴若
    發表于 03-19 11:46 ?0次下載

    基于可信計算的多級安全策略TCBMLSP分析

    個重要方面是安全訪問控制策略的建立,其中具有代表性的是BLP、BIBA策略模型。 針對現有安全策略模型BLP與BIBA結合應用存在可用性
    發表于 11-09 17:01 ?4次下載
    基于可信計算的多級<b class='flag-5'>安全策略</b>TCBMLSP分析

    云計算環境的多域安全策略驗證管理技術

    為了有效管理云系統間跨域互操作中安全策略的實施,提出一種適用于云計算環境的多域安全策略驗證管理技術。首先,研究
    發表于 12-15 13:46 ?0次下載
    云計算環境的多域<b class='flag-5'>安全策略</b>驗證管理技術

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列,成功將電子皮膚的探測能力擴展到7,實現溫度、濕度、紫外光、磁、應變、壓力和接近等多種外界刺激的實時同步監測。
    的頭像 發表于 01-24 15:15 ?7237次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>柔性可拉伸擴展的多功能集成傳感器陣列

    帶你了解AI研究人員年薪百萬背后的真相

    近期,紐約時報記者卡德梅茨爆料了條令人「震驚」的消息——AI 研究人員年薪百萬(哪怕是在 OpenAI 這樣的非營利機構里),個個都是人生贏家。
    的頭像 發表于 05-28 17:46 ?5671次閱讀

    OpenAI提出了一種回報設置方法RND

    在開發RND之前,OpenAI研究人員和加州大學伯克利分校的學者進行了合作,他們測試了在沒有環境特定回報的情況下,智能體的學習情況。因為從理論上來說,好奇心提供了一種更簡單的方法來教授智能體如何與各種環境進行交互,它不需要人為
    的頭像 發表于 11-05 15:15 ?3168次閱讀

    以色列研究人員開發出了一種能夠識別不同刺激的新型傳感系統

    據麥姆斯咨詢報道,海法以色列理工學院的研究人員開發出了一種能夠識別并區分不同刺激的創新型傳感系統。該系統基于折紙藝術,結合了以色列理工學院開發的智能墨水材料。
    發表于 05-21 08:45 ?903次閱讀

    研究人員出了一種新的基于深度學習的策略

    蘇黎世聯邦理工學院的研究人員最近推出了一種新的基于深度學習的策略,該策略可以在不需要大量真實數據的情況下在機器人中實現觸覺傳感。在arXiv
    的頭像 發表于 03-26 15:47 ?2605次閱讀

    中美研究人員合作開發出了一種可以預測新冠肺炎病情的AI工具

    中美兩國研究人員合作,開發出一種實驗性AI工具,可以準確預測哪些新冠肺炎(COVID-19)患者的病情會發展成嚴重的呼吸系統疾病。
    發表于 04-01 14:30 ?633次閱讀

    MIT研究人員提出了一種制造軟氣動執行器的新方法

    麻省理工學院 (MIT) 的研究人員創造了一種新的制造技術,可以制造出更具成本效益的軟氣動執行器。
    的頭像 發表于 05-06 16:38 ?1630次閱讀
    MIT<b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>制造軟氣動執行器的新方法
    主站蜘蛛池模板: 国产在线精品亚洲第一区| www.青青草原| 老司机试看午夜| 中文字幕专区高清在线观看| 快播可乐网| 高h 大尺度纯肉 np快穿| 小女生RAPPER入口| 久久香蕉电影| 芳草地在线观看免费视频| 在线视频a| 女同志videos最新另| 午夜福利体验免费体验区| 99re久久这里只有精品| 秋霞电影网视频一区二区三区 | 神马伦理不卡午夜电影| 国产在线精彩视频| 97国产精品久久精品国产| 色欲AV亚洲永久无码精品麻豆| 国产在线亚洲精品观| 超碰在线观看| 在镜头里被CAO翻了H| 相声flash| 欧美影院在线观看完整版 mp4 | 青柠在线观看免费完整版| 黄色亚洲片| 国产精品无需播放器| 99久久蜜臀亚洲AV无码精品| 亚洲精品无码不卡| 涩涩在线视频| 欧美最猛性XXX孕妇| 美女屁股软件| 美女诱点第6季| 国产二区自拍| 成人18视频在线观看| 最近中文字幕在线中文高清版| 无码人妻99久久密AV| 日韩亚洲人成在线| 日本精品久久久久中文字幕2| 免费精品国产人妻国语| 凌馨baby| 男男高H啪肉Np文多攻多一受|