视频一区在线观看,亚洲成人贴图,亚洲天堂日韩在线

CMU 和 Facebook 聯合打造的史上最強德州撲克 AI “Pluribus”在六人德州撲克這項復雜游戲中擊敗了頂級人類玩家。今天，Science雜志以封面重磅的形式發表了該研究論文，詳細描述了Pluribus的策略。

前不久，一款名叫 “Pluribus” 的 AI 撲克牌機器人在六人無限注德州撲克這項復雜游戲中，碾壓了人類職業選手！

這是 AI 首次在規模超過兩人的復雜對局中擊敗頂級人類玩家。

“Pluribus” 是CMU 和 Facebook 聯合打造的史上最強德州撲克 AI，重點解決了多人對局環境下的非零和博弈和隱藏信息推理問題，是該領域的一個重大突破。

今天，“Pluribus”的論文更是以封面的形式登上Science雜志！

來自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授，在論文中詳細解讀了“Pluribus”的策略。

作者表示，撲克一直是一個具有挑戰性的問題，過去AI在這類基準測試中取得的成功僅限于兩人參與的游戲。然而，傳統上玩撲克的人不止兩個人。多人撲克是一個公認的AI里程碑。

“Pluribus”AI在六人無限制注德撲中展現了比頂級人類專業玩家更強大的技能。

接下來，新智元帶來這篇論文的解讀，完整論文可點擊文末鏈接查看。

基于MCCFR的“藍圖”策略

三人或三人以上的博弈對博弈論提出了挑戰。對于兩個玩家的零和博弈，存在這樣一種策略，即沒有玩家可以通過切換到不同的策略來提高他們的機會。這種所謂的納什均衡被認為是博弈的一個解。

但對于多人游戲，期望獎勵可能因納什均衡的不同而有所不同。保證收斂到納什均衡的快速算法，例如虛擬遺憾最小化算法(CFR)，在多人游戲中可能失效。盡管如此，CFR在一些多人游戲領域仍顯示出良好的經驗表現。

Pluribus首先通過自我游戲(self-play)來學習通用技巧，我們稱之為“藍圖”(blueprint)策略。

然后，在實際游戲中，它根據游戲的當前狀態計算一個實時策略來細化blueprint策略。Pluribus程序通過名為Monte Carlo CFR (MCCFR)的CFR變體學習blueprint策略，并進行一些改進。

Pluribus會反復模擬所有玩家使用相同策略的撲克手牌；在每一手牌之后，它會遞歸地檢查每個決策，并與在相同情況下可能選擇的其他操作相比，評估該決策的預期結果。

為了提高Pluribus中MCCFR算法的效率，作者在訓練的早期階段引入了linear weighted discounting，并在訓練的后期對negative-regret行為進行策略剪枝。

系統中最復雜的部分是實時策略組件。為了處理不完美信息，Pluribus執行嵌套搜索，維護搜索樹的根節點和每個玩家持有的牌的根節點的概率分布，前提是假設所有玩家使用相同的(已知的)策略。

為了有效評估葉節點，Pluribus考慮了blueprint 策略的四種不同變體。

在Abstraction機制中，Pluribus通過將類似的情況打包在一起，減少了關于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數量。使用蒙特卡羅虛擬遺憾最小化(MCCFR)，將撲克游戲中樹搜索的復雜性從一個棘手的問題降低到一個可解決的問題。

真實游戲

Pluribus需要為每個場景提供一個動作(跟注、加注或棄牌)。

抽象游戲

類似的方案，比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通過操作將每個bucket映射到一個分布。

真實策略

每個方案都根據其bucket的抽象策略映射到操作上的分布。

對于大型復雜的游戲，狀態和動作的抽象可以用來抑制搜索樹的增長。這對于完整的六人無限德州撲克游戲來說是必要的，因為德撲太過復雜而無法直接搜索。

相反，如上面的示意圖所示，Pluribus模擬了一個更簡單的游戲版本，將類似的決策點組合在一起，并消除了一些操作。

“賭神”AI訓練只需144美元

最后，Pluribus的blueprint策略是在64核服務器上在8天內計算出來的，總共使用了12400個CPU核心小時，所需內存小于512 GB。按照當前的云計算費用，這花費了大約144美元。

這與最近其他所有的超級AI里程碑游戲形成了鮮明的對比，那些AI使用了大量的服務器和/或GPU集群。更多的內存和計算可以支持更細粒度的blueprint，這將帶來更好的性能，但也會導致Pluribus使用更多內存或在實時搜索變慢。

研究人員將blueprint策略抽象的大小設置為允許Pluribus在一臺內存不超過128GB的機器上實時運行，同時在內存中存儲blueprint策略的壓縮形式。

由于無限德州撲克的規模和復雜性，整個游戲的blueprint 策略必然是粗粒度的。Pluribus只在第一輪投注(四次投注)中根據這個blueprint策略進行操作，其中決策點的數量足夠少，以至于blueprint策略可以不使用信息抽象，并且在操作抽象中進行了很多操作。

在第一輪之后(甚至在第一輪中，如果對手選擇的賭注大小與blueprint action抽象中的大小完全不同)，Pluribus將進行實時搜索，以確定針對當前情況的更好、更細粒度的策略。

結論

self play 的形式與搜索的形式相結合，在完全信息的二人零和博弈中取得了許多引人注目的成功。然而，現實世界中的大多數戰略交互都包含隱藏的信息和兩個以上的參與者。這使得這個問題在理論和實踐上都有很大的不同和困難。

為多人德撲開發一個超級AI是該領域的一個公認的里程碑。在本文中，我們描述了Pluribus，一個AI，能夠在六人無限注德州撲克中擊敗人類專業玩家。

Pluribus的成功表明，盡管對多人博弈的性能缺乏已知的強有力的理論保證，但仍存在大規模、復雜的多人博弈不完全信息設置，在這種情況下，精心構造的self play搜索算法可以生成超越人類的策略。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
211

文章
28504

瀏覽量
207486
算法

算法

+關注

關注
23

文章
4620

瀏覽量
93049
Facebook

Facebook

+關注

關注
3

文章
1429

瀏覽量
54808

原文標題：Science封面重磅：CMU、Facebook聯合打造“賭神”AI，六人德撲擊敗人類

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

人類智慧水平AI即將到來，AI芯片已提前布局

電子發燒友網報道（文/黃山明）在生成式AI的高速發展下，不少人正在焦慮AI是否會取代他們的工作。就在近期，OpenAI首席執行官Sam?Altman在瑞士達沃斯經濟論壇上分享了對未來AI

發表于 01-22 06:44 ?2618次閱讀

長城汽車聯手高德地圖打造出行聯合創新LAB

近日，長城汽車與高德地圖基于長期良好的合作基礎，聯手打造的“出行聯合創新LAB”正式在保定市長城汽車技術中心揭牌。根據共同約定，雙方將通過出行聯合創新LAB，發揮各自優勢，共同研究、探

發表于 01-07 09:51 ?74次閱讀

馬斯克預言：AI將全面超越人類智力

近日，科技巨頭馬斯克作出了一個關于人工智能(AI)的大膽預測。他斷言，AI的發展速度將超乎人類的想象，并將在不久的將來全面超越人類的智力。馬斯克在X平臺上明確表示，

發表于 12-28 14:23 ?216次閱讀

視美泰聯合小冰打造全新“AI數字人工廠”

在AI數字化浪潮席卷全球的今天，人工智能與現實生活的交融已成為時代趨勢。近日，視美泰與小冰強強聯手，共同推出了一套領先的數字人解決方案，旨在通過打造數字人產品工廠，為千行百業注入全新的

發表于 12-13 16:45 ?571次閱讀

開發者洞察 | 小德智能：用涂鴉GenAI能力打造智能寵物創新應用

寵物硬件和AI能力的結合，正在成為寵物經濟接下來的熱門風口方向！市場上越來越多的企業，開始將目光投向智能養寵領域，積極打造“AI+寵物”的創新應用。作為涂鴉開發者的小德智能，就專注于將

發表于 12-12 18:14 ?202次閱讀

焊接機器人六個軸分別是什么作用

焊接機器人是現代工業自動化中的重要工具，其靈活性和高效性極大地提升了焊接質量和生產效率。在焊接機器人中，“六軸”是一個常見的結構設計，這六個軸賦予機器人類似于

發表于 11-21 17:45 ?254次閱讀

使用NVIDIA Jetson打造機器人導盲犬

Selin Alara Ornek 是一名富有遠見的高中生。她使用機器學習和 NVIDIA Jetson邊緣 AI 和機器人平臺，為視障人士打造了機器人導盲犬。

發表于 11-09 13:51 ?274次閱讀

心智理論測試:人工智能擊敗人類

測試結果并不一定意味著人工智能可以“理解”人。心智理論是指可以理解他人心理狀態的能力，正是它驅使著人類社會運轉。它幫助你決定在緊張的情況下該說什么、猜測其他車輛的駕駛員將要做什么，以及與電影中

發表于 11-08 10:54 ?313次閱讀

開啟全新AI時代智能嵌入式系統快速發展——“第六屆國產嵌入式操作系統技術與產業發展論壇”圓滿結束

嵌入式系統是電子信息產業的基礎，是智能系統的核心。大模型催生AI走入千家萬戶、喚醒端側AI的需求爆發。以機器人、無人駕駛和智能制造為代表的智能嵌入式系統快速發展，操作系統在機器人和智能駕駛為代表

發表于 08-30 17:24

智謀紀 AI+Multi LED 打開人類健康新寶藏

技術。智謀紀創始人&CEO朱東亮先生受邀出席論壇，帶來題為《AI+ Multi LED，打開人類健康新寶藏》的專題演講。演講精彩瞬間回顧：AI+ Multi LED，智謀紀

發表于 06-17 12:23 ?340次閱讀

高德將打造時空智能體應用生態，助力智慧城市向時空智能城市進化

5月20日，在AI Day技術開放日活動上，高德地圖旗下高德云圖宣布將逐步開放云睿時空融合大模型和云境AI三維重建平臺，打造時空智能體應用生

發表于 05-21 14:27 ?634次閱讀

達實久信正式簽約上海市第六人民醫院臨港院區二期項目！

深圳達實智能股份有限公司于 2024 年 3 月 19 日披露了《關于智慧醫院項目中標的公告》，近日，公司全資子公司江蘇達實久信醫療科技有限公司與上海建工二建集團有限公司就上海市第六人民醫院臨港院區二期凈化項目有關事項協商一致，在上海市楊浦區正式簽署了合同，合同金額 9805.28 萬元。

發表于 05-16 09:55 ?450次閱讀

諾和諾德基金會將聯手英偉達打造丹麥AI超級計算機

諾和諾德基金會攜手英偉達，共同宣布在丹麥打造一臺領先的AI超級計算機。這臺超級計算機將致力于推動醫療保健、生命科學以及綠色轉型等領域的科研與創新，為丹麥乃至全球的諾和諾德基金會攜手英偉

發表于 03-21 13:43 ?626次閱讀

富士通發布最新的人工智能（AI）戰略，聚焦深化人類與AI之間的協作

富士通株式會社（以下簡稱“富士通”）發布了最新的集團人工智能（AI）戰略，聚焦深化人類與AI之間的協作，并提出了將AI作為“可信賴的助手”這一愿景，為提升

發表于 02-21 17:09 ?856次閱讀

奧特曼稱相信AI無法替代人類

奧特曼稱相信AI無法替代人類 AI對于人類的威脅一直有很多討論，各有不同觀點，很多人對于科幻電影中的場景AI機器

發表于 01-19 11:43 ?884次閱讀