娛樂城

財神娛樂城來勢洶洶全新平台強勢推出,不變的財神娛樂城是超強的優惠紅利,各種遊戲隨您怎麼玩手機就可.全球公認棒的財神娛樂城獨一無二,體育.彩票.電子遊戲.每天娛樂城註冊量最多.最新的遊戲等著您來領大獎!

娛樂城

為什麼一個新的AI是最好的間諜

麻省理工學院的研究人員已經開發出一種配備了人工智能的機器人,該機器人可以在棘手的在線多人遊戲中擊敗人類玩家,而其中的玩家角色和動機是秘密的。

已經建立了許多遊戲機器人來跟上人類玩家的步伐。今年早些時候,卡內基梅隆大學的一個團隊開發了世界上第一個可以擊敗多人撲克專業人士的機器人。 DeepMind的AlphaGo在2016年成為頭條新聞,以擊敗專業的Go玩家。還建立了一些機器人來擊敗專業的國際象棋選手或聯合起來合作合作遊戲,例如在線奪旗。但是,在這些遊戲中,機器人從一開始就了解其對手和隊友。

在下個月的神經信息處理系統會議上,研究人妞妞鐵支員將展示DeepRole,這是第一個可以贏得在線多人遊戲的遊戲機器人,參與者最初對團隊的忠誠度尚不清楚。該機器人的設計是將新穎的“演繹推理”添加到通常用於玩撲克的AI算法中。這有助於其推理部分可觀察的動作,以確定給定玩家是隊友或對手的可能性。這樣,它可以快速了解與誰結盟以及採取哪些行動來確保其團隊的勝利。

研究人員在超過4,000輪在線遊戲“抵抗:阿瓦隆”中將DeepRole與人類玩家相提並論。在該遊戲中,玩家嘗試在遊戲進行過程中推斷同伴的秘密角色,同時隱藏自己的角色。作為隊友和對手,DeepRole始終優於人類選手。

麻省理工學院電氣工程和計算機科學專業的第一作者傑克·塞里諾(Jack Serrino ’18)說:“如果用機器人取代人類的隊友,可以期望團隊的獲勝率更高。機器人是更好的合作夥伴。”在線“ Avalon”播放器。

這項工作是一個更廣泛的項目的一部分,該項目旨在更好地模擬人類如何做出具有社會根據的決定。這樣做可以幫助構建更好地理解,學習人類並與人類合作的機器人。

“人類向他人學習並與他人合作,這使我們能夠共同實現我們一個人無法獨自完成的事情,”合著者馬克斯·克萊曼·韋納(Max Kleiman-Weiner)說,他是大腦,思維與機器中心和美國國防部的博士後。麻省理工學院和哈佛大學的腦與認知科學。 “像“阿瓦隆”這樣的遊戲可以更好地模仿人們在日常生活中所經歷的動態社交環境。無論是在幼兒園的第一天還是在辦公室的第二天,您都必須弄清楚團隊中的哪些人會與您一起工作。”

加入Serr發發網ino和Kleiman-Weiner在紙上是Da線上娛樂城評價哈佛大學的vid C. Parkes和計算認知科學教授,麻省理工學院的計算機科學與人工智能實驗室以及腦,思維和機器中心的成員Joshua B. Tenenbaum。

演繹機器人

在“阿瓦隆”中,三名球員被隨機秘密地分配給“抵抗”隊,兩名球員被分配給“間諜”隊。兩名間諜玩家都知道所有玩家的角色。

在每個回合中,一個玩家提議一個由兩個或三個玩家組成的子集來執行任務。所有參與者同時並公開投票批准或拒絕該子集。如果獲得多數同意,則子集會秘密確定任務是成功還是失敗。如果選擇了兩個“成功”,則任務成功。如果選擇一個“失敗”今彩539中2個號碼多少錢,則任務失敗。反抗玩家必須始終選擇成功,但間諜玩家可以選擇任一結果。

抵抗隊在成功完成三個任務後獲勝;在執行了三個失敗的任務後,間諜團隊獲勝。

贏得遊戲基本上歸結為推論誰是抵抗者或間諜,然後投票給您的合作者。但這實際上比下棋和撲克要復雜得多。 Kleiman-Weiner說:“這是一個信息不完善的遊戲。” “您甚至不確定一開始就反對誰,因此還有一個發現階段,尋找與誰合作。”

DeepRole使用稱為“反悔最小化”(CFR)的遊戲計划算法-通過反復與自己對戰來學習遊戲-並增加了演繹推理。在遊戲的每個點上,CFR都會前瞻性地創建一個由線條和節點組成的決策“遊戲樹”,以描述每個玩家的潛在未來動作。遊戲樹代表每個玩家在每個未來決策點可以採取的所有可能的動作(線)。在進行可能數十億次的遊戲模擬時,CFR指出哪些動作增加或減少了獲勝的機會,並反復修改其策略以包括更多的好的決策。最終,它計劃出一種最佳策略,在最壞的情況下,它會與任何對手聯繫在一起。

CFR非常適合像撲克之類的遊戲,並且可以通過公共行動(例如下注錢和棄牌)進行操作,但是當行動為秘密時,CFR會遇到困難。研究人員的CFR結合了公共行為和私人行為的後果,以確定參與者是反抗還是間諜。

該機器人是通過對抗自己作為抵抗力和間諜來進行訓練的。在玩在線遊戲時,它使用其遊戲樹來估計每個玩家的打算。遊戲樹代表一個策略真人娛樂城這種技巧可以使每個玩家有最高的獲勝可能性,可以勝任分配的角色。樹的節點包含“反事實值”,基本上是對玩家在執行給定策略時獲得的回報的估計。

在執行每個任務時,機器人會查看每個人與遊戲樹相比的玩法。如果在整個遊戲中,玩家做出的決策與機器人的期望不一致,那麼該玩家可能會扮演另一個角色。最終,機器人為每個玩家的角色分配了很高的概率。這些概率用於更新機器人的策略,以增加其獲勝的機會。

同時,它使用相同的技術來估計第三人稱觀察者如何解釋自己的行為。這有助於估計其他參與者的反應,從而做出更明智的決策。 Serrino說:“如果在兩個人的任務中失敗,那麼其他人就會知道一個人是間諜。該機器人可能不會在未來的任務中提議同一支隊伍,因為它知道其他人認為這很不好。”

語言:下一個領域

有趣的是,該機器人無需與其他玩家進行交流,這通常是遊戲的關鍵組成部分。 “ Avalon”使玩家可以在遊戲過程中在文本模塊上聊天。 Kleiman-Weiner說:“但是事實證明,我們的機器人能夠與其他人一起很好地工作,而只觀察玩家的行為。” “這很有趣,因為人們可能認為這樣的遊戲需要復雜的溝通策略。”

接下來,研究人員可以使機器人在遊戲過程中使用簡單的文字進行交流,例如說出玩家的好壞。這將涉及將文本分配給玩家抵抗或間諜的相關概率,機器人已使用該概率做出決策。除此之外博客娛樂城,未來的機器人可能會配備更複雜的通訊功能,從而使其能夠玩重語言的社交演繹遊戲,例如流行的遊戲“狼人”,其中涉及數分鐘的爭論並說服其他玩家六合彩結果號碼了解誰在好的和壞的團隊。

Serrino說:“語言無疑是下一個領域。” “但是在溝通至關重要的那些遊戲中,攻擊存在許多挑戰。”

參考:Serrino,J.,Kleiman-Weiner,M.,Parkes,D.C.&Tenenbaum,J.B.(2019)。在多代理遊戲中尋找朋友和敵人。 ArXiv:1906.02330 [Cs,Stat]。取自http://arxiv.org/abs/1906.02330

本文已從以下材料重新發布。注意:材料的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。

娛樂城註冊送500