AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

時間：2025-03-04 16:17:01 來源：24直播網(wǎng)

加利福尼亞大學圣地亞哥分校的 Hao 人工智能實驗室（Hao AI Lab）上周五開展了一項獨特的研究，將人工智能（AI）引入經(jīng)典游戲《超級馬力歐兄弟》中，以測試其性能表現(xiàn)。研究結果顯示，在參與測試的 AI 模型中，Anthropic 的 Claude 3.7 表現(xiàn)最為出色，緊隨其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現(xiàn)不佳。

需要明確的是，此次實驗所使用的并非 1985 年最初發(fā)布的《超級馬力歐兄弟》版本。游戲運行在一個模擬器中，并通過一個名為 GamingAgent 的框架與 AI 進行連接，從而讓 AI 能夠控制馬力歐。GamingAgent 由 Hao 人工智能實驗室自主研發(fā)，其向 AI 提供基本指令，例如“如果附近有障礙物或敵人，向左移動或跳躍以躲避”，同時還提供游戲內(nèi)的截圖。隨后，AI 通過生成 Python 代碼的形式來操控馬力歐。

據(jù)實驗室介紹，該游戲環(huán)境迫使每個 AI 模型“學習”如何規(guī)劃復雜的操作并制定游戲策略。有趣的是，實驗發(fā)現(xiàn)像 OpenAI 的 o1 這樣的推理模型（它們通過逐步思考問題來得出解決方案）表現(xiàn)不如“非推理”模型，盡管它們在大多數(shù)基準測試中通常表現(xiàn)更強。研究人員指出，推理模型在實時游戲中表現(xiàn)不佳的主要原因之一是它們通常需要花費數(shù)秒時間來決定行動。而在《超級馬力歐兄弟》中，時機至關重要，一秒鐘的差別可能意味著安全跳過和墜落死亡的不同結果。

數(shù)十年來，游戲一直是衡量 AI 性能的重要工具。然而，一些專家對將 AI 在游戲中的表現(xiàn)與技術進步直接掛鉤的做法提出了質(zhì)疑。與現(xiàn)實世界相比，游戲往往是抽象且相對簡單的，并且能夠為 AI 訓練提供理論上無限的數(shù)據(jù)。

IT之家注意到，最近一些引人注目的游戲基準測試結果引發(fā)了 OpenAI 研究科學家、創(chuàng)始成員安德烈?卡帕西（Andrej Karpathy）所說的“評估危機”。他在 X 平臺上發(fā)表的一篇帖子中寫道：“我目前真的不知道該關注哪些 AI 指標?！彼偨Y道：“我的反應是，我目前真的不知道這些模型到底有多好?！?/p>

標簽模型推理操作馬力超級兄弟

上一篇：新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機游戲未來擁有無限的可能！

下一篇：寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當他倆的電燈泡！

精品国产911,国产v亚洲v天堂在线,一本到在线观看视频不卡,日本一区二区不卡久久入口

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

熱門數(shù)據(jù)

相關信息

mayumi更博曬照：一周內(nèi)就抵達中國

Smash已穩(wěn)定進入輪換！T1官推：為應對亞洲大師賽將三隊下路Cypher上調(diào)至二隊

TES決賽戰(zhàn)勝AL語音公布：紅米BP時表示相信369，Crisp“給老子死”

寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當他倆的電燈泡！

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機游戲未來擁有無限的可能！

LCK美女主持人裴惠智更新社媒動態(tài)：早點下班，和老公約會去咯

網(wǎng)易游戲深夜全線崩潰官方致歉中國移動網(wǎng)絡故障

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津

03月04日NBA常規(guī)賽活塞爵士全場錄像

03月04日NBA常規(guī)賽火箭雷霆全場錄像

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃陜西女籃全場錄像

03月03日WCBA季后賽首輪G2四川女籃黑龍江女籃全場錄像

03月03日NBA常規(guī)賽快船湖人全場錄像

03月03日NBA常規(guī)賽公牛步行者全場錄像

03月02日CBA全明星賽北區(qū)明星南區(qū)明星全場錄像

03月02日NBA常規(guī)賽雄鹿獨行俠全場錄像

03月02日NBA常規(guī)賽馬刺灰熊全場錄像

03月01日CBA星銳賽2二年級大學生聯(lián)隊全場錄像

相關集錦

康寧漢姆29+9菲利波夫斯基25+8活塞6人上雙大勝爵士

拉文22分歐文重傷退賽凱瓊斯首秀21+9國王大勝獨行俠

亞歷山大51+5+7謝潑德新高25+5白魔27+11雷霆擊退殘陣火箭

丹尼爾斯搶斷助勒韋爾絕殺里薩謝27分貝恩三雙老鷹勝灰熊

阿德巴約19+14米德爾頓16分維金斯&普爾缺戰(zhàn)熱火大勝奇才

03月04日NBA常規(guī)賽開拓者76人精彩鏡頭

03月04日NBA常規(guī)賽勇士黃蜂精彩鏡頭

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃9761陜西女籃集錦

03月03日WCBA季后賽首輪G2四川女籃9653黑龍江女籃集錦

詹姆斯千勝里程碑東契奇29+9小卡33+10湖人再勝快船升第2

熱門TAG

精品国产911,国产v亚洲v天堂在线,一本到在线观看视频不卡,日本一区二区不卡久久入口

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

熱門數(shù)據(jù)

相關信息

mayumi更博曬照：一周內(nèi)就抵達中國

Smash已穩(wěn)定進入輪換！T1官推：為應對亞洲大師賽將三隊下路Cypher上調(diào)至二隊

TES決賽戰(zhàn)勝AL語音公布：紅米BP時表示相信369，Crisp“給老子死”

寧王puff吐槽喊瞳夕Pubg兮夜就會來：每次都當他倆的電燈泡！

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

新華社采訪多位國內(nèi)游戲制作人：國產(chǎn)單機游戲未來擁有無限的可能！

LCK美女主持人裴惠智更新社媒動態(tài)：早點下班，和老公約會去咯

網(wǎng)易游戲深夜全線崩潰官方致歉中國移動網(wǎng)絡故障

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津

03月04日NBA常規(guī)賽活塞爵士全場錄像

03月04日NBA常規(guī)賽火箭雷霆全場錄像

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃陜西女籃全場錄像

03月03日WCBA季后賽首輪G2四川女籃黑龍江女籃全場錄像

03月03日NBA常規(guī)賽快船湖人全場錄像

03月03日NBA常規(guī)賽公牛步行者全場錄像

03月02日CBA全明星賽北區(qū)明星南區(qū)明星全場錄像

03月02日NBA常規(guī)賽雄鹿獨行俠全場錄像

03月02日NBA常規(guī)賽馬刺灰熊全場錄像

03月01日CBA星銳賽2二年級大學生聯(lián)隊全場錄像

相關集錦

康寧漢姆29+9菲利波夫斯基25+8活塞6人上雙大勝爵士

拉文22分歐文重傷退賽凱瓊斯首秀21+9國王大勝獨行俠

亞歷山大51+5+7謝潑德新高25+5白魔27+11雷霆擊退殘陣火箭

丹尼爾斯搶斷助勒韋爾絕殺里薩謝27分貝恩三雙老鷹勝灰熊

阿德巴約19+14米德爾頓16分維金斯&普爾缺戰(zhàn)熱火大勝奇才

03月04日NBA常規(guī)賽開拓者76人精彩鏡頭

03月04日NBA常規(guī)賽勇士黃蜂精彩鏡頭

03月03日WCBA季后賽首輪G2內(nèi)蒙古女籃9761陜西女籃集錦

03月03日WCBA季后賽首輪G2四川女籃9653黑龍江女籃集錦

詹姆斯千勝里程碑東契奇29+9小卡33+10湖人再勝快船升第2

熱門TAG

TES決賽戰(zhàn)勝AL語音公布：紅米BP時表示相信369，Crisp“給老子死”

AI玩《超級馬力歐兄弟》：Claude模型操作最溜，推理模型表現(xiàn)不佳

LCK美女主持人裴惠智更新社媒動態(tài)：早點下班，和老公約會去咯

韓網(wǎng)流出先鋒賽賽程：CFO兩天四場拉滿！HLE與TES均為兩天三場

第一賽段各聯(lián)賽海外收視峰值：T1大戰(zhàn)HLE吸引190萬觀看！LPL幾乎無人問津