AlphaZero完勝三大世界冠軍棋類程序:5000個TPU、自學一天?
昨天,Deepmind團隊在arxiv扔了重磅炸彈,<愛尬聊_知識大全>下一代alphazero使用了強大的計算資源(5000代TPU和64代TPU)后,不到24小時的自我對戰(tabula稱霸asa,也稱為白板)加強了學習,連續打敗了世界冠軍級的程序(棋、棋、圍棋)。
其中包括上一代冠軍圍棋程序AlphaGoZero,該程序發布不到兩個月,Deepmind又稱霸了自己(因此谷歌隊自我進化速度的時間單位都是天計,很可怕)。
AlphaZero百局戰績:
象棋程序Stockfish:28勝,72平
象棋程序Elmo:90勝,2平,8負
象棋程序AlphaGo:60勝,40負
AlphaZero自我對戰的訓練時間:
訓練次數|訓練時間段
30萬,2小時,打敗國際象棋Elmo
11萬,4小時,打敗國際象棋Stockfish16.5萬,8小時,打敗國際象棋AlphaGo
刪除Go意味著AlphaZero,已經是比AlphaGoZero更通用的程序。一直以來,盡管許多頂級人工智能的程序超過了人類世界冠軍的水平,但他們只能在單一領域執行單一任務,不能將這種打敗人類的超能力泛化到其他任務中。
Deepmind的野心不僅僅是在棋類游戲中超越人類,這次他們研究了這個更通用的程序AlphaZero,很快就會投入蛋白折疊的應用。
官方表示,他們很快就會發表相關論文,通過檢測蛋白錯誤折疊,快速診斷神經退行性疾病,如阿爾茨海默病、帕金森病、囊狀纖維化。
期待AlphaZero在醫療健康領域的表現。