科技報報/AlphaGo已開始擺脫人類依賴
柯潔。 大 中 小 柯潔輸了,在與AlphaGo的第一場對決中,以四分之一子的落後惜敗。這個結果在很多人意料之中,其中也包括柯潔。根據快科技報導,第一場賽後發布會上,柯潔直言AI的進步速度太快了,並且每一次都是巨大的進步。這也是為什麼他在大賽前夕發布微博稱,此次將是他與人工智慧的最後三盤對決。柯潔心中已經清晰的知道,人類已經無法戰勝AlphaGo。他形容AlphaGo越來越像「圍棋上帝」,想贏它只能去找一些BUG,但目前,他還沒看到AlphaGo的任何弱點。這裡引用搜狗CEO王小川在知乎上發布的內容,再向大家科普一下AlphaGo。去年的AlphaGo 混合了三種演算法,即蒙特卡洛樹搜索+監督學習+增強學習。其中蒙地卡羅樹搜索是一種優化過的暴力計算;監督學習,是通過學習3000萬部人類棋譜,對六段以上職業棋手走棋規律進行模仿,也是AlphaGo獲得突破性進展的關鍵演算法;而增強學習作為輔助,是兩台AlphaGo從自我對戰中學習如何下棋。每當獲取棋局資訊時,AlphaGo會根據策略網路探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,類比過程中被系統最頻繁考察的位置將成為AlphaGo 的最終選擇。簡單來說,AlphaGo下棋依靠的是概率,而概率的得出則依靠前期學習。而這次與柯潔對戰的AlphaGo相較於去年,已經判若兩人。最初的AlphaGo主要依靠監督學習,即學習對象幾乎全部來自人類棋手,而新版的AlphaGo則強化了增強學習,主要對機器自我對弈產生的棋局進行學習。難怪柯潔會覺得,去年AlphaGo的下法還很接近人類,但今年自己對戰時,AlphaGo已變得更加不合乎「常理」,下了很多人類棋手不可能下的棋子。
DeepMind創始人、AlphaGo之父Demis Hassabis證實了這一點,他說與柯潔對戰的AlphaGo更多的是根據自身學習,對人類資料的依賴性越來越小。除了開始脫離人類資料,更讓人類望塵莫及的是其恐怖的進步速度。我們常說要「取長補短」,AlphaGo則可以把這個過程加快成百上千倍。
[圖擷取自網路,如有疑問請私訊]
| 喜歡這篇嗎?快分享吧! |
前一頁
後一頁