棋王大戰「AlphaGo」,最終棋盤猶如「死」字...!開發者說出真相,原來AlphaGo竟然是...



(翻攝自弈棋、熱文精選)
轉貼AlphaGo開發者黃士傑的聲明:
現在網路上有許多謠言,有些人甚至對李世石九段作出人身攻擊,我覺得有必要澄清。這次比賽不論勝敗如何,我覺得我們都應該尊重李世石九段。他接受AlphaGo的挑戰,所承受的壓力一定很大。

1.這次比賽並沒有所謂的不能打劫的保密協議。第一、第二盤棋覆盤時李世石九段都有擺出打劫的變化,只是實戰他沒有下出來。我們也想知道,AlphaGo在對陣李世石九段這種級別的棋手,打劫時的表現。 

2.這次比賽我們使用的是分散式版的AlphaGo,並不是單機版。分散式版對單機版的AlphaGo勝率大約是70%。

[size={defaultattr}]
另外,網友發現,第二場比賽中,AlphaGo與李世石最終棋盤猶如「死」字:

[size={defaultattr}]
在剛剛結束的圍棋人機第二場比賽中,AlphaGo執黑再下一城,原來對李世石抱有很大期望的圍棋界人士信心受到重創,同樣作為職業九段的選手,柯潔甚至在第二場比賽未結束時就表示,現在只希望李世石贏一場扳回面子就好。那麼問題來了,AlphaGo再下一城,這是否代表真正的智慧已經誕生?

[size={defaultattr}]
AlphaGo:是黑科技,但不神祕
可以這樣說,AlphaGo代表了當今最先進的人工智慧,它基於深度學習演算法,只能模擬人類神經元的行為模式,從一種輸入得到一種輸出結果。雖然這是一種黑科技,但是並沒有什麼神祕的東西在裡面。

[size={defaultattr}]
上圖是深度學習的基本模型,就是模擬人的神經元軸突建立過程。當前的問題是深度學習軟體模擬神經元,效率非常差。除非有憶阻器這種突破性技術,完全的重構計算機技術架構。這種技術要求一個單元能與數十萬個其他單元建立物理連線電路,並且能不斷更新。想像下如果有模擬一億個神經元。每個神經元模擬100萬個連線。就是100萬億條線路。人腦有800億個神經元。能達到人類一樣計算能力的深度學習機器要能產生8萬億條線路。GOOGLE的DEEP MIND要匹敵人腦的判斷能力,可能背後需要數萬顆高度整合的記憶單元的超級電腦叢集來支援的。如果有一天這種技術得到普及,那麼計算機會到達人一樣高速識別影象和視訊等功能。當然,ALPHAGO是智慧的。因為它能模擬人腦的部分功能,實現一種類似人腦模式運算部分的功能,也可能模仿人類的行為惟妙惟肖,但是如果你要是問裡面這裡面會不是產生意識。答案是絕對沒有。
ALPHAgo不可能產生任何自我意識。任何人工智慧連意識的邊都沾不上。實際上已知技術中,除了跟妹子造人,產物能產生意識之外。還沒有任何路徑可以產生有意識的產品。
人的大腦分兩個部分。一部分(大腦皮質)負責產生意識。一部分負責記憶、運算。DEEP MIND這種深度學習演算法模擬的是後者。但對於前者,我們人類還一無所知,連理論方向都沒有,更不要說模擬了。
1 •2•3
機器人是什麼
機器人(Robot)是自動執行工作的機器裝置。它既可以接受人類指揮,又可以執行預先編排的程式,也可以根據以人工智慧技術制定的原則綱領行動。它的任務是協助或取代人類工作的工作,例如生產業、建築業,或是危險的工作。
AlphaGo利用兩個大腦贏了李世石
AlphaGo是通過兩個不同神經網路“大腦”合作來改進下棋。這些大腦是多層神經網路跟那些Google圖片搜尋引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網路處理圖片一樣。經過過濾,13 個完全連線的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

[size={defaultattr}]
這些網路通過反複訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以我們是不可能精確知道網路是如何“思考”的,但更多的訓練後能讓它進化到更好。
第一大腦: 落子選擇器(Move Picker)
AlphaGo的第一個神經網路大腦是“監督學習的策略網路(Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。你可以理解成“落子選擇器”。

[size={defaultattr}]
落子選擇器是怎麼看到棋盤的?數字表示最強人類選手會下在哪些地方的可能。
團隊通過在KGS(網路圍棋對戰平臺)上最強人類對手,百萬級的對弈落子去訓練大腦。這就是AlphaGo最像人的地方,目標是去學習那些頂尖高手的妙手。這個不是為了去下贏,而是去找一個跟人類高手同樣的下一步落子。AlphaGo落子選擇器能正確符合57%的人類高手。(不符合的不是意味著錯誤,有可能人類自己犯的失誤)
更強的落子選擇器
AlphaGo系統事實上需要兩個額外落子選擇器的大腦。一個是“強化學習的策略網路(Policy Network)”,通過百萬級額外的模擬局來完成。你可以稱之為更強的。比起基本的訓練,只是教網路去模仿單一人類的落子,高階的訓練會與每一個模擬棋局下到底,教網路最可能贏的下一手。Sliver團隊通過更強的落子選擇器總結了百萬級訓練棋局,比他們之前版本又迭代了不少。
單單用這種落子選擇器就已經是強大的對手了,可以到業餘棋手的水平,或者說跟之前最強的圍棋AI媲美。這裡重點是這種落子選擇器不會去“讀”。它就是簡單審視從單一棋盤位置,再提出從那個位置分析出來的落子。它不會去模擬任何未來的走法。這展示了簡單的深度神經網路學習的力量。
更快的落子選擇器
AlphaGo當然團隊沒有在這裡止步。下面我會闡述是如何將閱讀能力賦予AI的。為了做到這一點,他們需要更快版本的落子選擇器大腦。越強的版本在耗時上越久-為了產生一個不錯的落子也足夠快了,但“閱讀結構”需要去檢查幾千種落子可能性才能做決定。
Silver團隊建立簡單的落子選擇器去做出“快速閱讀”的版本,他們稱之為“滾動網路”。簡單版本是不會看整個19*19的棋盤,但會在對手之前下的和新下的棋子中考慮,觀察一個更小的視窗。去掉部分落子選擇器大腦會損失一些實力,但輕量級版本能夠比之前快1000倍,這讓“閱讀結構”成了可能。
第二大腦:棋局評估器(Position Evaluator)
AlphaGo的第二個大腦相對於落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是論文中提到的“價值網路(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那麼AI就跳過閱讀在這一條線上的任何更多落子。

[size={defaultattr}]
局面評估器是怎麼看這個棋盤的。深藍色表示下一步有利於贏棋的位置。
局面評估器也通過百萬級別的棋局做訓練。Silver團隊通過複製兩個AlphaGo的最強落子選擇器,精心挑選隨機樣本創造了這些局面。這裡AI 落子選擇器在高效建立大規模資料集去訓練局面評估器是非常有價值的。這種落子選擇器讓大家去模擬繼續往下走的很多可能,從任意給定棋盤局面去猜測大致的雙方贏棋概率。而人類的棋局還不夠多恐怕難以完成這種訓練。
增加閱讀
這裡做了三個版本的落子選擇大腦,加上局面評估大腦,AlphaGo可以有效去閱讀未來走法和步驟了。閱讀跟大多數圍棋AI一樣,通過蒙特卡洛樹搜尋(MCTS)演算法來完成。但AlphaGo比其他AI都要聰明,能夠更加智慧的猜測哪個變種去探測,需要多深去探測。

[size={defaultattr}]
蒙特卡洛樹搜尋演算法
如果擁有無限的計算能力,MCTS可以理論上去計算最佳落子通過探索每一局的可能步驟。但未來走法的搜尋空間對於圍棋來說太大了(大到比我們認知宇宙裡的粒子還多),實際上AI沒有辦法探索每一個可能的變種。MCTS做法比其他AI有多好的原因是在識別有利的變種,這樣可以跳過一些不利的。
Silver團隊讓AlphaGo裝上MCTS系統的模組,這種框架讓設計者去嵌入不同的功能去評估變種。最後馬力全開的AlphaGo系統按如下方式使用了所有這些大腦。
1. 從當前的棋盤佈局,選擇哪些下一步的可能性。他們用基礎的落子選擇器大腦(他們嘗試使用更強的版本,但事實上讓AlphaGo更弱,因為這沒有讓MCTS提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對後來有利的下法。
2. 對於每一個可能的落子,評估質量有兩種方式:要麼用棋盤上局面評估器在落子後,要麼執行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閱讀的落子選擇器去提高搜尋速度。AlphaGo使用簡單參數,“混合相關係數”,將每一個猜測取權重。最大馬力的AlphaGo使用50/50的混合比,使用局面評估器和模擬化滾動去做平衡判斷。
這篇論文包含一個隨著他們使用外掛的不同,AlphaGo的能力變化和上述步驟的模擬。僅使用獨立大腦,AlphaGo跟最好的計算機圍棋AI差不多強,但當使用這些綜合手段,就可能到達職業人類選手水平。

[size={defaultattr}]
AlphaGo的能力變化與MCTS的外掛是否使用有關
這篇論文還詳細講了一些工程優化:分散式計算,網路計算機去提升MCTS速度,但這些都沒有改變基礎演算法。這些演算法部中分精確,部分近似。在特別情況下,AlphaGo通過更強的計算能力變的更強,但計算單元的提升率隨著效能變強而減緩。
然而,AlphaGo還遠不是真正的人工智慧
AlphaGo獲勝,讓很多人心裡更加惶恐,不久的未來,機器人是否就會取代大部分人類的工作,甚至會統治人類呢?從AlphaGo目前的水平來看,這是不可能的,先給大家一個安心的結論,AlphaGo還遠不是真正的人工智慧,也沒有誕生真正的智慧,會下圍棋跟誕生智慧是兩碼事情,下棋很厲害的人工智慧跟真正的類人智慧AI也是兩碼事情。
重新回到這場備受矚目的人機大戰,讓我們來好好分析一下AlphaGo到底是怎麼下棋的。
首先,自我對弈幾千萬局得出阿爾法狗面對李世石可以秒落子,這個並不嚴謹。AlphaGo只是個引擎,它的那幾千萬局自我對局訓練跟這次下棋比賽是完全不同的。訓練的時候AlphaGo是連線著全球最豪華的谷歌雲網路資料、雲端計算網路,有數千臺伺服器來協助它進行對局訓練,以達到快速提升的目的。而這次比賽中AlphaGo是被禁止聯網以防止作|弊,純粹依靠自身來應對局面。顯然這二者進行時它的運算能力是完全不同的,實際上AlphaGo也並沒有出現所謂的秒落子的情況,當然它計算所花的時間是極短的著是毫無疑問的。
其次,秒落子這件事本身並沒有多麼可怕,這個是建立在計算機強大的計算效能上的,與AI的智慧程度也沒多大關係。圍棋的規矩擺在那裡,就算李世石落一子,電腦跟著秒落子。然後呢?然後他還是要等李世石落下一子之後它才能接著下,不存在說不給李世石思考的時間。就算你是秒下,人家並不是,圍棋是回合製,你再快下完了也得等人家接了才能走下一步。
從實際來看也是如此。至於消耗的時間本身也不難理解,硬體效能和演算法本身都有個侷限性在那裡,所以對於計算機來說,它既可以可以秒下,也可以計算無限長的時間。
舉個例子,如果是給一道數學計算題,要人和電腦算結果。人要算十分鐘,計算機一秒不到就夠了,這是確確實實計算能力的差距,因為這道題結果是唯一的,是有標準答案的。但圍棋不同,不存在你一秒鐘找到了個最優解,因為本來就無所謂最優解,後續有無窮的變化。花費的時間短,只是計算考慮的情況就越少。當然花費的時間多,算得越多,也不代表就越正確。
所以這個思考時間說明不了什麼,這裡本來就是機器的長處所在,算得比人類快很正常。如果算的時間長也只能說明它計算得更詳細更複雜以力圖尋求更好的可能,也屬正常。
所以說,AlphaGo所謂的“思考”,本質上還是跟人類棋手一樣的。只是在模擬和預測之後棋局的變化,這跟我們所說的超級人工智慧的思想有本質區別。這裡是超級電腦在專業領域戰勝人類的問題,那是類似著名的“故意不通過圖靈測試”的AI人性化問題。
從這個比賽,目前只能看出AlphaGo下棋厲害,而沒看出來它多麼像人。它目前沒有什麼違反常理的行為,它體現出來的強大是在純憑邏輯分析推算的能力上強大無比,但是其原理並非類人人工智慧,並沒有表現出感情,它仍是冰冷的機器。它獲勝了,也就獲勝了,沒有自己給自己斷個電來壓壓驚。
注意——人工智慧邏輯分析和計算決策等能力變得比人類厲害,和人工智慧變得更像一個真正的人類,這二者是有區別的。AlphaGo顯然不屬於後者的情況,它的誕生和發展是並不是為了變得更像一個真人,而是承擔著在計算機擅長的領域代替人類完成那些受限於人腦計算能力所不能解決的運算決策問題的重任。它下棋已經足夠優秀,但是離廣泛實用的計算平臺還差得遠。但是畢竟是巨大的進步,它的未來是作為人類的助理,去處理那些純邏輯分析的問題;而不是作為人類的夥伴,來跟你交流對話。
所以,AlphaGo目前還只是個下棋機器而已。棋手跟它下棋與跟人下棋也是不同的。下棋本身也是一種交流,這個很多大師都講過,稍微對圍棋文化了解的人也都知道。圍棋的魅力絕不僅僅在於計算。對局也是一種交流,棋手的性格、心態也會影響落子的判斷,對於對手的心態、性格的估計也會計入對局的考量,這並非純理性思考的競賽,這也是圍棋比賽和棋手實力的一部分。然而在AlphaGo面前這些都不存在,它無所畏懼也不會緊張。李世石也不需要去考慮AlphaGo有什麼想法。這是比下棋,並不是比畫畫或者寫詩。
所以這壓根不能算是個討論AI是否真正誕生智慧的例子,我們也無需擔憂。AlphaGo代表的是另一個領域的顯著進步,代表的是未來全新的前景。但就像李開復所說的一樣,我們真正要擔心的,是這些繁瑣的計算和思考都可以由電腦來完成之後,當臟活累活都可以被機器代替之後,人類會不會變得不思進取,無所事事而開始墮落放縱。
李開復表示,AlphaGo雖然很厲害,但是說白了其實還是一個聰明的機器,擁有高速的思考和運算能力,會幫助我們在購買股票、醫療等領域有很好的幫助。不過機器終歸沒有情感,只是人類工具而已,所以我們主要需要利用人工智慧創造更大的商業和科技價值。
via-今日頭條 弈棋
[/center]


[圖擷取自網路,如有疑問請私訊]

本篇
不想錯過? 請追蹤FB專頁!    
前一頁 後一頁