4G即時影像行車紀錄【Mobile01推薦】遊覽車行車紀錄器評比～專家實測分享－多多的超值清單

阿爾法元來瞭人類限制瞭機器的想象力嗎？

6鏡頭行車記錄器

誰能想到，我們會在一年之內連續被AlphaGo刷屏兩次？關於阿爾法元如何快速學習成長擊敗AlphaGo Lee和AlphaGo Master的新聞這裡就不再贅述，給出兩個關鍵信息，供讀者一起思考。

一、阿爾法元沒有錄入人類棋譜數據，單純通過自我對弈，依靠強化學習取得瞭現在的能力。

二、阿爾法元的工作和訓練效率都有瞭很大的提升，僅用瞭三天的時間就能擊敗原版阿爾法狗，同時在推理時，阿爾法元隻用瞭4塊TPU。

阿爾法元之所以震撼瞭整個業界，是因為當我們以為Master已經封神時，它用三天的時間告訴人類，人類以為的最高水平，在機器面前不值一提。人類經驗成瞭阿爾法狗的累贅，甩掉這些，算法可以更快更好的完成任務。

對於很多人來說，這是一個巨大的打擊：我們引以為傲的大數據不僅僅會誤導算法，還會占用更多的計算資源，阻礙瞭通用人工智能的發展。

這篇文章的主要任務，就是來安撫一下驚慌失措的人類。先從第一個問題說起，看看阿爾法元到底是怎麼提升計算效率的。

從監督學習到強化學習

4G即時影像行車紀錄以前在國際象棋的人機對弈中，計算機使用暴力窮舉法推算雙方對峙時的種種可能，通過運算速度取勝。可窮舉法一度曾經被認為不適合圍棋，圍棋每走一步就會創多鏡頭行車紀錄器影片造出19×19種可能，運算量太過巨大。

直到有人開始用卷積神經網絡解決圍棋問題，用卷積神經網絡擅長的降維降低搜索空間，機器便有瞭戰勝人類的可能。

在擊敗瞭柯潔的阿爾法狗大師版本中，應用瞭整整40層的策略網絡/價值網絡，前者用於確定當前局面，預測下一步行動，價值網絡則用來判斷執黑執白兩方的勝率。另外，還要加入快速走子系統，以在稍微犧牲走棋質量的前提下，極高的提升運算速度。最後，再用蒙特卡羅樹搜索算法把以上三者連接起來。

而阿爾法元則直接將策略網絡和價值網絡相結合，並且去掉瞭快速走子系統。也就是說，以往由三部分組成的阿爾法狗在如今直接變成瞭一個整體。

簡化之後，策略+價值網絡的輸入特征由48個減少到瞭17個，加上被刪掉的快速走子系統，基本關於人類圍棋的知識都被去掉瞭。

從圖中可以看到，沒有任何人類知識的阿爾法元，在自我對弈的初期常常出現一些毫無邏輯的詭異棋局，可到瞭後期，卻總能有出其不意的打法。

去掉人類已知知識的特征輸入，意味著阿爾法元從監督學習走向瞭強化學習——分裂成兩個一無所知的棋手，開始對弈，出現勝者後用結果進行訓練，然後繼續循環對弈。

而走向強化學習，不僅僅是因為去掉瞭人類棋譜的監督，還有關於殘差網絡的應用。殘差網絡可以理解為卷積神經網絡的深化，簡單來說，就是盡量減少每一層網絡的神經元，而把網絡做的更深。結合阿爾法元從監督學習轉向強化學習，減少瞭輸入特征，也利於把整個神經網絡做的更加簡單粗暴。

總之，阿爾法元的重點就在於，去掉人類的圍棋知識所需的計算的資源，把網絡做的更深，好讓阿爾法元在越來越深的網絡中自己發現這些知識。

而阿爾法元的確做到瞭。

甩掉數據，通用人工智能就來瞭嗎？

所以，阿爾法元效率提升的重點在於，去掉人類數據的監督，才有可能實現結構的優化。

那麼同樣的套路，可以應用在其他領域嗎？

答案很有可能讓人失望。

首先，圍棋這種遊戲本身就是透明規則的數學計算，此前的Master和Lee，無非是在沒法單純使用推理時的權宜之計。到瞭其他無法使用通行透明規則的領域，深度學習可能就沒那麼好用瞭。

今年DeepMind對《星際爭霸》的挑戰就是案例之一，把整個遊戲拆分成多個仿真場景，企圖以分佈式的模擬訓練解決整體問題。可目前來看，結果卻不盡如人意。畢竟在不完全信息環境中，對長期規劃能力、多智能體協作能力的考驗都太過嚴苛瞭。機器都不一定能很好的模仿人類的經驗，更不必提完全依靠機器的自己瞭。

在強化學習中，最容易出現的情況就是機器隻顧獲取單一條件下的獎勵，無法顧及到多任務環境中的整體進程。

遊戲中尚且如此，那在語音識別、圖像識別等等其他領域中，數據的價值就更為重要瞭。現在提出強化學習=通用人工貨車行車記錄器安裝智能，還為時尚早。

所以，沒有必要因為數學遊戲中的失敗就去否定人類存在的價值。用自己短處去和機器的長處相比，才是最沒意義的事。

人類限制瞭機器的想象力嗎？

而提到人類的短處，就不得不說在阿爾法元和Master對弈中發現的有趣的信息。對典型的，就是在人類的影響下，Master常常走向局部最優。而一些圍棋手們在剛剛接觸圍棋時就要學習的打法，阿爾法元卻在訓練的極後期才能發現。

用我們常常評論學大貨車行車紀錄器推薦校教育的話講，就是人類的規則限制瞭機器的想象力。

這一切提醒瞭我們兩件事，第一，由於人類自身能力所限，我們常常限於局部收斂而不自知，進而會影響機器學習的能力;第二，大數據中的信息噪聲不可忽視。

也就是說，如果總是依靠人類經驗和數據，依靠機器學習的人工智能的水平頂多是一個腦子特別好使人類。

而阿爾法元的成功，是不是告訴瞭我們，依靠強化學習繞過大數據的局限、甚至是人類本身的局限？

雖然在很多沒有明確規則的場景中強化學習還表現乏力，但我們是否可以創造仿真環境，嘗試用強化學習重新解讀那些我們習以為常的基礎問題？比如分子的組成和運動甚至基礎物理，以此能影響到的材料、生物等等領域，都有著無限的想象空間。

阿爾法元對通用人工智能的推進雖然有限，卻證實瞭用物美價廉的強化學習解決更多問題的可能。在未來，我們可以期待更多商業化的場景，看看強化學習是不是真的能讓機器學習有更多的應用空間。

作為一個從小就數學不好的人，我非常坦然的接受瞭自己的失敗——作為人類，我們的計算能力的確輸瞭機器一大截。那些通過計算而得來的智慧，顯然也不見得比機器更高明。

可我們存在的意義，從來不是算數，而是把自己的能力付諸到更高級的系統上，發揮出更強大的作用。就像我們不曾被計算器打敗一樣，雖然在計算這件事上，阿爾法元青出於藍。可換個角度想想，我們自己作為算法的發明者，看著自己的造物補足瞭自己能力上的不足，是不是應該露出造物神一樣的微笑呢？

equ240gs26

多多的超值清單

equ240gs26 發表在痞客邦留言(0) 人氣()

E-mail轉寄

多多的超值清單

多多的超值清單

4G即時影像行車紀錄【Mobile01推薦】遊覽車行車紀錄器評比～專家實測分享

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

多多的超值清單

多多的超值清單

4G即時影像行車紀錄 【Mobile01推薦】遊覽車行車紀錄器評比～專家實測分享

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

4G即時影像行車紀錄【Mobile01推薦】遊覽車行車紀錄器評比～專家實測分享