小扎說人工智慧仍需要人類給出足夠的引導，機械人需要完成「無人指導下的學習」，目前這種理論目前是否存在？

1樓：

無人指導下的學習不就是reinforcement learning麼...機器在不知道任何先驗知識的情況下自己感知環境（state），根據一定的策略（policy），作出動作（action）後獲得環境反饋的獎勵（reward），並且進入下乙個state...

然後機器自己通過不斷地迭代改進策略...

人類只是定義了問題和迭代框架...

2樓：fly qq

算有吧。無人指導下的學習 = Unsupervised Learning

這個問題其實就涉及到學者對機器學習的分類了：監督學習Supervised Learning, 強化學習Reinforcement Learning, 無監督學習Unsupervised Learning

Supervised Learning：應該是目前應用最廣泛的機器學習類別了。就是提供一系列有標記的資料給機器學習演算法，讓這些演算法學習到標記資料的規律。

具體應用可以是分類（classification）或者回歸（regression），演算法如決策樹、貝葉斯、SVM、隨機森林、神經網路等。但這種機器學習方法對訓練資料非常依賴。

例如下面這類題目，我們人類能夠根據給定的訓練資料，正確判斷測試資料對應的結果。當然，現在的機器學習演算法需要更多的資料集。

Reinforcement Learning：這個是另外一大類機器學習方法，大概就是通過定義獎懲機制，讓機器不斷嘗試、搜尋出合適的策略。這類方法有點類似於控制方法，最終找到的策略就是根據當前狀態給出對應的動作，最近很火的AlphaGo就是用的類似方法。

當然，演算法的話，有Q-learning，TD-learning，Deep Reinforcement Learning等。

這類演算法相比於監督學習，對標記資料的要求或者說人類的介入就更少了，我們只需要指定乙個目標，讓機器不斷嘗試就行了。畢竟，我們使用機械人的時候是會希望它能實現某些功能，因此，必然存在某些評價指標，所以，我認為RL會是下一階段機械人的爆發點。

Unsupervised Learning：這應該是機器學習研究者的終極夢想了，就是我們不需要給資料做標記、也不需要特別指明目標，演算法就能在一堆未標記資料中找到可用的資訊。應用可以是聚類、異常檢測、資料降維等。

演算法有k-means，PCA等。這部分的內容還有待進一步研究，就連我們人類自身，在面對不同的分類問題時，不同人都可能給出不同結果。

例如下面這類題目，有些人可能會認為答案是(b)帽子不是容器；但也有人認為是(d)沒有把手。