機器學習中的邏輯回歸演算法很常見，但是邏輯回歸中的邏輯二字如何理解？

1樓：華子

原回答：

我也是最近才知道這個歷史，因為最開始的時候這個東西是乙個英中國人研究父母身高 X 和子女身高 Y 關係的時候，搞出來的。

他發現A家庭父母都是一公尺九，B家庭父母都是一公尺六，結果A家庭子女一公尺八五，B 家庭子女一公尺七，兩個家庭的子代身高"回歸"到乙個中間值。（以上資料只是我瞎編的例子，但道理是這個道理，100代後姚明子女和郭敬明子女可能身高回歸到人類均值。）

但現在我們說的回歸，指的是看資料集X 和資料集Y 有什麼關係，不一定要回歸到乙個均值，但為了紀念當年的這個英中國人的發現，我們還是叫它回歸（regression）。

發現答歪了，原題主問的是為什麼叫"邏輯"，關於這個問題我來說一下我的心路歷程。

本身是學EE的，所以一開始覺得一定是因為結果是二分類的，所以就像 logic gate 一樣，結果當作0，1 所以是logistic regression

後來發現好像不是這樣。

「 The function that computes the natural logarithm of the odds from a fraction is called the logit function (pronounced with a long O and a soft G), so regression used to predict the logit of a probability from multiple independent variables is called logistic regression. 」重點是那個方程。log(odd)有自己的名字叫 logit，其中odd的定義是可能發生的機率比上不可能發生的機率，p/（1-p）。

這裡面的對數log底數一般取 e，這個方程幹的事情，就是從勝率比推導出乙個正負無窮區間內的值，賭博的時候算賠率，比如有乙個100面的色子，只有轉到100算開大，其他都算開小，試想你買大，p=1/100，1-p=99/100，log（1/99），乙個絕對值挺大的負數沒跑的了，對應的因為你輸的概率大，莊家在你贏的時候給你的錢就會多。扯題了，總之記住這個log底對數就是把概率變成了乙個正負無窮區間內的數。

反之，這玩意的反函式就是logistic regression了，現在我們有的是正負無窮內的值，要求的是他的概率，正函式叫logit，反函式求regression我想就叫logistic regression。

機器學習中的邏輯回歸演算法很常見，但是邏輯回歸中的邏輯二字如何理解？

機器學習的梯度下降演算法中尋找最合適學習率「阿爾法」的意義是什麼？

關於機器學習演算法中的smote處理不平衡問題，是針對於整個資料集處理還是僅針對訓練集來處理？

機器學習（包括但不限於深度學習）和優化演算法中有哪些 fundamental trade off？

其他用戶還看了：