A B 測試有什麼侷限性？

1樓：瑩玉

雖然AB測試可以輔助決策，但是卻有它的侷限：

1、我們只能在我們所能想到的方案中去測試，我們能想到什麼取決於組織內部知識經驗和資訊檢索能力。

就像螞蟻無法理解宇宙飛船一樣，你不會提出你都不知道的方案。

2、這個測試可能只是在這個時刻，這個情景下有用。

就像沒有選擇排名第一的名字，而選擇「抖音」一樣，一些超越當前時間和空間的決策因素，AB測試就無力了。

3、即使做了AB測試，也可能因為測試過程中操作不當，提供了錯誤的決策資訊。

比如樣本規模不夠、測試結果不具有顯著性、反向相關因素干擾、分層干擾、辛普森悖論等等。

那麼什麼樣的情況是比較適合做AB測試的呢?

UI優化、文案變化、頁面布局、演算法優化。

2樓：劉啟林

假設檢驗的侷限主要有兩個：

所以不能僅僅用某個值來量化，還需要用範圍來量化，比如置信區間。

其二：假設檢驗的顯著性並不能反應業務價值的大小

所以需要效應量（effect size）等指標，量化其對業務價值的大小。

假設檢驗的侷限

所以，A/B測試實現本身就是一種侷限，但實現的指標多，功能全，又會帶來成本高、複雜度大的問題。

其一：A/B測試適用於單變數，不適用多變數

變數多，你沒法控制試驗，比如產品改動大，重大熱點事件發生等等。

其二：A/B測試不適用於使用者少，產品不成熟

使用者少，樣本量不夠，是沒法做試驗；

產品不成熟，不確定性多，無法用A/B測試驗證。

其三：缺乏統計思維，無法用好A/B測試的

指導思想錯了，行為是盲目的，對產品傷害更大。

A/B測試的使用侷限

行業經驗，在科學的前提下，可能只有1/3的A/B測試是有價值的。

行業經驗，在科學的前提下，可能只有1/3的A/B測試是有價值的

所以要科學、大量、快速的進行A/B試驗。

1、從試驗設計、抽樣理論，到假設檢驗，A/B測試的各個環節都可能有誤差，要降低人的主觀性，增強科學性。

2、A/B測試參與方眾多，比如設計人員、開發人員、使用人員，統一不同人員的認知水平，也是A/B測試價值制約因素之一。

3、A/B測試也受心理學影響，比如辛普森悖論、框架效應、實證性偏差、代表性啟發和學習效應等。

雖然A/B測試有這麼多的侷限，但也有相應的解決辦法，詳情見[1]：

劉啟林：A/B測試(A/B試驗)的概述、原理、公式推導、Python實現和應用

A/B 測試雖然是一種重要的資料驅動、試驗驅動的手段，廣泛應用在搜尋、推薦系統、廣告系統、增長黑客、使用者增長、資料分析等領域。但A/B 測試不是唯一手段，若使用其他方法能夠實現我們的商業目標也是可行的。

3樓：雲眼

如果能夠承受整體巨變帶來的影響，就可以不用A/B測試，這時候往往是沒有多少客戶或應用的完善程度遠遠不夠。

如果實施A/B測試的成本太高，收益又不確定，那就不採用了，這可能是大多數公司沒有實施的原因。所以，一方面要降低實施A/B測試的成本，另一方面要提高A/B測試所帶來的收益。

參照：AB測試最佳實踐 - 雲眼-最好的AB測試和個性化系統

4樓：子楠

反饋慢。AB測試需要通過反饋來確認先驗的準確率，所以當你需要驗證多個條件時，有可能趕不上老闆要求的進度。解決方法可以是做出2^驗證條件數量的樣本，同時進行估計。

但是AB測試理論上來說是對一類客戶進行估計，所以當驗證條件很多的時候，要麼就會慢，要麼就會因為每個假設類樣本過少，不能看作是相似類，從而還是需要分別驗證不同條件……也就是反饋又慢了。

找不到原因確實是個問題，但是可以通過對使用者分類，或者看作AB測試對使用者進行了分類，然後把使用者的特徵進行成分分析來做出一些合理的原因假設。這點可以忽略不計，畢竟是可以改善的。

5樓：鄭堅義

說到 A/B Testing，很多人想到的是把多個方案投放出去，然後再通過對比它們的資料，就能輕易地知道孰優孰劣。然而，哪個資料才能作為判斷的依據呢？是單個資料還是多個資料？

使用者在使用這個功能或訪問這個頁面時，他的目標是什麼？是唯一的嗎？還是不同場景也不盡相同？

資料上怎麼區分不同的場景和目標？

容易忽略對間接資料的影響

做 A/B Testing 我們往往只會關注與當前頁面有關的資料對比，也就是對直接資料的影響，但卻容易忽略間接資料。也就是說可能會出現某個目標資料提公升了，但其它功能或頁面的一些重要資料卻下降了。這種情況不能說很多，但也是需要我們留個心眼的。

資料的準確採集不是一件容易的事情

6樓：王冉

首先，我先科普一下什麼是A/B測試：什麼是 A/B 測試？ - Mil Max 的回答

再來說侷限性：

1.別期待他是通往成功大門唯一的密鑰匙：

A/B測試的目的在於通過科學的實驗設計、取樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論，並確信該結論在推廣到全部流量可信。

所以，它是用來做實驗的，只能幫你驗證創新是否靠譜的，代替不了創業本身

2. 只要是可量化的指標，任何多維度衡量都是可以的，短期長期也是可以的，問題是你真的需要嘛？

比如需要對比5年的銷售額這樣的事情，也是可以的，甚至可以對比N年前的版本，本質來說它還是工具，你想怎麼應用都可以，但是，基於效率的原因，A/B測試更適合短期的、高頻次的、有一定流量的實驗。

3.人永遠是最大的瓶頸：

先說兩個概念：辛普森悖論與區群謬誤，

也就是以偏概全與以全概偏，說白了，最做實驗的人很大程度上決定著實驗結果的真實與有效；

在說兩個誤區：隨機流量與定向測試，

如果做A/B測試還在用隨機流量，那涉及到小流量測試的實驗這個工具的準確性只能呵呵了，這樣的工具就不要再用了，具體原因請看科普貼

至於定向測試，很多時候是人為加進來的錯誤造成了實驗結果的不準確。。

人，才是最大的侷限性

A B 測試有什麼侷限性？

漢字有什麼侷限性？

人有什麼侷限性？

《明治憲法》有哪些侷限性？

其他用戶還看了：