A B 測試有什麼侷限性?

時間 2021-05-05 22:13:48

1樓:瑩玉

雖然AB測試可以輔助決策,但是卻有它的侷限:

1、我們只能在我們所能想到的方案中去測試,我們能想到什麼取決於組織內部知識經驗和資訊檢索能力。

就像螞蟻無法理解宇宙飛船一樣,你不會提出你都不知道的方案。

2、這個測試可能只是在這個時刻,這個情景下有用。

就像沒有選擇排名第一的名字,而選擇「抖音」一樣,一些超越當前時間和空間的決策因素,AB測試就無力了。

3、即使做了AB測試,也可能因為測試過程中操作不當,提供了錯誤的決策資訊。

比如樣本規模不夠、測試結果不具有顯著性、反向相關因素干擾、分層干擾、辛普森悖論等等。

那麼什麼樣的情況是比較適合做AB測試的呢?

UI優化、文案變化、頁面布局、演算法優化。

2樓:劉啟林

假設檢驗的侷限主要有兩個:

所以不能僅僅用某個值來量化,還需要用範圍來量化,比如置信區間。

其二:假設檢驗的顯著性並不能反應業務價值的大小

所以需要效應量(effect size)等指標,量化其對業務價值的大小。

假設檢驗的侷限

所以,A/B測試實現本身就是一種侷限,但實現的指標多,功能全,又會帶來成本高、複雜度大的問題。

其一:A/B測試適用於單變數,不適用多變數

變數多,你沒法控制試驗,比如產品改動大,重大熱點事件發生等等。

其二:A/B測試不適用於使用者少,產品不成熟

使用者少,樣本量不夠,是沒法做試驗;

產品不成熟,不確定性多,無法用A/B測試驗證。

其三:缺乏統計思維,無法用好A/B測試的

指導思想錯了,行為是盲目的,對產品傷害更大。

A/B測試的使用侷限

行業經驗,在科學的前提下,可能只有1/3的A/B測試是有價值的。

行業經驗,在科學的前提下,可能只有1/3的A/B測試是有價值的

所以要科學、大量、快速的進行A/B試驗。

1、從試驗設計、抽樣理論,到假設檢驗,A/B測試的各個環節都可能有誤差,要降低人的主觀性,增強科學性。

2、A/B測試參與方眾多,比如設計人員、開發人員、使用人員,統一不同人員的認知水平,也是A/B測試價值制約因素之一。

3、A/B測試也受心理學影響,比如辛普森悖論、框架效應、實證性偏差、代表性啟發和學習效應等。

雖然A/B測試有這麼多的侷限,但也有相應的解決辦法,詳情見[1]:

劉啟林:A/B測試(A/B試驗)的概述、原理、公式推導、Python實現和應用

A/B 測試雖然是一種重要的資料驅動、試驗驅動的手段,廣泛應用在搜尋、推薦系統、廣告系統、增長黑客、使用者增長、資料分析等領域。但A/B 測試不是唯一手段,若使用其他方法能夠實現我們的商業目標也是可行的。

3樓:雲眼

如果能夠承受整體巨變帶來的影響,就可以不用A/B測試,這時候往往是沒有多少客戶或應用的完善程度遠遠不夠。

如果實施A/B測試的成本太高,收益又不確定,那就不採用了,這可能是大多數公司沒有實施的原因。所以,一方面要降低實施A/B測試的成本,另一方面要提高A/B測試所帶來的收益。

參照:AB測試最佳實踐 - 雲眼-最好的AB測試和個性化系統

4樓:子楠

反饋慢。AB測試需要通過反饋來確認先驗的準確率,所以當你需要驗證多個條件時,有可能趕不上老闆要求的進度。解決方法可以是做出2^驗證條件數量的樣本,同時進行估計。

但是AB測試理論上來說是對一類客戶進行估計,所以當驗證條件很多的時候,要麼就會慢,要麼就會因為每個假設類樣本過少,不能看作是相似類,從而還是需要分別驗證不同條件……也就是反饋又慢了。

找不到原因確實是個問題,但是可以通過對使用者分類,或者看作AB測試對使用者進行了分類,然後把使用者的特徵進行成分分析來做出一些合理的原因假設。這點可以忽略不計,畢竟是可以改善的。

5樓:鄭堅義

說到 A/B Testing,很多人想到的是把多個方案投放出去,然後再通過對比它們的資料,就能輕易地知道孰優孰劣。然而,哪個資料才能作為判斷的依據呢?是單個資料還是多個資料?

使用者在使用這個功能或訪問這個頁面時,他的目標是什麼?是唯一的嗎?還是不同場景也不盡相同?

資料上怎麼區分不同的場景和目標?

容易忽略對間接資料的影響

做 A/B Testing 我們往往只會關注與當前頁面有關的資料對比,也就是對直接資料的影響,但卻容易忽略間接資料。也就是說可能會出現某個目標資料提公升了,但其它功能或頁面的一些重要資料卻下降了。這種情況不能說很多,但也是需要我們留個心眼的。

資料的準確採集不是一件容易的事情

6樓:王冉

首先,我先科普一下什麼是A/B測試:什麼是 A/B 測試? - Mil Max 的回答

再來說侷限性:

1.別期待他是通往成功大門唯一的密鑰匙:

A/B測試的目的在於通過科學的實驗設計、取樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論,並確信該結論在推廣到全部流量可信。

所以,它是用來做實驗的,只能幫你驗證創新是否靠譜的,代替不了創業本身

2. 只要是可量化的指標,任何多維度衡量都是可以的,短期長期也是可以的,問題是你真的需要嘛?

比如需要對比5年的銷售額這樣的事情,也是可以的,甚至可以對比N年前的版本,本質來說它還是工具,你想怎麼應用都可以,但是,基於效率的原因,A/B測試更適合短期的、高頻次的、有一定流量的實驗。

3.人永遠是最大的瓶頸:

先說兩個概念:辛普森悖論與區群謬誤

也就是以偏概全與以全概偏,說白了,最做實驗的人很大程度上決定著實驗結果的真實與有效;

在說兩個誤區:隨機流量與定向測試

如果做A/B測試還在用隨機流量,那涉及到小流量測試的實驗這個工具的準確性只能呵呵了,這樣的工具就不要再用了,具體原因請看科普貼

至於定向測試,很多時候是人為加進來的錯誤造成了實驗結果的不準確。。

人,才是最大的侷限性

漢字有什麼侷限性?

李溯本 Unancha 我只說一點,剛發現的問題,但問題還算挺嚴重的嗎?青語青島話,母子 讀 公升 高 是 雌性 的意思,而讀 低 平 則是通常理解的那個 母親和兒子 的意思 類似的例子還有 小叔 讀 低 平 是 年齡小的叔父 讀 公升 高 則指 丈夫的弟弟 小姑 讀 高 公升 是 年齡小的姑母 讀...

人有什麼侷限性?

Miss Well 人真是大自然的殘劣品,人有太多的缺點和劣性。然而,人的悲劇不在於人的不完美,而在於人的侷限性。人的侷限性就是不能了解自己的不完美。有些人相對好一些,還能知道人是不完美的,但是他們一樣是可悲的。他們的可悲在於不能完全了解自己的不完美。人永遠也沒辦法突破這一侷限性,故而說這是一場悲劇...

《明治憲法》有哪些侷限性?

劉一鳴不著調 明治憲法第一條,大日本帝國陸海軍為萬世一系之天皇統帥。這是明治元老們為了方便自己便宜行事,故意這樣寫的。當年為了征討大清,伊藤博文特意把天皇抬到廣島去。表面上是為了請示方便,實際上是挾天子以令反對派。天皇聽到的只有伊藤博文的意見,也就談不上自主了。到了裕仁這裡,關東軍也這麼玩,東北打了...