2021-02-01 分類: 網(wǎng)站建設(shè)
「沒有數(shù)據(jù),你只是一個有想法的人?!?/p>
這是 W. Edwards 的依據(jù)名言,它表明,A/B 測試對于做出良好的商業(yè)決策來說至關(guān)重要。在 Manomano,我們向數(shù)百萬用戶展示數(shù)百萬 DIY 和園藝產(chǎn)品,并每天進行數(shù)十個 A/B 測試,以改善我們網(wǎng)站的用戶體驗
然而,運行 A/B 測試和解釋結(jié)果可能非常困難,如果做得不對,可能會得到錯誤的結(jié)論。這篇博文的目的不是要說明在運行 A/B 測試時應(yīng)該做什么,而是要告訴你不應(yīng)該做什么。下面是我們在進行 A/B 測試時經(jīng)常會犯的 10 個常見錯誤。
示例:你想測試你的搜索引擎相關(guān)性,但在分析 A/B 測試結(jié)果時,你查看整個總體,而不僅僅是使用搜索引擎的用戶。雖然這在科學(xué)的角度來說不是錯誤的,但是達到統(tǒng)計顯著性需要更長的時間,因為在分析的數(shù)據(jù)中添加了一些噪聲:
經(jīng)驗 1:為了更快地達到統(tǒng)計顯著性,應(yīng)該只觀察與測試功能交互用戶(這里是搜索引擎)的結(jié)果。
不能使用太多變量(A/B/C/../N)進行測試。例如,如果使用 α=5% 顯著性閾值并決定測試 20 個不同的場景,則其中每個場景是正樣本的機會是偶然的。這是多重比較問題的一個例子。因此,業(yè)務(wù)直覺對于決定啟動哪個 A/B 測試至關(guān)重要。為了說明這一點,我們可以修改 W.Edwards Deming 的名言:
「沒有想法,你只是一個有數(shù)據(jù)的人 」
經(jīng)驗 2:用你的直覺(或者更好的方法——做用戶調(diào)查)來決定啟動哪一個 A/B 測試。
這是多重比較問題的另一個例子:「我的 A/B 測試不顯著,因此我將在設(shè)備上對數(shù)據(jù)進行分段以獲得顯著結(jié)果」。在進行數(shù)據(jù)分割時必須非常小心。事實上,你比較的片段越多,結(jié)果中出現(xiàn)錯誤的幾率就越大。
以 country * device 為例,我們在 Manomano 有 n=15 個細(xì)分市場(5 個國家*3 個設(shè)備:法國/手機、法國/桌子、西班牙/平板電腦等)。讓我們計算在其中一個分段上偶然出現(xiàn)至少一個重要結(jié)果的概率:
我們有超過 50% 的機會出現(xiàn)這種偶然性,因此,從分割數(shù)據(jù)的測試中得出結(jié)論并采取行動是非常危險的。但也有一些技術(shù)可以緩解這一問題,比如 Bonferroni 校正。
經(jīng)驗 3:不要為了達到統(tǒng)計顯著性而分割你的數(shù)據(jù)。
多重比較問題的另一個例子是:「我的 A/B 測試在轉(zhuǎn)換率、平均購物籃和跳出率上都沒有顯著結(jié)果。但這對每類購物籃的數(shù)量來說是很重要的!如果你觀察足夠多的指標(biāo),你最終會發(fā)現(xiàn)其中一個指標(biāo)碰巧顯示了一個重要的結(jié)果:
經(jīng)驗 4:堅持測試設(shè)計的標(biāo)準(zhǔn)。
統(tǒng)計顯著性不能告訴你什么時候應(yīng)該停止測試。在停止測試之前,你需要等待以達到計算出的樣本大小。使用 A/B 測試計算器計算測試所需的樣本大小。有關(guān)這種偏差的更多細(xì)節(jié),請閱讀這里的問題說明。你還可以在此處模擬 A/A 測試,以查看在測試早期達到統(tǒng)計顯著性的頻率,即使在測試結(jié)束時結(jié)果不顯著:
使用 james lutrek 工具,根據(jù)樣本數(shù)量觀察 A/A 測試實驗的顯著性經(jīng)驗 5:即使你的測試有統(tǒng)計學(xué)意義(統(tǒng)計顯著性),也要繼續(xù)測試,直到測試結(jié)束。
同樣,統(tǒng)計顯著性不能告訴你什么時候可以停止測試,或者繼續(xù)測試。你不應(yīng)該等待一個測試變得有意義,因為它可能永遠不會發(fā)生。如果你已經(jīng)達到了在測試前計算出的樣本量,這就意味著你的測試有足夠的統(tǒng)計能力得出結(jié)論。
經(jīng)驗 6 :一旦達到所需的樣本量,停止測試。
這是一個很常見的錯誤。p 值為 2% 并不意味著 B 有 98% 的機會比 A 好。這個假設(shè)在數(shù)學(xué)上是錯誤的,因為它還取決于基準(zhǔn)率,即你所做的測試中,有積極影響的百分比(只有上帝知道這個數(shù)字!)。這個數(shù)字反映了你的商業(yè)直覺水平。
假設(shè)我們是上帝,我們知道 ManoMano 的基準(zhǔn)率是 20%。這意味著我們 20% 的測試都是陽性的:
80% 的陽性測試(灰色)拒絕零假設(shè)(統(tǒng)計能力):
5% 的陰性測試(白色)拒絕零假設(shè)(顯著性閾值):
結(jié)論:在 80% 的統(tǒng)計能力、5% 的顯著性閾值和 20% 的基準(zhǔn)率,當(dāng)檢驗被認(rèn)為是陽性(p 值<0.05)時,我們只有 16/(16+4)=80% 的機會是真陽性,而不是 95%。
在這種情況下(統(tǒng)計能力=80%,顯著性閾值=5%),知道你的 A/B 測試結(jié)果是有意義的,下面是一些概率,你的測試實際上是陽性的,這取決于基準(zhǔn)率:
經(jīng)驗 7:(1-p 值)不是檢驗為陽性的概率。如果你還想計算這個概率,使用貝葉斯 A/B 測試方法。
測試所觀察到的增量允讓你可以計算統(tǒng)計顯著性,但將觀察到的增量視為特征帶來的實際增量是錯誤的,這通常需要更多的用戶或會話。
如果不能證明 B 優(yōu)于 A ,則選擇傳遞置信區(qū)間而不是原始增量。為了說明這一點,我們以 A/B 測試為例:
p 值為 0.014,可接受的顯著性水平為 95%,此 A/B 檢驗為陽性,這意味著測試組顯著好于對照組。可以很容易地計算出觀察到的跳出率相對增量:
但將觀測到的增量視為特征帶來的實際增量是不正確的。你應(yīng)該使用標(biāo)準(zhǔn)誤差計算每組的置信區(qū)間:
其中 p 是觀察到的組跳出率,n 是池樣本大小,zα 是對應(yīng)于置信水平 α 的 z 值(在本例中為 95%)。你可以在這里找到通常置信水平的 z 值。
使用此公式,你最終可以計算兩個組的 95% 置信區(qū)間(CI)跳出率:
也可以反計算相對增量(pctdiff)的置信區(qū)間,但它更復(fù)雜。如果需要更多詳細(xì)信息,請參閱這個調(diào)查的第 3.3.2 節(jié)。
經(jīng)驗 8:當(dāng)你的測試為顯著陽性時,應(yīng)該傳遞置信區(qū)間而不是原始增量。
如果你(和你的組織)還沒有準(zhǔn)備好用新的版本更新你的產(chǎn)品,除了確認(rèn)你的偏見,啟動 A/B 測試是沒有意義的。直覺在選擇測試內(nèi)容時至關(guān)重要,但它不應(yīng)與 A/B 測試的結(jié)果相抵觸。
經(jīng)驗 9:與利益相關(guān)者確定測試前的閾值和相關(guān)行動。
為了保證你的 A/B 測試結(jié)果的可靠性,你的 A/B 測試系統(tǒng)必須經(jīng)過校準(zhǔn)并正常工作。確保這種可靠性的一種方法是持續(xù)進行 A/A 測試,并檢查這兩種人群之間沒有顯著差異:
Manomano 的連續(xù) A/A 測試允許我們快速檢測 8 月份遇到的緩存錯誤,由于該錯誤,8 月 20 日到 8 月 22 日之間進行的所有測試無效。
經(jīng)驗 10:持續(xù)進行 A/A 測試,以檢測可靠性。
如你所見,在分析 A/B 測試結(jié)果時出錯的風(fēng)險非常高,而在測試之后所做的決策對你的公司來說至關(guān)重要。因此,你應(yīng)該對給到你的 A/B 測試結(jié)果持懷疑態(tài)度,特別是當(dāng)這個結(jié)果來自于一個對取得積極結(jié)果有強烈興趣的人(例如,一個想賣給你東西的人)時尤其如此。在 ManoMano,我們有一個值得信賴的委員會,幫助分析所有內(nèi)部和外部 A/B 測試的結(jié)果,并對結(jié)論有著公正的看法。
網(wǎng)站欄目:數(shù)據(jù)分析師必看,老司機帶你認(rèn)識 AB 常見的10個錯誤
當(dāng)前網(wǎng)址:http://m.rwnh.cn/news43/98493.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供服務(wù)器托管、品牌網(wǎng)站設(shè)計、網(wǎng)頁設(shè)計公司、建站公司、域名注冊、網(wǎng)站營銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容