Framework Deep Dive

A/B 測試框架 A/B Testing

用對照實驗驗證產品決策,確保變更有統計顯著性支撐,而非基於直覺。

提出者
Ronald Fisher(統計學)/ Google(產品應用)
來源
實驗設計方法論
適合階段
功能優化 · 轉換提升 · 持續迭代
使用時長
1-4 週(含設計+執行+分析)
⬇ 下載 Skill

什麼時候該用它?

當團隊對「A 方案好還是 B 方案好」爭論不休的時候,A/B 測試讓數據說話。

  • 轉換率優化:結帳流程、Landing Page、CTA 按鈕的設計選擇
  • 功能驗證:新功能上線前,先對一小群使用者測試效果
  • 定價實驗:不確定 $299 還是 $399 更好時
  • 文案選擇:Email 主旨、推播文案、商品標題的效果比較
  • 演算法調整:推薦系統、搜尋排序的參數調整

框架結構

基本原理

把使用者隨機分成兩組:

  • Control(對照組):看到現有版本
  • Treatment(實驗組):看到新版本

兩組在相同時間、相同條件下跑,唯一的差異就是你要測試的那個變數。

關鍵概念

1. 假設(Hypothesis)

格式:「如果我們 [做什麼改變],那麼 [目標指標] 會 [怎麼變],因為 [背後原因]。」

例:「如果我們把 CTA 從『了解更多』改成『免費試用 14 天』,那麼點擊率會提升 15%,因為具體的價值承諾降低了使用者的決策門檻。」

2. 樣本量(Sample Size)

需要多少使用者才能得到可靠結論?太少會得到隨機結果,太多浪費時間。通常需要每組 1,000-10,000 人,取決於你期望偵測到的差異大小。

3. 統計顯著性(Statistical Significance)

業界標準是 95% 信心水準(p < 0.05)。意思是:這個結果是隨機造成的機率不到 5%。

4. 實驗時長

至少跑滿一個完整的業務週期(通常 1-2 週),避免「星期一效應」等時間偏差。

A/B 測試 vs 多變量測試

  • A/B 測試:一次只改一個變數(按鈕顏色、文案、排版),結論明確
  • 多變量測試(MVT):同時測試多個變數的組合,需要更大流量

來源與歷史

  • 1920s:Ronald Fisher 在農業實驗中建立了隨機對照實驗的統計學基礎
  • 2000:Google 開始大規模在搜尋結果中使用 A/B 測試(傳聞 Google 測試過 41 種藍色)
  • 2006:Optimizely 等工具平台出現,讓非技術人員也能跑 A/B 測試
  • 2011:Barack Obama 的競選團隊用 A/B 測試優化募款頁面,單次測試多募了 6,000 萬美金
  • 至今:Netflix、Amazon、Booking.com 等公司同時運行數千個 A/B 測試

真實案例:Obama 競選募款頁的 A/B 測試

2008 年 Obama 競選團隊測試了募款頁面的多個版本:

測試變數

  • 4 種不同的 CTA 按鈕文案(Sign Up / Learn More / Join Us Now / Sign Up Now)
  • 6 種不同的首頁圖片/影片

結果

  • 最佳 CTA:「Learn More」(而非「Sign Up」),轉換率高出 18.6%
  • 最佳視覺:家庭合照(而非演講影片)
  • 組合效果:最佳版本比原始版本的轉換率高出 40.6%

影響:這個優化直接帶來額外 6,000 萬美金的線上募款和 288 萬封額外 Email 註冊。

教訓:團隊原本「覺得」影片版會贏,因為「比較炫」。數據證明他們的直覺是錯的。

使用步驟

Step 1:寫下假設

明確你要測什麼、預期結果、背後原因。沒有假設的 A/B 測試只是在碰運氣。

Step 2:計算所需樣本量

用線上計算器(如 Evan Miller 的工具)。輸入:目前的轉換率、期望偵測到的最小差異、信心水準。

Step 3:設計實驗

一次只改一個變數。如果同時改了按鈕顏色和文案,你不會知道是哪個造成差異。

Step 4:跑滿足夠時間

不要偷看結果就提前結束(peeking problem)。提前結束會大幅增加假陽性風險。

Step 5:分析結果並做決策

  • 顯著且正向 → 推全量
  • 顯著且負向 → 放棄這個方向
  • 不顯著 → 效果太小不值得做,或需要更大樣本

這樣做 vs 避免這些

這樣做

  • 先測影響最大的元素 — CTA、首屏、定價比 footer 顏色重要一百倍
  • 記錄每次實驗的假設和結果 — 建立組織的實驗知識庫
  • 算好樣本量再開始 — 避免跑了兩週才發現流量不夠
  • 關注「次要指標」— 轉換率上升但退貨率也上升?那可能不是真正的贏

避免這些

  • 不要偷看結果提前結束 — 這是最常見的統計錯誤
  • 不要同時跑太多實驗 — 實驗之間會互相干擾
  • 不要 A/B 測試一切 — 按鈕從 12px 改成 13px 不值得跑實驗
  • 不要忽略長期效果 — 短期轉換提升可能傷害長期留存
Maki 觀點 — 電商場景實戰

A/B 測試在台灣電商最大的障礙是「流量不夠」。

國際大品牌一天百萬 UV,隨便切 50/50 就能跑出結論。台灣品牌電商可能一天只有 3,000-5,000 UV,要跑到統計顯著性需要好幾週。

我的建議:

  1. 只測高流量頁面:首頁、商品列表頁、結帳頁 — 這些頁面流量夠大,測起來才有意義
  2. 測大變化而非微調:流量小就別測按鈕顏色了,測「有 vs 沒有客戶評價區塊」這種會造成 10%+ 差異的大變化
  3. 用 Sequential Testing:傳統 A/B 需要固定樣本量,Sequential Testing 允許你邊跑邊看,更適合流量小的情況
  4. 善用 Google Optimize 的替代方案(如 VWO、AB Tasty)— GA4 原生 A/B 功能對小流量站不友善

另外一個台灣特色:LINE 推播文案是非常適合 A/B 測試的場景。LINE OA 本身就有分眾推播功能,你可以把 10% 的會員先收到 A 版文案,10% 收到 B 版,看哪個點擊率高,再把贏的版本推給剩下 80%。