統計謬論完整清單:55 種思維除錯地圖

這份清單是 55 種統計謬論系列的快速索引,用法很簡單:

  • 設計抽樣計畫 → 掃一眼 一、抽樣偏差
  • 設計問卷或測量工具 → 掃一眼 二、測量偏差
  • 解讀比率、平均值、聚合數字 → 掃一眼 三、數字直覺陷阱
  • 想從相關性推因果 → 掃一眼 四、因果推論
  • 做分析決策、覺得自己很客觀的時候 → 掃一眼 五、認知偏差
  • 跑回歸、上模型、做 ML → 掃一眼 六、統計方法
  • 設計 A/B 測試或實驗 → 掃一眼 七、實驗設計
  • 準備報告或讀別人的報告 → 掃一眼 八、呈現與報告

一、抽樣偏差(6 種)

你的樣本代表不了你的目標群體

# 謬論 一句話
1 倖存者偏差 只看到活下來的案例,看不到消失的失敗者
2 樣本選擇偏差 數據採集過程帶有篩選機制,樣本系統性偏向特定群體
3 覆蓋偏差 抽樣框架根本沒覆蓋到某些族群
4 自選偏差 只有情緒強烈的人才會開口,沉默大多數不在樣本裡
5 便利抽樣偏差 只找身邊容易接觸的人,他們跟真實用戶不一樣
6 時間窗口偏差 只在特定時段採樣,選到的是那個時間點會出現的人

二、測量偏差(6 種)

你測量到的不是你以為測量到的

# 謬論 一句話
7 社會期望偏差 受訪者回答「社會期待的答案」而不是真實想法
8 觀察者偏差 測量者的預期污染了測量結果
9 回憶偏差 依賴記憶而非記錄,人的記憶是重建的不是錄像機
10 工具與測量誤差 測量工具本身引入系統性誤差
11 確認偏差(蒐集階段) 只記錄符合預期的觀察,數據庫從源頭就帶選擇性
12 時間與季節偏差 把季節性波動當作自己努力的成果

三、數字直覺陷阱(6 種)

數學結果違反直覺

# 謬論 一句話
13 基準率謬誤 被 99% 準確率唬住,忘了基準率只有 1%
14 賭徒謬誤 以為連開 10 次正面之後反面機率更高
15 小數定律 5 人訪談的結論不等於 80% 用戶想要某功能
16 辛普森悖論 每個子群體都更好,整體反而更差
17 生態學謬誤 富裕地區壽命長,不代表搬去住你就會長壽
18 原子論謬誤 一所學校成功的教學法,不代表全縣都適用

四、因果推論(5 種)

相關性不等於因果性

# 謬論 一句話
19 混雜因素 第三個變數同時導致了 X 和 Y,製造了假相關
20 反向因果 因果方向弄反了,不是警察多所以犯罪多
21 對撞結構 樣本被兩個條件共同篩選,製造了不存在的假相關
22 偽相關 冰淇淋銷量和溺水人數相關,但冰淇淋不致人溺水
23 中介變量謬誤 控制了因果路徑上的中間節點,切斷了你在研究的路徑

五、認知偏差(7 種)

大腦的系統性捷徑讓你走偏

# 謬論 一句話
24 確認偏差(分析階段) 只搜尋支持預設觀點的資訊,主動迴避反面證據
25 錨定效應 被第一眼看到的數字限制了後續所有判斷
26 可用性啟發法 容易想起來的事不代表發生機率更高
27 代表性啟發法 用「描述像不像」來判斷機率,忽略基準率
28 麥納馬拉謬誤 只量可以量的,忽略量不到但重要的東西
29 古德哈特定律 指標一旦成為目標,就不再是好的指標
30 路徑依賴 沉沒成本讓你沿著錯誤路徑繼續走

六、統計方法(11 種)

工具的假設被違反了,或你誤解了它的輸出

# 謬論 一句話
31 回歸謬誤 把極端值自然回歸平均當成你的干預有效
32 多重共線性 預測變數之間高度相關,係數估計不穩定
33 潛在變數偏差 遺漏重要變數,模型把它的影響錯誤分配給其他變數
34 過度擬合 死記硬背了訓練數據的雜訊,新數據上一塌糊塗
35 數據洩漏 訓練時用到了預測情境中不可得的資訊
36 前瞻性偏差 回測中使用了當時不可得的未來數據
37 外推謬誤 把模型延伸到訓練範圍以外,結論不可信
38 P 值誤解 p = 0.03 不是「新版本更好的機率是 97%」
39 效果量忽視 統計顯著但效果微小,沒有實際意義
40 檢定力不足 樣本量太小,測不到真實存在的效應
41 多重比較謬誤 跑夠多檢定,總會有一個 p < 0.05

七、實驗設計(9 種)

實驗從一開始就不公正

# 謬論 一句話
42 霍桑效應 被測者知道自己被觀察就改變行為
43 安慰劑效應 相信干預有效就產生了真實的主觀改善
44 實驗者期望效應 研究者的細微行為暗示了「正確答案」
45 干預偏差 實驗組和對照組在變因以外還受到不同對待
46 無回應偏差 沒回應的人跟有回應的人是不同群體
47 問卷偏差 問題的措辭和選項設計引導了答案方向
48 資訊偏差 數據標籤本身就是錯的,標註者的偏見污染了訓練基礎
49 檢測偏差 尋找某現象的努力程度不同,發現率不等於發生率
50 排除偏差 把「異常值」刪掉,可能把最重要的信號當雜訊丟了

八、呈現與報告(5 種)

數據本身沒問題,選擇展示什麼才是問題

# 謬論 一句話
51 截斷 Y 軸 Y 軸不從 0 開始,微小變化看起來像火箭升空
52 雙軸圖表誤導 兩個不同刻度的 Y 軸讓無關的變數看起來完美同步
53 櫻桃挑選 只展示成功的結果,隱藏失敗的嘗試
54 文件抽屜問題 負面結果被鎖進抽屜不公開,公開結論系統性偏向正面
55 發表偏差 整個出版系統偏向接受有顯著正向結果的研究

← 回系列總覽