収集データに潜むバイアス【18選】

はじめまして、フリーランスのますみです!

一人一人が自立・共存・革新している「クリエイターエコノミー」を創る。』というビジョンに向けて活動しています。

データサイエンティストであれば、必ず把握しておいた方が良いと言っても過言ではない「バイアス」の意味や種類についてまとめました。特に、医療系の論文を読んだり、臨床実験を行ったりする方々には重要な概念でしょう。

また、心理学の分野における認知バイアスについてもわかりやすくまとめました。

目次 Close

バイアスとは?

バイアス(bias)とは、一般的には「人の思考・行動に偏りが生じること」、「思い込み」、「偏りが生じる要因」を表します。

データサイエンスの分野では、「データを観測する過程で混入する歪み(データバイアス)」を表します。

ちなみに、バイアスは誤差の中の一つです。誤差は「偶然誤差(ランダム誤差、random error)」と「系統誤差(バイアス、systematic error)」に分類されます。

ここでは、具体的に18種類の収集データに潜むバイアスを解説していきます。

分類バイアスの種類
1. 「測定基準」に起因するバイアス1-1. 「データ定義の違い」に起因するバイアス
1-2. 「取得時期の違い」に起因するバイアス
2. 「選択結果」に起因するバイアス2-1. 生存者バイアス(survivorship bias)
2-2. サンプリングバイアス(sampling bias)
2-3. 志願者バイアス(volunteer bias)
2-4. 出版バイアス(publication bias)
2-5. 脱落バイアス(losses to follow up)
3. 「実験対象」に起因するバイアス3-1. ホーソン効果(Hawthorne effect)
3-2. 黙従傾向(yes-tendency / acquiescence responses)
3-3. 中心化傾向(central tendency bias)
3-4. キャリーオーバー効果(carry-over effect)
3-5. 質問文での誘導
3-6. 「回答者の感情」に起因するバイアス
3-7. 理由の後付け
4. 「実験者・分析者」に起因するバイアス4-1. 確証バイアス(confirmation bias)
4-2. 正常性バイアス(normalcy bias / normality bias)
4-3. 情報バイアス(information bias)
4-4. 「人為的ミス」に起因するバイアス

1. 「測定基準」に起因するバイアス

このバイアスは、測定したデータの定義が異なっていることに起因するバイアスです。

1-1. 「データ定義の違い」に起因するバイアス

比較するデータの定義が異なる場合、分析目的によってはミスリードする結果を導く可能性があります。

例えば、国ごとの「成人の数」を比較する時、国によって成人の定義が異なる点に注意する必要があります。

1-2. 「取得時期の違い」に起因するバイアス

データの取得時期が異なる場合、データの意味や傾向が変わってしまうことに注意しましょう。

例えば、日本国内での「ビールを飲んだことがあるか?」と未成年に聞いた時、未成年飲酒に対する規制の厳格化やノンアルコールビールの有無などが影響して、バイアスとなる可能性があります。ただし、このような効果を分析を通して理解したい場合は、バイアスではなく主効果とります。

2. 「選択結果」に起因するバイアス

「選択結果」に起因するバイアスは、「選択バイアス(selection bias)」とも言われます。

「全体の中から一部の標本が選択された」という結果が生じた時点で、発生するバイアスを表します。

2-1. 生存者バイアス(survivorship bias)

生存者バイアス(survivorship bias)とは、「生き残ったものしか観測されないこと」に起因するバイアスです。

有名な例として、第二次世界大戦中の米軍の帰還戦闘機の分析があります。

米軍は、帰還した戦闘機の損傷箇所を調査し、「損傷が大きかった箇所を補強するべき」という結論を出した。

しかし、統計学者のエイブラハム・ウォールドは、「むしろ損傷が少ない箇所を補強するべき」と主張しました。

理由としては、帰還した戦闘機からしか損傷箇所を特定することはできず、帰還できなかった戦闘機は「帰還した戦闘機の損傷していない箇所を損傷して、墜落した可能性が高い」からです。

このように、戦闘機が帰還している(生き残っている)データしか収集できていないことがバイアスとなり、誤った結論が導かれようとしてしまいました。

2-2. サンプリングバイアス(sampling bias)

サンプリングバイアス(sampling bias)とは、「特定の属性に絞られた標本のデータが集まっていること」に起因するバイアスです。

例えば、大学院生が研究の実験をするために被験者を大学内で募集した場合、大学生の年齢にしか当てはまらない結果が導かれる可能性があります。多様な属性に当てはまるかどうか(一般性)を証明することはできません。

2-3. 志願者バイアス(volunteer bias)

志願者バイアス(volunteer bias)とは、「実験に参加意欲の高い志願者が集まること」に起因するバイアスです。

意欲が高かったり、実験内容に関心がある場合も、一般性を失うリスクがあります。

2-4. 出版バイアス(publication bias)

出版バイアス(publication bias)とは、「うまくいった研究が出版されやすいこと」に起因するバイアスです。

ここで、うまくいった研究は、仮説通りの結果が出たり、学術雑誌が採択したくなる意義がある結果が出たりした研究と定義します(必ずしもこの定義がどのような場合でも正しいとは限りません)。

うまくいかなかった研究は出版されない傾向があるため、出版されている研究結果にバイアスが生じています。

例えば、100人が同じ仮説を検証して、99人は仮説通りの結果が得られなかったため出版できず、1人がランダム誤差の影響で仮説通りの結果が出たため出版できたとします。この時、99人のうまくいかなかった結果は選択されなかったため、出版物だけを見ると、仮説が正しいと解釈されてしまいます。

2-5. 脱落バイアス(losses to follow up)

脱落バイアス(losses to follow up)とは、「特定の条件によりサンプルが途中で脱落すること」に起因するバイアスです。

人を対象とした実験を行うと、実験中に脱落する人が現れることがあります。

例えば、リハビリの実験(治験)を行っている時に、回復傾向のある人はモチベーションが上がり最後まで実験を継続しましたが、回復傾向のない人はモチベーションが下がり途中で脱落したとします。その結果、最後に残ったデータで分析をすると、回復効果が実際よりも高くなるバイアスが乗ってしまいます。

3. 「実験対象」に起因するバイアス

このバイアスは、実験対象の状態や行動傾向などに起因するバイアスです。

「観測介入」に起因するバイアスとも言います。

3-1. ホーソン効果(Hawthorne effect)

ホーソン効果(Hawthorne effect)とは、「介入というイベント」に起因するバイアスです。

例えば、実験に参加しているという普段と異なる状態だと、普段の状態と異なる結果を示したり、それ自体が介入となることがあります。

米国にあるホーソン工場において、作業効率を上げるために労働環境について調査する実験を行ったところ、実験者や上司が関心を持ってくれていること(改善しようと調査をしていること)自体がバイアスとなり、この調査自体によって作業効率が上がったという話があります。

3-2. 黙従傾向(yes-tendency / acquiescence responses)

黙従傾向(yes-tendency / acquiescence responses)とは、「はい / いいえの選択肢の質問をされた時に、肯定的な選択肢を選ぶ傾向にある現象」に起因するバイアスです。

3-3. 中心化傾向(central tendency bias)

中心化傾向(central tendency bias)とは、「間隔尺度の複数選択肢の質問をされた時に、真ん中の選択肢を選ぶ傾向にある現象」に起因するバイアスです。

例えば、「強く同意する・少し同意する・どちらでもない・少し同意しない・強く同意しない」という選択肢の質問紙(アンケート)に対して、どちらでもないが回答されやすいことが挙げられる。

3-4. キャリーオーバー効果(carry-over effect)

キャリーオーバー効果(carry-over effect)とは、「前の質問への回答が、今の質問への回答に影響する現象」に起因するバイアスです。

3-5. 質問文での誘導

このバイアスは、「質問文の前置きなどで誘導をしていること」に起因するバイアスです。

例えば、「ビッグデータ分析をしている企業が近年増えていますが、貴社ではビッグデータ分析を積極的に行っていますか?」という質問では、先頭の前置きが回答を歪める可能性があります。

3-6. 「回答者の感情」に起因するバイアス

このバイアスは、「回答する時の感情」に起因するバイアスです。

例えば、「歩きスマホをしたことがありますか?」という質問に対して、「後ろめたい気持ち」により実際よりも「いいえ」の回答が増える可能性があります。

また、アンケートの質問項目が多すぎて、「めんどくさい気持ち」になり、正しくない回答を入力される可能性もあります。

3-7. 理由の後付け

このバイアスは、「自分の行動に対して後から理由をつける現象」に起因するバイアスです。

Wilsonらが行った心理実験(1978)では、同じストッキングを4つ見せて、どれが最も品質が良いか回答してもらった後に理由を聞くと、「伸縮性がいい」などの理由が回答されました。

4. 「実験者・分析者」に起因するバイアス

4-1. 確証バイアス(confirmation bias)

確証バイアスとは、「自分にとって都合が良い情報のみ集める現象」に起因するバイアスです。

また、都合の良いデータだけを抽出することを「チェリーピッキング」と言ったりします。

意図せずチェリーピッキングをしてしまっているような現象が確証バイアスと捉えらることもできます。

4-2. 正常性バイアス(normalcy bias / normality bias)

正常性バイアスとは、「自分にとって都合が悪い情報を無視する現象」に起因するバイアスです。

「外れ値除去」や「欠損値除去」などの処理によって、確証バイアスや正常性バイアスが生じてしまっていないか意識することが重要です。

4-3. 情報バイアス(information bias)

情報バイアスとは、「実験者や分析者が実験対象や仮説の情報などを知ったこと」に起因するバイアスです。

例えば、新薬開発研究の実験において、新薬群とプラセボ群に分けたとします。この時、実験者が目の前の被験者がどちらの群に割り振られている情報を知ったことにより、意識的もしくは無意識的に測定の仕方が変わってしまうことなどがあります。

また、分析者が自分の中で、「こういうデータなら、こういう結果が出るだろう」という仮説を持っているが故に、その仮説通りの結果が出なかった時に、再計算をしたり、別の分析手法を試したりしてしまう場合もバイアスが乗ります。

4-4. 「人為的ミス」に起因するバイアス

このバイアスは、実験者や分析者が意図せずデータ収集や分析の段階でミスをしてしまうことに起因するバイアスです。

例えば、測定の仕方を誤ったり、入力ミスをしたり、単位計算を間違えたりすることが挙げられます。

【おまけ】その他の心理学的な認知バイアス

データサイエンスからは少し話がそれますが、心理学的な「認知バイアス(cognitive bias)」を最後に紹介します。

アンケートデータや分析時において、混入してしまうバイアスも存在するため、こちらも理解しておくことをおすすめします。

認知バイアスとは、「自分の思い込みや周辺環境により、非合理的な判断をする心理現象」を表します。

ここでは、具体的に10種類の認知バイアスを紹介します(上記のバイアスと一部重複あり)。

1. アンカリング効果(anchoring effect)

アンカリング効果(anchoring effect)とは、「アンカーと呼ばれる先に与えられた情報を基準にして、考えてしまう現象」を表します。

例えば、「この時計は5,000円ですが、タイムセールで1,000円です。」と言われた時に、5,000円を基準にして、ものすごく安くなっていると感じてしまう例があります。

2. ハロー効果(halo effect)

ハロー効果とは、「目立って良い(もしくは悪い)特徴に引きずられて、他の特徴も同じ印象を持ってしまう現象」を表します。

一つのことが特別できる人に対して「あの人は優秀だから、これもできるだろう」と感じてしまったり、一つのことで失敗した人に対して「あの人はこれを任せても失敗するだろう」と感じてしまったりするケースがハロー効果に該当します。

3. サンクコスト効果(sunk cost effect)

サンクコスト効果(sunk cost effect)とは、「金銭や時間を投資したことにより、撤退した方が良かったとしても、継続してしまう現象」を表します。

日本語では、「埋没費用」とも言います。

「サンクスコスト」ではないことに注意しましょう。

例えば、1000円かけて借りた映画があった時に、つまらないと感じても最後まで見てしまう例があります。

4. ダニング=クルーガー効果(Dunning–Kruger effect)

ダニング=クルーガー効果とは、「自己評価を正しくできず、過大評価もしくは過小評価してしまう現象」を表します。

過大評価のパターンでは、「馬鹿の山」という「少しの知恵を得て自信が出てきた状態」になっています。

過小評価のパターンでは、「絶望の谷」という「知恵の深さに気付いて自信を失っている状態」になっています。

人は知恵を育むプロセスとして、馬鹿の山と絶望の谷を乗り越えた後に、「啓蒙の坂(成長を感じて、自信を持ち始める状態)」を経て、「継続の大地(成熟して、精確な自己評価が行える状態)」へ向かっていきます。

5. 自己奉仕バイアス(self-serving bias)

自己奉仕バイアスとは、「成功した時は自分の能力のおかげだと考え、失敗した時は他人や環境のせいだと思い込む現象」を表します。

6. バンドワゴン効果(bandwagon effect)

バンドワゴン効果とは、「大勢の人が選択している判断は、個人の判断よりも正確であると思い込む現象」を表します。

7. 後知恵バイアス(hindsight bias)

後知恵バイアスとは、「結果が出た後に、予測可能だったと思い込む現象」を表します。

結果が出た後に「そうなると思ったんだよね」と言う人は、後知恵バイアスを持っている可能性があります。

8. 内集団バイアス(in-group favoritism / in-group bias)

内集団バイアスとは、「自分の所属している集団の方が、他の集団よりも優れていると思い込む現象」を表します。

9. 楽観主義バイアス(optimism bias)

楽観主義バイアス(optimism bias)とは、「自分のことに関して、楽観的に捉える現象」を表します。

10. アポフェニア(apophenia)

アポフェニア(apophenia)とは、「無作為もしくは無意味な情報の中から、規則性を見出そうとする現象」を表します。

「少数の法則(The Law of Small Numbers)」とも言われます。

例えば、ある商品の効能をうたう時に、効能が聞いた事例を紹介し、あたかもその商品が高い効能を持つ(成功事例が代表事例)であると錯覚するという例があります。

最後に

いかがだったでしょうか?
この記事を通して、少しでもあなたの困りごとが解決したら嬉しいです^^

おまけ(お知らせ)

エンジニアの仲間(データサイエンティストも含む)を増やしたいため、公式LINEを始めました🎉

「一緒に仕事をしてくれる方」「友だちとして仲良くしてくれる方」は、友だち追加をしていただけますと嬉しいです!(仲良くなった人たちを集めて、「ボードゲーム会」や「ハッカソン」や「もくもく会」もやりたいなと考えています😆)

とはいえ、みなさんにもメリットがないと申し訳ないので、特典を用意しました!

友だち追加後に、アンケートに回答してくれた方へ「エンジニア図鑑(職種20選)」のPDFをお送りします◎

参考文献