データサイエンティストであれば、必ず把握しておいた方が良いと言っても過言ではない「バイアス」の意味や種類についてまとめました。特に、医療系の論文を読んだり、臨床実験を行ったりする方々には重要な概念でしょう。
また、心理学の分野における認知バイアスについてもわかりやすくまとめました。
バイアス(bias)とは、一般的には「人の思考・行動に偏りが生じること」、「思い込み」、「偏りが生じる要因」を表します。
データサイエンスの分野では、「データを観測する過程で混入する歪み(データバイアス)」を表します。
ちなみに、バイアスは誤差の中の一つです。誤差は「偶然誤差(ランダム誤差、random error)」と「系統誤差(バイアス、systematic error)」に分類されます。
ここでは、具体的に18種類の収集データに潜むバイアスを解説していきます。
分類 | バイアスの種類 |
---|---|
1. 「測定基準」に起因するバイアス | 1-1. 「データ定義の違い」に起因するバイアス |
1-2. 「取得時期の違い」に起因するバイアス | |
2. 「選択結果」に起因するバイアス | 2-1. 生存者バイアス(survivorship bias) |
2-2. サンプリングバイアス(sampling bias) | |
2-3. 志願者バイアス(volunteer bias) | |
2-4. 出版バイアス(publication bias) | |
2-5. 脱落バイアス(losses to follow up) | |
3. 「実験対象」に起因するバイアス | 3-1. ホーソン効果(Hawthorne effect) |
3-2. 黙従傾向(yes-tendency / acquiescence responses) | |
3-3. 中心化傾向(central tendency bias) | |
3-4. キャリーオーバー効果(carry-over effect) | |
3-5. 質問文での誘導 | |
3-6. 「回答者の感情」に起因するバイアス | |
3-7. 理由の後付け | |
4. 「実験者・分析者」に起因するバイアス | 4-1. 確証バイアス(confirmation bias) |
4-2. 正常性バイアス(normalcy bias / normality bias) | |
4-3. 情報バイアス(information bias) | |
4-4. 「人為的ミス」に起因するバイアス |
このバイアスは、測定したデータの定義が異なっていることに起因するバイアスです。
比較するデータの定義が異なる場合、分析目的によってはミスリードする結果を導く可能性があります。
例えば、国ごとの「成人の数」を比較する時、国によって成人の定義が異なる点に注意する必要があります。
データの取得時期が異なる場合、データの意味や傾向が変わってしまうことに注意しましょう。
例えば、日本国内での「ビールを飲んだことがあるか?」と未成年に聞いた時、未成年飲酒に対する規制の厳格化やノンアルコールビールの有無などが影響して、バイアスとなる可能性があります。ただし、このような効果を分析を通して理解したい場合は、バイアスではなく主効果とります。
「選択結果」に起因するバイアスは、「選択バイアス(selection bias)」とも言われます。
「全体の中から一部の標本が選択された」という結果が生じた時点で、発生するバイアスを表します。
生存者バイアス(survivorship bias)とは、「生き残ったものしか観測されないこと」に起因するバイアスです。
有名な例として、第二次世界大戦中の米軍の帰還戦闘機の分析があります。
米軍は、帰還した戦闘機の損傷箇所を調査し、「損傷が大きかった箇所を補強するべき」という結論を出した。
しかし、統計学者のエイブラハム・ウォールドは、「むしろ損傷が少ない箇所を補強するべき」と主張しました。
理由としては、帰還した戦闘機からしか損傷箇所を特定することはできず、帰還できなかった戦闘機は「帰還した戦闘機の損傷していない箇所を損傷して、墜落した可能性が高い」からです。
このように、戦闘機が帰還している(生き残っている)データしか収集できていないことがバイアスとなり、誤った結論が導かれようとしてしまいました。
サンプリングバイアス(sampling bias)とは、「特定の属性に絞られた標本のデータが集まっていること」に起因するバイアスです。
例えば、大学院生が研究の実験をするために被験者を大学内で募集した場合、大学生の年齢にしか当てはまらない結果が導かれる可能性があります。多様な属性に当てはまるかどうか(一般性)を証明することはできません。
志願者バイアス(volunteer bias)とは、「実験に参加意欲の高い志願者が集まること」に起因するバイアスです。
意欲が高かったり、実験内容に関心がある場合も、一般性を失うリスクがあります。
出版バイアス(publication bias)とは、「うまくいった研究が出版されやすいこと」に起因するバイアスです。
ここで、うまくいった研究は、仮説通りの結果が出たり、学術雑誌が採択したくなる意義がある結果が出たりした研究と定義します(必ずしもこの定義がどのような場合でも正しいとは限りません)。
うまくいかなかった研究は出版されない傾向があるため、出版されている研究結果にバイアスが生じています。
例えば、100人が同じ仮説を検証して、99人は仮説通りの結果が得られなかったため出版できず、1人がランダム誤差の影響で仮説通りの結果が出たため出版できたとします。この時、99人のうまくいかなかった結果は選択されなかったため、出版物だけを見ると、仮説が正しいと解釈されてしまいます。
脱落バイアス(losses to follow up)とは、「特定の条件によりサンプルが途中で脱落すること」に起因するバイアスです。
人を対象とした実験を行うと、実験中に脱落する人が現れることがあります。
例えば、リハビリの実験(治験)を行っている時に、回復傾向のある人はモチベーションが上がり最後まで実験を継続しましたが、回復傾向のない人はモチベーションが下がり途中で脱落したとします。その結果、最後に残ったデータで分析をすると、回復効果が実際よりも高くなるバイアスが乗ってしまいます。
このバイアスは、実験対象の状態や行動傾向などに起因するバイアスです。
「観測介入」に起因するバイアスとも言います。
ホーソン効果(Hawthorne effect)とは、「介入というイベント」に起因するバイアスです。
例えば、実験に参加しているという普段と異なる状態だと、普段の状態と異なる結果を示したり、それ自体が介入となることがあります。
米国にあるホーソン工場において、作業効率を上げるために労働環境について調査する実験を行ったところ、実験者や上司が関心を持ってくれていること(改善しようと調査をしていること)自体がバイアスとなり、この調査自体によって作業効率が上がったという話があります。
黙従傾向(yes-tendency / acquiescence responses)とは、「はい / いいえの選択肢の質問をされた時に、肯定的な選択肢を選ぶ傾向にある現象」に起因するバイアスです。
中心化傾向(central tendency bias)とは、「間隔尺度の複数選択肢の質問をされた時に、真ん中の選択肢を選ぶ傾向にある現象」に起因するバイアスです。
例えば、「強く同意する・少し同意する・どちらでもない・少し同意しない・強く同意しない」という選択肢の質問紙(アンケート)に対して、どちらでもないが回答されやすいことが挙げられる。
キャリーオーバー効果(carry-over effect)とは、「前の質問への回答が、今の質問への回答に影響する現象」に起因するバイアスです。
このバイアスは、「質問文の前置きなどで誘導をしていること」に起因するバイアスです。
例えば、「ビッグデータ分析をしている企業が近年増えていますが、貴社ではビッグデータ分析を積極的に行っていますか?」という質問では、先頭の前置きが回答を歪める可能性があります。
このバイアスは、「回答する時の感情」に起因するバイアスです。
例えば、「歩きスマホをしたことがありますか?」という質問に対して、「後ろめたい気持ち」により実際よりも「いいえ」の回答が増える可能性があります。
また、アンケートの質問項目が多すぎて、「めんどくさい気持ち」になり、正しくない回答を入力される可能性もあります。
このバイアスは、「自分の行動に対して後から理由をつける現象」に起因するバイアスです。
Wilsonらが行った心理実験(1978)では、同じストッキングを4つ見せて、どれが最も品質が良いか回答してもらった後に理由を聞くと、「伸縮性がいい」などの理由が回答されました。
確証バイアスとは、「自分にとって都合が良い情報のみ集める現象」に起因するバイアスです。
また、都合の良いデータだけを抽出することを「チェリーピッキング」と言ったりします。
意図せずチェリーピッキングをしてしまっているような現象が確証バイアスと捉えらることもできます。
正常性バイアスとは、「自分にとって都合が悪い情報を無視する現象」に起因するバイアスです。
「外れ値除去」や「欠損値除去」などの処理によって、確証バイアスや正常性バイアスが生じてしまっていないか意識することが重要です。
情報バイアスとは、「実験者や分析者が実験対象や仮説の情報などを知ったこと」に起因するバイアスです。
例えば、新薬開発研究の実験において、新薬群とプラセボ群に分けたとします。この時、実験者が目の前の被験者がどちらの群に割り振られている情報を知ったことにより、意識的もしくは無意識的に測定の仕方が変わってしまうことなどがあります。
また、分析者が自分の中で、「こういうデータなら、こういう結果が出るだろう」という仮説を持っているが故に、その仮説通りの結果が出なかった時に、再計算をしたり、別の分析手法を試したりしてしまう場合もバイアスが乗ります。
このバイアスは、実験者や分析者が意図せずデータ収集や分析の段階でミスをしてしまうことに起因するバイアスです。
例えば、測定の仕方を誤ったり、入力ミスをしたり、単位計算を間違えたりすることが挙げられます。
データサイエンスからは少し話がそれますが、心理学的な「認知バイアス(cognitive bias)」を最後に紹介します。
アンケートデータや分析時において、混入してしまうバイアスも存在するため、こちらも理解しておくことをおすすめします。
認知バイアスとは、「自分の思い込みや周辺環境により、非合理的な判断をする心理現象」を表します。
ここでは、具体的に10種類の認知バイアスを紹介します(上記のバイアスと一部重複あり)。
アンカリング効果(anchoring effect)とは、「アンカーと呼ばれる先に与えられた情報を基準にして、考えてしまう現象」を表します。
例えば、「この時計は5,000円ですが、タイムセールで1,000円です。」と言われた時に、5,000円を基準にして、ものすごく安くなっていると感じてしまう例があります。
ハロー効果とは、「目立って良い(もしくは悪い)特徴に引きずられて、他の特徴も同じ印象を持ってしまう現象」を表します。
一つのことが特別できる人に対して「あの人は優秀だから、これもできるだろう」と感じてしまったり、一つのことで失敗した人に対して「あの人はこれを任せても失敗するだろう」と感じてしまったりするケースがハロー効果に該当します。
サンクコスト効果(sunk cost effect)とは、「金銭や時間を投資したことにより、撤退した方が良かったとしても、継続してしまう現象」を表します。
日本語では、「埋没費用」とも言います。
「サンクスコスト」ではないことに注意しましょう。
例えば、1000円かけて借りた映画があった時に、つまらないと感じても最後まで見てしまう例があります。
ダニング=クルーガー効果とは、「自己評価を正しくできず、過大評価もしくは過小評価してしまう現象」を表します。
過大評価のパターンでは、「馬鹿の山」という「少しの知恵を得て自信が出てきた状態」になっています。
過小評価のパターンでは、「絶望の谷」という「知恵の深さに気付いて自信を失っている状態」になっています。
人は知恵を育むプロセスとして、馬鹿の山と絶望の谷を乗り越えた後に、「啓蒙の坂(成長を感じて、自信を持ち始める状態)」を経て、「継続の大地(成熟して、精確な自己評価が行える状態)」へ向かっていきます。
自己奉仕バイアスとは、「成功した時は自分の能力のおかげだと考え、失敗した時は他人や環境のせいだと思い込む現象」を表します。
バンドワゴン効果とは、「大勢の人が選択している判断は、個人の判断よりも正確であると思い込む現象」を表します。
後知恵バイアスとは、「結果が出た後に、予測可能だったと思い込む現象」を表します。
結果が出た後に「そうなると思ったんだよね」と言う人は、後知恵バイアスを持っている可能性があります。
内集団バイアスとは、「自分の所属している集団の方が、他の集団よりも優れていると思い込む現象」を表します。
楽観主義バイアス(optimism bias)とは、「自分のことに関して、楽観的に捉える現象」を表します。
アポフェニア(apophenia)とは、「無作為もしくは無意味な情報の中から、規則性を見出そうとする現象」を表します。
「少数の法則(The Law of Small Numbers)」とも言われます。
例えば、ある商品の効能をうたう時に、効能が聞いた事例を紹介し、あたかもその商品が高い効能を持つ(成功事例が代表事例)であると錯覚するという例があります。
本記事では、ITILの概要とITILを理解する上で必須知識となる7の原則と34のプラクティスとITILの資格についてなるべくわかりやすく日本語で解説しています。
ITIL(第4版、ITIL4、アイティル)とは、「Information Technology Infrastructure Library」の略で、英国中央コンピュータ電気通信局(Central Computer and Telecommunications Agency; CCTA)が開発したプロジェクトマネジメント手法(サービスマネジメント手法に近い)です。
特徴として、「サービスマネジメント」に着目しています。
PMBOKやPRINCE2などの他の手法との違いを知りたい方は下記記事をご参照ください。
ITILは、下記の7つの原則に基づいています。
全てのプロセスが直接的もしくは間接的に価値に繋がっているかを、全てのステークホルダーが意識しましょう。
逆の見方をすると、「価値提供に貢献しないリソースや活動は排除する」ことが大切だと言い換えられます。
今まで当たり前にやるべきと考えられていた活動を一度見直してみると良いかもしれません。
新しい物事をいきなり導入するのではなく、それと同等の価値を現状からの改善で生み出せないかを考えましょう。
やるべきことを全て一度の計画・実現するのではなく、優先度が高いものから計画・実行・評価しましょう。
言い換えると、Be Agile(アジャイル思考)なアプローチを取るということです。
この時、一つ目の原則である「価値に着目する」という意識を忘れないようにしましょう。
全てのステークホルダーが全ての活動の状況やアウトプットを理解可能な形で、可視化しましょう。
また、各ステークホルダーが自分と直接的に関与しない活動に関しても主体的に協働しましょう。
ここで大切なこととして、全てのステークホルダーのコンセンサスを取ることに固執せず、価値の実現を基準として意思決定をすることを意識しましょう。
「特定のプロセスに紐づく価値」にだけ着目するのではなく、「全体最適な価値」を意識しましょう。
価値に着目した時に、不要な機能・プロセス・ルールなどを排除しましょう。
プロセスを有効性と効率的の観点から最適化し、自動化しましょう。
ITILには、下記の34のプラクティスを利用して、価値提供をすることがベースにあります。
ITILには、以下の試験のレベルがあります。
より詳細な情報は下記をご参照ください。
本記事では、2022年10月最新のデータサイエンティストの年収(日本とアメリカ / 全体と新人)を比較しました(順次更新)。
データサイエンティストという職業への就職(新卒)や転職を考えている方はぜひご参考にしてください。
日本(全体) | 日本(新人) | アメリカ(全体) | アメリカ(新人) | |
---|---|---|---|---|
中央値 | ¥7,819,317 | ¥6,144,895 | ¥17,982,030 | ¥15,623,895 |
平均値 | ¥6,603,790 | ¥5,125,879 | ¥14,884,105 | ¥13,124,820 |
本記事では、PRINCE2の概要とPRINCE2を理解する上で必須知識となる7の原則と7つのテーマと7つのプロセスとPRINCE2 Foundation / Practitionerという資格についてなるべくわかりやすく日本語で解説しています。
PRINCE2とは、「PRojects IN Controlled Environments, 2nd version」の略で、英国商務局(Office of Government Commerce; OGC)が開発したプロジェクトマネジメント手法です。
特徴として、「組織」に着目しており、「各ロールの役割と責任」を軸とした話が多いです。特に、ユーザー・エグゼクティブ・サプライヤー・プロジェクトマネージャー・チームマネージャーなどの役割と責任範囲が明確に定義されている。
PMBOKやITILなどの他の手法との違いを知りたい方は下記記事をご参照ください。
PRINCE2は、下記の7つの原則に基づいています。
原則とは、コンパスのような「プロジェクトの指針」を表します。
ビジネスとしての価値(投資する意義)があるかを確認しながら、進めていることを表します。
場合によっては、撤退(プロジェクト中止)の基準を決めることもあります。
過去の教訓を行動につなげていることを表します。
事前に定義された役割に応じた責任に基づいて、行動していることを表します。
段階(工程、プロセス)によってプロジェクトを管理していることを表します。
段階で分けていることで、投資を継続するかしないかなどの判断を段階ごとに判断が可能です。
各人が責任の許容度を超えた時に、例外としてエスカレーションをしていることを表します。
例外が発生した時の「許容度」と「伝達方法」を事前に定義しておくことが重要です。
顧客の要求を理解して、要求を満たすために適切にコントロールしていることを表します。
プロジェクトの環境に合わせて、経験や手法などを適切に適用していることを表します。
テーラリングとは、洋服の仕立てから転じて、個別のケースに最適化することです。
PRINCE2は、7つのテーマを利用しています。
テーマとは、7つの原理を実現するために「実施すべき活動や概念(ベストプラクティス)」を表します。
ビジネスケースとは、プロジェクトを実施する意義を説明した資料です。
プロジェクトの妥当性を判断するために利用します。
全メンバーの責任構造を明確にした組織構造を整理することが重要です。
「要求される品質基準」と「その基準に対する責任の所在」などを表します。
5W2Hなどを用いて、明確に定義することが重要です。
ポジティブ・ネガティブの両側面での不確定要素を表します。
リスクを把握するだけでなく、評価・対応していくために計画・実行・報告する手順も明確にします。
プロジェクト実行中に、変更が発生することがあります。
そうした時に、以下のような流れの詳細を定義します。
プロジェクトを進める上で、現状の進捗を「確認する方法」や「報告する方法」を定義します。
PRINCE2は、下記の7つのプロセスを進めます。
プロセスとは、プロジェクトを管理するための「活動手順」です。
プロジェクトの指示は、「全ての意思決定をするプロセス」です。
プロジェクトを開始するかどうか、継続するかどうか、リスクに対してどう対応するかなどの意思決定があります。
プロジェクトを開始する前に実施する「準備のプロセス」です。
具体的に実施する準備の例として、下記のような工程が挙げられます。
立ち上げよりもより計画を詳細化することがこのプロセスでの作業として挙げられます。
各段階における進捗・品質・費用を確認し、コントロールするプロセスです。
成果物納品に関連する管理を行うプロセスです。
納品後の品質管理や顧客からの承認などが含まれます。
段階と段階の間の管理プロセスです。
各段階が終了した後に、次の段階の計画を見直す作業が含まれます。
プロジェクトの最終段階が終了したタイミングで行う作業のプロセスです。
プロジェクト業務と定常業務を切り分けるためにもこの工程は重要である。
PRINCE2には、「PRINCE2 Foundation」と「PRINCE2 Practitioner」という資格があります。Foundationの資格には受験資格の制限はありませんが、Practitionerの試験には受験資格の制限(PMPもしくはPRINCE2 Foundationの試験合格)があります。
より詳細な情報は下記をご参照ください。
本記事では、PMBOK(第7版、PMBOK7)の概要とPMBOKを理解する上で必須知識となる12の原則と8つのパフォーマンス領域とPMPという資格についてなるべくわかりやすく日本語で解説しています。
PMBOKとは、「Project Management Body of Knowledge」の略で、米国プロジェクトマネジメント協会(Project Management Institute; PMI)によって策定されたプロジェクトマネジメント手法です。この手法を解説したガイドラインをPMBOK Guide(プロジェクトマネジメント知識体系ガイド)と呼んだりします。
特徴として、「成果物」に着目しており、計画から要求事項特定までの定義の手法が手厚いです。
ちなみに、日本語では「ピンボック」と読みます。
PRINCE2やITILなどの他の手法との違いを知りたい方は下記記事をご参照ください。
PMBOKは、下記の12の原則に従います。
英語では、以下のように定義されています。
スチュワードシップ(stewardship)とは、この場合以下のような行動様式を表します。
ちなみに、スチュワード(steward)とは、執事・財産管理人などの意味を持ちます。
一人のパフォーマンスには限界があるため、チームワークが重要になってきます。
チームでプロジェクト遂行をする効果を最大化するためには、協働的なチームの環境を作ることが重要です。
各ステークホルダーの背景や文化を理解して、それぞれのエンゲージメントを高めることが重要となってきます。
「最終的に何を得ることができるか?」という価値に焦点を当てて、目標を明確化することが重要です。
また、途中途中で「その目標に近づいているか?」や「価値に繋がっているか?」を確認する必要があります。
プロジェクト全体をシステムと捉えた時、各要素がどのように影響し合っているのかを捉える「システム思考」を活用することが重要です。
例えば、システム思考を活用すると、要求変更やトラブルが発生した時に、システム全体への影響範囲などを意識することができます。
リーダーシップは、マネージャーに留まらず、プレイヤーも持ち合わせた方がプロジェクトとしてうまく機能します。
テーラリング(tailoring)とは、洋服の仕立て直しのことです。
すでに存在する組織内外の資産をそのまま使うのではなく、そのプロジェクトの「目標・環境・状況」に応じて、カスタマイズしたり、組み合わせたりするということが重要です。
品質に関する観点としては、各ステークホルダーの期待している品質の定義とレベルを認識することが重要です。
ステークホルダーによって、成果物の像が異なることもよくあるため、細やかなコミュニケーションが必要です。
ステークホルダーの誰かの言動や行動によって複雑さが生じたり、新しい開発手法を取り入れたりする過程で複雑さが生じたりすることがあります。
複雑さがなるべく軽減されるように、現状を分析し、構造化し、シンプルでわかりやすい構造に落とし込むことが重要になってきます。
プロジェクトにおいて、リスクは常に付き物です。
大切なのはリスクを認識し、対処することです。
リスクを対処する方法として「リスク選好」と「リスク閾値」を確認することが挙げられます。
リスク選好(risk appetite)とは、リスクへ向かう姿勢の強さを表します。プロジェクトによって、ハイリスク・ハイリターンな戦略を取るか、ローリスク・ローリターンな戦略を取るかなどを明確にします。
リスク閾値(risk threshold)とは、リスクを受容するレベルを表します。どこまでのリスクは受容できて、どこからができないのかを明確にすることで、正しい意思決定をしやすくなります。
適応力(adaptability)とは、「変化に対応する力」です。プロジェクトの状況は日々刻々と変わるため、それらに対して柔軟に対応する必要があります。
回復力(resiliency)とは、「影響を緩和する力」や「挫折や失敗から迅速に回復する力」です。プロジェクトが進める上で、失敗するリスクは常にあります。失敗やトラブルに直面した時に、しっかりとそこから学び、前進する力が必要になってきます。
プロジェクトを成功させるということは、現状に対して良い変化(変革)を起こすことを表します。
ステークホルダーの中には、変化に対して抵抗する人が現れることがあります。そうした人たちと対話し、議論し、お互い納得して、変革することが必要になってきます。
ちなみに、第6版からの差分として、上記の原理原則だけでなく、プロジェクトのパフォーマンス領域ができたこともあげられます。8つのパフォーマンス領域は下記の通りです。
PMBOKには、「Project Management Professional(PMP)」という資格があります。この資格は、受験資格の制限(学歴やPM経験の時間など)があります。
より詳細な情報は下記をご参照ください。
「プロジェクトマネジメント」のスキルは、エンジニアやデータサイエンティストをはじめとして、プロジェクト業務を行う全ての職種において重要なスキルです。
これはマネージャーの立場の人に限らず、プレイヤーとしてプロジェクトに参画している人にも必要です。
この記事では、プロジェクトマネジメントスキルを伸ばすために、非常に参考になる3つの有名な手法であるPMBOKとPRINCE2とITILについて紹介します。
本記事の内容のまとめをはじめに記載します。
より詳細な情報を知りたい方は、これ以降の文章をご覧ください。
比較項目 | PMBOK | PRINCE2 | ITIL |
---|---|---|---|
略称 | Project Management Body of Knowledge(第7版) | PRojects IN Controlled Environments, 2nd version | Information Technology Infrastructure Library(第4版) |
発行団体 | 米国プロジェクトマネジメント協会(PMI) | 英国商務局(OGC) | 英国中央コンピュータ電気通信局(CCTA) |
特徴(所感) | 特に「成果物」に着目しており、計画から要求事項特定までの定義の手法が手厚い。 | 特に「組織」に着目しており、「各ロールの役割と責任」を軸とした話が多い。 | 特に「サービスマネジメント」に着目している。 |
構成 | 12の原則 | 7つ原則 + 7つのプロセス + 7つのテーマ | 7つの原則 + 34のプラクティス |
資格 | Project Management Professional(PMP) | PRINCE2 Foundation / Practitioner | ITIL Foundation / Specialist / Strategist / Leader / MP / SL / Master |
PMBOK(第7版、PMBOK7)とは、「Project Management Body of Knowledge」の略で、米国プロジェクトマネジメント協会(Project Management Institute; PMI)によって策定されたプロジェクトマネジメント手法です。この手法を解説したガイドラインをPMBOK Guide(プロジェクトマネジメント知識体系ガイド)と呼んだりします。
特徴として、「成果物」に着目しており、計画から要求事項特定までの定義の手法が手厚いです。
ちなみに、日本語では「ピンボック」と読みます。
より詳細な説明は、下記の記事をご参照ください。
PRINCE2とは、「PRojects IN Controlled Environments, 2nd version」の略で、英国商務局(Office of Government Commerce; OGC)が開発したプロジェクトマネジメント手法です。
特徴として、「組織」に着目しており、「各ロールの役割と責任」を軸とした話が多いです。
より詳細な説明は、下記の記事をご参照ください。
ITIL(第4版、ITIL4)とは、「Information Technology Infrastructure Library」の略で、英国中央コンピュータ電気通信局(Central Computer and Telecommunications Agency; CCTA)が開発したプロジェクトマネジメント手法(サービスマネジメント手法に近い)です。
特徴として、「サービスマネジメント」に着目しています。
各手法それぞれにおいて、重要な原理原則の項目があります。
PMBOKには、「12の原則」があります。
PRINCE2では、「7つの原則に基づいて、7つのテーマを利用して、7つのプロセスを進める」ことがプロジェクトマネジメントであると定義されています。
ITILでは、「従うべき7つの原則をもとに、34のプラクティスを利用しながら、サービスバリューチェーンを通じて顧客に価値を提供すること」が手法のベースにあります。
PMBOKには、「Project Management Professional(PMP)」という資格があります。この資格は、受験資格の制限(学歴やPM経験の時間など)があります。
PRINCE2には、「PRINCE2 Foundation」と「PRINCE2 Practitioner」という資格があります。Foundationの資格には受験資格の制限はありませんが、Practitionerの試験には受験資格の制限(PMPもしくはPRINCE2 Foundationの試験合格)があります。
ITILには、以下の試験のレベルがあります。
データサイエンティストの実務では、「Python」を使うことが肌感として多いです。
このPythonを体系的に学べて、なおかつスキルの証明になる「Pythonエンジニア認定試験」という資格があります。
この記事では、Pythonエンジニア認定試験を徹底解説していきたいと思います。
Pythonエンジニア認定試験は、大きく分けて3つの試験に分類されます。
以下、公式ホームページを参考にまとめた情報になります。
受験の申し込みURLは下記の通りです。
以下、公式ホームページを参考にまとめた情報になります。
受験の申し込みURLは下記の通りです。
ここまでのまとめスライドは下記の通りです。
以下、公式ホームページを参考にまとめた情報になります。
ここまでのまとめスライドは下記の通りです。
ここから私自身の受験記録をまとめました。
「基礎試験」と「データ分析試験」を受験し、どちらも1回で合格できました(「実践試験(β)」は未受験なため、これ以降は省略します)。
また、人によってバックグラウンドが違うと難易度の感じ方や勉強時間は変わってしまうため、私自身の経歴を下記にまとめました。
他の保持資格などを知りたい方は、下記をご参照ください。
まず私自身の受験結果は下記の通りです。
また、私が行なった勉強方法は下記の通りです。
まず私自身の受験結果は下記の通りです。
また、私が行なった勉強方法は下記の通りです。
下記の4種類の教材を下記にまとめました。
(※ 模擬試験のみ公開されており、私が調べた限り公式の過去問題は見つかりませんでした。)
3-1. Python3データ分析模擬試験 解説(データ分析試験)
3-2. Pythonエンジニア認定試験対策講座(基礎試験)
3-3. Python3エンジニア認定基礎試験 合格への勉強方法(基礎試験)
1. Python I(Progate)
2. ゼロからやさしくはじめるPython入門(マイナビ)
3. スラスラ読める Pythonふりがなプログラミング(インプレス)
上記の教材をもとに、初学者と経験者別におすすめの勉強方法(学習ロードマップ)をまとめました。
初学者の方々の場合、自分の目的に合わせて以下のような学習ロードマップをおすすめします。
最短で合格したい場合は、座学の知識のみを詰め込む形が良いと思います。
この工程を先に行っておくと、頭がReadyも状態になるため、おすすめです。
最初に1周速読してから、2周目でじっくりラインマーカーを引く方法を私はおすすめします。
活字より動画の方がいいという方もいると思うため、ここは適宜自分にあった方法で大丈夫です。
大切なのは、出題範囲を網羅的に学び直すということです。
模擬試験を受けて、下記の点を把握することを目的とします。
しっかりと理解したい場合は、まず手を動かすところから始めることをおすすめします。
Pythonについて何もわかってなくてもOKなので、まずは動かしてみることをおすすめします。
個人的には、「ProgateのPython I」を実施することをおすすめします(全て理解できなくてOKです)。
この工程を先に行っておくと、頭がReadyも状態になるため、おすすめです。
一方で、出題範囲を読んでも、何がなんだかわからないと思いますが、それでも大丈夫です。
学習する過程で段々とクリアになっていきます。
基礎試験を受験する場合、主教材のレベルが少し高いため、より入門的な本(「ゼロからやさしくはじめるPython入門」や「Pythonふりがなプログラミングなど」)を先に読むことをおすすめします。
また、主教材を読む際は、最初に1周速読してから、2周目でじっくりラインマーカーを引く方法を私はおすすめします。
活字より動画の方がいいという方もいると思うため、ここは適宜自分にあった方法で大丈夫です。
大切なのは、ここで網羅的に基礎固めをすることです。
模擬試験を受けて、下記の点を把握することを目的とします。
最短で合格したい場合は、模擬試験を解くことをおすすめします。
この工程を先に行っておくと、頭がReadyも状態になるため、おすすめです。
模擬試験を受けて、下記の点を把握することを目的とします。
確実に合格したい方は、主教材の読むことをおすすめします。
知識を抜け漏れなくPythonを学び直ししたい方にもこちらがおすすめです。
この工程を先に行っておくと、頭がReadyも状態になるため、おすすめです。
最初に1周速読してから、2周目でじっくりラインマーカーを引く方法を私はおすすめします。
活字より動画の方がいいという方もいると思うため、ここは適宜自分にあった方法で大丈夫です。
大切なのは、出題範囲を網羅的に学び直すということです。
模擬試験を受けて、下記の点を把握することを目的とします。
公式サイトが、合格体験記を公開しているため、他の人の体験記を知りたい方はこちらもご参照ください。
Pythonソフトウェア財団が行なっている他の検定で、「PythonZen & PEP8検定」という試験があります。
こちらは無料で受けることができ、Pythonのコーディング規約や思想について学習することができます。
会社の経費で受験をした際の領収書の発行方法を説明します。
オデッセイのテストセンター(横浜 / 有楽町)で実施した場合、下記のフォームから申請可能です。
(それ以外の会場で受験した場合、おそらくそれぞれの実施会社から領収書を申請できると思います。)
エンジニアやデータサイエンティストとして、よりスキルアップをしたい方々は、下記の無料教材もおすすめです。
本記事では、2022年9月現在公開されているエンジニア向けの無料教材をまとめました(順次更新)。
「これから就職や転職を控えているエンジニア」や「学び直したいエンジニア」の方々に向けて、執筆しました。
新人研修教材は、ボトムアップ的にスキルを伸ばしてくれる有益なツールとなるため、助かりますね。以下の掲載企業に、この場を借りて、感謝申し上げます。ありがとうございます。
技術を学びつつ、マインドセットやソフトスキルを中心に身につけたい場合は、WantedlyとCyberAgentの研修資料がおすすめです。
技術という側面において、最も網羅的にまとまっていると思われるミクシィの研修資料がおすすめです。
中級者エンジニアにおすすめの教材です。
開発の経験を積んでくると段々と、パフォーマンス性などの非機能要件を改善するスキルが求められてきます。
技術知識の幅を広げたい場合におすすめです。
筆者が書いている以下の無料教材もぜひご活用ください。
「数理・データサイエンス・AI教育強化拠点コンソーシアム」が公開しているモデルカリキュラムの対応教材の大枠を解説します(2022年9月現在)。
非常によくまとまったカリキュラムである一方、分量が非常に多いです。そのため、全体像を理解した上で学習したい方々に向けてこの記事を書きました。
あくまで筆者の考えだが、それぞれのレベル別に、以下のような方々に適したモデルカリキュラムとなっています。
リテラシーレベルは、以下のような構成になっています。
分類 | タイトル | キーワードの例 |
---|---|---|
1. 社会におけるデータ・AI利活用 | 1-1. 社会で起きている変化 | ・ビッグデータ ・IoT ・AI ・ロボット ・第4次産業革命 ・Society 5.0 ・データ駆動型社会 |
1-2. 社会で活用されているデータ | ・調査データ ・実験データ ・構造化データ ・非構造化データ | |
1-3. データ・AIの活用領域 | ・研究開発 ・調達 ・製造 ・物流 ・販売 ・マーケティング ・サービス | |
1-4. データ・AI利活用のための技術 | ・データ解析 ・データ可視化 ・非構造化データ処理 ・特化型AIと汎用AI | |
1-5. データ・AI利活用の現場 | ・データサイエンスのサイクル ・流通 / 製造 / 金融 / サービス / インフラ / 公共 / ヘルスケア等における事例 | |
1-6. データ・AI利活用の最新動向 | ・AI等を活用した新しいビジネスモデル ・AI最新技術の活用例 | |
2. データリテラシー | 2-1. データを読む | ・データの種類 / 分布 / 代表値 / ばらつき ・相関と因果 ・母集団と標本抽出 ・クロス集計表 ・分割表 ・相関係数行列 ・散布図行列 |
2-2. データを説明する | ・データ表現(棒グラフ、折線グラフ、散布図、ヒートマップ) ・不適切なグラフ表現(チャートジャンク、不必要な視覚的要素) | |
2-3. データを扱う | ・データの集計 ・データの並び替え ・データ解析ツール(スプレッドシート) ・表形式のデータ(csv) | |
3. データ・AI利活用における留意事項 | 3-1. データ・AIを扱う上での留意事項 | ・個人情報保護 ・EU一般データ保護規則(GDPR) ・忘れられる権利 ・オプトアウト ・データ倫理 ・AI社会原則 ・データバイアス ・アルゴリズムバイアス |
3-2. データを守る上での留意事項 | ・情報セキュリティ ・匿名加工情報 ・暗号化 ・パスワード ・悪意ある情報搾取 | |
4. オプション | 4-1. 統計および数理基礎 | ・確率 ・順列 ・組み合わせ ・線形代数 ・微積 |
4-2. アルゴリズム基礎 | ・アルゴリズムの表現(フローチャート、アクティビティ図) ・ソート ・サーチ | |
4-3. データ構造とプログラミング基礎 | ・数と表現 ・計算誤差 ・データ量の単位 ・文字コード ・配列 | |
4-4. 時系列データ解析 | ・時系列データ(トレンド、周期、ノイズ) ・季節調整 ・移動平均 | |
4-5. テキスト解析 | ・形態素解析 ・単語分割 ・ユーザ定義辞書 ・n-gram ・文章間類似度 | |
4-6. 画像解析 | ・画像データの処理 ・画像認識 ・画像分類 ・物体検出 | |
4-7. データハンドリング | ・データベース(リレーショナルデータベース、SQL) ・プログラミング(Python、R等) ・データクレンジング | |
4-8. データ活用実践(教師あり学習) | ・売上予測 ・罹患予測 ・成約予測 ・離反予測 ・データの収集 / 加工 / 分析 ・単回帰分析 ・重回帰分析 ・ロジスティック回帰分析 ・モデルの評価 | |
4-9. データ活用実践(教師なし学習) | ・顧客セグメンテーション ・店舗クラスタリング ・データの収集 / 加工 / 分析 ・階層クラスタリング ・非階層クラスタリング |
分類 | タイトル | キーワードの例 |
---|---|---|
1. データサイエンス基礎 | 1-1. データ駆動型社会とデータサイエンス | ・データ駆動型社会 ・Society 5.0 ・データサイエンス活用事例 |
1-2. 分析設計 | ・データ分析の進め方 ・仮設検証サイクル ・様々なデータ分析手法 ・様々なデータ可視化手法 ・データの収集 / 加工 / 分割/統合 | |
1-3. データ観察 | ・データの集計 ・比較対象の設定 ・クロス集計表 ・データのバラツキ ・ヒストグラム ・散布図 ・データの特異点 ・相違性 ・傾向性 ・関連性 | |
1-4. データ分析 | ・単回帰分析 ・重回帰分析 ・最小二乗法 ・ロジスティック回帰分析 ・最尤法 ・時系列データ ・時系列グラフ ・周期性 ・移動平均 ・クラスター分析 ・パターン発見 ・アソシエーション分析 | |
1-5. データ可視化 | ・可視化目的に応じた図表化 ・1~3次元の図表化 ・適切な縦軸、横軸候補の洗い出し ・不必要な誇張表現、強調表現がもたらす影響 | |
1-6. 数学基礎 | ・順列 / 組合せ ・集合 ・条件付き確率 ・代表値(平均値、中央値、最頻値) ・分散 / 標準偏差 ・相関関係と因果関係 ・名義尺度 / 順序尺度 / 間隔尺度 / 比例尺度 ・確率分布 ・正規分布 ・独立同一分布 | |
1-7. アルゴリズム | ・アルゴリズムの表現(フローチャート) ・並び替え(ソート) ・探索(サーチ) ・ソートアルゴリズム ・探索アルゴリズム | |
2. データエンジニアリング基礎 | 2-1. ビッグデータとデータエンジニアリング | ・ビッグデータの収集と蓄積 ・クラウドサービス ・人の行動ログデータ ・機械の稼働ログデータ ・ソーシャルメディアデータ |
2-2. データ表現 | ・数値 / 文章 / 画像 / 音声 / 動画などのデータ ・構造化データ / 非構造化データ ・情報量の単位 ・配列 / 木構造(ツリー) / グラフ ・画像の符号化 ・音声の符号化 | |
2-3. データ収集 | ・IoT(Internet of Things) ・エッジデバイス ・センターデータ ・スクレイピング ・アノテーション | |
2-4. データベース | ・テーブル定義 ・ER図 ・主キーと外部キー ・リレーショナルデータベース(RDB) ・SQL | |
2-5. データ加工 | ・集計処理 ・四則演算処理 ・ソート処理 ・サンプリング処理 ・クレンジング処理 ・結合処理(内部結合、外部結合) ・データ型変換処理 ・データの標準化 ・ダミー変数 | |
2-6. ITセキュリティ | ・セキュリティの3要素(機密性、可用性、完全性) ・データの暗号化 / 復号化 ・データの盗聴 / 改ざん / なりすまし ・電子署名 / 公開鍵認証基盤(PKI) ・ユーザ認証とアクセス管理 ・マルウェアによるリスク | |
2-7. プログラミング基礎 | ・データ型 ・変数 ・関数 ・順次 / 分岐 / 反復 | |
3. AI基礎 | 3-1. AIの歴史と応用分野 | ・AIの歴史 ・トイプロブレム ・エキスパートシステム ・汎用AI/特化型AI(強いAI/弱いAI) ・フレーム問題 ・シンボルグラウンディング問題 ・人間の知的活動とAI技術 |
3-2. AIと社会 | ・AI倫理 ・AIの社会的受容性 ・プライバシー保護 ・個人情報の取り扱い ・AIに関する原則/ガイドライン ・AIの公平性 / 信頼性 / 説明可能性 | |
3-3. 機械学習の基礎と展望 | ・実世界で進む機械学習の応用と発展(需要予測 / 異常検知 / 商品推薦) ・機械学習 / 教師あり学習 / 教師なし学習 / 強化学習 ・学習データと検証データ ・ホールドアウト法 / 交差検証法 ・過学習 ・バイアス | |
3-4. 深層学習の基礎と展望 | ・実世界で進む深層学習の応用と革新(画像認識、自然言語処理、音声生成) ・ニューラルネットワークの原理 ・ディープニューラルネットワーク(DNN) | |
3-5. 認識 | ・パターン認識 / 特徴抽出 / 識別 ・数字認識 ・文字認識 ・画像認識 ・音声認識 | |
3-6. 予測・判断 | ・決定木(Decision Tree) ・混同行列 / Accuracy / Precision / Recall ・MSE(Mean Square Error) ・ROC曲線 ・AUC(Area Under the Curve) | |
3-7. 言語・知識 | ・形態素解析 ・単語分割 ・係り受け解析 ・ユーザー定義辞書 | |
3-8. 身体・運動 | ・AIとロボット ・家庭用ロボット ・産業用ロボット ・サービスロボット ・自動化機械 / センサー / アクチュエータ ・シーケンス制御 / フィードバック制御 | |
3-9. AIの構築・運用 | ・AIの学習と推論 / 評価 / 再学習 ・AIの社会実装 ・ビジネス/業務への組み込み ・複数のAI技術を活用したシステム(スマートスピーカー、AIアシスタントなど) |