基本情報技術者試験で問われるデータ分析手法について解説!
更新日:2021年7月5日
現代はデータを活用した経営が重要視されていますが、データを集めただけでは経営に資する活用はできません。データは分析して初めてその価値を発揮します。
有効なデータ分析手法は様々知られていますが、この記事では、基本情報技術者試験の対策として特に試験に出題される手法について解説を行います。
データ分析手法を習得することで、試験対策はもちろんのこと、実務においても活用できるでしょう。
データ分析とは
データ分析とは、企業が保有するデータの可視化や整理を行ったり、データから知見を見出したりすることです。現代においてはAI関連技術をはじめとしてデータ活用に注目が集まっており、企業においてはデータ分析に力を入れるようになっています。
企業が集めるデータとしては販売実績や商品在庫、サプライチェーン上の材料・部品・製品 、また人事関連情報など、多岐にわたります。これら収集したデータを有効活用するために、様々なデータ分析が行われます。
データ可視化手法
データ分析手法のうち、データを可視化する手法として知られているものについて以下で解説を行います。
散布図
散布図は、データを二次元平面上にプロットすることで、データの傾向を把握する手法のことです。特に2つの軸で評価できるようなデータを可視化する際には有効な手法です。
散布図の利用に向いているデータの例としては、価格と販売量の実績データや、精度と製品ロスのような製造データなど、様々です。
散布図を利用することで、2軸で整理したデータの大まかな相関関係を見出すことができるため、特に関連性があると想定できるデータを散布図にしてみることは有効な試みとなります。
例えば、価格と販売量の実績データであれば、本当に価格で販売量が変わるのか、散布図にて示すことにより一目でわかります。
以下に身長と体重を扱った散布図の例を示します。散布図を用いることで、身長と体重には相関関係があることが一目でわかります。
ヒストグラム
ヒストグラムは、データをいくつかの階級にわけることで、データの分布を調べる手法のことです。散布図よりも集約して図示したほうが傾向を明らかにできるデータに用いる可視化手法です。
ヒストグラムとして可視化することに適しているデータの例としては、年代別の販売実績や地域別のブランド評価などが挙げられます。これらは、ある程度の単位で区切ったうえで取り扱うほうが分かりやすくなる例といえます。
以下に、散布図と同じデータを身長10cm刻みで集計し、ヒストグラムで表した例を示します。
管理図
管理図は、異常なデータを発見するために作成する折れ線グラフで、折れ線グラフ中に管理限界線を設定することで異常値を見出すために用います。
例えば、製造ロットごとの商品ロス率を折れ線グラフにしたうえで、許容できる商品ロス率上限を管理限界線として示します。こうすることで、商品ロス率が異常に高くなっているロットを一目で把握できるようになります。
以下にロットごとの商品ロス率を表した管理図を示します。以下の例でいえば、「A007」のロットに管理限界線を越えた異常値が発生していることが分かります。
レーダーチャート
レーダーチャートは、データのバランスを調べるために同じ範囲で項目ごとの値を平面図で示した図形のことです。特に、複数のパラメータから構成されるデータを可視化するのに適した手法です。
レーダーチャートで図示するのが適している例としては、アンケート調査結果などが挙げられます。
ある商品に対して使いやすさやデザイン、値打ち感などの様々な要素をアンケートした結果をレーダーチャートにて示すことで、その商品の強みと弱みが明らかになります。
また、同様のアンケートを様々な商品に対して行い、商品ごとにレーダーチャートを作成することで、商品ごとの特性分析などもできるようになります。
以下の図では、ある商品を項目要素ごとに評価した結果をレーダーチャートで表しています。その商品の特性がレーダーチャートを見ることで、一目で把握できます。
特性要因図
特性要因図は、要因と結果の関係を整理して体系化した図のことで、問題の原因を深堀するために用いられる可視化手法です。特性要因図はまるで魚の骨のような記述方法であることからフィッシュボーン図などと呼ばれることもあります。
特性要因図は、右端に結果を記載したうえで、その結果に至る様々な要因を左に記載していきます。その際に、要因はすぐに思いつく要因から記載し、その要因を分解していった個々の要因をその要因から枝分かれする形で記載していきます。
このような記載方法をとることで、結果に至るまでの原因を段階別に細かく分析することができます。
以下に、特性要因図の作成例を示します。下図では、商品Aが売れていない原因を分析する手法として特性要因図を利用しています。
意思決定手法
以下では、データ分析手法のうち意思決定を行うために用いるデータ分析手法について紹介します。
ディシジョンテーブル
ディシジョンテーブルは、条件と項目を表で整理し、それぞれの項目を実施する条件を整理する手法のことです。特にシステム開発においては、テストケースの洗い出しに頻繁に用いられる手法です。
テストケースには、AパターンかつCパターン、BパターンかつDパターンのように、複数の組み合わせを試す必要がある場合があります。ディシジョンテーブルを用いると、このような複数の組み合わせパターンをもれなく洗い出すことができます。
例えば、以下のように年齢とクーポン利用有無のパターンを洗い出すことで、想定ケースに漏れがないようにすることができます。
パレート分析
パレート分析は、データを値が多い順に並べた棒グラフと、それぞれの値が全体に占める割合を累計した折れ線グラフを用いる分析手法です。パレート分析により、複数の項目のうちどこまでが重要な項目であるかを整理することができます。
例えば、製品の購入のきっかけをアンケート調査したとして、そのアンケートで回答が多かった順に並び替えを行い、全体の80%を網羅するように重点対応項目を抽出するとします。
このような場合には、パレート分析を行うことでどの項目までカバーすればよいかを整理することができます。
以下の例では、商品Aの購入理由をパレート図で表したものです。全体の70%程度が、値段と性能・デザインを購入理由に挙げていることが下図でわかります。
線形計画法
線形計画法は、最適な生産数や販売数を算定するための手法で、様々なパラメータを変動させて変数が最適化されるポイントを決定するものです。
例えば、生産のために投入する材料がX、Y、Zであったとして、これらをどのように組み合わせたら最適な品質となるかを分析するとします。この場合、X、Y、Zの投入量をパラメータとして、各パラメータを変動させながら品質を観察することで最適な材料バランスを導き出すことができます。
線形計画法は、線形という名称の通り、数学的に線形な問題しか取り扱うことができません。線形とは、グラフをイメージしたときに、入力(x軸)に対して出力(y軸)が直線的に増加するようなデータのことです。
例えば、商品の購入個数と支払金額のようなものは、個数×単価=支払金額と計算され、個数に応じて直線的に増加する線形の例となります。非線形の場合は線形計画法を用いることができないので、単一に答えが定まらずシミュレーションにより近似値を算出することになります。
以下で、線形計画法により材料Xと材料Yを用いて、製品Aと製品Bを最適に生産する方法を算出しています。材料Xの投入割合と材料Yの投入割合を変化させながら、製品Aと製品Bの売上価格を計算していくと、下図のポイントが最大の売上を生み出す製造バランスであることが分かります。
状況分析手法
以下では、データ分析手法のうち、状況を分析するために用いるデータ分析手法を紹介します。
親和図
親和図は、収集した情報をグループ化し、見出しを付けることで問題点を整理する手法のことです。ブレインストーミングのようにアイディアを検討する際にアイディアの整理方法として用いられたり、課題を整理する際に課題の分類のために用いられたりします。
親和図を作成する際のポイントは、項目同士の関連性を見出していくことです。多様な意見や課題があったとしても、それをそのまま解決策に結びつけるのは難しいです。
多様な意見や課題の共通点や関連性を見出し、一つ上の階層でまとめ上げることで、意見や課題を統合して共通的な認識として整理することができます。
以下に、親和図のイメージをご紹介します。
連関図
連関図は、様々な要因が絡み合う状況を、要因と結果の連続で可視化する手法のことです。中心に問題を設定し、それらの要因を周囲に書き込み、矢印で課題につなげます。
そして、その要因のさらに要因となっている要素を書き込み、矢印でつなげます。これを繰り返すことで、問題に対する要因を洗い出すことができます。
連関図は特性要因図に似た手法ですが、連関図は要因同士の因果関係を整理できるという特徴があります。必要に応じて両者を使い分けることが大切です。
以下に連関図を用いた課題の分析例について示します。
クラスター分析
クラスター分析は、関連性が高い要素をクラスターとしてまとめることで、データの分類と可視化を行う手法のことです。関連性の計り方は、数値情報であれば数字の近さですし、文字列であれば利用されている単語などを用いて関連性を計ります。
クラスター分析は事前に分類項目を設定せずに行うことがポイントです。データ群に対して、データの要素で距離を測りアルゴリズムでまとめ上げることで、予想しなかった集約のされ方をすることもあります。
クラスター分析は新たな知見を発見するための手法として用いられる分析手法です。
以下にクラスター分析を実施した結果の例について示します。クラスター分析により、身長と体重でグループ分けを行い、小学生・中学生・高校生に区分けをしています。
まとめ
この記事では、基本情報技術者試験を受けようとされている方に向けて、データ分析手法に関する内容の解説を行いました。データ分析手法は経営における意思決定や品質の確保、課題の抽出など幅広い範囲で利用できる手法です。
ITの分野でも、その活用範囲は広く、プロジェクトマネジメントにおいては特に活用できる手法です。ぜひポイントを押さえておくとよいでしょう。