前のページへ戻るホームへ戻るテクノビジョダイジェスト
 
【連載 統計解析力アップ講座】
演習:統計的品質管理(4)
近藤 宏
 
統計的品質管理講座の第4回です。今回は、データ同士の関係を数式化してデータの予測にも利用できる分析手法−相関分析・回帰分析−についての演習です。

○例題1

ある製品の材料に含まれる原料の含有量と、できあがった製品の特性について次のようなデータが得られています。原料の含有量と製品特性の間に、どのような関係があるか分析してください。

No. 含有量 製品特性
1 3.09 4.07
2 3.78 4.14
3 5.62 4.81
4 6.92 5.39
5 5.05 5.03
6 5.30 5.14
7 6.59 5.26
8 8.11 5.71
9 7.14 5.59
10 3.88 5.02
11 2.22 4.26
12 2.24 4.31

●答

データを見ると含有量の増加に伴い製品特性の値も大きくなっているようです。この関係をわかりやすくするため、散布図を描いてみます(散布図はExcelを利用すると簡単に描くことができます)。


含有量が増えると製品特性も上昇する傾向がはっきりと見えるようになりました。このようなデータ同士の関係を相関といいます。図のように右上がりに並ぶ場合を正の相関、逆に右下がりとなる関係を負の相関といいます。

データ同士の対応関係の強さは相関係数で表すことができます。測定したデータをxi、yi(i=1、2、3、…n)としたとき、xとyの相関係数 r は次の式で求められます。式中の、x、yはxとyの平均値です。


相関係数 r は、2つの変数の間の関係を散布図上に表したとき、どれだけ直線に近いかを示す数値です。−1から1の間の値となり、1に近いとき強い正の相関、−1に近いとき強い負の相関があることを示し、0に近いときは相関がない状態を示します。

相関係数はExcelのCORREL関数を用いたり、分析ツールの[相関]で求めることができますが、ここでは分析ツールの[回帰分析]を利用します。例題1のデータについて[回帰分析]を実行すると次のような結果が表示されます。


上側の表で[重相関R]で示された値が相関係数です。0.910129と1に近い値なので強い正の相関がありそうです。相関があることを統計的に判定する(検定する)にはいくつかの方法がありますが、中央の表の右端に[有意F]で示された値でも判定できます。この値が0.05=5%以下なら相関があると判定できますので、今回の結果(3.96E-05=0.0000396=0.004%)では強い相関があるといえます。
下側の表の左端に示された[切片]と[含有量]の[係数]の値から、製品特性yを含有量xで表す回帰式を求めることができます。今回の結果からは

 y=0.26516x+3.569692

と求められます。回帰式を利用すると、原料の含有量から製品特性を予測することが可能となります。たとえば原料の含有量が4.5の時の製品特性は、y=0.26516×4.5+3.569692=4.76と予測できます。
このように回帰式を求めて、データの予測を可能とする分析手法を回帰分析と呼びます。

○例題2

次のデータについて、XとYの関係を分析してください。

No. X Y
1 1.0 1.0
2 1.0 2.4
3 1.0 5.0
4 1.0 4.0
5 2.0 4.0
6 2.0 3.1
7 2.0 2.0
8 2.0 1.0
9 3.0 2.0
10 3.0 4.7
11 3.0 3.0
12 3.0 5.0
13 4.0 3.0
14 4.0 2.1
15 4.0 1.0
16 4.0 1.0
17 12.0 11.0

●答

Excel分析ツールの[回帰分析]を実行すると次のような結果が得られます。


[重相関R]で示された相関係数は0.680575、有意Fで示された値は0.002639=0.26%と5%以下なのでXとYの間には正の相関があると判断できます。回帰式は左下の係数より、y=0.647478x+1.272422と求められますが、データを見るとNo.17のデータだけ大きく外れているようなので、散布図を描いてデータの状態を確認してみます。


データが1つだけ大きく外れており、やはりNo.17のデータです。どうやら何らかの異常データが紛れ込んでしまったようです。このため、このデータを除外してNo.16までのデータで[回帰分析]を実行すると、次のように[有意F]は5%を上回り、xとyの間には相関がないことがわかりました。


No.17のデータのように分析結果に大きく影響してしまう異常値のことを外れ値といいます。相関分析・回帰分析では、たった1つの外れ値によって結果がまったく異なってしまうことがありますので、散布図等でデータの状態を確認し、外れ値と判断されるデータを分析前に取り除いておく必要があります。

○例題3

次の身長と体重のデータについて分析してください。

No. 身長 体重
1 163.1 62.0
2 174.2 65.1
3 175.1 67.0
4 174.8 68.2
5 169.4 67.2
6 159.5 64.6
7 152.0 62.5
8 167.3 57.2
9 170.6 58.5
10 168.5 56.1
11 168.8 55.3
12 163.4 55.0
13 155.6 54.0
14 152.3 53.6

●答

[回帰分析]を実行すると次のように[有意F]が5%を上回るので、身長と体重に相関はないという結果です。


一般に身長と体重には相関があるはずですが、このデータではそうとはいえないようです。太りすぎ、やせすぎの人が多かったのでしょうか?
実は、このデータはNo1〜7までは男性のデータ、No8〜14は女性のデータでした。次のように、データの散布図中に引かれた点線をはさんで上が男性、下が女性のデータだったのです。


このように、データが層別されずに混在すると、本来なら相関があると判断されなければならないデータも相関がないと判断されることがあります。分析前にはデータ測定の経緯や技術的な観点も含めて層別の必要性を確認しておく必要があります。
今回紹介した回帰分析は、1つの原因(たとえば原料の含有量)と結果(製品特性)の関係を分析する単回帰分析です。第5回では、複数の原因と結果の関係を分析する重回帰分析について説明します。

<参考文献>
・「Excelでできる統計的品質管理入門」(同友館)
・「Excelで学ぶ回帰分析入門」(オーム社)

著者紹介
近藤 宏(こんどう ひろし)

三菱電機(株)勤務。業務用空調機の開発、品質、生産管理業務に携わりながら統計的品質管理(SQC)・タグチメソッドを学ぶ。最近は統計解析手法、データマイニング手法を技術系だけでなく事務系範囲をも対象とした手法の啓蒙に着手している。主著に「Excelでできるデータ解析入門」「Excelでできる統計的品質管理入門」(以上同友館)、共著に「Excelで学ぶ営業企画マーケティングのための実験計画法」「Excelで学ぶ時系列分析と予測」(以上オーム社)、「Excelでできるタグチメソッド解析法入門」(同友館)がある。



前のページへ戻るホームへ戻るテクノビジョンダイジェスト