これだけは知ってほしいデータ分析の基本「相関係数」のビジュアル解説
これだけは知ってほしいデータ分析の基本「相関係数」のビジュアル解説 / Credit:川勝康弘
mathematics

統計研究の「関係がある」ってどういう根拠なの?「相関係数」をビジュアル解説 (2/3)

2023.12.16 Saturday

前ページ相関係数をビジュアルで実感しよう!

<

1

2

3

>

相関係数0.1~0.9の視覚的理解

相関係数0.1~0.9の視覚的理解
相関係数0.1~0.9の視覚的理解 / Credit:川勝康弘

相関係数0.1~0.3の場合「弱い相関」

相関係数0.1~0.3の場合「弱い相関」
相関係数0.1~0.3の場合「弱い相関」 / Credit:川勝康弘

上の図は左から相関係数0.1、0.2、0.3のグラフの様子を視覚的に表示しています。

相関係数0のグラフと比べて、ポイント全体の分布に少し変化が現れているのがわかります。

しかしこの程度の変化は、ほとんど0の場合と見分けがつかないと言っていいでしょう。

そのため関係性を調べる統計研究においては一般に、相関係数が0.1~0.3の場合には、ほとんど相関関係がないか弱い相関と判断されます。

実際、全く無関係の現象の相関係数を調べた場合でも、誤差によって「0」以外の結果が得られることがほとんどです。

(※相関係数が低くても絶対に無関係というわけではありません)

そのため、低い相関係数でも関連性を主張したい場合には別途、誤差ではないことを示す別の証拠が必要となります。

相関係数0.4~0.6の場合「中程度の相関」

相関係数0.4~0.6の場合「中程度の相関」
相関係数0.4~0.6の場合「中程度の相関」 / Credit:川勝康弘

上の図の左から相関係数0.4、0.5、0.6となるグラフを示しています。

このあたりになると、多少なりともポイントたちの偏りが見て取れるでしょう。

実際、一般的には0.4を挟んで「弱い相関」から「中程度の相関」へと評価が変化します。

(※分野によって評価基準が異なることがあります)

ただ中程度の相関といっても、かなりのバラつきがあることに注意が必要です。

相関係数0.4でも、かなりのバラつきがある
相関係数0.4でも、かなりのバラつきがある / Credit:川勝康弘

たとえば0.4のグラフの場合。

X軸の値が0のときには、Y軸の値は-2から+2へかけて、つまりグラフで表示されているY軸範囲の過半に分布していることがわかります。

この結果はX軸に設定した、最もありふれた数値(中央値平均値付近)でも、Y軸の数値の予測がかなり困難で、あまり参考にならないことを示しています。

0.4が弱い相関と中程度の相関の境目とされている理由は、このあたりにあると言えるでしょう。

相関係数0.5や0.6はより左下から右上という傾向が強くなっていますが、それでもバラつきは大きくなっています。

統計的には何らかの相関がみられても「個々のケースでの判断基準にするのは少し怖い」というのが中程度の相関に対する「感想」と言えるでしょう。

現実世界において、この範囲が該当する相関係数は非常に多く、例としては、自己肯定感と学業成績(0.4~0.6)、職場の満足度と生産性(0.4~0.6)、テレビ視聴時間と肥満度(0.4~0.6)、親の教育水準と子供の学業成績(0.4~0.6)、ストレスレベルと身体的健康(0.4~0.6)など多岐に及びます。

(※相関係数は研究によって異なる結果が得られますので上記の数値は一般的に言われる値になっています)

多くの人々にとってもテレビ視聴時間と肥満度などは「無関係ではないけど、例外も多いよなぁ」という印象があるでしょう。

相関係数0.7~0.9の場合「強い相関」

相関係数0.7~0.9の場合「強い相関」
相関係数0.7~0.9の場合「強い相関」 / Credit:川勝康弘

上の図では左から相関係数0.7、0.8、0.9を示しています。

この段階に至ると、ビジュアル的にも明白な傾向が現れ、偶然とはとても言えない段階に到達します。

また一般的な評価も0.7を境に「中程度の相関」から「強い相関」へと変化します。

実際、このレベルの相関係数になると、現実世界でも重要な決定に用いられることがあります。

たとえば「テストの点数」と「成績」では相関係数が0.7以上になることが報告されています。

そのため1~2回しか行われない入試テストの点数を、受験生の成績全体を現わす指標として合否判定を行う正当性が出てくるのです。

一方で、相関係数0.8の段階でもまだ、若干のバラツキが存在していることがわかります。

「テストでは能力が計れない」とする意見があるのも、相関係数0.8に至ってまだ回収しきれていないケースが多数、存在することが関連しているのでしょう。

一般に高い相関と言われているものには、気温とアイスクリームの売り上げ(0.8以上)、肥満と2型糖尿病リスク(0.7以上)、遺伝的類似性と身体的特徴(0.7以上)、気温とエアコンの使用量(0.7以上)などが知られています。

私たちが経験的に「当然だろう」と思うものの多くが相関係数0.7以上という数値と言えるでしょう。

統計研究などでは、これまで知られていなかったものに相関係数0.7以上の強い相関があることがわかると、しばしば大発見と見なされることがあります。

逆相関の場合

逆相関の場合
逆相関の場合 / Credit:川勝康弘

これまでは、横軸が増えたら縦軸がどれくらい増えるかといった、プラス方向の相関関係をみてきました。

しかし「タバコを吸う本数と寿命」のように、一方が増えると他方が減っていく関係も存在しています。

プラス方向の相関係数は「0から+1」の間で示されましたが、マイナスの関係にある場合の相関係数は「0~-1」の値で示されます。

また負の相関係数の場合にも同じように、弱い(-0.1~-0.3)、中程度(-0.4~-0.6)、強い(-0.7~0.9)が存在しており、-1となると完全な逆比例となります。

次ページ相関係数が高くても因果関係があるわけではない

<

1

2

3

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

数学のニュースmathematics news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!