最近あらゆる場面で耳にする事が多くなったビッグデータ。
その理解のツールとして統計解析は必須です。
医療分野では疫学調査はビッグデータとなることが多く、毎年厚生労働省が出している疫学調査データを正しく理解するためには統計の知識は必要です。

また、統計なしでは成り立たない治験分野に進出する薬剤師も今後さらに増えてくるものと思われます。
具体例をあげながら説明します。

まずは基本的な言葉を理解しましょう!

例えば、7人に調査した次のような体温のデータがあるとします(単位はすべて度、有効数字は3桁)。
36.1、36.2、36.2、36.3、36.5、36.8、36.9。
平均値は36.4です。

ただ、例えば体温が低い人のほうが多すぎるなどデータに偏りがある場合には、平均値ではその集団の真ん中を正しく表した値とは言えない場合があります。
特に医学的疫学データにはそういう傾向が多いです。
真ん中を表してなければ真の平均値とは呼べず、それを使用して評価すると偏った解釈になってしまうので、そのような場合は、中央値を使います。

これはデータを順に並べたときの中央になる値です。
偶数個の場合は真ん中の2個を足して2で割った値です。
これはデータがどんなに偏っていても必ず真ん中を表す値になります。
今回の例では、真ん中の値は36.3なのでこれが中央値になります。
また最頻値とは最も多く登場する値で、例では36.2です。

続いて集団の性質の一つ、散らばり具合をみてみましょう。

まず、各値から平均までの距離差を出します。
今回の例ですと、-0.300、-0.200、-0.200、-0.100、+0.100、+0.400、+0.500となります。
これを偏差と言います。

このままだとマイナスとプラスが混在していて扱いにくいので、偏差を2乗して全て足した後、個数の7で割ります、つまりは偏差の2乗の平均を出すということです。
今回の場合は、0.0857になります。
これを分散と呼び、散らばり具合の指標となります。

分散は2乗された値なので、体温のデータとはくらべられません。
ですので、データと同じ単位の次元に戻すために分散のルート(√)を取ります。
今回は0.293となります。

これがよく聞く標準偏差です。
各体温をグラフにしたときに標準偏差を書き込むと偏り具合を含めたグラフとなります。

部分から全体を理解できる統計手法とは!?

例えば、解熱剤を服用して、日本人ではどのくらいの温度変化が起こるか調べようと行った場合、日本人全員を調べることを記述統計といいますが、日本人全員からデータと取るのは絶対に無理ですよね。
このような場合には、日本人全体から何名か無作為に選んできて、それらで調査をします。
これを推測統計と呼びます。

この中で、日本人全体のことを母集団といい、無作為に選んだ人達を標本といいます。
標本を調べることで、標本を選んできた母集団の傾向を推測することができます。
母集団における体温分布は一般的に正規分布と呼ばれるきれいなお山型のグラフとなることが知られています。

そこから無作為にとってきた標本の平均値の分布も正規分布になることがわかっています。
つまりは、標本の分布は母集団の分布と関連するということです。統計を使うことで、標本から母集団を推測することができます。

これは医学・薬学にとどまらず様々な場面で利用されている考え方です。
しかしながら、この意味をわかっていないとデータを正しく解釈できないという事態になります。
薬局に配布される国や製薬企業からの資料には統計的データが含まれています。
これらのデータを正しく解釈するときに今回の基礎知識は役に立ちます。

まだまだ奥が深い統計の世界です。
今回は基礎的な話を中心として紹介しましたが、難しいというイメージの統計に是非興味をもって自分で勉強してみてください。