データを使えば科学的か?

データを使えば科学的という錯覚がある。デジタルかが進み、様々なモノ・コトがデータ化されるビッグデータの時代にデータの意味を理解せず、鵜呑みにすることは危険である。
古くからブルーバックス(講談社)の「統計でウソをつく法」(ダレル・ハフ著 高木秀玄訳)のように統計によるウソを指摘する著書は多い。
データ、データ加工の前提を知っているか、知らないかが問題なのだが、正しく知れば便利なデータも分からないからとすべてを信用してしまえば騙される、勘違いして間違える危険性は高い。
学生に「カラスの話」をすることがある。カラスが飛ぶ高さ地上30mが高いか低いかと訊けばほとんどの学生が高い、あるいは低いと答える。
この時点ですべて間違えなのだが、数値で表示されるとなぜか正しいことのような錯覚を起こす。まして、これがGDPなど自分の知識を超えた経済の話や複雑な話になると「自分が分からいこと=すごいこと、それを話す人はすごい人」というような錯覚を起こす。
数値を使って人々を煙に巻き、自分の思うように扱うこともできてしまうから怖い。
前述のカラスの話の結論は、地上30mは事実であっても基準がないから高い、低いという判断が成り立たないというのが正解だが、誰もそのような訓練をされていないと事実データがあったとしても自分の感覚だけで判断してしまう。測定は科学的でも判断は実に旧態依然としており感覚に頼から、これでは高い精度の測定などいくらしても意味がない。

また、よくある間違いが平均に対する誤解である。
様々なデータを見るとき、そのデータがどのようにして求められたものなのかを省略してあるケースがある。
たとえば平均年齢50歳というと皆、あるいは多くの人が50歳(前後)であるような錯覚を起こす。しかし、100歳と0歳の平均は50歳だから実際には50歳の人が一人もいなくても平均年齢50歳がそのグループを代表する値となってしまう。
特定グループの年齢を代表して表す数値には、その他にも各人を年齢順に並べて真ん中の人の年齢を代表とする、あるいは最も人数の多い年齢をそのグループの年齢の代表とするなどがある。
また、どのような人たちのグループの平均をとっているのか、何人の平均をとっているのかなども重要になる。特定地域で住民の平均年齢を調べるのと、企業の社員、あるいは大学の学生寮で調べるのでは違って当たり前だし、人数によっても変わってくる。

平均だけでも、これだけあるわけだから、様々なデータが数値化されてくると、よほど数値の前提がわかっていないと判断を間違える。
POSデータなども、これしかないから仕方なく使っているが、単純に販売数量合計だけで見ていると取扱店舗数や取扱期間が違っていたり、初めから投入数量(売場在庫)が違っていたりなど、販売データに直接関係するような条件が全く違っていたなどということもある。

データが科学的かどうかというよりは、データをとる人、加工する人、見る人が科学的かどうかが問題になるということだろう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください