ビッグデータでなくてもデータはいかせる

広告

Pocket

最近、AIやらビッグデータやらよく聞く。
ビッグデータがあればいろんなことがわかって、
今までわからなかったことがわかるようになって、
人間にすごく有意義らしい。
ざっくりいうとそんな感じだ。

ただビッグデータというのはとてもお金がかかる。
どれくらいかかるかというと、
10万人のうち女性の70%が
対象になることを調べるのを例に述べる。

実際10万人で調べることはできないので、
何人かのサンプリングデータで予測する。

標準誤差を考えると100人で調べた場合、
誤差は9.5%程度となる。
でかかるお金はバイト代程度。
これを1000人で調べると、
誤差はさらに少なくなり3%。
お金は専門職の残業代程度である。
ではビッグデータとして8000人で調べると、
誤差は1%程度となるが、
かかる費用は数千万に膨れ上がる。

ビッグデータは正確性は上がるものの、
かかるお金も桁違いに上がる。
100人のデータで誤差は9.5%。
8000人のデータで誤差は1%。
かかるお金はバイト代か数千万か。
コスパはどうだろうか。

ビジネスで利用する場合、
人数が少なければ精度は下がるものの、
わずかな影響であれば
お金がかからない方が良い。

ビジネスでは
「データを取ることで何がわかるか。」
が大切なのではなく、
データにより
「どの要因が利益につながるか」
が大切である。

よってビジネスでの求められるものは
・利益を上げるか、
・需要が伸びるか、
・生産性が上がるか(コスト減で算出)
の3つである。

データを参考に何らかの変化を起こす際に、
その行動は可能なのかどうか。
そして行動コストは利益以下なのかが大切である。
要するに変化で利益が出なければ意味がない。

よってビッグデータでなくても、
サンプルデータで十分な場合も多いのである。
さらに誤差の扱いをA/Bテスト
いわゆるランダム比較試験を行ったり、
カイ二乗検定を行い
意味のある偏りか、誤差なのか確認。
慣例通りp値が5%以下なのか確認する。

現在の統計手法

19世紀にナイチンゲールが
統計で大きな偉業を成し遂げた。
彼女の素晴らしさは献身的な看護ではなく、
統計を用いて現実的な戦略を行なったことである。
日本ではあまり知られていないが・・・。

クリミア戦争で多くの兵士が死んだが、
戦争の怪我なのか。
それとも病院の衛生面にあるのかを
統計を用いて明確に示したのである。

その偉業により、
戦争で死んでいた多くの兵士が、
戦争による怪我でなく、
病院の衛生面にあったとして、
その後多くの兵士を救うことができた。

あれから100年経って、
現在の統計手法では
さらに細かなことがわかる。
先ほどの死亡した兵士の原因が
戦争の怪我なのか。
それとも病院の衛生面の問題なのか。
という事柄に対して言えば、
現在では病院にどれくらいのコストをかければ、
何人ぐらいの兵士を救えるかまで予測する。

統計では比較と
p値を含めた解析を行い、
コントロールによって
どれだけの利益を得られるか計算できる。

例えばデータに偏りがあったとしても、
ランダム化比較試験や、
関連しそうな条件を追跡調査することで、
ある程度対処することが可能である。

ランダム化比較試験

ランダム化比較試験は
フィッシャーが提唱したものである。
ある婦人がミルクティーを飲むときに、
ミルクを先に入れたか、
紅茶を先に入れたか味がわかるという。
同じものを入れるのだから、
味に違いはないという意見が多数あった。
しかし婦人は絶対に味に違いがあると言い張るので、
ランダムに紅茶を飲んでもらい、
本当に違いがわかるのかを確認した。

ランダムに飲んでもらい5杯全て当てた場合は、
約3.1%の確率になる。
(1/5の5乗になるので1/32)
また10杯すべて当てた場合は、
約0.1%となる。(1/1024)

こうしてその婦人は、
本当に味の違いを感じていると
判断していたと予測することができる。

追跡調査

追跡調査には
前向き研究と後ろ向き研究がある。

前向き研究は現在から未来をみていく。
研究開始後に行われた検診や評価で、
交絡因子を事前に把握。
結果から原因を探っていく。
食生活などの原因を探るのに有効である。
偏りの制御は可能な調査である。
デメリットとしては調査に時間がかかる。

それに対して後ろ向き研究は
現在から過去をみていく。
すでに行われた検診を評価。
交絡因子を振り返っての把握は困難であるが、
原因から結果を探っていく手法である。
ダイオキシンの身体の影響を探るなどに有効。
偏りの制御は困難となる。
短時間で調査できる点がメリットである。

論文を参考にする

多くの論文が発表されているものの、
何を参考にして良いのか迷う。
そういったときは、
エビデンスレベルの高い論文から
参考にすることが有効である。

系統的レビューやメタアナリシスが
これにあたる。
・コクラン共同計画
・キャンベル
・What Work Clearinghouseプロジェクト
などにこれらは掲載されている。

分野別の論文検索であれば
・医学  Pubmed
・心理学 PsycINFO
・教育学 ERIC
・経済学 Econlit
その他にGoogle Scholarがある。

日本語であればCiniiやJ-STAGEがある。
キーワードでは
「 “systematic review” or metaanalysis」
と入力すると系統的レビューや
メタアナリシスの論文が検索される。

まとめ

統計では様々な手法により、
誤差なのか、意味のある偏りなのか。
また複数因子がある場合の
偏りを制御したりすることができる。

それによりビッグデータでなくても、
誤差がどのくらいあるのか把握したり、
誤差なのか意味のある偏りなのか把握できる。

データに偏りがある場合は、
ランダム化比較試験を用いたり、
関連しそうな条件をもとに
追跡調査を行う。

何が”正しく”て何が”間違い”なのか。
成果という目的が第一優先であれば、
会議での精神論の話し合いは無力である。
統計のない議論は国際的にも
信頼性が低い位置付けとなってきている。

正解のないことでもランダムで調査すれば、
それなりの結果を得ることは可能である。
データをもとに戦略を立てることこそ、
ビジネスにおいての成果を得るには、
重要になっている。

Photo by Carlos Muza on Unsplash

広告

ABOUTこの記事をかいた人

藤原大輔 岡山のクリニックで理学療法士として勤務。 "痛み"に対して 日常生活のコントロールの重要性を提唱している。