WEBDESIGNDAY

WEBDESIGNDAY

第1回 統計学 AI初心者が学んでいきます

統計学
初めに

皆さん、初めまして。AIシステム技術部 K山です。
入社一年目で、前職は介護士をしていました。
IT初心者ではありますが、今後技術ブログを書いていこうと思います。

 

昨今「AI」という言葉をTVやインターネットでよく見かけるようになりましたね。
スマートフォンアシスタントのSiriや、検索エンジンのGoogle、掃除ロボットのルンバにもAIが搭載されており、とても身近な存在になっていると思います。
また、AIを学ぶカリキュラムを取り入れる大学が増えており、当社の面接でもAI業務を希望される方が多いんです。

 

ITの知識はほとんどないですが、私も今流行りのAIについて調べていきたいと思います。

 

 

 

というわけで、第一回のテーマは「AI」です! 頑張って書いていきます

 

ちょっと待った!AIについて書くなら、まずは「統計学」を調べてみてよ

 

急に何ですかI田さん。それに、「統計学」とAIは関係ないですよね?

 

実はあるんだよー
まずはその関係性から調べてみて
 

(やることが増えた…)

 

 

 

統計は、よく街頭アンケートやWEBアンケートで使われていますね。
反対に、私がAIと聞きすぐに思い浮かぶものといえば、囲碁AIやsiriなどです。
AIと対戦できるゲームがありますが、人間を超える強さだと聞いたことがあります。
しかし、統計とAIはどんな関係があるのでしょうか。
アンケート調査と、囲碁AIはいまいち結び付かないです…

 

そんなAIと統計学の関係を調べていきたいと思います。

なぜ統計学?AIと統計学の関係は?

調べていくと、「AIはデータが無ければただの赤子である」という記載を見つけました。

 

そもそもAIを作るには、主に以下の3つが必要です。

 

・プログラムをつくる
・データを渡す
・動作テスト
 ※プログラムとは、「行ってほしい」動作が書かれた指示書のようなものです。

 

AIは、プログラムに書かれていること、教わったこと以外できません。
大量のデータを扱うことができることから学習能力は優れていますが、人間がプログラムに何も書かなかったら、もしくはデータが1つも渡されなかったら、AIは何もできないのです。

 

どんなデータを渡すのかは、AIを作る目的によって様々です。
例えばSiriのように、人間の声に従って動くAIを作りたいときは音声データを渡したり、顔認証システムを作りたいときは、顔写真を渡すなどです。
そして、その中にも統計学が含まれているのではないかと思われます。

 

囲碁AIの開発だったら、以下のようなイメージなのではないでしょうか。

 

 

無知なAI君と、AIをつくっている博士がいたとします。
AI君は囲碁のルールを知らないので、まずルールを教えます。

 

 

この囲碁のルールブック読んでね。

はーい。

まずはルールから勉強しないとね。

 

 

真面目AI君すんなり受け入れてくれましたね。
さて、ルールは理解できてもなんとなく不安ですよね。初心者ですから。
なので、実際の試合記録を見せて勉強をさせましょう。

 

 

プロの試合記録を統計データにしたよ。

この戦術を参考にしてね。

 

これは参考になりそう…

全部覚えます!!

 

 

 

記憶力に長けているAI君は教えたものをすべて覚えてくれます。
教えた分だけ記憶してくれるなんて、これはプロの棋士も降参しますよね。

 

このような流れだったら、確かにAIと統計学は関係があるように思います!
ですが、これだけでAIができるとしたらとても簡単ですね。

 

もう少し調べたところ、統計学を用いてAIを作る技術として「機械学習」というものもあるそうです。
囲碁AIの開発でいうと以下のようなイメージのようです。
プロと対峙する前に勉強や練習を繰り替えし行う。
例) ・ルールブックを見ながら練習試合をしてみる
   ・ルールブックを見ないで練習試合をしてみる
試合に負けたら
→博士がAIにアドバイスをする。そのアドバイスをもとにもう一度試合に挑む。

 

ですが「機械学習」は別の技術のお話になるので、今回は省きますね。

 

 

AIと統計学の関係性の例として、囲碁AIを取り上げましたが、他のAIをつくる過程においても同じようなことが言えると思います。
まず、事前知識を与える目的として、AIに統計データを渡したり、
そのデータをもとに学習したAIがどのくらいの能力があるのかを統計学を使って調べたり、
用途は様々ですが統計学は必要不可欠なんです。

 

 

AIと統計学は密接な関係なんだよ。

よくわかりました!

AIをつくるには、統計学の知識も重要なんですね。

 

 

それでは、I田さんのおっしゃっていた通り、統計学から学んでいきたいと思います。

 

統計学の用途

手持ちのデータを分析して、未知のデータや未来を予測する学問です。 医療、行政、ビジネスなど様々な場面で使われています。

 

現代の病では、武将がいた大昔ほど死に至るケースは格段に減りましたが、実はその理由は統計学にあります。< 熱が出た、嘔吐した、など症状が出た際、大体の場合は病院に行けば病名もわかりますし、薬ももらえますよね。 それは、統計学を使ってその病の症状や特徴、かかる原因を分析済みだからなんです。

 

薬の副作用なども同じことが言えますね。

 

つまり、過去のデータ(手持ちのデータ)を分析して、症状(未知のデータ)を予測しているということです。

 

医療には統計学が欠かせないんですね。

 

 

イメージがつかめたところで、次は統計学の用途で考えていきます。

 

統計学を大きく分けると下記の6種類に分かれます。
→こちらは間違いで、用途は5種類でした。
 確率は用途ではなく、統計を行うためのツールのようなイメージです。
 第二回目のブログの「統計学の目的とは」で訂正しています。

 

    1. 確率
      →物事の確率を求める方法
      例)サイコロを振って1が出る確率

       

    2. 推定
      →一部の手持ちデータを分析し、まだ手にしていない全体のデータの特徴を推定する方法
      例)ランダムで選んだ日本人男性100人の平均身長は165cmだったので、日本人男性の平均身長は165cmだ

       

    3. 検定
      →確率をもとに結論を導く方法
      例)占い師が5回連続で占いを的中させたがそれで本物であるといえるのかを検証

       

    4. 要約
      →データを1つの数値にまとめる方法
      例)テストの平均点は何点か、一番高い点数は何点かなど

       

    5. 予測
      →手持ちのデータから未来を予測する方法
      例)今から1時間ランニングをしたら、何キロやせるだろうか

       

 

 

要約の例を見ると、算数でできそうですが・・・もしそうだったらとても簡単ですね。

統計学の手法とは

前章に記述した用途に対応する手法は、以下のものがあります。
これらの代表的な手法を今後のブログで紹介していきたいと思います。

 

分散分析

 

t検定

 

多重比較法

 

点推定

 

主成分分析

 

重回帰分析