AI(人工知能)の開発サービスを提供しております、株式会社SIGNATEの高田朋貴と申します。AIを開発・運用するために必要な人材の条件や、AIを適切に活用していくためにビジネスパーソンが身につけるべきリテラシーについて紹介していく本連載。前回、AI開発における「データ」の重要性について説明しました。第4回はこのテーマをもう少し掘り下げ、「AI開発に必要なデータとは、どんなもの?」についてお話させていただきます。
「教師あり学習」では人間が「正解」を教える
みなさんがAI開発について調べていくと、「教師あり学習」「教師なし学習」という言葉を目にすることがあると思います。これはAI開発に使われる数々の技術の中で、現在主流の「機械学習」における学習方法の違いを説明した言葉です。
この方法の違いは何か。ざっくり言えば、「AIに学習させたいデータ」に対して、学習の見本となる「正解」を用意するかどうか、にあります。
「教師あり学習」の例としてわかりやすいのは、画像認識のAI開発でしょう。「教師あり学習」では、例えば、様々な物が写っている画像(=学習データ)それぞれに対し、「花」や「猫」、「自動車」といったその画像に写っている物が何であるかを示すラベル(=正解ラベル)をセットにしてコンピューターに読み込ませます。するとコンピューターは、次第に「花」というラベルがつく画像には色や形にこういった特徴があるぞ、とAIが学習し、ラベルがついていない画像を見たときに、「それは花である」と判定できるようになります。
この「学習データ」と「正解ラベル」のセットを「教師データ」といいます。
他の事例では、例えば、音声文字変換のAIを開発する際に、映画の音声と字幕をセットで読み込ませるといったことも行われています。この場合、「学習データ=映画の音声」「正解ラベル=映画の字幕」であり、この2つがセットになっている「字幕付き映画=教師データ」となります。
「教師あり学習」では、基本的に人間がデータに対する「正解」をコンピューターに与えます。そして、その正解を元にデータの中にある特徴や法則をコンピューターが自動的に学習し、未知のデータに対する回答や、将来のデータ予測などができるようになります。
このように、まるで学校の授業で先生から「正解」を教えてもらうように学ぶ方法なので、「教師あり学習」と呼ばれているのです。
ビジネスの現場で主流はどっち?
もう一方の「教師なし学習」では、「学習データ」はあっても、「正解ラベル」は用意されません。画像認識で言えば、コンピューターが何の画像か教えられないままに、ひたすら大量の画像を読み込むことで、勝手に各画像の特徴を認識し、例えば色や形などの共通項によってグループ化(クラスタリング)していきます。
「正解」が与えられていないメリットは何かと言うと、大量のデータの中から、人間が発見することの難しい相関関係を見つけ出せることが挙げられます。ECサイトでよく見かける商品のレコメンド(「この商品を買った人はこちらも購入しています」というあれです)には、まさに「教師なし学習」が活用されており、意外性のあるレコメンデーションを可能にしています。
このように「教師なし学習」は、顧客データのように日々ビジネスをしていたらどんどん溜まっていくデータを分析するのに向いています。ただ、コンピューターがどのようなグループで分類するのかコントロールできないため、分析結果が実務上では役に立たないこともあり得ます。
その点、「教師あり学習」はコンピューターに分析させたい目的が決まっている際に有効です。有名なところでは、迷惑メールのフィルタリングです。たくさんのユーザーが日々迷惑メールを迷惑メールフォルダに入れるーつまり、メールという学習データに対して、「こういう内容は迷惑メール」と正解ラベルを付与することで、分類の精度を上げる仕組みになっています。