2018年12月01日
コンピューターが認識する世界
~ディープラーニングによる画像認識~
AI(人工知能)の現状とその応用例
AIとは「人間が行う理解や推論、学習や判断などの知的行動をコンピューターに行わせる技術」などと定義されており、現在は第3次のブームとしてもてはやされています。ただし、第3次ブームのAIにおいても、映画や漫画で表現されるような人間と同レベル、もしくはそれ以上の万能な存在という訳ではなく、ある特定の作業を人間よりうまく処理するという段階にあります。
このブームの火付け役となったのはディープラーニング※1と言われています。ディープラーニングを利用することで、現状は以下の図1に挙げる応用例のような作業を実現することが可能となっています。今回の「これからはコレ!」では、そのなかでもニーズとできることのバランスが一番優れている「画像認識」について解説したいと思います。画像認識はディープラーニングが得意とする分野の一つであり、最近になって関連書籍が執筆され、ビジネスにもPOC(Proof of Concept:概念実証)による取り組みや、事例なども多く登場しています。
図1:ディープラーニングの応用例
コンピューターの目となり得る画像認識
画像認識(コンピュータービジョンとも表現される)は、コンピューターが画像や動画から何が写っているかなどを理解するための技術とされています。ディープラーニング登場以前にも画像認識の技術は日々進歩していましたが、ディープラーニングの登場によりその精度は大きく向上し、2015年2月には人間のそれを上回った※2とも言われています。
現在この分野は非常に進歩が速く、日々新しい方法が論文として全世界に公開されていますが、現時点で画像認識の方法論が確立している分野として、以下の3つを紹介します。(図2参照)
図2:画像認識の区分
-
Classification:クラス分類
入力として与えられた画像全体の情報から、どの分類に属するのかを確信度と共に出力する。→例えば多くの写真から、そこに写っている物体をベースに自動的に分類するといったことの実現が可能となる。ただし、画像全体から判断するため、画像内に複数の分類が存在する場合や、背景の色や物体などから誤認する可能性もある。
-
Object Detection:物体検出
画像から対象となる物体の分類と位置(物体を囲んだ矩形の座標)と確信度を出力する。1枚の画像の中に出力される物体が複数存在する場合は、それぞれ別に分類、位置、確信度を出力する。→例えば、監視カメラから得られる画像に写っている人の数を検出し、そのエリアの混み具合を判別するといったことを実現することが可能となる。
-
Segmentation:ピクセル単位での物体検出
出力するものは物体検出と似ているが、物体検出の位置情報が矩形で囲っていたものと異なり、ピクセル※3単位で物体の位置を特定するため、より正確な位置の検出が可能となる。→例えば、物体の識別とその位置情報が重要となる自動運転における車周辺のリアルタイム認識に活用されることもある。
上記3つの画像認識において、画像から複数の物体の位置をより正確に出力できる「Segmentation」が最も優れているように感じられるかもしれません。しかし、それを導き出すための計算量も当然のことながら多くなるため、実際に行いたいことと、画像認識によってできることのバランスによって、適切な方法を選択することが必要となります。
今後、上記のような画像認識を活用することで、例えば工場で行われる表面・外観検査など人の目による官能検査で行っていた作業をコンピューターが肩代わりしたり、人による作業では時間を要した建物の外装劣化の確認をドローンと組み合わせ自動化したりするなど、これまでは人の力に頼りきりだった分野においても、コンピューターの力を借りて、より高精度に、より安全に物事が行える時代が来るかもしれません。
※1:AIの未来を支えるディープラーニング
https://www.kobelcosys.co.jp/column/itwords/20170301/
※2:総務省AIネットワーク化検討会議 第1回-資料8
「人工知能の未来 - ディープラーニングの先にあるもの」(PDF) P11より
http://www.soumu.go.jp/main_content/000400435.pdf
※3:ピクセル - Wikipedia
https://ja.wikipedia.org/wiki/%E3%83%94%E3%82%AF%E3%82%BB%E3%83%AB
2018年12月
最新の記事
年別
ITの可能性が満載のメルマガを、お客様への想いと共にお届けします!
Kobelco Systems Letter を購読