アリババ、画像を含めた質問応答技術の能力を評価する世界的な「VQA Challenge 2021」で1位を記録

視覚的理解の分野において初めて、機械が標準的な人間のスコアを上回るパフォーマンスを実現

アリババはこのたび、画像に関する質問への応答能力を評価するVQA Challenge 2021において1位を獲得しました。アリババのVisual Question Answering(VQA、画像を含めた質問応答)アルゴリズムである「AliceMind」は、画像に関する質問応答において全体で81.26%の精度を記録し、この評価における標準的な人間のパフォーマンス(80.83%)を初めて機械が人間を上回りました。

このVQAチャレンジは、コンピュータビジョン分野の世界有数のカンファレンスである「CVPR(Conference on Computer Vision and Pattern Recognition)」が2015年から毎年実施しており、フェイスブック、マイクロソフト、スタンフォード大学などのグローバルなプレイヤーが参加しています。VQAチャレンジでは、画像とそれに関連する自然言語の質問が提示され、参加者はそれに対して正確な自然言語の応答を求められます。今年の「VQA Challenge 2021」では、25万枚以上の画像と110万件以上の質問が用意されました。

画像に関連した質問に答える人工知能(AI)は、アリババグループのグローバル研究機関であるアリババDAMOアカデミー(中国語:達摩院)の革新的なアルゴリズム設計によって実現しました。アリババのチームは、多様な視覚表現、マルチモーダルな事前学習済み言語モデル、適応可能なクロスモーダルな意味融合(adaptive cross-modal semantic fusion)およびアライメント技術など独自の技術を活用することで、画像を分析して質問の意図を理解するだけでなく、人間のような会話形式で表現しながら適切な推論で応答するというプロセスを可能にし、この分野で大きな進歩をもたらしました。

アリババのVQA技術は、すでにアリババのエコシステムで広く応用されています。例えば、カスタマー・サービスにおいて、インテリジェント・チャットボットAlime Shop Assistantにこの技術が採用されており、アリババの小売プラットフォーム上で数万のマーチャントが利用しています。

アリババDAMOアカデミーの自然言語処理(NLP)部門の責任者であるシ・ルオ(Si Luo、司羅)のコメント

「人工知能の分野で新たに重要なマイルストーンを達成したことを誇りに思います。VQA Challenge 2021での結果は、アリババが継続して関連するAI分野の研究開発に取り組んできたことを実証するものです。このような進歩は、人間がいつかロボットやAIに取って代わられることを暗示しているわけではありません。むしろ、よりスマートなテクノロジーが日々の仕事や生活を支援し、それにより人々は人間が最も得意とする創造的な仕事に集中できるようになることを意味しています。」

VQAは幅広い分野で活用できます。例えば、Eコマース・サイトで商品を検索する際に利用したり、初期の病気診断では医療画像の分析支援に活用したり、また、車載カメラで撮影した写真を自動AIアシスタントが基礎的な分析を行うことで、スマート運転にも応用できます。

また、アリババの機械学習モデルはこれまでにも高い評価を受けています。アリババのモデルは、業界においてNLPモデルの最も重要なベースライン・テストとされているGLUEベンチマークのランキングでもトップになりました。このアリババのモデルは、標準的な人間のパフォーマンスを大幅に上回り、安定した自然言語理解システム開発の重要なマイルストーンとなりました。

2019年、アリババの機械学習モデルは、人工知能の世界で最も難易度の高い読解力テストの1つであるMicrosoft Machine Reading Comprehensionデータセットによるテストで、人間のスコアを上回りました。このモデルは、MS Marcoの質問応答タスクで0.54を獲得し、マイクロソフトが提供するベンチマークである人間のスコア0.539を上回りました。2018年、アリババは、同じく世界で最も有名な機械読解力課題の1つである「Stanford Question Answering Dataset(SQuAD)」においても、人間のベンチマークを上回るスコアを出しました。

アリババのモデル 「AliceMind」が世界的なVQAチャレンジ2021で1位を記録

関連トピックス