executive

エグゼクティブナウ
技術記事 2024.04.02

マルチモーダルAIとは?~広がるAIの可能性~

Tags : 技術記事

マルチモーダルAIとは?

引用:Unsplash

マルチモーダルAIは、テキスト、音声、画像などの複数の情報源から入力を受け取り、それらを統合して応答や行動を生成するAIの一種です。

例えば、撮影した映像とその音声という異なる種類の情報を1つのAIを学習させることで、映像に写っている人の話している内容の正確な推定などに応用できます。

これにより、画像・音・テキストなど単一種類の情報から学習を行うシングルモーダルAIとは異なり、防犯カメラや自動運転など複合的な情報から判断の必要な製品に適用することができます。

マルチモーダルAIの製品事例

マルチモーダルAIを用いた製品の具体例として、以下の5つが挙げられます。

OpenAI/GPT-4
 テキスト、画像、音声からの入力により、テキストや画像、音声が生成できます。
Google/Gemini
 テキスト、画像、音声、動画からの入力により、テキストや画像が生成可能
Amazon/Amazon Rekognition
 画像と動画からの入力により、オブジェクト検出や顔認識ができる。
Microsoft/Kosmos-1
 テキストと画像からの入力により、文章生成や画像に対するコメントができる。
Apple/Siri
 テキスト、動画からの入力により、音声での応答や対話することが可能。

それぞれの特徴について詳しく紹介いたします。

OpenAI/GPT-4

テキスト、画像、音声を入力として受け取り、テキストや画像、音声が生成できるマルチモーダルAIです。 従来のGPT-3.5と比較して、より自然な対話ができるようになりました。

Google/Gemini

テキスト、画像、音声、動画を入力として受け取り、テキストと画像を生成できるマルチモーダルAIです。
Geminiは主要な指標の多くでGPT-4を上回っており、現在大きな注目を集めています。

Amazon/Amazon Rekognition

画像と動画による情報を統合したマルチモーダルAIです。
オブジェクト検出や顔認識などのタスクを実行することができるAmazonのサービスになります。

Microsoft/Kosmos-1

自然言語だけでなく視覚的なコンテンツも認識するマルチモーダルAIです。
これにより文字認識や、画像のキャプションの生成、画像に関連した質問への回答ができます。

Apple/Siri

音声認識と自然言語処理を組み合わせたマルチモーダルAIで、Appleのバーチャルアシスタントです。音声での入力や応答に加えて、テキストや画像をもとにした情報提供も行います。

コンサル業界やSIerの取り組み例

マルチモーダルAIに関する4つの主要な製品について述べましたが、実際にコンサル業界やSIerがどのようなプロジェクトを行っているかをご紹介します。

【紹介事例】

TIS:富山県との働き方改革の実証実験
日立製作所:新たなロボット制御技術の開発
EY:マルチモーダルAIを活用した新規価値創出支援サービス

TIS:富山県との働き方改革の実証実験

TISは、富山県とともにマルチモーダルAIを活用し、自治体職員の書類検索の効率化・働き方改革を推進するための実証実験を2023年9月~2024年3月にかけて実施しました。

地方自治体の幅広い業務に伴う、書式や保管方法が多岐にわたる自治体業務の書類をマルチモーダルAIによりデータ化することで、担当者の負担削減を目指しています。

マルチモーダルAIの他にも、生成AIによってスピーディな検索・利活用を可能にさせることで、複雑化・多様化する自治体の業務の効率化も図っています。

今後も、今回実施した実証実験の結果をふまえた知見と最新の技術を組み合わせることでサービスの価値を高め、他団体へもサービス展開していくと見られます。

参照:TIS/インテック、富山県と生成AIおよびマルチモーダルAIを
活用した働き方改革の実証実験を実施
~複雑化・多様化する自治体職員業務の効率化検証~

日立製作所:新たなロボット制御技術の開発

日立製作所は、作業時の視覚や力覚といったマルチモーダルなセンサ情報の重要度を、作業内容や環境に応じてリアルタイムに切り替える技術を開発しました。

これにより、ロボットの視野内に遮蔽物が存在したり、計画時には存在しなかった力が加わったりといった想定外の事態にも柔軟なかつ安定に動作が可能になりました。

今後は、組み立てや保守作業の計画から実行に至る一連の業務支援ソリューションを構築することで、社会インフラ領域における労働力不足問題に取り組んでいくと見られます。

このように、マルチモーダルAIは作業者の手先の感覚を頼りにするような難しい作業であっても、十分にそれを再現することができることがわかります。

参照:日立製作所/マルチモーダルなセンサ情報の重要度を
リアルタイムに切り替え、安定な組立作業を可能にするロボット制御技術を開発

EY:マルチモーダルAIを活用した新規価値創出支援サービス

EY Japanは、マルチモーダルAIと経営コンサルティングを組み合わせた企業の新規事業や新規イノベーション創出の支援を行うサービスを2024年4月1日より提供する予定です。

このサービスは、人の思考や体験欲求を把握することからの事業開発や、大規模施設の空間設計、プロダクト設計、マーケティング高度化などに活用されると見られます。 同記事にて、EYSC テクノロジーコンサルティングパートナーの山本直人氏は、

“「生成AIをはじめとして、昨今のテクノロジーの進化を背景に、人の価値観や生活の在り方は多様化の一途をたどっています。企業においては、世の中の変化を捉えて事業に結び付けていくことで新たな価値が創出できます。私たちは、マルチモーダルAIは世の中を多様な視点で読み解くキーテクノロジーであると捉えており、このテクノロジーを活用することで、企業に対して今まで以上に付加価値のあるインサイトを提供し、クライアントの発展、より良い社会の実現に向けて貢献してまいります」”

引用: EYストラテジー・アンド・コンサルティング/  
EY Japan、次世代生成AI技術“マルチモーダルAI”を活用した  
企業の新価値創出を支援するサービスを提供開始  

とコメントされており、現在マルチモーダルAIは実際の企業からも非常に注目を集めている技術であるということが読み取れるのではないでしょうか。

将来的な展望

マルチモーダルAIの将来展望は非常に広大です。この技術の発展により、人間のような複雑なコミュニケーションやもっと高度な情報処理が可能になります。

複数の情報を統合して、より深いコンテキスト理解や個別のニーズに対応したサービスを提供することにより、教育、医療、ビジネス、エンターテイメントなど幅広い分野での革新が期待できます。

さらに、マルチモーダルAIの進化により、人間とAIの協調作業や共同学習も可能になり、生産性の向上や新たな価値の創造が促進されると考えられます。

マルチモーダルAIのメリット

・複数の情報源からの入力の統合による深いコンテキスト理解
・データの量と種類の充実による精度や性能の向上
・より柔軟で自然な対応が可能
・様々な領域に応用が可能

マルチモーダルAIのデメリット

・処理負荷の増加によるシステムの動作や応答時間の遅延
・異なるモーダルからのデータの統合が困難
・複数の機密情報の収集・処理によるプライバシーやセキュリティに関する懸念

富士誇(フジコ)の見解

マルチモーダルAIは、テキストや音声、画像など複数の情報を同時に処理することで、より深い理解や多角的な応答が可能になり、人間との対話や協業においてより自然な体験を提供することが期待されます。

ただし、データの統合や処理の複雑さ、個人情報やセキュリティの懸念など、さまざまな課題も存在するものの、マルチモーダルAIは、人間と機械の未来を拓く重要な技術と言えるでしょう。

その中で、マルチモーダルAIに関する下記職種の市場価値が高まると見られます。

・データサイエンティスト
マルチモーダルデータの解析や処理において、モデルのトレーニングや最適化を行うデータサイエンティストの役割が重要になると考えられます。

・AIエンジニア
マルチモーダルAIシステムの開発や実装に特化したエンジニアは、高い需要が見込まれます。 複数の情報源を統合し、最適なモデルやアルゴリズムの設計技術は重要性を増していくでしょう。

・AIコンサルタント
マルチモーダルAIの導入は多岐にわたる技術や知識が必要であり、またそれを戦略的に適用するための支援をするAIコンサルタントへの需要は上がると考えられます。

少しでもマルチモーダルAIに関してご興味があり、転職をお考えの方は、コンサルファーム・SIerを選択肢に入れてみてはいかがでしょうか。

【富士誇取り扱い求人】

コンサルティングファーム/エンジニア転職なら富士誇にご相談ください!」

記事作成者:株式会社富士誇 吉田 爽汰

page top