GPT-4 Vision は気を付けたほうがいいでしょう。LLaVA 1.5 に代わるオープンソースの代替案が登場する予定です。
LLaVA 1.5: GPT-4 Vision に代わるオープンソース
生成人工知能は、OpenAI の GPT-4 Vision などのマルチモーダル言語モデル (LMM) の出現により急速に進化しています。これらのモデルは、テキストと画像を統合することにより、AI システムとの対話に革命をもたらします。
ただし、これらのテクノロジーの一部は閉鎖的かつ商業的な性質を持っているため、一般的な採用が制限される可能性があります。このような状況でオープンソース コミュニティが登場し、GPT-4 Vision の有望な代替案として LLaVA 1.5 モデルを推進しています。
LMM の仕組み
LMM は、多層アーキテクチャを使用して動作します。これらは、視覚要素をエンコードする事前トレーニング済みモデル、ユーザーの指示を解釈して応答する大規模言語モデル (LLM)、視覚と言語をリンクするマルチモーダル コネクタを組み合わせています。
彼らの訓練は 2 つの段階で行われます。視覚と言語の調整の初期段階と、その後の視覚的な要求に応えるための微調整です。このプロセスは効率的ですが、多くの場合、大量の計算リソースと豊富で正確なデータベースを必要とします。
LLaVA 1.5の利点
LLaVA 1.5 は、ビジュアル エンコーディングには CLIP モデル、言語には Vicuna に依存しています。視覚的な調整に ChatGPT および GPT-4 のテキスト バージョンを使用したオリジナルの LLaVA モデルとは異なり、LLaVA 1.5 では言語モデルと視覚エンコーダーを多層パーセプトロン (MLP) 経由で接続することでさらに進化しています。このアップデートにより、視覚的な Q&A を備えた学習データベースが強化され、合計約 600,000 例が含まれます。したがって、LLaVA 1.5 は、12 のマルチモーダル ベンチマークのうち 11 で他のオープンソース LMM よりも優れたパフォーマンスを示しました。
オープンソース LMM の将来
LLaVA 1.5 のオンライン デモは誰でもアクセスでき、限られた予算でも有望な結果を示しています。ただし、ChatGPT によって生成されたデータの使用は非営利目的に制限されるという制限が 1 つ残っています。
この制限にもかかわらず、LLaVA 1.5 はオープンソース LMM の将来への道を提供します。その費用対効果、スケーラブルな学習データを生成する能力、および視覚的な指示を調整する効率は、将来のイノベーションの予兆となります。
LLaVA 1.5 は、オープンソース コミュニティによる一連の進歩の始まりにすぎません。より効率的でアクセスしやすいモデルを期待することで、生成 AI テクノロジーが誰もがアクセスできるようになり、人工知能の無限の可能性が明らかになる未来を思い描くことができます。
