GPT-4 Vision は気を付けたほうがいいでしょう。LLaVA 1.5 に代わるオープンソースの代替案が登場する予定です。

10月 2, 2024 Coach formationenligne

LLaVA 1.5: GPT-4 Vision に代わるオープンソース

生成人工知能は、OpenAI の GPT-4 Vision などのマルチモーダル言語モデル (LMM) の出現により急速に進化しています。これらのモデルは、テキストと画像を統合することにより、AI システムとの対話に革命をもたらします。

ただし、これらのテクノロジーの一部は閉鎖的かつ商業的な性質を持っているため、一般的な採用が制限される可能性があります。このような状況でオープンソースコミュニティが登場し、GPT-4 Vision の有望な代替案として LLaVA 1.5 モデルを推進しています。

LMM の仕組み

LMM は、多層アーキテクチャを使用して動作します。これらは、視覚要素をエンコードする事前トレーニング済みモデル、ユーザーの指示を解釈して応答する大規模言語モデル (LLM)、視覚と言語をリンクするマルチモーダルコネクタを組み合わせています。

彼らの訓練は 2 つの段階で行われます。視覚と言語の調整の初期段階と、その後の視覚的な要求に応えるための微調整です。このプロセスは効率的ですが、多くの場合、大量の計算リソースと豊富で正確なデータベースを必要とします。

LLaVA 1.5の利点

LLaVA 1.5 は、ビジュアルエンコーディングには CLIP モデル、言語には Vicuna に依存しています。視覚的な調整に ChatGPT および GPT-4 のテキストバージョンを使用したオリジナルの LLaVA モデルとは異なり、LLaVA 1.5 では言語モデルと視覚エンコーダーを多層パーセプトロン (MLP) 経由で接続することでさらに進化しています。このアップデートにより、視覚的な Q&A を備えた学習データベースが強化され、合計約 600,000 例が含まれます。したがって、LLaVA 1.5 は、12 のマルチモーダルベンチマークのうち 11 で他のオープンソース LMM よりも優れたパフォーマンスを示しました。

オープンソース LMM の将来

LLaVA 1.5 のオンラインデモは誰でもアクセスでき、限られた予算でも有望な結果を示しています。ただし、ChatGPT によって生成されたデータの使用は非営利目的に制限されるという制限が 1 つ残っています。

この制限にもかかわらず、LLaVA 1.5 はオープンソース LMM の将来への道を提供します。その費用対効果、スケーラブルな学習データを生成する能力、および視覚的な指示を調整する効率は、将来のイノベーションの予兆となります。

LLaVA 1.5 は、オープンソースコミュニティによる一連の進歩の始まりにすぎません。より効率的でアクセスしやすいモデルを期待することで、生成 AI テクノロジーが誰もがアクセスできるようになり、人工知能の無限の可能性が明らかになる未来を思い描くことができます。

LLaVA 1.5: GPT-4 Vision に代わるオープンソース

LMM の仕組み

LLaVA 1.5の利点

オープンソース LMM の将来

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル