Actualité Intelligence ArtificielleGTP 4LLaVA 1.5

GPT-4 Vision n’a qu’à bien se tenir: découvrez les alternatives open source de LLaVA 1.5 qui débarquent !

LLaVA 1.5 : Une alternative open source à GPT-4 Vision

L’intelligence artificielle générative connaît une évolution rapide avec l’émergence des modèles langage multimodaux (LMM) tels que GPT-4 Vision d’OpenAI. Ces modèles révolutionnent notre interaction avec les systèmes d’IA en intégrant des textes et des images.

Cependant, la nature fermée et commerciale de certaines de ces technologies peut limiter leur adoption universelle. C’est dans ce contexte que la communauté open source entre en jeu, propulsant le modèle LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.

La mécanique des LMM

Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour encoder les éléments visuels, un grand modèle de langage (LLM) pour interpréter et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage.

Leur formation se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, nécessite souvent des ressources computationnelles importantes et une base de données riche et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 s’appuie sur le modèle CLIP pour l’encodage visuel et sur Vicuna pour le langage. Contrairement au modèle original LLaVA, qui utilisait les versions texte de ChatGPT et GPT-4 pour l’ajustement visuel, LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP). Cette mise à jour a enrichi sa base de données d’apprentissage avec des questions-réponses visuelles, totalisant environ 600 000 exemples. LLaVA 1.5 a ainsi surpassé d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, une restriction subsiste : l’utilisation des données générées par ChatGPT limite son utilisation à des fins non commerciales.

Malgré cette limitation, LLaVA 1.5 ouvre une voie vers l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’apprentissage évolutives et son efficacité dans l’ajustement des instructions visuelles en font une préfiguration des innovations à venir.

LLaVA 1.5 n’est que le début d’une série d’avancées de la communauté open source. En anticipant des modèles plus efficaces et accessibles, nous pouvons envisager un futur où la technologie de l’IA générative sera accessible à tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *