É melhor ficar atento ao GPT-4 Vision: descubra as alternativas de código aberto ao LLaVA 1.5 que estão por vir!

outubro 2, 2024 Coach formationenligne

LLaVA 1.5: Uma alternativa de código aberto ao GPT-4 Vision

A inteligência artificial generativa está evoluindo rapidamente com o surgimento de modelos de linguagem multimodais (LMMs), como o GPT-4 Vision da OpenAI. Esses modelos revolucionam nossa interação com sistemas de IA ao integrar texto e imagens.

No entanto, a natureza fechada e comercial de algumas destas tecnologias pode limitar a sua adoção universal. É neste contexto que a comunidade open source entra em cena, impulsionando o modelo LLaVA 1.5 como uma alternativa promissora à Visão GPT-4.

A mecânica do LMM

Os LMMs operam usando uma arquitetura multicamadas. Eles combinam um modelo pré-treinado para codificar elementos visuais, um modelo de linguagem grande (LLM) para interpretar e responder às instruções do usuário e um conector multimodal para vincular visão e linguagem.

Seu treinamento ocorre em duas etapas: uma fase inicial de alinhamento entre visão e linguagem, seguida de ajuste fino para responder às solicitações visuais. Este processo, embora eficiente, muitas vezes requer recursos computacionais significativos e uma base de dados rica e precisa.

As vantagens do LLaVA 1.5

LLaVA 1.5 depende do modelo CLIP para codificação visual e Vicuna para linguagem. Ao contrário do modelo LLaVA original, que usava as versões de texto do ChatGPT e GPT-4 para ajuste visual, o LLaVA 1.5 vai além ao conectar o modelo de linguagem e o codificador visual por meio de um perceptron multicamadas (MLP). Esta atualização enriqueceu seu banco de dados de aprendizagem com perguntas e respostas visuais, totalizando aproximadamente 600.000 exemplos. O LLaVA 1.5 superou, portanto, outros LMMs de código aberto em 11 dos 12 benchmarks multimodais.

O futuro dos LMMs de código aberto

A demonstração online do LLaVA 1.5, acessível a todos, mostra resultados promissores, mesmo com um orçamento limitado. Contudo, resta uma restrição: a utilização dos dados gerados pelo ChatGPT limita a sua utilização a fins não comerciais.

Apesar desta limitação, o LLaVA 1.5 fornece um caminho para o futuro dos LMMs de código aberto. Sua relação custo-benefício, capacidade de gerar dados de aprendizagem escaláveis e eficiência no ajuste de instruções visuais fazem dele um prenúncio de inovações futuras.

LLaVA 1.5 é apenas o começo de uma série de avanços da comunidade de código aberto. Ao antecipar modelos mais eficientes e acessíveis, podemos imaginar um futuro onde a tecnologia generativa de IA seja acessível a todos, revelando o potencial ilimitado da inteligência artificial.

LLaVA 1.5: Uma alternativa de código aberto ao GPT-4 Vision

A mecânica do LMM

As vantagens do LLaVA 1.5

O futuro dos LMMs de código aberto

Deixe um comentário Cancelar resposta