daniel@home:~$

Mundo IA. Noticias sobre Inteligencia Artificial Generativa - Semana 4/52 2024

Edición de imagenes con LLMs mejorando los promts automaticamente

Las instrucciones humanas son a veces demasiado breves para que los métodos actuales puedan captarlas y seguirlas. Los modelos multimodales de gran lenguaje (MLLM) muestran capacidades prometedoras en la comprensión intermodal y la generación de respuestas con conciencia visual a través de LMs.

Fuente: https://github.com/apple/ml-mgie

LLaVA-NeXT

Nueva version de LLaVA-NeXT con razonamiento, OCR y conocimiento del mundo mejorados. LLaVA-NeXT supera incluso a Gemini Pro en varias pruebas.

En comparación con LLaVA-1.5, LLaVA-NeXT presenta varias mejoras:

- Aumento de la resolución de la imagen de entrada a 4 veces más píxeles. Esto le permite captar más detalles visuales.
- Soporta tres relaciones de aspecto, hasta una resolución de 672x672, 336x1344, 1344x336.
- Mejor razonamiento visual y capacidad de OCR con una mezcla de datos de ajuste de instrucciones visuales mejorada.
- Mejor conversación visual para más escenarios, cubriendo diferentes aplicaciones. Mejor conocimiento del mundo y razonamiento lógico.
- Despliegue e inferencia eficientes con SGLang.

Junto con las mejoras de rendimiento, LLaVA-NeXT mantiene el diseño minimalista y la eficiencia de datos de LLaVA-1.5. Reutiliza el conector preentrenado de LLaVA-1.5, y sigue utilizando menos de 1M de muestras de ajuste de instrucciones visuales. La variante 34B más grande termina el entrenamiento en ~1 día con 32 A100s. El código, los datos y el modelo se pondrán a disposición del público.

Fuente: https://llava-vl.github.io/blog/2024-01-30-llava-1-6/

Publicado en: Mundo IA

Tags: LLaVA-NeXT Generación imagenes LLM

¿Quieres subscribirte a las novedades que vaya publicando?