Entre las muchas empresas que desarrollan IA, xAI de Elon Musk es relativamente especial. El producto principal, Grok, tiene contenido en la plataforma social. Recientemente, declararon en un documento para desarrolladores que actualizarán el modelo a una versión multimodal para admitir la entrada de imágenes.
xAI ha sidoAvanceEl modelo Grok-1.5V se lanzará para agregar capacidades de procesamiento multimedia al actual robot de chat Grok. Se dice que la nueva versión podrá manejar una variedad de información de imágenes, incluidos documentos, gráficos, capturas de pantalla, fotografías, etc. También afirman que la nueva versión está muy cerca o incluso supera a otros competidores actuales en múltiples pruebas comparativas, como GPT-4, Claude 3 y Gemini Pro 1.5.

(Fuente:xAI)
En los últimos documentos públicos para desarrolladores, xAI también proporciona ejemplos de scripts de Python, que muestran cómo los desarrolladores pueden usar la biblioteca del kit de desarrollo de software (SDK) de xAI para generar respuestas basadas en texto e imágenes. El script puede leer imágenes, configurar mensajes de texto y generar respuestas utilizando el SDK xAI. Queda por ver si Grok-1.5V puede cumplir con los estándares más altos de la industria en aplicaciones prácticas, pero creo que no tendremos que esperar mucho para descubrirlo.
(Este artículo está escrito por Desconectar HK Reimpreso con permiso; fuente de la primera imagen:xAI)

Nuevos conocimientos científicos y tecnológicos, actualizados periódicamente.

