Google presenta Gemini: su modelo de IA más grande y capaz
Marzo de 1965 fue un mes memorable para la NASA y para mis padres. Fue el mes en que se lanzó el programa Géminis, que allanó el camino para importantes logros en la exploración espacial. También fue el último mes en el que mis padres fumaron sus cigarrillos favoritos, L&M’s.
Hoy en día, las palabras «Géminis» y «L&M» han adquirido un nuevo significado y relevancia gracias a Google. El 6 de diciembre de 2023, el presidente de Google, Sundar Pichai, presentó con gran entusiasmo «Gemini: nuestro modelo de IA más grande y capaz». Este modelo supera los resultados actuales en 30 de los 32 puntos de referencia académicos utilizados en investigación y desarrollo de modelos de lenguaje grande (LLM).
Gemini vs. GPT-4
En su presentación, Google comparó directamente Gemini con GPT-4 (Generative Pretrained Transformer-4), el producto de una iniciativa sin fines de lucro lanzado por OpenAI en marzo de 2023. Gemini demostró ser superior en rendimiento en áreas como comprensión de texto, imágenes, video y audio.
Según Marcos Minevich, un reconocido estratega cognitivo digital, Gemini representa un salto significativo en las capacidades de IA de Google. En un artículo para Forbes, Minevich destaca que Gemini es un sistema de inteligencia artificial revolucionario que combina diferentes tipos de datos para desbloquear nuevas posibilidades en el aprendizaje automático. Su naturaleza multimodal va más allá de sus predecesores, como GPT-3.5 y GPT-4, en términos de comprensión dinámica del mundo.
El resurgimiento de la multimodalidad
El término «multimodalidad» se escuchará con frecuencia en 2024, ya que Gemini ha puesto el foco en esta capacidad de comprender y combinar diferentes tipos de datos.
Aunque Gemini es una innovación reciente, los académicos señalan que los orígenes de la multimodalidad se remontan a los debates académicos de 1952 sobre el análisis del discurso. Es interesante pensar que en esa época, mis padres aún fumaban sus L&M’s.
En conclusión, Gemini ha llegado para revolucionar el campo de la inteligencia artificial y promete abrir nuevas posibilidades en diversas industrias. Con su capacidad multimodal y su rendimiento superior, Google ha dado un paso importante en el desarrollo de IA de vanguardia.
La revolución de la IA multimodal está cambiando el juego
Expertos en lenguaje y comunicación reconocen un cambio importante en el análisis del lenguaje hacia la creación de significado multimodal. Esto implica el uso de diferentes modos comunicativos como música, lenguaje corporal, expresiones faciales, imágenes y arquitectura.
Gemini de Google desafía a OpenAI ChatGPT
El lanzamiento de Gemini marca un punto de inflexión en el avance de la IA, según Mark Minevich, experto en tecnología. El Boston Consulting Group (BCG) también está de acuerdo y ha actualizado sus modelos de lenguaje y comunicación con el acrónimo LMM, que significa «modelo multimodal grande». Según Leonid Zhukov, director del Instituto Global de IA de BCG, los LMM tienen el potencial de convertirse en el cerebro de agentes autónomos en los próximos años, lo que permitiría flujos de trabajo totalmente automatizados.
BCG predice una explosión de actividad
BCG predice que sus clientes corporativos experimentarán una explosión de actividad centrada en la productividad laboral, las experiencias personalizadas de los clientes y la investigación y desarrollo acelerados. Además, esperan una mayor participación de los consumidores en la generación de contenido, nuevas ideas, ganancias de eficiencia y experiencias personalizadas.
Agentes autónomos: el siguiente paso
BCG afirma que los agentes autónomos serán la próxima gran tendencia en IA. Estos sistemas dinámicos pueden sentir y actuar sobre su entorno, y se espera que se conviertan en una realidad en los próximos años. Sin embargo, esta idea también ha generado preocupación, ya que Elon Musk ha advertido sobre los peligros de la IA. BCG reconoce que mantener el control humano es fundamental para una IA responsable y que se deben abordar los riesgos de fallos y la necesidad de seguridad y justicia.
La importancia de la licencia social
BCG sugiere que la confianza será el principal desafío en la adopción de la IA multimodal. Para abordar este desafío, proponen tres formas de «licencia» de funcionamiento: una licencia legal que cumpla con las regulaciones y obligaciones legales, una licencia económica que garantice el retorno de la inversión y una licencia social que brinde transparencia, equidad y justicia a la sociedad.
En resumen, la revolución de la IA multimodal está en marcha y se espera que tenga un impacto significativo en diversos sectores. Sin embargo, también plantea desafíos éticos y sociales que deben abordarse para garantizar un uso responsable y beneficioso de esta tecnología.
La importancia de una licencia social para la inteligencia artificial generativa
La inteligencia artificial generativa impulsada por modelos de lenguaje (LMM, por sus siglas en inglés) se perfila como una tecnología transformadora en diversos campos. Sin embargo, como advierte BCG, su aceptación social dependerá en gran medida de la confianza que se genere en torno a ella.
La confianza como factor clave
BCG destaca que la confianza es fundamental para la aceptación social de la inteligencia artificial generativa, especialmente en aquellos casos en los que la IA puede actuar de manera autónoma y tener un impacto directo en la vida de las personas. Es necesario que exista una supervisión humana adecuada para garantizar que los resultados generados por la IA sean confiables y seguros.
Altibajos en el camino
Aunque la inteligencia artificial generativa promete grandes avances, también es importante reconocer que habrá desafíos y obstáculos en su implementación. Es probable que surjan situaciones en las que la IA no funcione de manera óptima o genere resultados indeseables. Por lo tanto, es fundamental contar con mecanismos de control y regulación que permitan corregir y mejorar continuamente los sistemas de IA generativa.
La necesidad de una licencia social
En este contexto, se plantea la importancia de establecer una licencia social para la inteligencia artificial generativa. Esta licencia sería un mecanismo que garantice que los sistemas de IA cumplan con estándares éticos y de seguridad, y que sean aceptados por la sociedad en general. Una licencia social podría incluir requisitos como la transparencia en los algoritmos utilizados, la rendición de cuentas de los desarrolladores y la participación de expertos y usuarios en la toma de decisiones relacionadas con la IA generativa.
En conclusión, si bien la inteligencia artificial generativa impulsada por modelos de lenguaje promete grandes avances, es necesario establecer una licencia social que garantice su aceptación y confianza por parte de la sociedad. La transparencia, la rendición de cuentas y la participación de expertos y usuarios son elementos clave para lograr una implementación exitosa de esta tecnología transformadora.
