OpenAI ha anunciado una nueva versión de su modelo de lenguaje generativo insignia, GPT-4o, cuyo “o” significa “omni”. Esta iteración es capaz de manejar entradas y salidas en voz, imágenes y texto, y se implementará de manera iterativa en los productos para desarrolladores y consumidores de la compañía en las próximas semanas.
Mira Murati, CTO de OpenAI, ha comentado que GPT-4o ofrece inteligencia a nivel de GPT-4 pero mejora las capacidades de GPT-4 en múltiples modalidades y medios. Según Murati:
“GPT-4o razona a través de voz, texto y visión. Y esto es increíblemente importante porque estamos mirando hacia el futuro de la interacción entre nosotros y las máquinas.”
Un nuevo horizonte en la interacción humano-máquina
La capacidad de ChatGPT-4o para aceptar y generar múltiples tipos de datos es un paso monumental hacia una comunicación más fluida y natural con las máquinas. Esta versión no solo iguala el rendimiento de GPT-4 Turbo en inglés, sino que lo supera notablemente en otros idiomas. Además, se ha logrado un aumento significativo en el rendimiento de la API, mejorando la velocidad y reduciendo los costos operativos en un 50%.
Rendimiento multimodal
ChatGPT-4o se destaca por su capacidad para manejar y procesar múltiples modalidades de datos. Anteriormente, la comunicación por voz requería la integración de tres modelos diferentes: uno para transcribir la voz a texto, otro para procesar el texto y un tercero para convertir el texto de nuevo a voz. Este enfoque, aunque funcional, a menudo perdía matices importantes como el tono, múltiples interlocutores o ruidos de fondo.
Con ChatGPT-4o, se han superado estas limitaciones. Al manejar todas las entradas y salidas en un solo modelo, se ha mejorado significativamente la precisión y la naturalidad de las interacciones por voz. Esto incluye la capacidad de reconocer y generar risas, canciones y emociones, lo que enriquece aún más la experiencia del usuario.
Avances en el procesamiento de voz
La mejora en el procesamiento de voz es una de las características más destacadas de ChatGPT-4o. Ya no se depende de múltiples modelos para transcribir y procesar el audio, lo que significa que la inteligencia principal de GPT-4o puede captar directamente los tonos, identificar a varios interlocutores y distinguir ruidos de fondo. Esto no solo mejora la precisión, sino que también permite una mayor expresividad en las respuestas generadas por el modelo.
OpenAI ha comentado:
“Este proceso significa que la fuente principal de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, múltiples interlocutores o ruidos de fondo, y no puede generar risas, canciones o expresar emociones.”
Nuevos controles de seguridad y lanzamiento iterativo
La seguridad es una prioridad en OpenAI. ChatGPT-4o incorpora nuevos controles y filtros diseñados para evitar salidas de voz no intencionadas y mantener la seguridad en todo momento. Aunque actualmente solo se están lanzando capacidades de entrada de texto e imágenes y salida de texto, las capacidades de audio estarán disponibles en una fase alfa limitada para usuarios de ChatGPT Plus y API en las próximas semanas.
El anuncio explicó:
“Reconocemos que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Hoy estamos lanzando públicamente las entradas de texto e imagen y las salidas de texto. En las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad mediante post-entrenamiento y la seguridad necesaria para liberar las demás modalidades. Por ejemplo, en el lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes.”
Implicaciones en marketing y desarrollo
Desde el lanzamiento de la primera versión, ChatGPT-4o ha demostrado ser una herramienta poderosa y versátil que puede transformar la manera en que se interactúa con la tecnología y los clientes. La capacidad de manejar múltiples tipos de datos abre nuevas posibilidades para la creación de contenido, la personalización de la experiencia del usuario y la automatización de tareas complejas.
SEO
Para los profesionales del SEO, ChatGPT-4o puede generar contenido de alta calidad que no solo es relevante y atractivo, sino que también está optimizado para los motores de búsqueda. La comprensión avanzada del lenguaje y el contexto permite la creación de contenido que responde mejor a las consultas de los usuarios, mejorando la visibilidad y el rendimiento en las SERPs.
Marketing
En el ámbito del marketing, la capacidad de generar respuestas en múltiples formatos permite una mayor personalización y engagement con los clientes. Los equipos de marketing pueden utilizar ChatGPT-4o para crear campañas más interactivas y adaptadas a las preferencias individuales de los usuarios, mejorando así la efectividad de sus esfuerzos.
Programadores
Para los programadores, ChatGPT-4o representa una herramienta invaluable para el desarrollo de aplicaciones más inteligentes y responsivas. La capacidad de integrar múltiples tipos de datos en un solo modelo simplifica el proceso de desarrollo y permite la creación de aplicaciones más robustas y versátiles.
Comparando con GitHub Copilot, ChatGPT-4o no solo asiste en la generación de código sino que también ofrece capacidades multimodales, permitiendo a los desarrolladores crear interfaces más intuitivas y mejorar la interacción del usuario.
ChatGPT-4o es un hito importante en la evolución de la inteligencia artificial y la interacción humano-máquina. Con capacidades mejoradas para manejar texto, voz e imágenes, y un enfoque en la seguridad y la usabilidad, esta nueva versión abre un mundo de posibilidades para profesionales de marketing y programación. OpenAI asegura estar comprometido con la innovación continua y estar emocionado por ver cómo ChatGPT-4o será utilizado para transformar industrias y mejorar la vida de las personas.
Referencias:
Search Engine Journal
TechCrunch