En el mundo de la inteligencia artificial, las actualizaciones son cruciales para mantener a los modelos al día con las necesidades de los usuarios y las capacidades tecnológicas emergentes. Dos de los sistemas de IA más avanzados, ChatGPT de OpenAI y Gemini de Google, han lanzado recientemente nuevas versiones con características mejoradas. Aquí, comparamos las últimas actualizaciones de ambos modelos.
ChatGPT: Avances Recientes
1. Acceso en Tiempo Real a Internet: ChatGPT ahora puede navegar por la web en tiempo real, permitiéndole acceder a información actualizada durante las conversaciones. Esto mejora significativamente su capacidad para proporcionar respuestas precisas y relevantes basadas en datos recientes.
2. Interacción Multimodal: Una de las actualizaciones más destacadas es la capacidad de ChatGPT para interactuar a través de la cámara y el micrófono del usuario. Esto permite que el chatbot no solo escuche, sino también vea el entorno del usuario, ofreciendo respuestas más contextuales y personalizadas.
3. Instrucciones Personalizadas: Los usuarios ahora pueden establecer preferencias personalizadas que ChatGPT recordará en futuras interacciones. Esta función evita la necesidad de repetir instrucciones y detalles específicos en cada nueva conversación.
4. Respuestas por Voz: ChatGPT ha incorporado un modelo de texto a voz avanzado, que permite generar audio que suena similar a una voz humana. Los usuarios pueden elegir entre cinco voces diferentes, lo que hace que la interacción sea más natural y fluida.
5. Interrupciones en Conversaciones: Se ha añadido la capacidad de interrumpir a ChatGPT durante una conversación en curso, permitiendo a los usuarios cambiar de tema rápidamente o dar instrucciones adicionales sin necesidad de esperar a que el chatbot termine su respuesta actual.
Gemini: Innovaciones y Mejoras
1. Modelos Avanzados: Gemini ha lanzado los modelos Gemini 1.5 Pro y Gemini Flash, que cuentan con una ventana de contexto de hasta un millón de tokens. Esto permite procesar documentos largos, miles de líneas de código y horas de audio y video con gran precisión. Además, el modelo Ultra 1.0 ha superado a los expertos humanos en el entendimiento multitarea masivo (MMLU), que incluye 57 materias como matemáticas, física y ética.
2. Capacidades Multimodales: Gemini puede generar y entender texto, imágenes y audio, permitiendo una interacción más rica y contextualizada. Los usuarios pueden, por ejemplo, tomar fotos y pedir a Gemini que les brinde asistencia basada en la imagen.
3. Interacción Multilingüe: El soporte para múltiples idiomas permite a Gemini realizar traducciones y entender tareas en diferentes lenguas. Esto es especialmente útil para usuarios que trabajan en entornos multilingües o internacionales.
4. Integración en Productos de Google: Gemini se ha integrado en servicios como Gmail, Drive, Documentos y Hojas de cálculo, permitiendo a los usuarios buscar información, redactar documentos y gestionar tareas directamente desde estos servicios. Esto facilita la incorporación de las capacidades de Gemini en el flujo de trabajo diario de los usuarios.
5. Ampliación de Disponibilidad: La aplicación móvil de Gemini está ahora disponible en más idiomas y países, ampliando su accesibilidad global. Los usuarios pueden acceder a Gemini a través del Asistente de Google y otras aplicaciones de Google, facilitando la utilización de sus funciones en diversos dispositivos y plataformas.









