ChatGPT se vuelve multimodal con voz e imágenes

ChatGPT ya admite voz e imágenes

2 min readSep 26, 2023

OpenAI acaba de sacudir el mundo, anunciando capacidades multimodales para ChatGPT. Las nuevas capacidades permiten al chatbot ver (entender imágenes), oír (entender el habla) y hablar cuando interactúa con los usuarios.

Hable con ChatGPT:

Aprovechando Whisper, los usuarios podrán utilizar la voz para entablar una conversación de ida y vuelta.
El modelo de texto a voz cuenta con cinco opciones de voz diferentes para los chats, creadas en colaboración con actores de doblaje profesionales (demo).

Chat con imágenes:

Las habilidades de razonamiento lingüístico de ChatGPT ahora pueden entender imágenes, fotografías, capturas de pantalla y documentos de texto.
Los usuarios pueden conversar con varias imágenes o utilizar la nueva herramienta de dibujo para guiar al asistente (demo).

Notas adicionales:

El nuevo modelo de texto a voz ya se está utilizando…

ChatGPT se vuelve multimodal con voz e imágenes

ChatGPT ya admite voz e imágenes

Written by Ángel Leonardo Torres

No responses yet