ChatGPT se vuelve multimodal con voz e imágenes

ChatGPT ya admite voz e imágenes

Ángel Leonardo Torres
2 min readSep 26, 2023

OpenAI acaba de sacudir el mundo, anunciando capacidades multimodales para ChatGPT. Las nuevas capacidades permiten al chatbot ver (entender imágenes), oír (entender el habla) y hablar cuando interactúa con los usuarios.

Hable con ChatGPT:

  • Aprovechando Whisper, los usuarios podrán utilizar la voz para entablar una conversación de ida y vuelta.
  • El modelo de texto a voz cuenta con cinco opciones de voz diferentes para los chats, creadas en colaboración con actores de doblaje profesionales (demo).

Chat con imágenes:

  • Las habilidades de razonamiento lingüístico de ChatGPT ahora pueden entender imágenes, fotografías, capturas de pantalla y documentos de texto.
  • Los usuarios pueden conversar con varias imágenes o utilizar la nueva herramienta de dibujo para guiar al asistente (demo).

Notas adicionales:

  • El nuevo modelo de texto a voz ya se está utilizando…

--

--

Ángel Leonardo Torres
Ángel Leonardo Torres

Written by Ángel Leonardo Torres

Todo evolucionana ¿te vas a quedar atras?

No responses yet