https://www.linkedin.com/posts/daniel-avila-arias_tencent-libera-un-nuevo-agente-ia-capaz-de-ugcPost-7144371358108426240-cQ9p
Tencent libera un nuevo Agente IA capaz de aprender a ejecutar Apps 🤯
Hace unos días le comentaba a R.O.P. Villanueva que en un futuro las apps pasarían al olvido y habría una nueva capa de interacción dominada por Agentes IA.
No pasaron muchos días y Tencent, el Gigante Chino libera este framework de agente multimodal que aprende a utilizar apps y las ejecuta perfectamente con tan solo unas palabras.
Repo: https://lnkd.in/g3S3P_ug
Paper: https://lnkd.in/gxUyzwJD
El agente es capaz de abrir Google Maps y encontrar la ruta al mejor restaurant cercano solo con pedirlo, le puedes pedir que mejore una foto y lo hará... Pero wait, esto ya lo hacen algunos asistentes como Siri ¿Cuál es la diferencia?
Básicamente es la barrera de programación, la interacción entre una app y Siri se realiza mediante funcionalidades y permisos especiales, todo esto debe ser programado en el lenguaje nativo (Objective-C
o Swift para iPhone y Java o Kotlin para Android).
En el caso de AppAgent de Tencent, utiliza el modelo gpt-4-vision de OpenAI para enseñarle de forma visual cómo usar una app y el agente usará el touch y swipe exactamente como tu le enseñaste, de esta forma aprenderá las funcionalidades de la app y podrá ejecutarla
Pero, sigo con muchas preguntas:
¿Cómo aprende a utilizar el Smartphone?
¿Le puedo enseñar a utilizar otras apps?
¿Cuál es la diferencia de funcionalidades con Siri?
¿Donde está el código del framework y cómo lo puedo utilizar?
Armé un agent con la información del paper y el código para que puedas hacerle todas estas preguntas, ingresa en este link para interactuar con el Agente: https://lnkd.in/gfj2vXvu
Pídele al agente que te explique como funciona esta nueva tecnología de Tencent, que te explique el código y cómo ejecutarlo. Ya tienes entretención para el fin de semana :)
No hay comentarios:
Publicar un comentario