Los agentes de Microsoft ya pueden usar webs y aplicaciones como una persona

Javier Monzón

01 jun. 2026 • 3 min read

La IA empresarial acaba de cruzar una frontera importante: ya no se limita a responder preguntas o llamar a una API. Microsoft ha llevado a disponibilidad general en Copilot Studio los agentes capaces de usar interfaces gráficas, es decir, páginas web y aplicaciones de escritorio, como lo haría una persona: mirando la pantalla, pulsando botones, rellenando campos y navegando por menús. La novedad puede parecer una mejora de producto, pero apunta a algo mayor: automatizar tareas reales incluso cuando los sistemas no estaban pensados para integrarse.

Copilot Studio convierte la pantalla en una herramienta de trabajo

La función se llama computer use y Microsoft la presenta dentro de las últimas novedades de Copilot Studio. En la documentación de Microsoft Learn, la compañía explica que el agente puede interactuar con sitios web y aplicaciones de Windows mediante un ratón y un teclado virtuales. No se trata solo de consultar datos o invocar servicios por debajo: también puede operar sobre la interfaz.

La idea tiene fuerza porque muchas empresas siguen dependiendo de software antiguo, paneles internos, ERPs adaptados, webs privadas y formularios sin API. Hasta ahora, automatizar esos entornos exigía desarrollo a medida, RPA tradicional o mucho trabajo manual. Microsoft intenta colocar una capa de IA encima de esa realidad: si un empleado puede completar una tarea siguiendo una pantalla, el agente también puede intentarlo.

La automatización ya no depende solo de una API

Durante años, la automatización seria ha dependido de una premisa: que el sistema ofreciera una API o algún mecanismo fiable de integración. Cuando eso no existía, entraba en juego el RPA, con bots que repetían clics y secuencias muy estructuradas. El problema es conocido: una ventana que cambia de sitio, un botón renombrado o una pantalla intermedia nueva puede romper el flujo.

Los agentes con computer use intentan reducir esa fragilidad combinando visión artificial, razonamiento y ejecución. No solo repiten coordenadas; interpretan la interfaz. Microsoft sostiene que pueden adaptarse a cambios en botones o pantallas, aunque conviene no confundir “adaptarse mejor” con “no fallar nunca”. Para tareas de bajo riesgo, como extraer datos de una web interna o completar registros repetitivos, puede ser suficiente. Para procesos críticos, hace falta prudencia, pruebas y supervisión. La pantalla es útil, pero sigue siendo una superficie inestable.

Agentes de IA, RPA y workflows no son lo mismo

Este punto es clave. Un agente de IA no sustituye automáticamente a una integración bien diseñada. Si hay una API sólida, versionada, segura y observable, suele ser mejor usarla. Tampoco reemplaza a todos los workflows de negocio, donde una secuencia cerrada, auditable y determinista puede ser justo lo que se necesita. La interfaz gráfica debe ser el último recurso útil, no el camino por defecto.

La diferencia está en el último kilómetro. En muchas organizaciones hay procesos que nunca se automatizan porque el coste de integración no compensa. Ahí estos agentes pueden encajar: recuperar datos de una aplicación heredada, volcar información en un formulario, preparar borradores en herramientas internas o cruzar datos entre sistemas que no hablan entre sí. En Tecnoic ya hemos explicado qué es un agente de IA: la novedad ahora es que ese agente puede actuar sobre la pantalla.

Permisos, credenciales y auditoría: la parte menos cómoda

El detalle técnico más importante no es que el agente pueda hacer clic. Es con qué identidad lo hace. Microsoft permite configurar credenciales del creador, credenciales del usuario final y credenciales almacenadas para acceder a webs o aplicaciones. Esto abre posibilidades potentes, pero también un frente claro de seguridad: un agente mal compartido o mal configurado puede actuar con permisos que no corresponden.

La propia documentación advierte del riesgo de usar credenciales proporcionadas por el creador, porque otros usuarios podrían ejecutar acciones con ese nivel de acceso. Por eso, estas automatizaciones deberían diseñarse con cuentas dedicadas, mínimo privilegio, listas de sitios permitidos, aplicaciones restringidas y supervisión humana en tareas sensibles. También hará falta trazabilidad: saber qué hizo el agente, cuándo, por qué y con qué resultado. En Europa, la transparencia en IA ya no es un asunto decorativo, como comenté al hablar de la obligación de avisar cuando hablas con una IA.

Por dónde empezaría una empresa sensata

La tentación será lanzar estos agentes contra procesos grandes y vistosos. Yo empezaría al revés: tareas acotadas, repetitivas, reversibles y con bajo impacto si algo sale mal. Por ejemplo, recopilar información de paneles internos, preparar borradores, clasificar entradas, copiar datos entre sistemas secundarios o asistir en procesos administrativos que ya tienen revisión humana. No es tan llamativo, pero es más realista.

También conviene medir antes de escalar. ¿Cuánto tarda una persona? ¿Cuánto tarda el agente? ¿Cuántos errores introduce? ¿Cuántas veces necesita supervisión? ¿Qué ocurre cuando cambia la interfaz? Si las respuestas son buenas, se amplía el alcance. Si no, se habrá aprendido sin comprometer datos críticos. La automatización con agentes no debería empezar como una apuesta de fe, sino como ingeniería: hipótesis, prueba controlada, métricas y límites claros.

Conclusión

Los agentes de Microsoft que usan webs y aplicaciones como una persona acercan la IA a la automatización real, la que vive en formularios, escritorios remotos y sistemas heredados. No sustituyen a las buenas APIs, pero pueden desbloquear procesos atrapados en trabajo manual. La pregunta interesante no es si estos agentes harán clic por nosotros, sino qué controles pondremos cuando empiecen a hacerlo. ¿Lo ves como una oportunidad clara o como un riesgo operativo demasiado grande?