Agente de uso de computador: a interface universal para IA

Em 23 de janeiro de 2025, a OpenAI apresentou uma prévia de pesquisa do “Operator”, um agente que pode acessar a web para realizar tarefas em seu nome. O motor por trás do Operator é o Computer-Using Agent (CUA), um modelo que combina as capacidades de visão do GPT-4o com raciocínio avançado por meio de aprendizado por reforço. O CUA foi treinado para interagir com interfaces gráficas de usuário (GUIs) — os botões, menus e campos de texto que as pessoas veem em uma tela — da mesma forma que humanos. Isso lhe dá a flexibilidade de executar tarefas digitais sem usar APIs específicas de sistema operacional ou web.

Como funciona

Computer-using agent: A interface universal para IA - Growby.ai - 1

O CUA processa dados de pixel brutos para entender o que está acontecendo na tela e usa um mouse e teclado virtuais para completar ações. Ele pode navegar por tarefas em várias etapas, lidar com erros e se adaptar a mudanças inesperadas. Isso permite que o CUA atue em uma ampla gama de ambientes digitais, executando tarefas como preencher formulários e navegar em sites sem precisar de APIs especializadas.

Dada a instrução de um usuário, o CUA opera através de um loop iterativo que integra percepção, raciocínio e ação:

Percepção: As capturas de tela do computador são adicionadas ao contexto do modelo, proporcionando um instantâneo visual do estado atual do computador.
Raciocínio: O CUA raciocina sobre os próximos passos usando a cadeia de pensamento, considerando capturas de tela e ações atuais e passadas. Este monólogo interno melhora o desempenho da tarefa ao permitir que o modelo avalie suas observações, acompanhe etapas intermediárias e se adapte dinamicamente.
Ação: Ele executa as ações — clicando, rolando ou digitando — até decidir que a tarefa está concluída ou que é necessário input do usuário. Embora lide com a maioria das etapas automaticamente, o CUA busca confirmação do usuário para ações sensíveis, como inserir detalhes de login ou responder a formulários CAPTCHA.

Avaliações

O CUA estabelece um novo estado da arte em benchmarks de uso de computador e navegador, usando a mesma interface universal de tela, mouse e teclado.

Computer-using agent: A interface universal para IA - Growby.ai - 3
Veja mais detalhes

 

Através do Operator, estamos disponibilizando o CUA para usuários Pro nos EUA. Esta prévia de pesquisa é uma oportunidade para aprender com nossos usuários e o ecossistema mais amplo, refinando e melhorando o Operator iterativamente. Esperamos que o feedback do mundo real nos ajude a refinar as medidas de segurança e melhorar continuamente à medida que nos preparamos para um futuro com uso crescente de agentes digitais.

Share:

administrator

Especialista em IA, inovação e estratégia de negócios. Founder Abre.bio, Co-Founder Growby.ai. Transformando tecnologia em impacto real. 🚀