Ensinando um robô a conhecer seus limites para realizar tarefas com segurança

Conhecendo os limites: uma nova abordagem para robôs

Quando alguém nos diz para ‘conhecer nossos limites’, geralmente está sugerindo que façamos algo com moderação. Para um robô, no entanto, essa máxima significa compreender as restrições ou limitações de uma tarefa específica dentro do seu ambiente, garantindo que ele realize suas atividades de forma segura e correta.

Desafios em ambientes complexos

Imagine pedir a um robô para limpar sua cozinha sem que ele compreenda a física do ambiente. Como a máquina pode criar um plano prático e eficaz para deixar o espaço impecável? Modelos de linguagem de grande porte (LLMs) podem ajudar, mas se forem treinados apenas com texto, podem ignorar detalhes cruciais sobre as limitações físicas do robô, como o alcance ou a presença de obstáculos. Confiar apenas em LLMs pode resultar em manchas de molho espalhadas pela casa.

Uma solução inovadora: PRoC3S

Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT desenvolveram uma abordagem que utiliza modelos de visão para identificar o que está ao redor do robô e modelar suas restrições. A estratégia envolve um LLM que esboça um plano verificado em um simulador, assegurando que seja seguro e realista. Se o plano não for viável, o modelo de linguagem gera um novo, até que se chegue a uma solução executável pelo robô.

Esse método de tentativa e erro, denominado ‘Planejamento para Robôs via Código para Satisfação Contínua de Restrições’ (PRoC3S), testa planos de longo prazo para garantir que satisfaçam todas as restrições, permitindo que o robô execute tarefas variadas, como escrever letras, desenhar estrelas e organizar blocos em diferentes posições. No futuro, o PRoC3S poderá auxiliar robôs em tarefas mais complexas em ambientes dinâmicos, como uma casa.

Integração de LLMs e robótica

‘Modelos de linguagem de grande porte e sistemas robóticos clássicos, como planejadores de tarefa e movimento, não conseguem executar essas tarefas sozinhos, mas juntos, tornam a resolução de problemas abertos possível’, afirma Nishanth Kumar, doutorando e coautor de um novo artigo sobre o PRoC3S. ‘Estamos criando simulações em tempo real do que está ao redor do robô e testando várias ações possíveis. Os modelos de visão nos ajudam a criar um mundo digital muito realista, permitindo que o robô raciocine sobre ações viáveis para cada etapa de um plano de longo prazo.’

Resultados e aplicações futuras

Os pesquisadores apresentaram seus resultados em um artigo na Conferência sobre Aprendizagem de Robôs (CoRL) em Munique, Alemanha. A metodologia utiliza um LLM pré-treinado com textos da internet. Antes de executar uma tarefa, a equipe fornece ao modelo um exemplo relacionado, incluindo uma descrição da atividade, um plano de longo prazo e detalhes sobre o ambiente do robô.

Nos testes, o PRoC3S foi bem-sucedido em desenhar estrelas e letras em oito de dez tentativas, além de empilhar blocos digitais e posicionar objetos com precisão. Comparado a abordagens similares, como ‘LLM3’ e ‘Code as Policies’, o método CSAIL completou as tarefas solicitadas de forma mais consistente.

Os engenheiros também aplicaram a abordagem no mundo real, desenvolvendo e executando planos em um braço robótico, ensinando-o a alinhar blocos e a mover objetos para o centro de uma mesa. Kumar e o coautor Aidan Curtis veem potencial em robôs domésticos capazes de receber pedidos gerais (como ‘traga alguns salgadinhos’) e identificar os passos necessários para realizá-los.

Desenvolvimentos futuros

Para o futuro, os pesquisadores planejam melhorias com simuladores de física mais avançados e explorar tarefas de maior escala usando técnicas de busca de dados mais expansíveis. Eles também visam aplicar o PRoC3S em robôs móveis, como quadrúpedes, para tarefas que envolvem caminhar e escanear ambientes.

‘Usar modelos de base como o ChatGPT para controlar ações de robôs pode levar a comportamentos inseguros ou incorretos devido a alucinações’, comenta Eric Rosen, pesquisador do AI Institute. ‘O PRoC3S aborda essa questão ao alavancar modelos de base para orientação de tarefas de alto nível, enquanto emprega técnicas de IA que raciocinam explicitamente sobre o mundo para garantir ações seguras e corretas.’ Esta combinação de abordagens baseadas em planejamento e dados pode ser a chave para desenvolver robôs capazes de entender e realizar uma gama mais ampla de tarefas.

Rony Max

Especialista em IA, inovação e estratégia de negócios. Founder Abre.bio, Co-Founder Growby.ai. Transformando tecnologia em impacto real. 🚀