Quando alguém nos diz para ‘conhecer nossos limites’, geralmente está sugerindo que façamos algo com moderação. Para um robô, no entanto, essa máxima significa compreender as restrições ou limitações de uma tarefa específica dentro do seu ambiente, garantindo que ele realize suas atividades de forma segura e correta.
Imagine pedir a um robô para limpar sua cozinha sem que ele compreenda a física do ambiente. Como a máquina pode criar um plano prático e eficaz para deixar o espaço impecável? Modelos de linguagem de grande porte (LLMs) podem ajudar, mas se forem treinados apenas com texto, podem ignorar detalhes cruciais sobre as limitações físicas do robô, como o alcance ou a presença de obstáculos. Confiar apenas em LLMs pode resultar em manchas de molho espalhadas pela casa.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT desenvolveram uma abordagem que utiliza modelos de visão para identificar o que está ao redor do robô e modelar suas restrições. A estratégia envolve um LLM que esboça um plano verificado em um simulador, assegurando que seja seguro e realista. Se o plano não for viável, o modelo de linguagem gera um novo, até que se chegue a uma solução executável pelo robô.
Esse método de tentativa e erro, denominado ‘Planejamento para Robôs via Código para Satisfação Contínua de Restrições’ (PRoC3S), testa planos de longo prazo para garantir que satisfaçam todas as restrições, permitindo que o robô execute tarefas variadas, como escrever letras, desenhar estrelas e organizar blocos em diferentes posições. No futuro, o PRoC3S poderá auxiliar robôs em tarefas mais complexas em ambientes dinâmicos, como uma casa.
‘Modelos de linguagem de grande porte e sistemas robóticos clássicos, como planejadores de tarefa e movimento, não conseguem executar essas tarefas sozinhos, mas juntos, tornam a resolução de problemas abertos possível’, afirma Nishanth Kumar, doutorando e coautor de um novo artigo sobre o PRoC3S. ‘Estamos criando simulações em tempo real do que está ao redor do robô e testando várias ações possíveis. Os modelos de visão nos ajudam a criar um mundo digital muito realista, permitindo que o robô raciocine sobre ações viáveis para cada etapa de um plano de longo prazo.’
Os pesquisadores apresentaram seus resultados em um artigo na Conferência sobre Aprendizagem de Robôs (CoRL) em Munique, Alemanha. A metodologia utiliza um LLM pré-treinado com textos da internet. Antes de executar uma tarefa, a equipe fornece ao modelo um exemplo relacionado, incluindo uma descrição da atividade, um plano de longo prazo e detalhes sobre o ambiente do robô.
Nos testes, o PRoC3S foi bem-sucedido em desenhar estrelas e letras em oito de dez tentativas, além de empilhar blocos digitais e posicionar objetos com precisão. Comparado a abordagens similares, como ‘LLM3’ e ‘Code as Policies’, o método CSAIL completou as tarefas solicitadas de forma mais consistente.
Os engenheiros também aplicaram a abordagem no mundo real, desenvolvendo e executando planos em um braço robótico, ensinando-o a alinhar blocos e a mover objetos para o centro de uma mesa. Kumar e o coautor Aidan Curtis veem potencial em robôs domésticos capazes de receber pedidos gerais (como ‘traga alguns salgadinhos’) e identificar os passos necessários para realizá-los.
Para o futuro, os pesquisadores planejam melhorias com simuladores de física mais avançados e explorar tarefas de maior escala usando técnicas de busca de dados mais expansíveis. Eles também visam aplicar o PRoC3S em robôs móveis, como quadrúpedes, para tarefas que envolvem caminhar e escanear ambientes.
‘Usar modelos de base como o ChatGPT para controlar ações de robôs pode levar a comportamentos inseguros ou incorretos devido a alucinações’, comenta Eric Rosen, pesquisador do AI Institute. ‘O PRoC3S aborda essa questão ao alavancar modelos de base para orientação de tarefas de alto nível, enquanto emprega técnicas de IA que raciocinam explicitamente sobre o mundo para garantir ações seguras e corretas.’ Esta combinação de abordagens baseadas em planejamento e dados pode ser a chave para desenvolver robôs capazes de entender e realizar uma gama mais ampla de tarefas.
Microsoft amplia portfólio de energia renovável A Microsoft deu um passo significativo ao adicionar 389…
A plataforma de e-commerce Shopify retirou do ar a loja online de Kanye West após…
O Google tomou a decisão de remover eventos como o Mês da História Negra e…
Uma nova direção para o projeto IVAS O Exército dos Estados Unidos está prestes a…
O Founders Fund, fundo de investimentos fundado por Peter Thiel, está prestes a finalizar a…
Entenda o processo contra Elon Musk e DOGE Um grupo de trabalhadores federais está processando…
This website uses cookies.