O cão-robô Spot da Boston Dynamics agora pode ‘brincar de buscar’ – graças à descoberta do MIT
Robôs parecidos com cães poderão um dia aprender a brincar de buscar, graças a uma mistura de inteligência artificial (IA) e visão computacional ajudando-os a focar nos objetos.
Em um novo estudo publicado em 10 de outubro na revista Cartas de Robótica e Automação IEEEos pesquisadores desenvolveram um método chamado “Clio” que permite aos robôs mapear rapidamente uma cena usando câmeras corporais e identificar as partes que são mais relevantes para a tarefa que lhes foi atribuída por meio de instruções de voz.
Clio aproveita a teoria do “gargalo de informação”, em que a informação é comprimida de uma forma que uma rede neural – uma coleção de algoritmos de aprendizado de máquina dispostos em camadas para imitar a maneira como o cérebro humano processa a informação – apenas seleciona e armazena segmentos relevantes. Qualquer robô equipado com o sistema processará instruções como “obter kit de primeiros socorros” e então interpretará apenas as partes de seu ambiente imediato que sejam relevantes para suas tarefas – ignorando todo o resto.
“Por exemplo, digamos que há uma pilha de livros na cena e minha tarefa é apenas pegar o livro verde. Nesse caso, empurramos todas essas informações sobre a cena através desse gargalo e terminamos com um conjunto de segmentos que representam o livro verde”, co-autor do estudo Domingos Maggioum estudante de pós-graduação do MIT, disse em um declaração. “Todos os outros segmentos que não são relevantes são agrupados em um cluster que podemos simplesmente remover. E ficamos com um objeto com a granularidade correta que é necessário para apoiar minha tarefa.”
Relacionado: ‘Coloque cola na sua pizza’ incorpora tudo de errado com a pesquisa de IA – o SearchGPT está pronto para mudar isso?
Para demonstrar o Clio em ação, os pesquisadores usaram um robô quadrúpede Boston Dynamics Spot rodando o Clio para explorar um prédio de escritórios e realizar um conjunto de tarefas. Trabalhando em tempo real, o Clio gerou um mapa virtual mostrando apenas objetos relevantes para suas tarefas, o que permitiu ao robô Spot cumprir seus objetivos.
Ver, compreender, fazer
Os pesquisadores alcançaram esse nível de granularidade com o Clio combinando grandes modelos de linguagem (LLMs) – múltiplas redes neurais virtuais que sustentam inteligência artificial ferramentas, sistemas e serviços — que foram treinados para identificar todos os tipos de objetos, com visão computacional.
As redes neurais fizeram avanços significativos na identificação precisa de objetos em ambientes locais ou virtuais, mas geralmente são cenários cuidadosamente selecionados com um número limitado de objetos que um robô ou sistema de IA foi pré-treinado para reconhecer. A inovação que o Clio oferece é a capacidade de ser granular com o que vê em tempo real, relevante para as tarefas específicas que lhe foram atribuídas.
Uma parte essencial disso foi incorporar uma ferramenta de mapeamento no Clio que permite dividir uma cena em muitos pequenos segmentos. Uma rede neural então seleciona segmentos que são semanticamente semelhantes – o que significa que eles atendem à mesma intenção ou formam objetos semelhantes.
Efetivamente, a ideia é ter robôs alimentados por IA que possam tomar decisões intuitivas e discriminativas centradas em tarefas em tempo real, em vez de tentar processar primeiro uma cena ou ambiente inteiro.
No futuro, os pesquisadores planejam adaptar o Clio para lidar com tarefas de nível superior.
“Ainda estamos dando ao Clio tarefas um tanto específicas, como ‘encontrar um baralho de cartas'”, disse Maggio. “Para busca e resgate, você precisa atribuir mais tarefas de alto nível, como ‘encontrar sobreviventes’ ou ‘recuperar a energia’.” Portanto, queremos chegar a uma compreensão mais humana de como realizar mais tarefas complexas.”
No mínimo, o Clio pode ser a chave para ter cães-robôs que possam realmente brincar de buscar – independentemente do parque em que estejam correndo.