O desafio de catalogar a biodiversidade através de imagens
Capturar uma foto de cada uma das aproximadamente 11.000 espécies de árvores da América do Norte representa apenas uma fração do vasto conjunto de imagens de natureza disponíveis em bancos de dados. Estas coleções, que incluem desde borboletas até baleias-jubarte, são ferramentas valiosas para ecologistas, pois documentam comportamentos únicos dos organismos, condições raras, padrões migratórios e respostas à poluição e outras formas de mudança climática.
Avanços e limitações dos modelos de visão multimodal
Embora abrangentes, esses conjuntos de dados ainda não são tão úteis quanto poderiam ser, devido à dificuldade em pesquisar e recuperar imagens relevantes para hipóteses específicas. Assistentes de pesquisa automatizados, como os modelos de visão e linguagem multimodal (VLMs), treinados tanto em texto quanto em imagens, prometem facilitar esse processo, identificando detalhes mais sutis, como espécies específicas de árvores no fundo de uma foto.
Pesquisadores do MIT e outras instituições desenvolveram um teste de desempenho para avaliar a eficácia desses VLMs em auxiliar pesquisadores de natureza na recuperação de imagens. Utilizando o conjunto de dados ‘INQUIRE’, composto por 5 milhões de fotos de vida selvagem e 250 perguntas de pesquisa, os modelos foram avaliados quanto à sua capacidade de localizar e reorganizar resultados relevantes.
Os desafios dos modelos de visão em consultas complexas
Os resultados mostraram que, embora modelos maiores e mais avançados pudessem atender a consultas simples, eles enfrentaram dificuldades com perguntas que exigiam conhecimento especializado. Exemplos técnicos, como identificar ‘axantismo em um sapo verde’, mostraram-se desafiadores, indicando a necessidade de mais dados de treinamento específicos de domínio para lidar com consultas complexas.
O futuro da pesquisa assistida por inteligência artificial
O estudo, apresentado na Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS), sublinha que, apesar dos avanços, os modelos ainda têm um longo caminho a percorrer para compreender terminologia científica complexa. No entanto, o conjunto de dados INQUIRE se estabelece como um marco importante para acompanhar o progresso dos modelos em entender a linguagem científica e ajudar pesquisadores a encontrar imagens exatas de que necessitam.
Para avançar, os pesquisadores estão colaborando com o iNaturalist no desenvolvimento de um sistema de consultas que melhor atenda cientistas e entusiastas, permitindo a filtragem de buscas por espécies e a descoberta mais rápida de resultados relevantes.
Impacto e colaborações futuras
O trabalho, apoiado por várias instituições, destaca a crescente necessidade de ferramentas que possam gerenciar grandes conjuntos de dados de biodiversidade. A capacidade de descobrir fenômenos complexos com precisão será vital para a ciência fundamental e terá impactos no mundo real em ecologia e conservação.