Categories: Notícias

Uma nova forma de criar formas 3D realistas usando IA generativa

Criando modelos 3D realistas

A criação de modelos 3D realistas para aplicações como realidade virtual, cinema e design de engenharia pode ser um processo trabalhoso que exige muitos testes manuais.

Embora os modelos de inteligência artificial generativa para imagens possam simplificar processos artísticos ao permitir que criadores produzam imagens 2D realistas a partir de comandos de texto, esses modelos não são projetados para gerar formas 3D. Para preencher essa lacuna, uma técnica recentemente desenvolvida chamada Score Distillation utiliza modelos de geração de imagens 2D para criar formas 3D, mas sua saída muitas vezes acaba sendo borrada ou caricatural.

Avanços do MIT na geração de formas 3D

Pesquisadores do MIT exploraram as relações e diferenças entre os algoritmos usados para gerar imagens 2D e formas 3D, identificando a causa raiz dos modelos 3D de menor qualidade. A partir daí, eles criaram uma correção simples para o Score Distillation, que permite a geração de formas 3D nítidas e de alta qualidade, mais próximas em qualidade às melhores imagens 2D geradas por modelos.

Outros métodos tentam resolver esse problema retrainando ou ajustando o modelo de IA generativa, o que pode ser caro e demorado.

Facilitando o Design 3D

Em contraste, a técnica dos pesquisadores do MIT alcança qualidade de forma 3D comparável ou melhor do que essas abordagens sem treinamento adicional ou pós-processamento complexo. Além disso, ao identificar a causa do problema, os pesquisadores melhoraram a compreensão matemática do Score Distillation e técnicas relacionadas, permitindo que trabalhos futuros melhorem ainda mais o desempenho.

“Agora sabemos para onde devemos ir, o que nos permite encontrar soluções mais eficientes que sejam mais rápidas e de maior qualidade”, diz Artem Lukoianov, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre essa técnica. “A longo prazo, nosso trabalho pode ajudar a facilitar o processo para ser um copiloto para designers, tornando mais fácil criar formas 3D mais realistas.”

Dois para Três: Imagens 2D a Formas 3D

Modelos de difusão, como o DALL-E, são um tipo de modelo de IA generativa que pode produzir imagens realistas a partir de ruído aleatório. Para treinar esses modelos, os pesquisadores adicionam ruído às imagens e, em seguida, ensinam o modelo a reverter o processo e remover o ruído. Os modelos usam esse processo de “remoção de ruído” aprendido para criar imagens baseadas em comandos de texto de um usuário.

No entanto, os modelos de difusão não têm um bom desempenho ao gerar diretamente formas 3D realistas porque não há dados 3D suficientes para treiná-los. Para contornar esse problema, os pesquisadores desenvolveram uma técnica chamada Score Distillation Sampling (SDS) em 2022, que usa um modelo de difusão pré-treinado para combinar imagens 2D em uma representação 3D.

Embora as formas 3D produzidas dessa maneira tendam a parecer borradas ou super saturadas, os pesquisadores do MIT identificaram uma incompatibilidade entre uma fórmula que forma uma parte fundamental do processo e sua contraparte em modelos de difusão 2D. A fórmula diz ao modelo como atualizar a representação aleatória ao adicionar e remover ruído, um passo de cada vez, para fazê-la parecer mais com a imagem desejada.

Uma Solução Aproximada

Em vez de tentar resolver essa fórmula complexa precisamente, os pesquisadores testaram técnicas de aproximação até identificarem a melhor. Em vez de amostrar aleatoriamente o termo de ruído, sua técnica de aproximação infere o termo ausente a partir da renderização da forma 3D atual.

“Ao fazer isso, como a análise no artigo prevê, gera formas 3D que parecem nítidas e realistas”, diz ele.

Além disso, os pesquisadores aumentaram a resolução da renderização da imagem e ajustaram alguns parâmetros do modelo para melhorar ainda mais a qualidade da forma 3D.

No final, eles conseguiram usar um modelo de difusão de imagem pré-treinado disponível no mercado para criar formas 3D suaves e de aparência realista sem a necessidade de um retraining caro. Os objetos 3D são igualmente nítidos aos produzidos usando outros métodos que dependem de soluções ad hoc.

“Tentar experimentar cegamente com diferentes parâmetros, às vezes funciona e às vezes não, mas você não sabe por quê. Sabemos que esta é a equação que precisamos resolver. Agora, isso nos permite pensar em maneiras mais eficientes de resolvê-la”, ele diz.

Como seu método depende de um modelo de difusão pré-treinado, ele herda os preconceitos e falhas desse modelo, tornando-o propenso a alucinações e outras falhas. Melhorar o modelo de difusão subjacente melhoraria seu processo.

Além de estudar a fórmula para ver como poderiam resolvê-la com mais eficácia, os pesquisadores estão interessados em explorar como esses insights poderiam melhorar as técnicas de edição de imagem.

O trabalho de Artem Lukoianov é financiado pelo Toyota–CSAIL Joint Research Center. A pesquisa de Vincent Sitzmann é apoiada pela U.S. National Science Foundation, Singapore Defense Science and Technology Agency, Department of Interior/Interior Business Center, e IBM. A pesquisa de Justin Solomon é financiada, em parte, pelo U.S. Army Research Office, National Science Foundation, o programa CSAIL Future of Data, MIT–IBM Watson AI Lab, Wistron Corporation, e o Toyota–CSAIL Joint Research Center.

Rony Max

Especialista em IA, inovação e estratégia de negócios. Founder Abre.bio, Co-Founder Growby.ai. Transformando tecnologia em impacto real. 🚀

Recent Posts

Microsoft avança em suas ambições de IA com compra de 400 MW de energia solar

Microsoft amplia portfólio de energia renovável A Microsoft deu um passo significativo ao adicionar 389…

1 mês ago

Shopify remove loja online de Kanye com camisetas de suástica

A plataforma de e-commerce Shopify retirou do ar a loja online de Kanye West após…

1 mês ago

Google remove eventos culturais de seu calendário no ano passado

O Google tomou a decisão de remover eventos como o Mês da História Negra e…

1 mês ago

Anduril assume controle do programa militar de headset VR da Microsoft

Uma nova direção para o projeto IVAS O Exército dos Estados Unidos está prestes a…

1 mês ago

Founders Fund está prestes a fechar novo fundo de US$ 3 bilhões

O Founders Fund, fundo de investimentos fundado por Peter Thiel, está prestes a finalizar a…

1 mês ago

Trabalhadores federais processam Elon Musk e DOGE por acesso a dados

Entenda o processo contra Elon Musk e DOGE Um grupo de trabalhadores federais está processando…

1 mês ago

This website uses cookies.