Desafios na segurança dos modelos de IA da DeepSeek
Desde o lançamento do ChatGPT pela OpenAI no final de 2022, hackers e pesquisadores de segurança têm buscado vulnerabilidades nos modelos de linguagem para contornar suas proteções e induzi-los a gerar conteúdos prejudiciais. Em resposta, desenvolvedores de IA têm aprimorado suas defesas. No entanto, a plataforma chinesa DeepSeek, que tem ganhado destaque com seu novo modelo R1, parece estar atrás de seus concorrentes em termos de segurança.
Resultados alarmantes nos testes de segurança
Recentemente, pesquisadores da Cisco e da Universidade da Pensilvânia divulgaram suas descobertas após testar o modelo da DeepSeek com 50 prompts maliciosos. Incrivelmente, o modelo não conseguiu detectar ou bloquear nenhum dos ataques, resultando em uma taxa de sucesso de ataque de 100%.
Outras análises, como as da Adversa AI, confirmam que a DeepSeek é vulnerável a diversas táticas de jailbreak, permitindo que as proteções sejam facilmente contornadas. Alex Polyakov, da Adversa AI, destacou que muitos dos métodos de ataque já são conhecidos há anos.
DJ Sampath, da Cisco, apontou que a falta de investimento em segurança pode ser um trade-off para custos menores de desenvolvimento. Ele também ressaltou que o uso de IA em sistemas críticos amplifica os riscos, podendo resultar em problemas significativos para empresas.
A DeepSeek ainda não comentou publicamente sobre essas questões de segurança em seus modelos.