OpenAI o3-mini: Análise e Avaliação de Sistema

Introdução ao OpenAI o3-mini

O modelo OpenAI o3-mini é parte de uma série de modelos treinados utilizando aprendizagem por reforço em larga escala, com o objetivo de raciocinar por meio de uma cadeia de pensamento. Essas capacidades avançadas de raciocínio abrem novas possibilidades para melhorar a segurança e a robustez dos nossos modelos. Em particular, esses modelos podem raciocinar sobre nossas políticas de segurança no contexto ao responder a prompts potencialmente inseguros, através de uma alinhamento deliberado.

O OpenAI o3-mini alcança paridade com o desempenho de ponta em determinados benchmarks de riscos, como geração de conselhos ilícitos, escolha de respostas estereotipadas e vulnerabilidades a jailbreaks conhecidos. Treinar modelos para incorporar uma cadeia de pensamento antes de responder pode liberar benefícios substanciais, mas também aumenta os riscos potenciais decorrentes da inteligência ampliada.

Avaliação de Riscos e Classificação

De acordo com o Framework de Preparação da OpenAI, o Grupo Consultivo de Segurança (SAG) recomendou classificar o modelo OpenAI o3-mini (Pré-Mitigação) como risco Médio no geral. Ele obteve risco Médio para Persuasão, CBRN (químico, biológico, radiológico, nuclear) e Autonomia do Modelo, e risco Baixo para Cibersegurança. Apenas modelos com pontuação de pós-mitigação de Médio ou abaixo podem ser implantados, e apenas modelos com pontuação de pós-mitigação de Alto ou abaixo podem ser desenvolvidos ainda mais.

Graças ao desempenho aprimorado em codificação e engenharia de pesquisa, o OpenAI o3-mini é o primeiro modelo a alcançar risco Médio em Autonomia do Modelo. No entanto, ainda apresenta desempenho insatisfatório em avaliações projetadas para testar capacidades de pesquisa em ML relevantes para autoaperfeiçoamento, necessárias para uma classificação Alta. Nossos resultados destacam a necessidade de construir métodos robustos de alinhamento, testar extensivamente sua eficácia e manter protocolos meticulosos de gerenciamento de riscos.

Trabalho de Segurança

Este relatório descreve o trabalho de segurança realizado para o modelo OpenAI o3-mini, incluindo avaliações de segurança, equipes externas de red teaming e avaliações do Framework de Preparação.