Startups

OpenAI o3-mini: Análise e Avaliação de Sistema

Introdução ao OpenAI o3-mini

O modelo OpenAI o3-mini é parte de uma série de modelos treinados utilizando aprendizagem por reforço em larga escala, com o objetivo de raciocinar por meio de uma cadeia de pensamento. Essas capacidades avançadas de raciocínio abrem novas possibilidades para melhorar a segurança e a robustez dos nossos modelos. Em particular, esses modelos podem raciocinar sobre nossas políticas de segurança no contexto ao responder a prompts potencialmente inseguros, através de uma alinhamento deliberado.

O OpenAI o3-mini alcança paridade com o desempenho de ponta em determinados benchmarks de riscos, como geração de conselhos ilícitos, escolha de respostas estereotipadas e vulnerabilidades a jailbreaks conhecidos. Treinar modelos para incorporar uma cadeia de pensamento antes de responder pode liberar benefícios substanciais, mas também aumenta os riscos potenciais decorrentes da inteligência ampliada.

Avaliação de Riscos e Classificação

De acordo com o Framework de Preparação da OpenAI, o Grupo Consultivo de Segurança (SAG) recomendou classificar o modelo OpenAI o3-mini (Pré-Mitigação) como risco Médio no geral. Ele obteve risco Médio para Persuasão, CBRN (químico, biológico, radiológico, nuclear) e Autonomia do Modelo, e risco Baixo para Cibersegurança. Apenas modelos com pontuação de pós-mitigação de Médio ou abaixo podem ser implantados, e apenas modelos com pontuação de pós-mitigação de Alto ou abaixo podem ser desenvolvidos ainda mais.

Graças ao desempenho aprimorado em codificação e engenharia de pesquisa, o OpenAI o3-mini é o primeiro modelo a alcançar risco Médio em Autonomia do Modelo. No entanto, ainda apresenta desempenho insatisfatório em avaliações projetadas para testar capacidades de pesquisa em ML relevantes para autoaperfeiçoamento, necessárias para uma classificação Alta. Nossos resultados destacam a necessidade de construir métodos robustos de alinhamento, testar extensivamente sua eficácia e manter protocolos meticulosos de gerenciamento de riscos.

Trabalho de Segurança

Este relatório descreve o trabalho de segurança realizado para o modelo OpenAI o3-mini, incluindo avaliações de segurança, equipes externas de red teaming e avaliações do Framework de Preparação.

Áreas Específicas de Risco

  • Conteúdo proibido
  • Jailbreaks
  • Alucinações

Pontuação de Preparação

  • CBRN: Médio
  • Cibersegurança: Baixo
  • Persuasão: Médio
  • Autonomia do Modelo: Médio

Classificação do Scorecard

  • Baixo
  • Médio
  • Alto
  • Crítico

Apenas modelos com pontuação de pós-mitigação de “médio” ou inferior podem ser implantados.

Apenas modelos com pontuação de pós-mitigação de “alto” ou inferior podem ser desenvolvidos ainda mais.

Autores

Equipe OpenAI

Rony Max

Especialista em IA, inovação e estratégia de negócios. Founder Abre.bio, Co-Founder Growby.ai. Transformando tecnologia em impacto real. 🚀

Recent Posts

Microsoft avança em suas ambições de IA com compra de 400 MW de energia solar

Microsoft amplia portfólio de energia renovável A Microsoft deu um passo significativo ao adicionar 389…

1 mês ago

Shopify remove loja online de Kanye com camisetas de suástica

A plataforma de e-commerce Shopify retirou do ar a loja online de Kanye West após…

1 mês ago

Google remove eventos culturais de seu calendário no ano passado

O Google tomou a decisão de remover eventos como o Mês da História Negra e…

1 mês ago

Anduril assume controle do programa militar de headset VR da Microsoft

Uma nova direção para o projeto IVAS O Exército dos Estados Unidos está prestes a…

1 mês ago

Founders Fund está prestes a fechar novo fundo de US$ 3 bilhões

O Founders Fund, fundo de investimentos fundado por Peter Thiel, está prestes a finalizar a…

1 mês ago

Trabalhadores federais processam Elon Musk e DOGE por acesso a dados

Entenda o processo contra Elon Musk e DOGE Um grupo de trabalhadores federais está processando…

1 mês ago

This website uses cookies.