IA

Estudo de Modelos de IA 2026

Benchmark consolidado: 2 testes praticos + 2 estudos teoricos + 60 fontes

Confidencial INTEIA
16
Modelos Avaliados
17
Testes Praticos
95
Avaliacoes com Juiz
12
Providers OmniRoute
60+
Fontes Consultadas

Ranking Final — Benchmark INTEIA (10 testes praticos)

1
DeepSeek R1
Together AI / $2.19/M
6.96/10
Latencia13.8s
MelhorEntrevista 9.25
PiorJSON 3.8
2
Claude Sonnet 4.5
Anthropic / $15/M
6.84/10
Latencia22.0s
MelhorJSON 9.0
PiorConteudo 3.5
3
Claude Opus 4.6
Anthropic / $25/M
6.65/10
Latencia33.1s
MelhorMagistrado 8.2
PiorEntrevista 2.25
4
Grok 3
xAI / Free Tier
6.28/10
Latencia33.8s
MelhorClassif 8.3
PiorChat 4.8
5
Claude Haiku 4.5
Anthropic / $5/M
5.88/10
Latencia7.6s
MelhorClassif 8.8
PiorConteudo 1.8

Matriz de Notas — Benchmark INTEIA (10 cenarios)

Teste Opus 4.6 Sonnet 4.5 Haiku 4.5 Grok 3 DeepSeek R1 Lider
T01 Chat Simples8.05.56.14.85.6Opus
T02 Analise Estrategica7.65.84.05.06.1Opus
T03 Raciocinio Juridico6.75.94.64.95.3Opus
T04 Persona Magistrado8.27.05.47.27.2Opus
T05 Conteudo Persuasivo3.03.51.86.98.8DeepSeek
T06 Entrevista Eleitor2.28.27.36.29.25DeepSeek
T07 Classificacao8.08.58.88.39.25DeepSeek
T08 Sonho/Thinking8.07.06.05.05.8Opus
T09 Multi-Turn7.38.07.86.38.5DeepSeek
T10 Dados Estruturados7.59.07.08.23.8Sonnet
MEDIA6.656.845.886.286.96

Benchmark 1 (Generico) vs Benchmark 2 (INTEIA)

Benchmark 1 — 7 Testes Genericos

helena_benchmark.py | Entrevista, Magistrado, Estrategia, Classificacao, Juridico, Conteudo, Persona
1Opus 4.68.07
2Sonnet 4.58.01
3Grok 37.64
4DeepSeek R17.46
5Haiku 4.57.27

Benchmark 2 — 10 Testes INTEIA

teste_inteia_completo.py | Chat, Estrategia, Juridico, Magistrado, Conteudo, Entrevista, Classificacao, Sonho, Multi-turn, JSON
1DeepSeek R16.96
2Sonnet 4.56.84
3Opus 4.66.65
4Grok 36.28
5Haiku 4.55.88

Modelo Recomendado por Tarefa (validado)

Helena Chat (analise profunda)
Opus 4.68.0
Backup: Sonnet
Helena Strategos (estrategia)
Opus 4.67.6
Backup: DeepSeek R1
Raciocinio Juridico
Opus 4.66.7
Backup: Sonnet
NUNCA Haiku (4.6)
Magistrados (persona judicial)
Opus 4.68.2
Backup: DeepSeek R1 / Grok 3
Sonho / Thinking Profundo
Opus 4.68.0
Backup: Sonnet
Entrevistas Sinteticas
DeepSeek R19.25
Backup: Sonnet (8.2)
Conteudo Persuasivo
DeepSeek R18.8
Backup: Grok 3 (6.9)
NUNCA Opus (3.0)
Classificacao / Sentimento
DeepSeek R19.25
Backup: Haiku (8.8)
Dados Estruturados / JSON
Sonnet 4.59.0
Backup: Grok 3 (8.2)
NUNCA DeepSeek (3.8)
Multi-Turn Consistencia
DeepSeek R18.5
Backup: Sonnet (8.0)
Volume Alto (low-stakes)
Haiku 4.55.88
7.6s media | 3x mais rapido
Busca Web / Pesquisa
Perplexity Sonar Pro
Backup: Gemini 3.1 Pro

Regras Inviolaveis (validadas por 2 benchmarks)

NUNCA Haiku para raciocinio juridico
Nota 3.4 (B1) e 4.6 (B2). Gap consistente de 2-3 pontos vs Sonnet/Opus.
NUNCA Opus para conteudo persuasivo
Nota 3.0 (B2). Opus e analitico demais. DeepSeek R1 lidera com 8.8.
NUNCA DeepSeek para JSON complexo
Nota 3.8 (B2). Falha em formato e precisao. Sonnet lidera com 9.0.
Opus = pensamento profundo
Chat 8.0, Estrategia 7.6, Juridico 6.7, Magistrado 8.2, Sonho 8.0.
DeepSeek = execucao pratica
Entrevista 9.25, Conteudo 8.8, Classif 9.25, Multi-turn 8.5.
Sonnet = workhorse balanceado
JSON 9.0, Multi-turn 8.0, Classif 8.5. Melhor custo-beneficio geral.

Status OmniRoute — 12 Providers

Claude Max (cc/)
2 contas ativas
OK
Grok 3 (xai/)
Free tier
OK
DeepSeek (together/)
Free + creditos
OK
NVIDIA NIM
Creditos gratuitos
OK
Perplexity (pplx/)
API key paga
OK
Qwen (qw/)
OAuth
OK
Kiro AI (kr/)
AWS CodeWhisperer
OK
OpenAI API
$2.65 credito
OK
Codex/GPT (cx/)
429 — 154 falhas
RATE LIMIT
GitHub Copilot (gh/)
Token expirado
401
Gemini CLI (gc/)
OAuth expirado
SEM CRED
Kimi Coding (kmc/)
Membership expirada
402

Saude dos Endpoints INTEIA (21 testados)

4 OK
7 Auth (401)
6 Not Found
3 Bug (500)
1 Config
OK: Helena Chat, Ferramentas, Vila, OmniRoute
401: Endpoints protegidos (esperado)
404: Sem dados seed no banco
500: Consultores Lendarios (bug DB)
503: WhatsApp (sem Meta API)

Custo-Eficiencia

ModeloMedia B1Media B2$/M OutputLatenciaNota/$Eficiencia
Grok 37.646.28Free33.8s
DeepSeek R17.466.96$2.1913.8s3.41
Haiku 4.57.275.88$5.007.6s1.45
Sonnet 4.58.016.84$15.0022.0s0.53
Opus 4.68.076.65$25.0033.1s0.32

Helena via Backend (helena-premium combo)

TesteNotaLatenciaObservacao
T01 Chat Simples8.7575.0sAnalise com dados reais do banco
T02 Analise EstrategicaTIMEOUT122sExcedeu timeout de 120s
T03 Raciocinio Juridico6.7063.1sCorreto mas superficial
T04 Persona Magistrado7.0078.1sBom voto simulado
T05 Conteudo Persuasivo2.8081.2sTentou acessar banco em vez de gerar
T06 Entrevista Eleitor9.2523.1sExcelente persona sintetica
T07 Classificacao9.2529.6sJSON perfeito
T08 Sonho8.0085.2sProfundo e original
T09 Multi-Turn7.3058.3sAdmitiu falta de contexto
T10 Dados Estruturados9.5013.6sJSON perfeito, dados corretos
MEDIA6.8556.1s