Claude vs GPT-4o vs Gemini para Análise de Dados: Testei Todos em Conjuntos de Dados Reais

Qual IA é melhor para análise de dados? Comparei Claude 3.5 Sonnet, GPT-4o e Gemini 1.5 Pro em tarefas reais de análise de dados. Descubra qual se destaca em insights, código e resumo de documentos.

Content Engine

16 Apr 2026 — 12 min read

Tenho usado IA para análise de dados praticamente todos os dias no último ano. E continuo ouvindo a mesma pergunta de colegas: "Qual deles eu devo realmente usar?" Então, decidi parar de adivinhar e fazer uma comparação direta.

Peguei três tarefas do mundo real — o tipo de coisa com que analistas de dados realmente lidam — e as joguei para o Claude (3.5 Sonnet), GPT-4o e Gemini 1.5 Pro. Sem escolher prompts a dedo. Sem tentar novamente até obter uma boa resposta. Apenas uma tentativa por tarefa, mesmo prompt, mesmos dados.

Aqui está o que aconteceu.

Por que Fiz Este Teste

Seja honesto: não sou patrocinado por nenhuma dessas empresas. Eu pago pelas três assinaturas do meu próprio bolso (US$ 20/mês cada, o que soma rápido). A razão pela qual fiz este teste é puramente egoísta — eu queria saber qual assinatura eu poderia cancelar.

A maioria dos artigos de "comparação de IA" que li são superficiais ou claramente tendenciosos para o modelo que o autor prefere. Eles testam algo trivial como "escreva-me um haicai" e depois tiram conclusões abrangentes sobre a prontidão para empresas. Isso não ajuda.

Eu queria testar coisas que realmente importam para o trabalho com dados: lidar com dados reais e bagunçados, gerar SQL correto em várias tabelas e extrair insights de documentos longos. Essas são as tarefas que faço toda semana, e suspeito que a maioria dos profissionais de dados também faz.

A Configuração

Antes de mergulhar nos resultados, veja como estruturei os testes:

Mesmo prompt para todos os três modelos — escrevi cada prompt uma vez e copiei e colei exatamente
Sem prompts de sistema ou instruções personalizadas — um novo começo para todos
Configurações padrão — sem ajustes de temperatura, sem ajuste de top-p
Tentativa única — o que voltou primeiro foi o que eu pontuei
Testado em abril de 2026 — os modelos são atualizados constantemente, então esta é uma fotografia no tempo

Pontuei cada modelo em uma escala de 1 a 10 em vários critérios por tarefa e depois tirei a média. Não é perfeitamente científico, mas muito mais rigoroso do que apenas "impressões".

Teste 1: Análise de CSV com 50.000 Linhas

O Conjunto de Dados

Usei um conjunto de dados real de transações de e-commerce com 50.247 linhas e 23 colunas. Incluía IDs de pedido, carimbos de data/hora, categorias de produtos, dados demográficos de clientes, métodos de pagamento, detalhes de envio, status de devolução e valores de receita. Os dados estavam bagunçados de propósito — havia 1.847 valores ausentes espalhados por diferentes colunas, algumas entradas duplicadas, inconsistências de formato de data e alguns outliers óbvios (como um pedido de US$ 99.999 que era claramente um erro de entrada de dados).

Meu prompt foi direto: "Analise este arquivo CSV. Identifique as principais tendências, sinalize problemas de qualidade de dados e forneça 5 recomendações de negócios acionáveis com evidências de suporte dos dados."

Resposta do Claude

O Claude identificou imediatamente os problemas de qualidade dos dados — todos os 1.847 valores ausentes, as duplicatas e o outlier. O que me impressionou foi a profundidade da análise. Não disse apenas "eletrônicos é sua categoria principal". Ele detalhou a receita por categoria, fez referência cruzada com as taxas de devolução e apontou que, embora os eletrônicos tivessem a maior receita bruta, o cenário de receita líquida parecia diferente por causa de uma taxa de devolução de 23%.

As cinco recomendações eram específicas e vinculadas a pontos de dados. Por exemplo: "Considere reduzir o limite de frete grátis de US$ 75 para US$ 50 para a categoria de produtos para casa — pedidos entre US$ 50 e US$ 75 nesta categoria mostram uma taxa de abandono de carrinho de 34%, e o custo médio de envio de US$ 8,20 seria compensado pelo aumento de 12% na conversão." Esse é o tipo de análise que realmente ajuda os tomadores de decisão.

O Claude também criou voluntariamente uma matriz de correlação e identificou um padrão sazonal que eu não havia notado — as devoluções no 3º trimestre foram 40% maiores do que em outros trimestres, concentradas na categoria de roupas, provavelmente devido a compras de volta às aulas com altas devoluções por incompatibilidade de tamanho.

Resposta do GPT-4o

O GPT-4o adotou uma abordagem mais estruturada. Organizou sua análise em seções claras com cabeçalhos e até gerou código Python para cada etapa de análise. O código era limpo, bem comentado e realmente executável — eu o testei. Ele usou conceitos de perfil de pandas e criou código de visualização usando matplotlib e seaborn.

A identificação da qualidade dos dados foi boa, mas não tão completa. Ele pegou os valores ausentes e o outlier, mas perdeu as entradas duplicadas (havia 23 delas). As recomendações de negócios eram sólidas, mas mais genéricas — coisas como "focar os gastos de marketing em categorias de alto desempenho" sem a análise de limite específica que o Claude forneceu.

Onde o GPT-4o realmente brilhou foi na saída de código. Se eu precisasse construir um pipeline automatizado com base nesta análise, o GPT-4o me deu um enorme ponto de partida. O código era modular, tinha tratamento de erros e até incluía docstrings.

Resposta do Gemini

O Gemini 1.5 Pro processou o arquivo rapidamente e forneceu uma visão geral abrangente. Ele lidou com o grande tamanho do arquivo sem reclamações (o que nem sempre acontecia com versões anteriores). A análise cobriu bem o básico — principais categorias, tendências de receita, segmentos de clientes.

Mas a profundidade não estava lá em comparação com os outros dois. As recomendações eram superficiais: "Melhorar a retenção de clientes" e "Otimizar o mix de produtos." Elas não estão erradas, mas também não são acionáveis. Um líder de negócios lendo isso perguntaria imediatamente "Como?" e a resposta não estava na saída do Gemini.

O Gemini fez algo interessante, no entanto — ele criou automaticamente uma tabela de resumo comparando as taxas de crescimento mês a mês que era fácil de escanear. E foi o único modelo que sinalizou uma potencial inconsistência de moeda em 12 linhas onde os valores sugeriam que poderiam estar em uma moeda diferente.

Pontuações do Teste 1

Critério	Claude	GPT-4o	Gemini
Detecção de Qualidade de Dados	9	7	7
Profundidade Analítica	10	7	5
Recomendações Acionáveis	9	7	5
Qualidade do Código	7	10	6
Apresentação/Legibilidade	8	9	8
Média	8.6	8.0	6.2

Teste 2: Geração de Query SQL em 3 Tabelas Relacionadas

O Esquema

Dei a cada modelo um esquema com três tabelas: customers (customer_id, name, email, signup_date, plan_type, region), orders (order_id, customer_id, product_id, order_date, quantity, unit_price, discount_pct, status) e products (product_id, name, category, subcategory, cost_price, list_price, supplier_id, is_active).

Então, fiz cinco perguntas cada vez mais complexas:

Mostre os 10 principais clientes por gasto total nos últimos 90 dias, incluindo seu tipo de plano e número de pedidos
Calcule a taxa de crescimento da receita mês a mês para cada categoria de produto, mas apenas para categorias com pelo menos 100 pedidos por mês
Encontre clientes que fizeram downgrade de seu plano (passaram de premium para básico) E cuja frequência de pedidos caiu mais de 50% em comparação com seus primeiros 3 meses
Gere uma análise de coorte mostrando as taxas de retenção por mês de inscrição, onde "retido" significa pelo menos um pedido em cada mês subsequente
Identifique produtos onde a porcentagem de desconto está consumindo mais de 30% da margem, agrupados por fornecedor, com um total acumulado

SQL do Claude

O Claude produziu SQL correto para todas as cinco queries na primeira tentativa. As queries eram bem estruturadas, usando CTEs (Common Table Expressions) que tornavam a lógica fácil de seguir. Para a query de análise de coorte, que é notoriamente complicada, o Claude usou uma abordagem limpa com CROSS JOIN para gerar a grade de coorte completa e LEFT JOIN para preencher os números reais de retenção. Isso significava que a saída mostrava corretamente zeros para os meses em que nenhum cliente foi retido, em vez de apenas omitir essas linhas.

O Claude também adicionou comentários explicando a lógica de negócios por trás de cada etapa, o que é algo que sempre aprecio. Ele também observou casos extremos — por exemplo, apontou que a query de margem de desconto assume que discount_pct se aplica ao list_price, não ao cost_price, e perguntou se isso estava correto.

A única ressalva: uma query usou uma sintaxe de função de janela que é específica do PostgreSQL e não funcionaria no MySQL sem modificação. O Claude não especificou qual dialeto estava visando.

SQL do GPT-4o

O GPT-4o também acertou todas as cinco queries, e a qualidade do código foi indiscutivelmente a melhor das três. Cada query veio com o dialeto SQL especificado (o padrão era PostgreSQL, mas oferecia alternativas MySQL), notas de desempenho sobre quais índices ajudariam e planos de execução estimados para tabelas grandes.

A query de análise de coorte foi elegante — usou uma abordagem ligeiramente diferente com date_trunc e generate_series que era mais concisa do que a versão do Claude, sendo igualmente correta. O GPT-4o também forneceu os resultados da query em uma tabela formatada mostrando como seria a saída, o que foi útil para validação.

O GPT-4o foi além, sugerindo uma view materializada para a query de crescimento de receita: "Se você estiver executando isso regularmente, considere criar uma view materializada que seja atualizada diariamente. Aqui está o DDL..." Esse é o tipo de pensamento pronto para produção que distingue o bom do ótimo.

SQL do Gemini

O Gemini acertou as queries 1, 2 e 5. A query 3 tinha um erro lógico — comparou as mudanças de plano olhando para o campo current plan_type, mas não levou em conta o fato de que o esquema armazena apenas o plano atual, não o histórico. Ele assumiu que havia uma tabela plan_history que não existia. Quando apontei isso, ele se corrigiu, mas lembre-se — este foi um teste de tentativa única.

A query 4 (análise de coorte) estava funcionalmente correta, mas tinha um problema de desempenho: usava subqueries correlacionadas em vez de joins, o que em um grande conjunto de dados seria significativamente mais lento. A lógica estava certa, mas eu não gostaria de executá-la em uma tabela com milhões de linhas.

O Gemini se destacou em explicar o contexto de negócios de cada query. Suas explicações sobre o que significa análise de coorte e por que a análise de margem é importante foram as mais claras das três, tornando-o uma boa ferramenta de aprendizado.

Pontuações do Teste 2

Critério	Claude	GPT-4o	Gemini
Correção da Query	10	10	7
Estrutura/Legibilidade do Código	9	10	7
Consciência de Desempenho	7	9	5
Tratamento de Casos Extremos	9	8	5
Documentação/Explicação	8	8	9
Média	8.6	9.0	6.6

Teste 3: Resumo de PDF de 47 Páginas

O Documento

Usei um documento real (anonimizado) de revisão trimestral de negócios — 47 páginas com tabelas financeiras, iniciativas estratégicas, avaliações de risco, KPIs departamentais e uma apresentação de diretoria incorporada no final. O documento tinha aproximadamente 28.000 palavras com 14 tabelas e 8 gráficos descritos em texto.

Meu prompt: "Resuma este documento de forma que um executivo de alto nível possa ler em 5 minutos e entrar em uma reunião de diretoria totalmente preparado. Destaque os 3 maiores riscos, as 2 oportunidades mais promissoras e quaisquer números que pareçam inconsistentes com a narrativa."

Resumo do Claude

O Claude produziu um resumo conciso e bem organizado de cerca de 800 palavras — genuinamente legível em 5 minutos. Os três riscos que identificou foram precisos: concentração da cadeia de suprimentos (72% de uma única região), a tendência de custo de aquisição de clientes (aumento de 34% T/T enquanto o LTV estava estável) e um prazo de conformidade que a narrativa mencionou casualmente na página 38, mas que era, na verdade, um grande risco regulatório.

A seção de oportunidades também foi boa, destacando uma jogada de expansão de mercado e um acordo de parceria com termos favoráveis. Mas onde o Claude realmente ganhou sua pontuação foi na seção "números que parecem inconsistentes". Ele percebeu que o valor da receita na página 12 (US$ 14,2 milhões) não correspondia à soma das detalhamentos regionais na página 23 (US$ 13,8 milhões) e sinalizou que os números de funcionários na seção de RH implicavam uma taxa de rotatividade de 18% que contradizia a narrativa de "forte retenção" na página 7.

Esse tipo de referência cruzada em um documento longo é exatamente o que preciso que uma IA faça. Eu estava lendo este documento por uma hora e perdi ambas as discrepâncias.

Resumo do GPT-4o

O resumo do GPT-4o foi bem estruturado e profissional. Usou marcadores de forma eficaz e organizou as informações por departamento. A identificação de riscos foi sólida — ele pegou o problema da cadeia de suprimentos e o problema do CAC, mas perdeu o prazo de conformidade na página 38.

O resumo foi mais longo que o do Claude (cerca de 1.200 palavras), o que prejudicou o requisito de "leitura de 5 minutos". Incluiu mais detalhes sobre o desempenho departamental, o que é útil, mas não era o que eu pedi. O GPT-4o parece ter como padrão a abrangência em vez da concisão quando recebe documentos longos.

Na solicitação de "números que parecem inconsistentes", o GPT-4o pegou a discrepância de receita, mas não a contradição da taxa de rotatividade. No entanto, ele pegou algo que os outros perderam — notou que a taxa de crescimento projetada para o 3º trimestre assumia um padrão de sazonalidade de 2024, mas os dados de 2025 mostraram que o padrão sazonal havia mudado em cerca de 6 semanas, tornando a projeção para o 3º trimestre potencialmente otimista em 8-12%.

Resumo do Gemini

Foi aqui que a grande janela de contexto do Gemini valeu a pena. Ele processou todas as 47 páginas sem qualquer fragmentação ou artefatos de resumo. O resumo foi abrangente e preciso, cobrindo todas as seções principais do documento. Ele lidou com as tabelas financeiras particularmente bem, extraindo métricas chave e apresentando-as em um formato limpo.

O Gemini identificou o risco da cadeia de suprimentos e um risco de concorrência de mercado que os outros dois não enfatizaram. No entanto, ele tratou o documento mais como um resumo capítulo a capítulo do que como um briefing estratégico. Um executivo C-suite obteria todas as informações, mas teria que fazer a síntese do "e daí?" por si mesmo.

A auditoria de números foi a mais fraca das três. O Gemini confirmou os números no documento sem fazer referência cruzada entre as seções. Ele essencialmente disse "os números financeiros são consistentes com a narrativa" — o que não eram, como o Claude demonstrou.

Mas quero dar crédito ao Gemini por algo: seu tratamento dos gráficos incorporados. Embora não pudesse ver as imagens reais, ele fez referência às descrições de texto dos gráficos e observou corretamente que dois gráficos descreviam tendências contraditórias (um mostrava o aumento da participação de mercado enquanto outro mostrava o declínio da posição competitiva relativa). Essa é uma percepção sutil.

Pontuações do Teste 3

Critério	Claude	GPT-4o	Gemini
Prontidão Executiva	10	7	6
Identificação de Riscos	9	8	7
Identificação de Oportunidades	8	8	7
Referência Cruzada Numérica	10	8	4
Concisão vs Completude	9	6	8
Média	9.2	7.4	6.4

Resultados Gerais

Teste	Claude	GPT-4o	Gemini
Análise de CSV (50K linhas)	8.6	8.0	6.2
Geração de SQL (3 tabelas)	8.6	9.0	6.6
Resumo de PDF (47 páginas)	9.2	7.4	6.4
Média Geral	8.8	8.1	6.4

Minha Opinião Honesta: Quando Usar Cada Um

Use o Claude quando: Você precisa de pensamento analítico profundo, referência cruzada em documentos grandes ou insights prontos para negócios que vão além de observações superficiais. O Claude consistentemente forneceu a análise mais diferenciada e pegou detalhes que os outros perderam. Se você é um analista de dados apresentando para stakeholders, o Claude lhe dá o "e daí?" que transforma dados em decisões.

Use o GPT-4o quando: Você precisa de saída de código com qualidade de produção, SQL bem documentado ou uma análise pronta para pipeline. O código do GPT-4o foi consistentemente o mais limpo e pronto para produção. Se você está construindo algo, não apenas analisando algo, o GPT-4o é sua melhor aposta. As sugestões de otimização de desempenho também foram um bom bônus.

Use o Gemini quando: Você está trabalhando com documentos massivos ou precisa processar muito contexto de uma vez. A grande janela de contexto do Gemini é genuinamente útil para documentos muito longos, e ele lidou com as 47 páginas completas sem suar a camisa. Também é o melhor em explicações e ensino, o que o torna valioso para aprender novos conceitos.

E o Custo?

Todos os três oferecem planos de consumidor de US$ 20/mês. Para uso da API, a situação fica mais detalhada:

Modelo	Entrada (por 1M tokens)	Saída (por 1M tokens)	Custo Estimado para Este Teste
Claude 3.5 Sonnet	US$ 3,00	US$ 15,00	US$ 0,47
GPT-4o	US$ 2,50	US$ 10,00	US$ 0,38
Gemini 1.5 Pro	US$ 1,25	US$ 5,00	US$ 0,21

O Gemini ganha no preço por uma margem significativa. Se o custo é sua principal preocupação e a diferença de profundidade não importa para o seu caso de uso, é difícil argumentar contra a proposta de valor do Gemini.

Limitações Deste Teste

Quero ser direto sobre o que este teste não informa:

Esses modelos são atualizados constantemente. O que é verdade hoje pode não ser verdade em três meses. Tentarei refazer esta comparação trimestralmente.
Viés de tentativa única. Modelos de IA podem dar saídas diferentes para o mesmo prompt. Executar cada teste 10 vezes e tirar a média seria mais rigoroso, mas não foi prático.
Minha pontuação é subjetiva. Outro analista pode pesar a qualidade do código mais do que a profundidade analítica e chegar a conclusões diferentes.
Não testei recursos multimodais. Se sua análise de dados envolve imagens, gráficos ou vídeo, essa é uma comparação totalmente diferente.
Os limites da janela de contexto importam mais para alguns workflows. Se você rotineiramente processa documentos de mais de 100 páginas, a vantagem do Gemini se torna muito mais significativa.

O Que Eu Realmente Estou Mantendo

Depois de fazer este teste, estou mantendo todas as três assinaturas — mas as estou usando de forma diferente do que antes. O Claude é meu recurso principal para análise e revisão de documentos. O GPT-4o lida com minhas tarefas de codificação e construção de pipelines. O Gemini entra em cena quando preciso processar algo massivo ou quando estou aprendendo um novo domínio e preciso de explicações claras.

US$ 60/mês é muito? Sim. Mas considerando que estou substituindo o que costumavam ser horas de trabalho manual toda semana, é provavelmente o melhor ROI de qualquer assinatura de ferramenta que tenho.

Se eu tivesse que manter apenas um, seria o Claude para trabalho de análise de dados. A profundidade analítica e a capacidade de referência cruzada me salvaram de apresentar números incorretos a um cliente — uma vez. Isso por si só pagou por um ano de assinatura.

Mas, honestamente, a lacuna entre Claude e GPT-4o é estreita o suficiente para que sua experiência possa variar. Experimente os três em SUAS tarefas específicas antes de se comprometer. O que funciona para o meu workflow pode não corresponder ao seu.

Próximos Passos

Estou planejando realizar testes semelhantes na geração de visualizações (esses modelos podem criar bons gráficos diretamente?), análise de dados em tempo real (cenários de dados de streaming) e processamento de dados em vários idiomas. Se você tiver cenários específicos que gostaria que eu testasse, deixe um comentário ou entre em contato.

O cenário de análise de dados com IA está se movendo incrivelmente rápido. O modelo que é melhor hoje pode não ser o melhor no próximo trimestre. Mas, no momento, para o trabalho que faço, é assim que as coisas estão.