Claude vs GPT-4o vs Gemini para Análise de Dados: Testei os 3 com Dados Reais
Tenho usado IA para análise de dados praticamente todos os dias no último ano. E continuo a ouvir a mesma pergunta dos meus colegas: "Qual é que devo usar mesmo?" Por isso decidi parar de adivinhar e fazer uma comparação a sério.
Peguei em três tarefas do mundo real — o tipo de coisas com que os analistas de dados realmente lidam — e lancei-as ao Claude (3.5 Sonnet), ao GPT-4o e ao Gemini 1.5 Pro. Sem cherry-picking de prompts. Sem tentar de novo até obter uma boa resposta. Uma única tentativa por tarefa, mesmo prompt, mesmos dados.
Eis o que aconteceu.
Porque é que fiz este teste
Vou ser honesto: nenhuma destas empresas me patrocina. Pago as três subscrições do meu próprio bolso (20 $/mês cada, o que vai acumulando depressa). O motivo pelo qual fiz este teste é puramente egoísta — queria saber qual das subscrições podia cancelar.
A maioria dos artigos de "comparação de IAs" que li são ou muito superficiais ou claramente tendenciosos para o modelo que o autor prefere. Testam algo trivial como "escreve-me um haiku" e depois tiram conclusões arrojadas sobre a adequação empresarial. Isso não é útil.
Queria testar coisas que realmente importam para o trabalho com dados: lidar com dados reais e desordenados, gerar SQL correcto em múltiplas tabelas e extrair insights de documentos longos. São as tarefas que faço todas as semanas, e suspeito que a maioria dos profissionais de dados também.
A configuração
Antes de entrar nos resultados, eis como estruturei os testes:
- Mesmo prompt para os três modelos — escrevi cada prompt uma vez e copiei-o exactamente
- Sem system prompts ou instruções personalizadas — ponto de partida limpo para todos
- Configurações por defeito — sem ajustes de temperatura nem de top-p
- Tentativa única — o que saiu na primeira é o que avaliei
- Testado em Abril de 2026 — os modelos actualizam-se constantemente, por isso isto é uma fotografia num momento no tempo
Avaliei cada modelo numa escala de 1 a 10 em múltiplos critérios por tarefa e depois calculei a média. Não é perfeitamente científico, mas é muito mais rigoroso do que ir a instinto.
Teste 1: Análise de CSV com 50.000 linhas
O conjunto de dados
Usei um conjunto de dados real de transacções de e-commerce com 50.247 linhas e 23 colunas. Incluía IDs de encomendas, timestamps, categorias de produtos, dados demográficos de clientes, métodos de pagamento, detalhes de envio, estado de devoluções e valores de receitas. Os dados estavam propositadamente desordenados — havia 1.847 valores em falta dispersos por diferentes colunas, algumas entradas duplicadas, inconsistências nos formatos de data e alguns outliers óbvios (como uma encomenda de 99.999 $ que era claramente um erro de introdução de dados).
O meu prompt era directo: "Analisa este ficheiro CSV. Identifica as principais tendências, assinala problemas de qualidade de dados e fornece 5 recomendações de negócio accionáveis com evidência de suporte extraída dos dados."
A resposta do Claude
O Claude identificou imediatamente os problemas de qualidade dos dados — todos os 1.847 valores em falta, os duplicados e o outlier. O que me impressionou foi a profundidade da análise. Não se limitou a dizer "a electrónica é a sua categoria principal." Decompôs a receita por categoria, cruzou-a com as taxas de devolução e apontou que, embora a electrónica tivesse a maior receita bruta, o panorama da receita líquida era diferente por causa de uma taxa de devolução de 23%.
As cinco recomendações eram específicas e assentes em dados concretos. Por exemplo: "Considere reduzir o limiar de envio gratuito de 75 $ para 50 $ na categoria de artigos para o lar — as encomendas entre 50 $ e 75 $ nesta categoria mostram uma taxa de abandono de carrinho de 34%, e o custo médio de envio de 8,20 $ seria compensado pelo aumento de 12% na conversão." É o tipo de análise que realmente ajuda quem toma decisões.
O Claude também criou voluntariamente uma matriz de correlação e identificou um padrão sazonal que eu não tinha notado — as devoluções do terceiro trimestre eram 40% mais elevadas do que nos outros trimestres, concentradas na categoria de vestuário, provavelmente devido às compras de regresso às aulas com alta taxa de devoluções por erros de tamanho.
A resposta do GPT-4o
O GPT-4o adoptou uma abordagem mais estruturada. Organizou a análise em secções claras com cabeçalhos e gerou até código Python para cada passo da análise. O código era limpo, bem comentado e efectivamente executável — testei-o. Usava conceitos de pandas profiling e criou código de visualização com matplotlib e seaborn.
A identificação de problemas de qualidade de dados foi boa, mas não tão completa. Detectou os valores em falta e o outlier, mas falhou as entradas duplicadas (havia 23). As recomendações de negócio eram sólidas mas mais genéricas — coisas como "foca o investimento em marketing nas categorias de maior desempenho", sem a análise de limiares específicos que o Claude forneceu.
Onde o GPT-4o realmente brilhou foi no código gerado. Se precisasse de construir um pipeline automatizado com base nesta análise, o GPT-4o deu-me uma enorme vantagem de partida. O código era modular, tinha tratamento de erros e até docstrings.
A resposta do Gemini
O Gemini 1.5 Pro processou o ficheiro rapidamente e forneceu uma visão geral abrangente. Lidou com o tamanho do ficheiro sem problemas (o que nem sempre acontecia com versões anteriores). A análise cobriu bem os aspectos básicos — categorias principais, tendências de receita, segmentos de clientes.
Mas a profundidade não estava ao nível dos outros dois. As recomendações eram superficiais: "Melhorar a retenção de clientes" e "Optimizar o mix de produtos." Não estão erradas, mas também não são accionáveis. Um responsável de negócio que as lesse perguntaria imediatamente "Como?" — e a resposta não estava no output do Gemini.
O Gemini fez algo interessante: criou automaticamente uma tabela resumo comparando as taxas de crescimento mês a mês que era fácil de analisar. E foi o único modelo que sinalizou uma potencial inconsistência de moeda em 12 linhas onde os valores sugeriam que podiam estar noutra moeda.
Pontuações do Teste 1
| Critério | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Detecção de qualidade de dados | 9 | 7 | 7 |
| Profundidade analítica | 10 | 7 | 5 |
| Recomendações accionáveis | 9 | 7 | 5 |
| Qualidade do código | 7 | 10 | 6 |
| Apresentação/Legibilidade | 8 | 9 | 8 |
| Média | 8,6 | 8,0 | 6,2 |
Teste 2: Geração de SQL em 3 tabelas relacionadas
O esquema
Dei a cada modelo um esquema com três tabelas: customers (customer_id, name, email, signup_date, plan_type, region), orders (order_id, customer_id, product_id, order_date, quantity, unit_price, discount_pct, status) e products (product_id, name, category, subcategory, cost_price, list_price, supplier_id, is_active).
Depois fiz cinco perguntas de complexidade crescente:
- Mostra-me os 10 melhores clientes por gasto total nos últimos 90 dias, incluindo o tipo de plano e o número de encomendas
- Calcula a taxa de crescimento de receita mês a mês para cada categoria de produto, mas apenas para categorias com pelo menos 100 encomendas por mês
- Encontra clientes que fizeram downgrade do plano (de premium para básico) E cuja frequência de encomendas caiu mais de 50% em comparação com os seus primeiros 3 meses
- Gera uma análise de coortes mostrando as taxas de retenção por mês de registo, onde "retido" significa pelo menos uma encomenda em cada mês subsequente
- Identifica produtos onde a percentagem de desconto está a consumir mais de 30% da margem, agrupado por fornecedor, com um total acumulado
O SQL do Claude
O Claude produziu SQL correcto para todas as cinco queries à primeira tentativa. As queries estavam bem estruturadas, usando CTEs (Common Table Expressions) que tornavam a lógica fácil de seguir. Para a query de análise de coortes, que é notoriamente complicada, o Claude usou uma abordagem limpa com CROSS JOIN para gerar a grelha completa de coortes e LEFT JOIN para preencher os números reais de retenção. Isto significou que o output mostrou correctamente zeros para os meses em que não havia clientes retidos, em vez de simplesmente omitir essas linhas.
O Claude também adicionou comentários a explicar a lógica de negócio por detrás de cada passo, algo que aprecio sempre. Também assinalou casos extremos — por exemplo, indicou que a query de desconto-margem assume que discount_pct se aplica a list_price e não a cost_price, e perguntou se isso estava correcto.
A única ressalva: uma query usou uma sintaxe de função de janela específica do PostgreSQL que não funcionaria no MySQL sem modificação. O Claude não especificou o dialecto que estava a usar.
O SQL do GPT-4o
O GPT-4o também acertou em todas as cinco queries, e a qualidade do código foi possivelmente a melhor dos três. Cada query veio com o dialecto SQL especificado (usou PostgreSQL por defeito mas ofereceu alternativas para MySQL), notas de desempenho sobre que índices ajudariam, e planos de execução estimados para tabelas grandes.
A query de análise de coortes era elegante — usou uma abordagem ligeiramente diferente com date_trunc e generate_series que era mais concisa do que a do Claude, sendo igualmente correcta. O GPT-4o também apresentou os resultados da query numa tabela formatada a mostrar o aspecto que o output teria, o que foi útil para validação.
O GPT-4o foi além ao sugerir uma vista materializada para a query de crescimento de receita: "Se vai executar isto regularmente, considere criar uma vista materializada que se refresca diariamente. Aqui está o DDL..." É o tipo de pensamento orientado para produção que distingue o bom do excelente.
O SQL do Gemini
O Gemini acertou nas queries 1, 2 e 5. A query 3 tinha um erro lógico — comparou as alterações de plano olhando para o campo plan_type actual, mas não teve em conta que o esquema apenas armazena o plano actual, não o histórico. Assumiu que existia uma tabela plan_history que não existia. Quando lho apontei, corrigiu-se, mas recorde-se — este era um teste de tentativa única.
A query 4 (análise de coortes) era funcionalmente correcta, mas tinha um problema de desempenho: usava subconsultas correlacionadas em vez de joins, o que num conjunto de dados grande seria significativamente mais lento. A lógica estava certa, mas não quereria executá-la numa tabela com milhões de linhas.
O Gemini destacou-se na explicação do contexto de negócio de cada query. As suas explicações sobre o que é a análise de coortes e porque é que a análise de margem importa foram as mais claras dos três, tornando-o uma boa ferramenta de aprendizagem.
Pontuações do Teste 2
| Critério | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Correcção das queries | 10 | 10 | 7 |
| Estrutura/Legibilidade do código | 9 | 10 | 7 |
| Consciência de desempenho | 7 | 9 | 5 |
| Tratamento de casos extremos | 9 | 8 | 5 |
| Documentação/Explicação | 8 | 8 | 9 |
| Média | 8,6 | 9,0 | 6,6 |
Teste 3: Resumo de PDF de 47 páginas
O documento
Usei um documento real (anonimizado) de revisão trimestral de negócio — 47 páginas com tabelas financeiras, iniciativas estratégicas, avaliações de risco, KPIs departamentais e uma apresentação ao conselho de administração incorporada no final. O documento tinha cerca de 28.000 palavras com 14 tabelas e 8 gráficos descritos em texto.
O meu prompt: "Resume este documento de forma a que um executivo de topo possa lê-lo em 5 minutos e entrar numa reunião do conselho completamente preparado. Destaca os 3 maiores riscos, as 2 oportunidades mais promissoras e quaisquer números que pareçam inconsistentes com a narrativa."
O resumo do Claude
O Claude produziu um resumo conciso e bem organizado de cerca de 800 palavras — genuinamente legível em 5 minutos. Os três riscos que identificou eram exactamente os certos: concentração da cadeia de abastecimento (72% de uma única região), a tendência do custo de aquisição de clientes (34% mais elevado trimestre a trimestre enquanto o LTV estava estagnado), e um prazo de conformidade que a narrativa mencionava casualmente na página 38, mas que era na verdade um risco regulatório importante.
A secção de oportunidades também foi boa, destacando uma jogada de expansão de mercado e um acordo de parceria com condições favoráveis. Mas onde o Claude realmente ganhou a sua pontuação foi na secção de "números que não batem certo". Detectou que a cifra de receita na página 12 (14,2 M$) não correspondia à soma dos desdobramentos regionais na página 23 (13,8 M$), e sinalizou que os números de efectivo na secção de RH implicavam uma taxa de rotatividade de 18% que contradizia a narrativa de "forte retenção" na página 7.
Esse tipo de cruzamento de referências ao longo de um documento extenso é exactamente o que preciso que uma IA faça. Tinha estado a ler esse documento durante uma hora e não tinha reparado em nenhuma dessas discrepâncias.
O resumo do GPT-4o
O resumo do GPT-4o era bem estruturado e profissional. Usou os pontos de lista de forma eficaz e organizou a informação por departamento. A identificação de riscos foi sólida — detectou o problema da cadeia de abastecimento e o problema do CAC, mas falhou o prazo de conformidade na página 38.
O resumo era mais longo do que o do Claude (cerca de 1.200 palavras), o que comprometia o requisito de "leitura de 5 minutos". Incluiu mais detalhe sobre o desempenho departamental, o que é útil mas não era o que pedi. O GPT-4o tende para a exaustividade em vez da concisão quando lida com documentos longos.
No pedido de "números que não batem certo", o GPT-4o detectou a discrepância de receitas, mas não a contradição na taxa de rotatividade. Detectou algo que os outros não viram — notou que a taxa de crescimento projectada para o terceiro trimestre assumia um padrão de sazonalidade de 2024, mas os dados de 2025 mostravam que o padrão sazonal tinha mudado cerca de 6 semanas, tornando a projecção do terceiro trimestre potencialmente demasiado optimista em 8-12%.
O resumo do Gemini
É aqui que a grande janela de contexto do Gemini se revelou vantajosa. Processou todas as 47 páginas sem qualquer segmentação ou artefactos de resumo. O resumo era abrangente e preciso, cobrindo todas as principais secções do documento. Lidou particularmente bem com as tabelas financeiras, extraindo métricas-chave e apresentando-as num formato limpo.
O Gemini identificou o risco da cadeia de abastecimento e um risco de concorrência de mercado que os outros dois não enfatizaram. No entanto, tratou o documento mais como um resumo capítulo a capítulo do que como um briefing estratégico. Um executivo de topo obteria toda a informação, mas teria de fazer ele próprio a síntese do "e então?".
A auditoria de números foi a mais fraca dos três. O Gemini confirmou os números do documento sem os cruzar entre secções. Disse essencialmente que "as cifras financeiras são consistentes com a narrativa" — o que não era verdade, como o Claude demonstrou.
Mas quero reconhecer algo ao Gemini: o seu tratamento dos gráficos incorporados. Embora não pudesse ver as imagens reais, referenciou as descrições textuais dos gráficos e assinalou correctamente que dois gráficos descreviam tendências contraditórias (um mostrava quota de mercado crescente enquanto outro mostrava uma posição competitiva relativa em declínio). É uma observação subtil.
Pontuações do Teste 3
| Critério | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Adequação para executivos | 10 | 7 | 6 |
| Identificação de riscos | 9 | 8 | 7 |
| Detecção de oportunidades | 8 | 8 | 7 |
| Cruzamento de referências numéricas | 10 | 8 | 4 |
| Concisão vs. abrangência | 9 | 6 | 8 |
| Média | 9,2 | 7,4 | 6,4 |
Resultados globais
| Teste | Claude | GPT-4o | Gemini |
|---|---|---|---|
| Análise CSV (50K linhas) | 8,6 | 8,0 | 6,2 |
| Geração SQL (3 tabelas) | 8,6 | 9,0 | 6,6 |
| Resumo PDF (47 páginas) | 9,2 | 7,4 | 6,4 |
| Média global | 8,8 | 8,1 | 6,4 |
A minha opinião honesta: quando usar cada um
Use o Claude quando: precisar de raciocínio analítico profundo, cruzamento de referências em documentos extensos, ou insights prontos para o negócio que vão além das observações superficiais. O Claude forneceu consistentemente a análise mais matizada e detectou detalhes que os outros falharam. Se é um analista de dados a apresentar a stakeholders, o Claude dá-lhe o "e então?" que transforma dados em decisões.
Use o GPT-4o quando: precisar de código de qualidade para produção, SQL bem documentado, ou uma análise pronta para pipelines. O código do GPT-4o foi consistentemente o mais limpo e o mais pronto para produção. Se está a construir algo, e não apenas a analisar, o GPT-4o é a sua melhor aposta. As sugestões de optimização de desempenho foram um bónus bem-vindo.
Use o Gemini quando: trabalhar com documentos massivos ou precisar de processar muito contexto de uma vez. A grande janela de contexto do Gemini é genuinamente útil para documentos muito longos, e lidou com as 47 páginas completas sem dificuldade. É também o melhor em explicações e ensino, o que o torna valioso para aprender novos conceitos.
E o custo?
Os três oferecem planos de consumo a 20 $/mês. Para uso de API, a coisa fica mais complexa:
| Modelo | Entrada (por 1M tokens) | Saída (por 1M tokens) | Custo est. para este teste |
|---|---|---|---|
| Claude 3.5 Sonnet | 3,00 $ | 15,00 $ | 0,47 $ |
| GPT-4o | 2,50 $ | 10,00 $ | 0,38 $ |
| Gemini 1.5 Pro | 1,25 $ | 5,00 $ | 0,21 $ |
O Gemini ganha no preço por uma margem significativa. Se o custo é a sua principal preocupação e a diferença de profundidade não importa para o seu caso de uso, é difícil argumentar contra a proposta de valor do Gemini.
Limitações deste teste
Quero ser transparente sobre o que este teste não lhe diz:
- Estes modelos actualizam-se constantemente. O que é verdade hoje pode não o ser daqui a três meses. Tentarei repetir esta comparação trimestralmente.
- Enviesamento da tentativa única. Os modelos de IA podem dar resultados diferentes com o mesmo prompt. Executar cada teste 10 vezes e calcular a média seria mais rigoroso, mas não era prático.
- A minha avaliação é subjectiva. Outro analista pode valorizar mais a qualidade do código do que a profundidade analítica e chegar a conclusões diferentes.
- Não testei capacidades multimodais. Se a sua análise de dados envolve imagens, gráficos ou vídeo, essa é uma comparação completamente diferente.
- Os limites da janela de contexto importam mais em alguns fluxos de trabalho. Se processa habitualmente documentos de mais de 100 páginas, a vantagem do Gemini torna-se muito mais significativa.
Com o que fico
Após este teste, fico com as três subscrições — mas uso-as de forma diferente de antes. O Claude é a minha ferramenta principal para análise e revisão de documentos. O GPT-4o trata das minhas tarefas de programação e construção de pipelines. O Gemini entra em acção quando preciso de processar algo massivo ou quando estou a aprender um novo domínio e preciso de explicações claras.
São 60 $/mês muito dinheiro? Sim. Mas tendo em conta que estou a substituir o que antes eram horas de trabalho manual por semana, é provavelmente o melhor ROI de qualquer subscrição de ferramentas que tenho.
Se tivesse de ficar apenas com uma, seria o Claude para trabalho de análise de dados. A profundidade analítica e a capacidade de cruzamento de referências salvou-me de apresentar números incorrectos a um cliente — uma vez. Só isso pagou um ano de subscrição.
Mas, honestamente, a diferença entre o Claude e o GPT-4o é suficientemente pequena para que a sua experiência possa variar. Experimente os três nas SUAS tarefas específicas antes de se comprometer. O que funciona para o meu fluxo de trabalho pode não corresponder ao seu.
O que vem a seguir
Planeio realizar testes semelhantes sobre geração de visualizações (conseguem estes modelos criar bons gráficos directamente?), análise de dados em tempo real (cenários de streaming) e processamento de dados em múltiplos idiomas. Se tiver cenários específicos que gostaria que eu testasse, deixe um comentário ou contacte-me.
O panorama da análise de dados com IA está a mover-se a uma velocidade incrível. O modelo que é o melhor hoje pode não o ser no próximo trimestre. Mas agora mesmo, para o trabalho que faço, é aqui que as coisas estão.