Discrepâncias entre dados do Google Analytics e do BigQuery

Se você começou a usar o BigQuery para automatizar processos e análises de dados provenientes do Google Analytics já deve ter sido impactado por uma diferença de dados entre as plataformas, mas porque os números da interface do GA4 não batem com os dados de exportação de eventos no BigQuery?

Antes de falarmos especificamente sobre estas variações, é relevante você entender a finalidade da exportação de eventos do BigQuery. Os usuários do GA4 enviam os dados coletados usando um dos seguintes métodos:

  1. Dados coletados no Google Analytics via tag do Google;
  2. Dados coletados no Google Analytics via GTM;
  3. Dados coletados no Google Analytics via Measurement Protocol;
  4. Dados coletados no Google Analytics via SDKs;
  5. Dados coletados no Google Analytics via importação de dados.

A partir de configurações realizadas na propriedade do Google Analytics, o GA adiciona um valor significativo aos dados coletados antes que eles cheguem às plataformas de geração de relatórios, incluindo os relatórios padrão, as análises detalhadas e os dados de API, isso incluem indicadores de modelagem, atribuição de tráfego, previsão, etc., tendo como objetivo gerar relatórios padrão com maior valor possível aos usuários da plataforma, com o menor atrito. Porém, há usuários quem querem ampliar o espectro de análises e ter algo totalmente personalizado, para isso optam por usar o BigQuery. Ao exportar os eventos para o BigQuery, estão manipulando dados coletados, que não contém dados granulares sobre a maioria das adições de valor citadas acima.

Portanto, na maioria das vezes não é possível conciliar os dados entre as plataformas de geração de relatórios padrão (Interface do Google Analytics) e os dados de exportação do BigQuery no que se refere a adições de valor. O que precisa considerar é se há consistência interna e se correspondem aos dados que se está coletando. Abaixos alguns pontos específicos das diferenças e formas para minimizá-las, quando possível. O foco é na exportação de eventos diários do BigQuery, não na exportação por streaming.

Amostragem entre BigQuery e Interface GA4

Para uma comparação mais próxima dos dados da interface do GA com o BigQuery Export, d API Data ou de análise detalhada, confira se eles se baseiam em dados de amostra. 

Usuários Ativos GA4

A contagem dos usuários totais que registram ao menos um evento na propriedade do GA4 é apresentada com a métrica Total de Usuários. Ela está disponível na interface do Google Analytics 4, sendo que a principal métrica encontrada nos relatórios é Usuários Ativos. Na interface e nos relatórios do Google Analytics 4, o termo Usuários é referente aos Usuários Ativos. Assim, para contar os usuários com bases nos dados do BigQuery, é necessário filtrar e manter apenas os usuários ativos para que os números sejam compatíveis aos que aparecem na interface do Google Analytics 4. O método para calcular pode variar conforme identidade do relatório.

Implementação técnica do Google Analytics

Nos dados de exportação de eventos pelo BigQuery, a contagem de números de IDs de usuários diferentes é pela métrica Total de Usuários. Veja abaixo um exemplo de consulta que mostra o “Total de usuários” e “Novos usuários” usando como referência user_pseudo_id:

Exportação de dados para BigQuery

Para selecionar somente usuários ativos, limita-se os eventos em is_active_user condição true:

Chamada de usuário ativo do Google analytics para BigQuery

HyperLogLog++

O HyperLogLog++ é o algoritmo que o GA usa par estimar a cardinalidade das métricas comuns, inclusive Usuários Ativos e Sessões. Para a contagem única destas métricas na interface ou na aPI é um número aproximado. Já no BigQuery, devido ao acesso a granularidade, é viável calcular a cardinalidade exata, o que pode gerar uma pequena variação. O Google estipula um intervalo de confiança de 95%, com precisão próxima de 1,63% para contagem de sessões, o que pode variar conforme mudam-se as métricas analisadas. Se precisar entender mais sobre a precisão do HLL++ para suas análises, pode conversar com A² Business Intelligence.

Tempo de coleta de dados Interface GA e BigQuery

As tabelas de exportação de dados do GA são criadas depois da coleta de todos os eventos do dia, sendo que podem ser atualizadas em até 72h, após a data da tabela, incluindo o marcador de data, hora e dia correspondente. Assim, dependendo do tempo de atualização da interface e do BigQuery, dentro desse período, poderá ocorrer diferenças. Portanto, para este tipo de citação faça comparações para dados com mais de 72h.

Google Analytics e sua cardinalidade

Quando a dimensão usada no GA faz com que a ferramenta exceda o limite de tabela de cardinalidade, a plataforma agrupa os valores menos frequentes e marca como Outros. Por exemplo, na análise de Eventos registrados pela dimensão Cidades. Porém, se você fizer cálculos com base no BigQuery, sempre vai ter os dados com mais granularidades, sem este agrupamento.

Indicadores Google e o impacto no GA e no BigQuery

Na propriedade do GA4 possível ativar os indicadores do Google, isso irá eliminar a duplicação de usuários entre navegadores e plataformas. Assim, se o Uer-ID e os Indicadores do Google estão implementados e ativos, uma pessoa que acessa o site de navegadores distintos, desde que conectada à conta Google, terá sua informação de usuário registrada no Google Analytics e será mostrada na contagem de plataformas e geração de relatórios padrão. Porém, o BigQuery não exporta nenhuma informação de Indicadores Google, assim sempre será registrada a navegação sem o agente de deduplicação de usuário por navegador. Portanto, os relatórios de contagem de usuários, provavelmente, serão menores na interface do GA do que dos dados exportados pelo BigQuery.

Há formas de diminuir esse efeito com implementação, mas precisam ser estudados caso a caso.

Observação: A maioria das informações que podem estar sujeitas a um limite geralmente não estarão disponíveis para exportar pelo BigQuery.

Modo de consentimento e dados estimados do GA4

Atualmente é possível usar o modelo de consentimento em site, que permite ao usuário avisar ao Google se consente no uso de cookies e/ou identificadores. Caso o usuário negue o consentimento, o GA4 irá preencher os espaços na coleta de dados com estimativas de conversão e modelagem comportamental. Porém, nenhum dados estará disponível para exportar eventos via BigQuery. Por exemplo, com a modelagem o valor de usuários ativos poderá ser menor que o BigQueryExport, visto que há a possibidade de a plataforma prover na interface do GA uma previsão, mesmo quando o usuário não dá consentimento.

BigQuery e os dados de atribuição de tráfego

Enquanto o BQ atribui o tráfego por usuário (primeira visita) e evento o GA implementa seu próprio modelo de atribuição no nível de sessão, não estando estas informações disponíveis diretamente no BigQueryExport, tão pouco, podendo ser calculadas com precisão.

 Erros de cálculo mais comuns

  1. Método de cálculo
  2. Escopo da métrica e da dimensão
  3. Fuso horário
  4. Filtragem de dados e limite de exportação1

Diante dessa explicação é importante entender as diferenças de registro e armazenamento de dados entre a Interface do Google Analytics e o uso do BigQuery, escolhendo a melhor solução para sua necessidade de análise. Caso precise de suporte para um projeto de Google Analytics ou BigQuery ou precise entender porque seus dados de Google Analytics dão discrepância com o BigQuery, nos consulte.

  1. Fonte: https://developers.google.com/analytics/blog/2023/bigquery-vs-ui?hl=pt-br ↩︎
Compartilhe em suas redes sociais:
Rolar para cima

Nossa Missão

Usar a inteligência de negócios, para otimização de resultados e aprimoramento da performance de todo ecossistema do cliente para alcançar um objetivo. Estabelecer métodos para mensuração de resultados ajudando as empresas na tomada de decisões fundamentadas e inteligentes para geração de negócios rentáveis. Inteligência de Negócios – Perfomance – Objetivo.