Só o Google sabe realmente tudo, diz estudioso de big data

Para o economista Seth Stephens-Davidowitz, palavras e frases usadas nas buscas na internet revelam mais sobre as pessoas do que outros métodos de pesquisa

São Paulo — Desde que o Google passou a divulgar dados sobre as buscas realizadas pelos internautas em 2006, o americano Seth Stephens-Davidowitz tornou-se um grande estudioso de big data — termo usado para descrever o imenso volume de dados gerados eletronicamente, que podem ser processados e analisados para diversas finalidades.

Stephens-Davidowitz dedicou ao tema sua tese de doutorado em economia na Universidade Harvard, concluído em 2013. De acordo com ele, as pessoas em geral mentem ao responder às pesquisas convencionais, mas tendem a ser totalmente honestas quando buscam informações na (suposta) privacidade de seus dispositivos conectados à internet.

Antes dos resultados das eleições de 2016, o especialista escreveu em sua coluna no jornal The New York Times sobre como os dados do Google revelavam indícios consistentes de que Donald Trump venceria o pleito. Ele acaba de lançar o livro Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We -Really Are (“Todo mundo mente: big data, novos tipos de dados e o que a internet pode nos dizer sobre quem realmente somos”, numa tradução livre), ainda sem previsão de lançamento no Brasil. Stephens-Davidowitz vive em Nova York, de onde falou com EXAME.

Exame – Por que o Google sabe tudo?

Stephens-Davidowitz – Percebi que as pessoas tendem a mentir em pesquisas convencionais quando estão interagindo com desconhecidos. Mas, quando estão sozinhas na internet, em geral elas são honestas, revelando o que de fato pensam e expressando desejos e curiosidades que não expressariam em outras situações.

Exame – Eventos recentes, como resultados de eleições presidenciais ou ataques terroristas, poderiam ter sido previstos pela observação de volumes de buscas no Google?

Stephens-Davidowitz – Prever o futuro é sempre difícil, independentemente do volume de dados disponível na internet, pois a sociedade é muito complexa. Em muitos casos, simplesmente não é possível encontrar informações em volumes suficientes para chegar a alguma conclusão por meio de big data. Mas em outros casos é possível. Por exemplo, há evidências de que o resultado das eleições americanas mais recentes poderia ter sido antecipado por quem comparasse os volumes de buscas do nome dos candidatos no Google. Desde George W. Bush, em 2004 [início da série histórica divulgada pelo Google], até Donald Trump, em 2016, saíram vitoriosos os candidatos mais buscados no Google durante a corrida eleitoral. Nas últimas eleições, para cada busca relacionada a Hillary Clinton, foram registradas duas sobre Donald Trump em todo o país.

Exame – Mas as pessoas também não buscam informações sobre o candidato opositor a seu predileto?

Stephens-Davidowitz – Sim, por essa razão é preciso observar outras tendências de busca. No caso de Trump, havia outro dado importante: a procura por informações sobre como votar e onde votar. Esse é um indicador do número de eleitores que pretendem ir, de fato, às urnas, algo fundamental num país em que o voto é facultativo. No ano passado, constatamos que, nas cidades com maior população de afro-americanos, o volume de buscas desse tipo foi significativamente mais baixo do que nos pleitos que resultaram na eleição de Barack Obama. A abstenção dessa parcela de eleitores pode ser considerada uma das principais razões para a vitória de Trump.

Exame – O big data substituirá as pesquisas de opinião e outros métodos tradicionais?

Stephens-Davidowitz – Por enquanto, acredito que ainda precisamos das formas tradicionais de obter dados. Ainda precisamos de mais algumas eleições, por exemplo, para desenvolver modelos de interpretação de informações e identificação de tendências de votos. Mas, no futuro, sim, acredito que o uso de big data tornará obsoletas as pesquisas de opinião ou de comportamento convencionais.

Exame – Apesar de exemplos como esses, as metodologias de pesquisa e análise com big data ainda enfrentam resistência dos acadêmicos. Quais são as principais críticas?

Stephens-Davidowitz – Dados de big data podem ser analisados basicamente pelo estabelecimento de correlações. O grande desafio é fazer as perguntas certas ao tentar relacionar dados em grandes volumes. É muito fácil se perder nos números e criar correlações sem sentido.

Exame – Que empresas estão se dando bem com a revolução do big data?

Stephens-Davidowitz – Talvez os melhores exemplos hoje sejam justamente empresas que geram um grande volume de informações de seus usuários, como o próprio Google e o Facebook. Essas companhias não apenas criam novos produtos e serviços com base em big data como também vendem inteligência para seus clientes. Empresas do mercado financeiro também estão bastante avançadas nessa área, prevendo eventos e descobrindo novos indicadores de mercado.

Exame – Que setores da sociedade devem se beneficiar mais com big data?

Stephens-Davidowitz – A medicina é a área com maior potencial. Durante minha pesquisa, encontrei um estudo realizado em parceria entre a Universidade Colúmbia e a Microsoft que identificou diferentes combinações de sintomas que podem se manifestar na fase inicial do câncer de pâncreas, um dos tipos mais agressivos da doença. Os pesquisadores analisaram centenas de milhares de buscas no site Bing, da Microsoft, realizadas meses antes por usuários que, em um dado momento, digitaram perguntas como “recém-diagnosticado com câncer de pâncreas, o que esperar?”, que permitiam identificá-los como prováveis vítimas da doença. O resultado foi ampliar o conhecimento de médicos sobre possíveis sintomas iniciais, aumentando a chance de diagnóstico precoce da doença. Esse tipo de experimento deve se tornar cada vez mais fácil no futuro.

Exame – Por quê?

Stephens-Davidowitz – Registramos cada vez mais informações sobre nossa vida, não somente nos mecanismos de busca, como o Google, mas também em redes sociais e em aplicativos para smartphones que monitoram os hábitos, as atividades físicas, a alimentação e uma infinidade de informações. Quanto maior o volume de dados disponível, mais fácil será identificar padrões, detectar tendências, prevenir epidemias e outros tipos de problema.

Exame – Quais foram os fatos mais surpreendentes que identificou analisando buscas no Google?

Stephens-Davidowitz – O que mais me chocou foi o nível de racismo nos Estados Unidos. Eu sabia que existia racismo, mas jamais poderia imaginar o tamanho do volume de buscas por piadas e termos ofensivos associados ao nome de personalidades negras, como o ex-presidente Barack Obama e outros. Também fiquei surpreso com o crescente número de buscas de informações sobre como praticar aborto, por exemplo.

Exame – O que ainda não é possível estudar por meio de big data?

Stephens-Davidowitz – Talvez a área mais limitada seja a de psicologia. Captar aspectos de nosso inconsciente, o que nos leva a sentir o que sentimos, é mais difícil por não sermos capazes de expressá-los conscientemente. Fora isso, há informações disponíveis sobre praticamente tudo.