Quais são as revelações do Big Data?

Para Seth Stephens-Davidowitz, ex-funcionário do Google e agora colaborador do New York Times, o Big Data pode nos ajudar a conhecer a nós mesmos

Everybody Lies: Big Data, New Data, and What

the Internet Can Tell Us About Who We Really Are

(“Todo mundo mente: Big Data, novos dados

e o que a internet pode nos dizer sobre quem

nós realmente somos”, numa tradução livre).

Editora: HarperCollins. Autor: Seth Stephens-Davidowitz

Algumas semanas atrás, minha mulher me mandou um e-mail com as passagens que comprou para nossa viagem à Bahia. No dia seguinte, percebi algo curioso: minhas férias foram automaticamente marcadas no calendário do Google. E eu passei a receber ofertas de hotel, aluguel de carros, sugestões de passeios…

É fantástico, e ao mesmo tempo assustador, que as máquinas e seus programas tenham adquirido tanta ingerência sobre nós e nossos programas. Por um lado, a digitalização e os sistemas inteligentes nos facilitam a vida e ajudam a organizar nossa memória. Por outro lado, a ininterrupta e abrangente coleta de dados privados nos torna o principal produto das empresas que supostamente nos prestam serviço.

Não é apenas o duopólio digital Google e Facebook que empacotam o conhecimento sobre nós para vender a anunciantes. O Uber desenvolve métodos para cobrar valores diferentes para uma corrida, de acordo com a sua urgência ou o seu perfil; bancos começam a usar a coleta de dados para decidir o quão arriscado é emprestar dinheiro para você; já há consultorias vendendo métodos para prever o quanto um consumidor está disposto a pagar por um produto ou serviço (para extrair o máximo de valor para a empresa).

Este é, digamos, o lado não tão branco da força do que se convencionou chamar de Big Data. Mas há um enorme campo positivo, também. Segundo o analista de dados Seth Stephens-Davidowitz, ex-funcionário do Google e agora colaborador do New York Times, o Big Data pode nos ajudar a cumprir o que recomendava o oráculo de Delfos: conhecer a nós mesmos.

Este é o ponto principal de seu livro, Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are (“Todo mundo mente: Big Data, novos dados e o que a internet pode nos dizer sobre quem nós realmente somos”, numa tradução livre). A premissa de Stephens-Davidowitz é que as pesquisas que embasam grande parte do conteúdo das ciências humanas são falhas. Porque, como diz o título de seu livro, os pesquisados mentem.

Tome-se as pesquisas sobre sexo, por exemplo: as mulheres americanas dizem que fazem amor em média 50 vezes por ano, e usam camisinha 16% das vezes; isso daria, nos Estados Unidos, 1,1 bilhão de camisinhas por ano. Os homens dão números diferentes, que indicariam a venda de 1,6 bilhão de camisinhas. Nem um nem outro grupo está certo. Menos de 600 000 camisinhas são vendidas por ano no país.

A mentira não é o único problema das pesquisas tradicionais. Como apontaram os psicólogos Amos Tversky e Daniel Kahneman, pioneiros da economia comportamental, as ciências humanas são repletas de exemplos da Lei dos Pequenos Números – a crença, falaciosa, de se pode inferir as características de toda a população com base em qualquer amostra, não importa o quão pequena ela seja.

Essa falha é potencializada pela preguiça e pela falta de recursos. A maioria dos estudos acadêmicos é realizada por meio de testes com alunos de graduação, que servem de cobaias dos professores. Mas os alunos raramente são representantes fidedignos de amplas classes da população.

Racismo, machismo, depressão… e o erro de Freud

Para nossa sorte, diz Stephens-Davidowitz, o mundo altamente digitalizado nos oferece hoje um caminho mais seguro. Se tendem a mentir para entrevistadores, as pessoas revelam seus verdadeiros desejos e opiniões nas buscas que fazem na internet, protegidas pelo anonimato.

Assim é, por exemplo, que ele desvendou um nível de racismo nos Estados Unidos bem acima do que indicam as pesquisas tradicionais. Como?

Contabilizando a busca da palavra “nigger” (negro, um termo altamente ofensivo nos país). Em alguns estados, após a eleição de Barack Obama, em 2008, houve mais buscas com os termos “nigger president” do que “primeiro presidente preto (black, o termo mais comum no país)”.

Com base nas pesquisas, Stephens-Davidowitz desenhou um mapa do racismo no país. E era um mapa bem diferente do esperado. “Republicanos no sul podem ser mais propensos a admitir que são racistas. Mas muito democratas no norte têm atitudes semelhantes.”

Na época em que fez esse estudo, as publicações acadêmicas tradicionais o rejeitaram. Acharam que ele exagerava o nível de racismo no país. Quatro anos depois, o jornalista de dados Nate Silver revelou que o fator que mais correlação tinha com o apoio a Donald Trump nas primárias do Partido Republicano para escolha de seu candidato era justamente o mapa de racismo elaborado por Stephens-Davidowitz. As áreas que mais apoiavam Trump eram praticamente as mesmas em que havia maior número de buscas no Google com a palavra “nigger”.

A análise das buscas pode ser usada para desvendar uma série de questões para as quais as pesquisas tradicionais não têm resposta satisfatória. Eis alguns exemplos:

Nos meses de inverno, lugares quentes, como o Havaí, apresentam 40% menos buscas relacionadas à depressão do que lugares frios, como Illinois. Viajar em busca do sol poderia ser um tratamento para a depressão duas vezes mais eficaz do que tomar antidepressivos (cujo efeito é, segundo pesquisas, de 20% de queda no número de casos).

É comum relacionar a ansiedade ao ritmo frenético das grandes cidades. Mas as buscas no Google sugerem que ela tende a ser maior nas áreas rurais, em lugares com nível mais baixo de renda e educação.

O maior receio das mulheres em relação a seus maridos não é que eles as traiam. É que eles sejam gays. Há 10% mais buscas com a frase “meu marido é gay?” do que com “meu marido me trai?”. A preocupação com a orientação sexual do marido é oito vezes maior que a próxima da lista, “meu marido é alcoólatra?”, e dez vezes maior que a seguinte, sobre depressão. E a busca é maior nos estados em que o casamento gay é proibido (onde possivelmente há mais maridos “no armário”).

Boa parte do machismo que cria obstáculos para a ascensão das mulheres vem de casa. É duas vezes mais provável que os pais perguntem na internet se seu filho é um gênio do que se sua filha é. Na realidade, pesquisas mostram que na infância as meninas costumam ter vocabulário mais elaborado e ter raciocínio lógico melhor. Da mesma forma, há o dobro de buscas com “minha filha está acima do peso?” do que “meu filho está acima do peso?”, embora 35% dos meninos americanos tenha sobrepeso, ante 28% das meninas.

O Big Data permite até, em certos casos, testar hipóteses que antes eram impossíveis de submeter ao escrutínio. Stephens-Davidowitz fez isso com algumas teses centrais da psicanálise freudiana.

De acordo com a teoria de Freud, os sonhos revelam desejos íntimos. É comum interpretar o sonho com uma banana, por exemplo, como uma mensagem sexual, dado o seu formato fálico. Idem para o pepino.

Analisando um banco de dados de um aplicativo em que as pessoas descrevem seus sonhos, com dezenas de milhares de entradas, Stephens-Davidowitz notou que bananas são a segunda fruta que mais aparece. Mas ela é também a segunda fruta mais consumida nos Estados Unidos. Pepinos são a sétima mais frequente ocorrência em sonhos… e o sétimo vegetal mais consumido.

A aparição de ambos nos sonhos é exatamente o que se esperaria se a forma não tivesse absolutamente nada a ver com sua presença nos nossos sonhos.

Da mesma forma, o estudo de uma base de dados da Microsoft, com 40.000 erros de tipografia, revelou que os “atos falhos” em que a troca de letras sugere um conteúdo sexual ocorrem na mesma frequência que o acaso sugeriria (levando em conta todas as trocas de letras possíveis, as combinações que sugerem sexualidade aparecem um número de vezes similar ao que apareceriam se um computador estivesse cometendo os erros). Ou seja, elas provavelmente não revelam desejos ocultos.

As quatro forças do Big Data

O Big Data oferece, de acordo com Stephens-Davidowitz, quatro grandes vantagens. A primeira é o acesso a novos tipos de dados (como as buscas em sites pornográficos).

A segunda é a sinceridade das respostas. Não é simplesmente que as pessoas mintam para os entrevistadores, um fenômeno tão conhecido que em entrevistas de saída de emprego os analistas de RH já estão orientados a “descontar” as notas que os funcionários dão a seus chefes e “potencializar” as rusgas que eles reportam.

É que as pessoas costumam mentir para si mesmas. Em uma pesquisa, mais de 40% dos engenheiros de uma empresa disseram estar entre os 5% mais produtivos. Mais de 90% dos professores de faculdade dizem realizar trabalhos acima da média. As pessoas costumam viver num mundo de auto-ilusão.

Nem todo Big Data prima pela sinceridade das respostas. Nas redes sociais, em que as pessoas usam suas identidades verdadeiras, elas têm o mesmo incentivo para mentir – ou apresentar uma versão edulcorada de suas opiniões.

Um exemplo é a comparação entre as revistas The Atlantic, de nível intelectual elevado, e Enquirer, mais voltada para fofocas. As duas têm circulação igual. No Google, apresentam o mesmo nível de buscas. No Facebook, a Atlantic tem 27 vezes mais “curtidas” do que a Enquirer.

A terceira vantagem do Big Data é o poder de refinar as pesquisas, focando em subgrupos – porque o tamanho das amostras é tão grande. Sabe-se, por exemplo, que as mulheres que pertencem ao 1% mais rico da população, nos Estados Unidos, vivem em média 10 anos a mais que as 1% mais pobres. Para os homens, a diferença é de 15 anos. Mas como essa média se altera regionalmente?

Um estudo da Universidade Harvard, conduzido pelo professor Raj Chetty, concluiu que nem religião, nem o meio ambiente nem os sistemas de saúde pública apresentavam correlação positiva com maior longevidade dos mais pobres. A variável que mais importa, segundo a pesquisa, é quantos ricos vivem na cidade. Os pobres de Nova York vivem mais do que os pobres de Detroit.

Uma hipótese para essa correlação é que haja um contágio comportamental. Os pobres seriam influenciados tanto por hábitos que não têm nada a ver com longevidade (como aumento do vocabulário) como por hábitos que tenham impacto positivo (como fazer exercícios ou fumar menos).

Finalmente, o quarto poder do Big Data é permitir realizar experiências. Essa tendência começou no ano 2000, quando funcionários do Google iniciaram a prática de testes A/B. Trata-se de apresentar opções diferentes a partes diversas do público e perceber qual teve efeito melhor.

Essa prática foi extensamente usada na primeira campanha à presidência de Barack Obama, com resultados ótimos. A adesão que ele obteve via internet foi considerada um dos principais motivos para sua vitória. Seu slogan, “Yes, We Can” (sim, nós podemos), nasceu de várias iterações de testes A/B.

Hoje, essa prática está amplamente disseminada. O Facebook testa milhares de alternativas em seu site todos os dias. “Isso significa que uma pequena quantidade de engenheiros da companhia fazem mais experiências controladas em um dia do que a indústria farmacêutica inteira faz em um ano”, diz Stephens-Davidowitz.

O caminho do conhecimento?

Esses testes controlados não se restringem ao mundo digital (é cada vez menos prático, aliás, referir-se a um “mundo digital” separado do “mundo real”). Um exemplo é, de novo, relacionado ao presidente Obama.

Depois de um ataque perpetrado por dois americanos muçulmanos, que matou 14 pessoas na Califórnia, em dezembro de 2015, o número de buscas na internet que vinculavam muçulmanos a terroristas subiu de 20% para mais de 50% do total de buscas sobre muçulmanos.

Obama fez um discurso tentando acalmar os ânimos, falando da importância da inclusão e da tolerância, que foi elogiado na grande imprensa. As buscas, porém, contaram outra história.

Stephens-Davidowitz e um professor de Princeton, Evan Soltas, examinaram os dados. As buscas chamando os muçulmanos de terroristas, maus, violentos e diabólicos dobraram durante e logo após o discurso de Obama. As buscas sobre “matar muçulmanos” triplicaram.

O discurso, parecia, havia sido um tiro pela culatra. Uma parte dele, no entanto, suscitou uma reação positiva. Obama falou de muçulmanos que são heróis no esporte e membros das forças armadas combatendo pelo país – e as buscas por muçulmanos atletas e soldados superou as de palavras como “terroristas” e “extremistas”.

“Talvez alguém tenha lido nosso artigo”, diz Stephen-Davidowitz. Dois meses depois, Obama fez um novo discurso em que atiçava a curiosidade sobre os muçulmanos nos Estados Unidos. Disse que Thomas Jefferson e John Adams tinham cópias do Alcorão; que um muçulmano americano projetou prédios em Chicago; que os muçulmanos eram não apenas atletas e soldados, mas também bombeiros, professores, médicos… O efeito deste discurso, conforme medido pelas buscas no Google, foi bem mais positivo.

O Big Data não é um remédio para todas as ocasiões. Como mostra o marqueteiro dinamarquês Martin Lindstrom, no livro Small Data, as observações tiradas de pequenos grupos, às vezes de histórias curiosas, servem para tecer as hipóteses, criar alternativas e perceber possíveis tendências no nascedouro.

Mas o Big Data, sustenta Stephens-Davidowitz, é fundamental para testar essas hipóteses e tornar o campo das ciências sociais um pouco mais… científico.

Com base na análise de dados, sabe-se que os médicos respondem a incentivos monetários – em cidades com maior reembolso para alguns procedimentos, eles são mais praticados, mesmo que não façam muita diferença para a saúde do paciente.

Sabe-se também que prisioneiros submetidos a condições de prisão mais duras tendem a cometer crimes adicionais quando voltam à liberdade. E que as faculdades de elite têm efeito perto do zero no salário futuro de seus alunos (o que faz a diferença é a qualidade do aluno que chega até elas; alunos igualmente capacitados que optam por outras universidades acabam com ganhos semelhantes).

O poder do Big Data, em suma, é enxergar para além das mentiras que contamos no dia a dia. A Netflix percebeu isso claramente. O serviço oferece a opção de você fazer a lista dos filmes que quer assistir. Mas são raras as pessoas que assistem aos filmes de suas próprias listas.

Na lista, nós costumamos colocar aquilo que nós gostaríamos de gostar. Na hora da escolha, no entanto, é mais provável optarmos por uma comédia romântica ou pela terceira continuação de um filme de aventura do que pelo filme de arte europeu.

Por isso a Netflix parou de perguntar às pessoas o que queriam ver no futuro e construiu um modelo baseado nos cliques de clientes com perfil semelhante ao seu. O resultado: aumento de visitas e de filmes assistidos. Como disse um ex-analista de dados da Netflix, Xavier Amatriain, “os algoritmos conhecem você melhor do que você conhece a si próprio”.