O lado B do Big Data

Weapons of Math Destruction: How Big Data Increases
Inequality and Threatens Democracy

Autor: Cathy O’Neil
Editora Crown. 272 páginas.

———————-

David Cohen

Muita gente tem medo de matemática. Não era o caso de Cathy O’Neil, uma menina que desde muito cedo gostava de identificar números primos e montar o cubo mágico. Mas, depois de se formar em matemática, fazer um doutorado em teoria dos números e se tornar professora universitária, Cathy acabou desenvolvendo a sua fobia da matéria.

Tudo começou quando ela largou o emprego de professora e se tornou analista em uma firma de investimentos (um cargo cujo apelido é quant, abreviatura de análise quantitativa). Primeiro ela ficou extasiada por passar da teoria à prática. Então veio a crise de 2008, e ela percebeu que a matemática vinha sendo usada para disfarçar operações com risco exagerado, e às vezes fraudes puras.

A história de como modelos matemáticos permitiram fragmentar dívidas e misturá-las em títulos indecifráveis para vendê-las a investidores iludidos, ajudando a inflar a bolha imobiliária que desatou uma recessão mundial, já foi suficientemente bem contada. Mas o que Cathy descobriu, ao largar o mundo financeiro e empregar-se numa startup de comércio digital, foi que os modelos matemáticos mistificadores não estavam apenas no mundo financeiro. Eles haviam se espalhado por todo lado, alimentando-se da tendência de analisar as montanhas de dados que se tornaram palpáveis na economia digital (e que se convencionou chamar de Big Data).

Cathy inventou um nome para esses modelos: armas de destruição matemática, uma brincadeira com a expressão “armas de destruição de massa”. É este o título de seu livro, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy (“Armas de destruição matemática: como o Big Data aumenta a desigualdade e ameaça a democracia”).

O algoritmo do Facebook

Em vista das acusações de que o algoritmo do Facebook tenha facilitado a disseminação de notícias falsas que podem ter contribuído para a vitória de Donald Trump nas eleições americanas, o livro de Cathy parece ter sido premonitório. Em seu último capítulo, ela escreveu: “mexendo no seu algoritmo e moldando as notícias que nós vemos, será que o Facebook pode manipular o sistema político?”.

As notícias falsas já são um escândalo em si – e o Facebook sofre hoje uma pressão para assumir que é pelo menos em parte uma empresa de mídia, responsável pelo que divulga. Mas há outros problemas.

Cathy aponta que dois anos atrás o Facebook fez uma campanha bem-intencionada, para incentivar as pessoas a votarem. Pesquisadores estimaram que o comparecimento às urnas aumentou em 340.000 pessoas, estimuladas por notícias de que seus amigos digitais votaram. Esse contingente é o bastante para mudar o resultado das eleições em vários estados. E, portanto, definir a presidência.

Sem falar que, dadas as informações que a empresa tem sobre seus usuários, seria possível dirigir a campanha apenas aos mais propensos a votar em um dos candidatos. Não é que o Facebook tenha feito isso, mas a possibilidade existe.

Além disso, a rede tem o poder de definir o que seus usuários veem, entregando mais noticiário político para uns e mais amenidades para outros. Pode-se argumentar, diz Cathy, que a mídia sempre teve o poder de escolher o que divulga – se um policial resgatando uma criança ou reprimindo um manifestante, se uma cidade bombardeada em Gaza ou israelenses em luto por um ataque terrorista.

A diferença, afirma ela, é que quando um jornal ou TV apresenta uma notícia, todos a veem. A edição fica clara, pública, e pode ser questionada. No caso dos algoritmos, ninguém percebe a edição. Não há como desmentir uma notícia falsa, porque só uma determinada parcela da população, justamente a mais propensa a acreditar nela, a viu.
Isso ajuda a explicar por que tantos americanos ainda acreditavam que o presidente Barack Obama não tivesse nascido nos Estados Unidos, anos depois de ele ter apresentado sua certidão de nascimento.

Não é sequer necessário que gigantes como o Google e o Facebook ajam com más intenções para que o sistema traga consequências perniciosas. Como apontou o ativista social Eli Pariser em 2011, no livro O Filtro Invisível, os algoritmos criados com o objetivo de maximizar nossa adesão, sejam curtidas ou cliques, têm por norma nos apresentar coisas parecidas com aquelas com que nós já simpatizamos.

O efeito disso é tornar invisível a realidade que não nos agrada tanto. Mesmo novidades que potencialmente adoraríamos ficam do lado de fora dessa bolha que os mecanismos de busca ou nossa rede social filtram para nós. Como diz Cathy, “o Big Data codifica o passado, não inventa o futuro”. E tem a tendência de nos tornar prisioneiros de nossas escolhas anteriores.

Quanto mais polícia, mais crimes

Não são apenas as nossas próprias escolhas que o Big Data tende a perpetuar. Cathy argumenta, convincentemente, que vários sistemas modernos cristalizam e até elevam a desigualdade social.

Tome-se o caso de sistemas de previsão de crimes, por exemplo. A empresa PredPol, sediada na Califórnia, tem um programa que processa todo o histórico criminal de uma cidade e calcula, hora a hora, onde há maior probabilidade de um crime ocorrer. Assim, a força policial pode patrulhar as áreas mais críticas para desencorajar malfeitos.

A cidade de Reading, na Pensilvânia, contratou esse sistema em 2013 e reportou uma redução de 23% nos roubos. Nova York usa um programa similar, assim como a Filadélfia.

A princípio, ninguém pode ser contra um sistema tão eficiente para reduzir o índice de criminalidade. Mas uma patrulha policial, nos momentos em que não está atuando contra os grandes crimes (roubo, assassinato, sequestro), não fica parada. Acaba reprimindo os desvios menores: vadiagem, pedidos de esmola mais agressivos, consumo de pequenas quantidades de drogas ilícitas.

Isso cria um círculo vicioso. O próprio policiamento eleva o número de ocorrências policiais, que realimentam o sistema de dados. Com isso, as regiões são interpretadas como mais propensas ao crime, o que faz com que mais patrulhas sejam enviadas e, de novo, ainda mais ocorrências sejam registradas na região.

Essa lógica tem algo a ver com a estratégia de tolerância zero, uma teoria segundo a qual pequenos desvios não punidos sustentam um ambiente de desordem que levaria a crimes maiores. Essa foi a estratégia da polícia de Nova York na década de 1990, durante a gestão de Rudy Giuliani.

Vários estudos científicos concluíram que a redução na taxa de crimes teve muito pouco a ver com a política de tolerância zero (ela vinha caindo antes, e no país inteiro). De qualquer forma, não é a eficiência da repressão a crimes menos graves que Cathy discute em seu livro, mas seus efeitos colaterais, especialmente quando os sistemas de Big Data dirigem a vigilância para áreas mais pobres.

Esses sistemas, aponta o livro, “mesmo com a melhor das intenções, incumbem os departamentos de polícia de vigiar os mais pobres, fazendo mais revistas, prendendo uma parcela deles e enviando alguns para a prisão”. Em um post de seu blog mathbabe.org, Cathy mostra dois gráficos: o de consumo de maconha, praticamente igual nas populações branca e negra nos Estados Unidos, segundo uma pesquisa, e o de prisões por consumo de drogas, segundo dados do FBI, com o número de negros presos mais do que três vezes maior que o de brancos.

Isso ocorre, afirma Cathy, porque os mais ricos em geral consomem a droga nas faculdades ou em áreas pouco policiadas. “O resultado do uso do Big Data é que nós criminalizamos a pobreza, acreditando o tempo todo que estamos sendo não apenas científicos mas também justos.”

O exemplo da Amazon

É provável que um patrulhamento maior iniba o crime. Mas a que custo? Em Nova York, o número de revistas de suspeitos subiu mais de 600% em uma década. São episódios nada agradáveis para quem é parado pela polícia.

O pior, segundo Cathy, é que sistemas independentes se ligam na mesma lógica que piora a desigualdade. Entre os indivíduos presos, um outro algoritmo que usa Big Data prevê a probabilidade de reincidência no crime. Em alguns estados americanos esse algoritmo é usado apenas para guiar programas de reeducação na penitenciária, mas em outros os juízes os levam em conta na hora de determinar a sentença de prisão.

Esses algoritmos que avaliam chance de reincidência no crime utilizam inúmeras variáveis, incluindo um questionário respondido pelo próprio suspeito e dados do censo, como o local em que vivem, sua renda, sua educação e sua etnia. Se, numa corte, o promotor pedisse uma sentença maior porque o acusado vive numa área com alta taxa de criminalidade, a defesa objetaria imediatamente. Há um consenso no mundo moderno de que nós devemos ser julgados pelo que fizermos, não por quem somos. Cathy admite não saber qual o peso dado às informações pessoais na elaboração da nota final de chance de reincidência, mas afirma que “qualquer peso acima de zero é injusto”.

A Amazon também tem programas que analisam a reincidência. Só que, no seu caso, o objetivo é o oposto. A companhia está interessada em que seus clientes voltem e voltem e voltem ao site para fazer cada vez mais compras.

Ao contrário do sistema judicial, a Amazon não se contenta com correlações como região em a pessoa mora ou nível de educação. Ela avalia a experiência das pessoas no ambiente do site. “Os pesquisadores da Amazon podem começar examinando os padrões de todos os que compraram uma ou duas vezes e não retornaram. Eles tiveram problemas na hora do pagamento? Suas encomendas chegaram na hora? Uma porcentagem maior deles deu notas piores aos produtos? As perguntas continuam e continuam, porque o futuro da companhia depende de um sistema que aprenda o tempo todo”, diz Cathy.

E esta é uma diferença básica entre o bom e o mau uso de Big Data. As “armas de destruição matemática” (WMD, na sigla em inglês) são opacas: ninguém sabe que objetivos atendem, ou que opiniões foram imputadas no sistema. Além disso, não questionam seus erros, para melhorar suas respostas. São máquinas de fazer profecias autorrealizáveis.
Os sistemas de recrutamento de pessoal são um exemplo. Em boa medida, as empresas passaram a utilizar programas de avaliação para tornar o processo mais justo, eliminar o componente de preconceito de entrevistadores humanos.

Hoje, esses programas formam um negócio de 500 milhões de dólares. Vários deles usam testes de personalidade, para testar coisas como extroversão, curiosidade e facilidade de lidar com outras pessoas. O problema é que, se você cai no grupo errado de personalidade, suas chances de conseguir um emprego – de passar para a próxima fase da seleção, com uma entrevista com um ser humano – diminuem muito.

Esses programas são WMDs porque ganharam uma escala fantástica. Assim, não é que uma empresa valorize alguns traços e uma segunda valorize outros. Uma pessoa que tenha tido uma crise nervosa e sido hospitalizada, por exemplo, pode, anos depois, ter dificuldades em muitas e muitas empresas.

Pior: pode jamais ficar sabendo por que está sendo reprovada nos testes de seleção. Como qualquer modelo, os testes refletem os julgamentos e prioridades de seus criadores. Mas a matemática cria um muro que nos impede de enxergar a lógica que lhes deu sentido. Por isso, estão além da possibilidade de questionamento.

E são profecias autorrealizáveis, porque uma pessoa desempregada tem menos oportunidades de mostrar o quanto poderia fazer (e mais chances de escorregar para a contravenção), o que “prova” o quanto o sistema estava certo em primeiro lugar.

No esporte, é diferente. Times de beisebol, especialmente, anotam todas as estatísticas possíveis: como cada jogador bateu cada bola na última semana, no último mês, durante a sua carreira, contra canhotos, contra destros, quando ele fez dois strikes seguidos e assim por diante. Se um clube deixa de contratar um jogador com base em seu programa de avaliação, pode conferir a atuação dele no ano seguinte.

O Flamengo e o Vasco rejeitaram o garoto Manuel Francisco dos Santos, o Mané Garrincha, por causa de suas pernas tortas, e tiveram seguidas oportunidades de compreender que tinham cometido um erro. No mundo do emprego, especialmente nos níveis mais baixos, em que costumam ser aplicados os testes de recrutamento com base em Big Data, isso quase nunca acontece.

Como vencer a matemática

A profusão de usos do Big Data permite encontrar problemas semelhantes em diversas áreas: o sistema que julga professores de acordo com o progresso dos alunos; as empresas que avaliam crédito; os rankings de universidades; os seguros e planos de saúde.

Os exageros acontecem muitas vezes porque os construtores de WMDs em geral não têm dados sobre os comportamentos em que estão mais interessados, então os substituem por dados aproximados (proxies). Eles extraem correlações estatísticas entre CEP ou padrões de linguagem e o potencial da pessoa de pagar um empréstimo ou cumprir bem uma função de trabalho. Essas correlações são discriminatórias, e às vezes ilegais.

Na Michelin, afirma a autora, os empregados têm métricas para cumprir em saúde, que vão desde a pressão do sangue até o nível de glicose, o colesterol e as medidas da cintura. Quem não atinge as metas em três categorias tem de pagar 1.000 dólares a mais por ano em seu plano de seguro saúde.

A medida é questionável, até porque os danos provocados pelo fumo e pela obesidade, segundo pesquisas científicas, costumam aparecer muitos anos depois, quando as pessoas já estarão provavelmente fora da empresa e não mais cobertas por seu plano de saúde.

Um bom exemplo na forma de lidar com os sistemas de matemática mistificadora, segundo o livro, é o da Xerox. A empresa tem um modelo matemático que prevê a chance de um funcionário pedir demissão. Para uma companhia, o processo de substituição de funcionários é caro, e portanto faz sentido tentar contratar gente que vá ficar mais tempo.

A empresa percebeu, no entanto, que os candidatos que moram mais longe do emprego tinham mais probabilidade de abandonar a companhia. Faz sentido: em condições similares, é bem menos cansativo trabalhar num lugar perto de casa. Mas a Xerox percebeu também que várias dessas pessoas que moravam longe do trabalho estavam em regiões mais pobres. Então ela retirou de seu modelo essa variável. “A companhia sacrificou um pouco da eficiência em nome da justiça.”

Em geral, porém, as recomendações de Cathy para lidar com as WMDs não são tão bem embasadas como a apresentação do problema. É natural. Trata-se, basicamente, de impor limites à busca de eficiência, algo que as empresas fazem quase que por definição.

Trata-se, também, de compreender algo que é hoje obscuro: os modelos que regem a análise de Big Data. Mas não há outro jeito. Para vencer o medo de matemática, é preciso aprender matemática.