O que dizem os algoritmos sobre 500 canções de sucesso

Um empreendedor apaixonado por música usou algoritmos de análise de dados para estudar 500 músicas consagradas. Veja o que ele descobriu

São Paulo — O que dizem as letras daquelas canções que se tornaram clássicas e resistem à passagem do tempo? Alexandre Passant, que se define como um empreendedor apaixonado por discos e viciado em dados, resolveu descobrir.

Passant, que vive na Irlanda, aplicou algoritmos de mineração de dados às letras das “500 melhores músicas de todos os tempos” listadas pela revista Rolling Stone. Essa lista foi elaborada em 2004 e atualizada em 2010.

Teve contribuições de 172 músicos, críticos e executivos da indústria da música. E reflete basicamente o gosto do público americano. Das 500 canções, 499 são em inglês. A única exceção é “La Bamba”, sucesso em espanhol do cantor Ritchie Valens. 

Num artigo bastante técnico, Passant explica, em seu blog, como fez a análise das letras. Ele empregou uma sucessão de scripts e ferramentas de mineração de dados para obtê-las de forma automática em sites da internet.

Depois, usou outras ferramentas para isolar as palavras e agrupar aquelas que têm mesma raiz. Palavras como “amor”, “amada” e “amar”, por exemplo, foram reunidas num mesmo grupo.

Esse agrupamento é uma tarefa desafiadora para o software. Por isso, Passant repetiu o processo com um algoritmo diferente e comparou os resultados. Ele concluiu que ao menos as palavras mais frequentes eram tratadas corretamente.

Então, foi em frente com a contagem dos termos encontrados. Vejamos algumas das conclusões do estudo:

Contando Palavras

As palavras mais comuns são “amor” e suas variações, que aparecem 1.057 vezes em 219 canções diferentes (44% do total). O verbo “gostar” vem em seguida. Está presente em 194 das 500 canções.

Outros termos frequentes são “eu sou”, “oh”, o verbo “saber”, “baby”, “consegui” e “sim” (“yes”, “yeah” etc.).

Algumas frases que se repetem são “quero você” (presente em 38 canções), “não sei” (35 músicas), “eu te amo” (26), “você me conhece” (22) e “você quer…” (21).

Sequências de palavras mais longas não se repetem tanto. Mas “não sei porque” aparece em nove canções. “O outro lado da estrada” está presente em três.

Sexo, drogas e rock-n-roll

Apesar de o rock ser o gênero predominante na lista, sexo, drogas e rock-n-roll não são termos frequentes. Só 13 canções falam em sexo.

Passant cruzou as letras com uma base de dados de drogas que inclui sinônimos usuais para os nomes dessas substâncias. Encontrou sete ocorrências de cocaína (três delas na música “Cocaine”, de JJ Cale, que fez sucesso na voz de Eric Clapton) e quatro de heroína.

Mas ele reconhece que há referências sutis às drogas que o software de análise não consegue detectar. Passant promete prosseguir com o estudo, analisando outros aspectos das músicas.