Biblioteca do Google: Banco de Dados para Pesquisa

Robert Lee Hotz (The Wall Street Journal apud Valor, 17/12/2010) mostra que, após analisar dois séculos de palavras publicadas nos milhões de livros da crescente Biblioteca Digital do Google, especialistas em linguística encontraram nova maneira de acompanhar o “arco de fama”, o efeito da censura, a disseminação de invenções e o crescimento vertiginoso de novas palavras na cultura de língua inglesa. Em pesquisa divulgada no periódico “Science“, cientistas da Universidade Harvard, do Instituto de Tecnologia de Massachusetts, do Google e da Encyclopedia Britannica lançaram banco de dados com 2 bilhões de palavras e frases retiradas de 5,2 milhões de livros da biblioteca digital do Google, publicados nos últimos 200 anos. Com essa ferramenta, os pesquisadores podem analisar tendências na linguagem usada pelos autores e no nome das pessoas mencionadas.

É a primeira vez que estudiosos usam o polêmico conjunto de livros digitalizados pelo Google para pesquisa acadêmica, e o resultado foi aberto às pessoas na internet. Após analisar os textos computadorizados, os pesquisadores descobriram que podiam medir a seriedade crescente da retórica dos países que se preparavam para a guerra, acompanhando a expansão no uso da palavra “inimigo”. Eles também conseguiram acompanhar mudanças nos gostos coletivos por alimentos, notando o declínio no apetite por salsichas, que atingiu o auge na década de 1940, e o surgimento do sushi, cujas menções começam a aumentar exponencialmente a partir da década de 1980. Eles também documentaram o declínio da palavra “Deus” na modernidade, cujo uso está diminuindo desde que ela atingiu o auge de citações, na década de 1840.

Puderam enxergar padrões de espaço, tempo e contexto cultural, em escala milhões de vezes maior que antigamente. Onde quer que direcione esses novos instrumentos, se encontrará padrões interessantes. Os textos digitais também capturaram a estrutura em evolução da língua viva, e quase meio milhão de novas palavras que surgiram no inglês desde 1950, refletindo, em parte, o número crescente de termos técnicos, como “buckyball”, “netiquette” e “phytonutrient”.

“Eles criaram algo que vai fazer diferença enorme para nossa compreensão da história e da literatura”, disse o conhecido historiador da cultura Robert Darnton, diretor da Biblioteca da Universidade Harvard, que não esteve envolvido no projeto e já criticou a iniciativa do Google de digitalizar os livros do mundo. Curiosa a dubiedade entre a defesa do autointeresse e a do acesso à ciência, não?

Estima-se no total de 129 milhões de livros já publicados desde a invenção da imprensa. Em 2004, engenheiros de software do Google começaram a fazer cópias eletrônicas deles, e já digitalizaram 15 milhões de obras, com total de 2 trilhões de palavras em 400 línguas diferentes. O Google quer permitir que os pesquisadores organizem os dados de maneiras que os permitam propor perguntas que jamais poderiam ter feito antes.

O projeto de criar biblioteca on-line tem sido dificultado por processos, disputas de direitos autorais e temores quanto ao potencial da empresa de monopolizar a informação. Já houve obstáculos computacionais, científicos, organizacionais e judiciais.

Para evitar violações dos direitos autorais, os cientistas estão oferecendo vasto catálogo sobre o padrão de frequência de palavras e frases, mas não o texto inteiro dos livros. O Google Labs colocou à disposição na internet arquivos com conjunto de dados e também uma ferramenta especial para visualizá-los, em Books Ngram Viewer: Labs – Books Ngram Viewer. Esses arquivos têm frases curtas de até cinco palavras e contagens da frequência em que apareceram em cada ano.

Atualmente, os arquivos contam com livros em alemão, chinês, espanhol, francês, inglês e russo, desde 1500 – cerca de 4% de todos os livros já publicados no mundo. O banco de dados não inclui periódicos, que geralmente refletem a cultura popular, mas sob um ponto de vista diferente.

Calculando a frequência com que celebridades aparecem nos textos digitalizados do Google, os pesquisadores de Harvard descobriram que as pessoas estão ficando famosas cada vez mais jovens e conseguem alcançar picos de notoriedade nunca vistos antes. O outro lado disso é que as pessoas também esquecem as “celebridades” mais rapidamente.

Da mesma maneira, identificam-se exemplos de censura, acompanhando o súbito desaparecimento de figuras polêmicas dos arquivos escritos. As menções do famoso artista judeu Marc Chagall, por exemplo, praticamente desapareceram da literatura alemã durante o período nazista, de 1936 a 1944, quando suas obras foram banidas, mas não dos livros em inglês do mesmo período.

Outros acadêmicos estão usando o novo banco de dados para identificar conceitos sociais e emocionais nos últimos 200 anos. A empatia aumentou muito desde os anos 40. Força de vontade, autocontrole e prudência caíram em desuso.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão /  Alterar )

Google photo

Está a comentar usando a sua conta Google Terminar Sessão /  Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão /  Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão /  Alterar )

Connecting to %s