Big Data: Estatísticas em Tempo Real

Robin Wigglesworth (Financial Times apud Valor, 02/02/18) informa que, quando Alberto Cavallo era criança na Argentina, no fim dos anos 80, o país latino-americano sofria mais uma de suas crises ocasionais. A inflação era desenfreada, o que tornava uma tarefa simples, como ir ao mercado, uma corrida diária frenética.

Cavallo e sua mãe iam ao banco todos os dias retirar os pesos suficientes para as compras necessárias e mantinham o resto das economias no banco, em dólares. Depois, corriam ao mercado local e compravam o que precisavam o mais rápido possível, na esperança de chegar à caixa registradora antes que o preço fosse remarcado.

“Se não chegássemos à caixa registradora a tempo, então tínhamos que voltar ao banco e começar tudo de novo”, recorda.

Mas a experiência plantou as sementes do que se tornaria uma dos experimentos mais intrigantes no mundo normalmente sossegado da estatística econômica: uma tentativa de usar o surgimento do “big data”, bases com enormes volumes de dados, para aprimorar, complementar e, talvez em algum momento, substituir as formas tradicionais de estatísticas, que ainda informam e moldam os pontos de vista de autoridades econômicas, políticos e acadêmicos e guiam investimentos de trilhões de dólares.

Cavallo hoje é professor de Economia Aplicada no Massachusetts Institute of Technology (MIT), onde comanda o Billion Prices Project com Roberto Rigobon, outro professor do instituto. O projeto começou em 2006, durante um período em que o governo argentino era acusado de manipular os dados da inflação.

Os professores Cavallo e Rigobon perceberam que, reunindo os dados dos preços na internet, podiam criar um indicador mais preciso e atualizado da inflação real no país. Após a mudança de governo em 2015-2016, a Argentina passou a divulgar um índice mais preciso da inflação.

O braço comercial do projeto, a PriceStats, agora reúne dados suficientes para fornecer atualizações diárias da inflação das economias de 22 países. “Foi meio que por acidente. Mas rapidamente percebemos que havia aplicações em outros lugares”, afirma o professor Cavallo.

O projeto é apenas um exemplo da tendência geral de vasculhar os enormes volumes de dados [big data] em busca de pistas sobre o desempenho de empresas, setores ou economias inteiras. Alguns dados já vêm se mostrando novidades úteis, ainda que imperfeitas.

Muitos especialistas preveem que as pegadas digitais de nossas vidas on-line poderiam, em última medida, ser processadas e transformadas em mapas em tempo real das tendências econômicas capazes de fazer os dados atuais parecerem tão antigos quanto as informações sobre o transporte de carga ferroviário dos anos 20.

As pegadas de nossa vida digital são inimagináveis de tão vastas. Estima-se que o volume de dados gerados no mundo dobra a cada ano e que, em 2020, chegará a 44 zettabytes (trilhões de gigabytes), segundo estudo da International Data Corporation. Se todas essas informações fosse armazenadas nos tablets com maior capacidade de hoje, a pilha atingiria seis vezes a distância da Terra à Lua.

“Tudo o que você quiser saber sobre a economia é possível saber hoje, caso consiga acessar o conjunto certo de dados”, diz Tammer Kamel, chefe da Quandl, uma fornecedora de dados alternativos. “Esta é uma das grandes oportunidades. Os informes econômicos são lentos, mas mexem com O Mercado e, se você souber levantar as pedras certas, você meio que pode já conhecê-los no exato momento.”

Pode parecer demasiado ambicioso, tendo em vista que o “big data” às vezes chega repleto de falhas e distorções, algumas óbvias, outras mais ocultas. Alguns cientistas de dados, porém, dizem que, à medida que mais vidas migrarem para o reino on-line, mais vamos nos aproximar do momento em que estatísticas econômicas quase instantâneas vão se tornar realidade.

“Reunir todos os dados e organizá-los da forma certa não é uma tarefa qualquer”, afirma Jonathan Shaw, diretor de um novo programa do Alan Turing Institute, de Londres, que almeja usar dados alternativos em análises econômicas. “[Mas] daqui a dez anos, imagino que estaremos muito mais próximos de um mapa em tempo real da economia. Se não tivermos isso em dez anos, eu ficaria decepcionado.”

Quando a população do Reino Unido votou por sair da União Europeia em 2016, muitos economistas previam uma calamidade em pouco tempo. Uma pesquisa sobre o otimismo no setor de serviços mostrou a pior queda em seus 20 anos de história imediatamente após a votação do Brexit. O Goldman Sachs previu que o Reino Unido entraria em recessão. A economia, contudo, se mostrou notavelmente resiliente até agora, no período prévio à saída do Reino Unido.

Nem todos foram pegos no contrapé. Em 2015, a firma de investimentos britânica Schroders havia criado uma unidade de análise de dados para ajudá-la a analisar pacotes de novas informações digitais, incluindo dados de cartão de crédito, o que permitia vislumbrar padrões de compra em tempo real. Apesar da ideia generalizada de que as perspectivas eram sombrias, os dados mostravam impacto desprezível.

“Pudemos dizer a nossos gestores de fundos que a situação parecia boa, e alguns meses depois os dados oficiais confirmaram isso”, diz Mark Ainsworth, chefe de análise de dados da Schroders. “Todos esses dados digitais podem dar uma percepção mais atualizada sobre a economia.”

O potencial é atordoante.

  1. O conteúdo das redes de relacionamento social na internet pode ser usado para criar termômetros em tempo real do sentimento do consumidor.
  2. Satélites no espaço podem ver quais navios atracaram em que lugares, se os petroleiros estão carregados ou vazios, a qualidade de uma colheita ou até a produtividade de um alto-forno.
  3. Compras de cartão de crédito e recibos por e-mail mostram os gastos no varejo. Anúncios de emprego publicados por centenas de sites de recrutamento ou de empresas podem revelar tendências no mercado de trabalho.
  4. E os telefones celulares enviam dados sobre a localização mostrando onde estamos a qualquer momento.
  5. Com o tempo, a “internet das coisas” pode revelar nossos padrões de alimentação diários por meio de geladeiras conectadas à internet.

Minerar esses novos conjuntos de dados já foi privilégio de complexos fundos hedge “quantitativos”. Agora, alguns ministérios da Fazenda, bancos centrais e agências de estatísticas começam a sondar o campo para tentar entender as marés econômicas melhor e mais rapidamente – algo que poderia ter implicações significativas para as políticas públicas.

A crise financeira expôs grandes lacunas nos números oficiais. O comitê de dados de ciclos econômicos do National Bureau of Economic Research (NBER), o árbitro semioficial nos Estados Unidos das recessões econômicas, levou até dezembro de 2008 – quase três meses depois da quebra do Lehman Brothers – para declarar que a economia dos EUA havia de fato entrado em recessão um ano antes.

Embora muitos economistas já tivessem concluído o mesmo havia algum tempo, a partir da rápida deterioração dos dados mensais e trimestrais, as estatísticas não capturaram adequadamente o ritmo no qual a economia estava decaindo, lembra-se Diana Farrell, ex-diretora-adjunta do Conselho Econômico Nacional no governo do presidente Barack Obama. “A economia estava indo muito pior do que percebíamos e nossas políticas de resposta presumiam uma recessão muito mais fraca”, admite.

Farrell agora comanda o JPMorgan Chase Institute, um centro de estudos criado pelo banco para transformar os dados de seus clientes em informações valiosas em termos econômicos. Entre outras atividades, o instituto explora o papel da chamada “economia gig” (de trabalhadores autônomos), o impacto dos gastos do próprio bolso dos funcionários com assistência médica sobre o bem-estar financeiro de uma família e a forma como ajustes nos financiamentos imobiliários afetam a inadimplência e os gastos dos consumidores.

Farrell diz que o “big data” pode ter “enorme” impacto nas políticas econômicas, em especial durante as recessões. “Há muita coisa que os dados tradicionais não podem responder em momentos extremos”, diz. “Não acho que nada disso vá suplantar as estatísticas essenciais, mas pode claramente complementá-las.”

Atualmente, a Agência de Análises Econômicas, do Departamento de Comércio dos EUA, divulga números trimestrais do Produto Interno Bruto (PIB). Mesmo a leitura “preliminar” chega com um mês de atraso e é sujeita a frequentes revisões. No futuro, as agências serão capazes de produzir dados com muito mais rapidez sobre a economia, prevê Philippe Jordan, presidente do fundo hedge francês CFM.

“A publicação de dados trimestrais do PIB vai parecer antiquada”, diz. “Estruturar os dados é imensamente complexo. Mas talvez possamos começar tendo dados mensais sobre a economia em vez de trimestrais. Seria um bom primeiro passo.”

Ainda há céticos quanto ao novo campo. Ewan Kirk, diretor de investimentos da Cantab Capital, um fundo hedge da gestora de recursos suíça GAM, diz que boa parte dos conjuntos de dados promissores que sua equipe examina acaba se mostrando inútil para fins de investimento e que há dúvidas se vão se mostrar muito mais valiosos em adivinhar a direção da economia.

“A economia é realmente algo complicado, de uma ordem de magnitude mais complicada do que os mercados financeiros”, destaca. “O dinheiro neste momento está em ser um fornecedor de dados alternativos, não em ser um usuário de dados alternativos.”

Economistas se aperfeiçoaram em desenvolver indicadores mais atualizados sobre o desempenho econômico a partir de dados tradicionais, uma prática conhecida como “nowcasting“. Alguns argumentam, porém, que os novos conjuntos de dados digitais não trazem quase nada de novo à precisão de um modelo de “nowcasting”. Por exemplo, o Canadá já publica dados mensais do PIB, e o Reino Unido vai começar a fazê-lo em breve.

Estatísticos e cientistas de dados admitem que as dificuldades de transformar conjuntos de dados muitas vezes bagunçados em algo que possa ser usado podem ser grandes. As informações sobre cidadãos mais velhos muitas vezes não são cobertas pelos dados de redes de relacionamento social e telefones celulares. Os dados dos cartões de crédito capturam apenas parte dos gastos. Os dados dos satélites podem ser prejudicados pelo mau tempo.

Alguns argumentam que os maiores obstáculos são jurídicos e logísticos. As informações estão em grande medida espalhadas pelo setor privado, dentro de bancos, operadoras telefônicas, plataformas online de redes sociais ou fábricas. Em alguns casos, os dados podem ser obtidos – a um preço – mas em muitos casos há restrições legais sobre o que as empresas podem compartilhar ou limites práticos sobre o que podem revelar.

Paralelamente, muitas agências de estatísticas governamentais frequentemente não têm recursos suficientes para adquirir e processar esses novos conjuntos de dados.

“Os desafios técnicos são trabalhosos, mas solucionáveis […] As pessoas subestimam os problemas de regulamentação”, diz Diane Coyle, professora de economia na Universidade de Manchester e pesquisadora da Agência Nacional de Estatística do Reino Unido. Ela argumenta que as agências de estatística deveriam ter livre acesso a dados importantes do setor privado, em vista das implicações que dados melhores, mais atualizados e mais precisos trariam para as políticas públicas.

Há, entretanto, preocupações quanto à segurança e privacidade quando se centraliza volumes gigantescos de dados que muitas vezes incluem informações sensíveis, segundo Ainsworth, do Schroders. “A questão que deveríamos perguntar, como sociedade, é se deveríamos ter privacidade ou se deveríamos consolidar todos esses dados num só lugar“, diz. “Como é digital e pessoal, isso deveria ser tratado com respeito.”

A possibilidade de que o “big data” permita indicadores mais detalhados, atuais e precisos é viável ou fantasia?

Os céticos dizem que muitos dados não significam automaticamente bons dados. A oportunidade pode vir a um custo inaceitável para a precisão, que deve continuar sendo a prioridade das agências de estatística. O professor Cavallo vê essas novas fontes de dados digitais como complementos para as informações tradicionais e duvida de que venham a ser superadas tão cedo.

“Só porque podemos medir tudo, não significa que valha a pena mensurar tudo”, diz ele.

No entanto, os estágios iniciais do que promete ser uma revolução baseada em dados digitais estão se materializando. Otimistas dizem que já conseguem medir tendências econômicas de maneiras que seriam impensáveis há apenas uma década. Os conjuntos de dados existentes terão séries temporais mais longas, permitindo construir modelos mais precisos, e novos conjuntos de dados estarão disponíveis. Isso deverá permitir aos pesquisadores melhorar a precisão e acelerar a criação de estatísticas completas e atualizadas sobre economias inteiras.

O professor Coyle diz que o campo está no “estágio [em que se fazem afirmações] extremamente exageradas” sobre seu desenvolvimento, mas prevê: “As coisas vão progredir rapidamente”.

A China emergiu como um terreno fértil para os cientistas de dados que procuram desenvolver medidas alternativas de saúde econômica, em parte devido a dúvidas e preocupações quanto à qualidade da estatística oficial.

Enquanto os dados econômicos no Ocidente tendem a demorar para serem conhecidos, mas são bastante precisos, até mesmo autoridades chinesas admitem que seus números podem ser “cozinhados” – ou “fabricados”, nas palavras do premiê Li Keqiang. Isso deu origem a uma série de medidas alternativas baseadas em produção de eletricidade, volumes de empréstimos ou embarques de cargas ferroviárias – e um dos índices informais chegou mesmo a ser apelidado de “Li”.

Provedores de dados alternativos elevaram isso a um novo nível. Um dos melhores exemplos é o índice de atividade industrial satélite da China da SpaceKnow – baseado em 2,2 bilhões de instantâneos individuais cobrindo 500 mil quilômetros quadrados e mais de 6 mil sítios industriais em todo o país. Esse indicador oferece aos investidores uma mensuração mais rápida sobre a atividade industrial chinesa. Em 2015-16, o índice revelou uma desaceleração muito mais forte do que as pesquisas oficiais, e provavelmente detectou melhor o movimento de declínio.

As imagens via satélites podem ser temporariamente frustradas por coisas simples, como o mau tempo, mas oferecem dados mais detalhados e atualizados do que estatísticas tradicionais. A Orbital Insights – comandada por James Crawford, ex-engenheiro da Nasa (agência espacial americana) e do Google – monitora a produção de aço na Índia e na China a partir do calor emitido pelos altos-fornos.

A Orbital Insight também trabalhou com o Banco Mundial no mapeamento de taxas de pobreza usando imagens de satélites e planeja publicar mais conjuntos de dados macroeconômicos. “Esse é o futuro”, diz Crawford. “Em poucos anos, teremos vigilância sobre todo o mundo diariamente”.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão /  Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão /  Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão /  Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão /  Alterar )

Connecting to %s