A era do Big Data

Gilberto R. Cunha
Publicado em 28/10/2014 às 10:21h.

A quantidade de dados (informações) que é produzida diariamente em escala planetária, na atualidade, não encontra precedente na história humana. A IBM, em 2011, estimou essa soma, que hoje pode ser considerada em certos aspectos até conservadora, em 2,5 quintilhões de bytes a cada dia. Que significa isso? Nada ou muito; dependendo da nossa capacidade de processar essa enorme quantia de dados e transformar o que não passa de mera informação em conhecimento útil. E, por outro lado, que, indiscutivelmente entramos na era do Big Data.
A expressão da moda, Big Data, contempla os bancos de dados de tamanho bem maior dos que conhecemos ou estamos acostumados a lidar no dia a dia. E que, mudando radicalmente o procedimento usual, os dados estão concentrados em uma base única e o processamento é que fracionado. Até, em razão disso, há certa glamourização do Big Data no ambiente corporativo, quer seja no universo científico ou no mundo dos negócios. A tal ponto que o crescimento exponencial da quantidade de informação passou a ser visto por alguns como espécie de panaceia, servindo a mera massa de dados, por exemplo, para propostas que sugerem não serem necessárias novas teorias ou que o método científico poderia ser abolido. Nada mais falso e ingênuo que isso, pois antes de exigir mais de nossos dados deveríamos exigir mais de nós mesmos. Devemos, nesse misto de capacidade de processamento de dados e julgamento humano, ter bem clara a fragilidade dos nossos pressupostos teóricos, pois esses podem embasar decisões que levam a resultados desastrosos.
O entusiasmo com o Big Data exige, mais que retórica de persuasão sobre a utilidade desses bancos de dados, capacitação para o processamento de dados em grande escala e formação estatística para a extração de conhecimento do que, por si mesmos, não passam de meros dados, ainda que disponíveis em grandes quantidades.
Lidar com Big Data, racionalmente, hoje, significa saber lidar com a incerteza sobre o que pode ser concluído dos dados, quer seja uma previsão de qualquer coisa (resultado de eleição, vencedor de um campeonato de futebol, etc.) ou uma inferência científica derivada de experimentação empírica (dose de nutrientes no desempenho produtivos das culturas em agricultura, resposta a doses e drogas em tratamentos de doenças, etc.). Em essência, reviver Jacob Bernoulli, que, visionariamente, há cerca de 300 anos, quando publicou o livro Ars Conjectandi, estabeleceu o uso da teoria da probabilidade para explorar melhorar as propriedades das estatísticas quando mais observações eram tomadas. Ou prestar tributo à memória do reverendo Thomas Bayes, que há 250 anos, definiu, em ensaio clássico, que os seres humanos aprendem com a experiência, atualizando suas crenças assim que mais dados são disponibilizados.
Os problemas tradicionais em estatística, em geral, envolvem muitas observações e poucos parâmetros medidos ou, inversamente, em tempos recentes, até por questão de custo elevado com experimentação, poucas observações e muito parâmetros medidos (como é exemplo a avaliação da expressão de muitos genes em um número limitado de amostras de tecido). Nesse último caso, é necessário que sejam testadas muitas hipóteses, para se tirar conclusões. E, apesar de consagrado nas ciências empíricas, a exemplo das agrárias, da saúde, etc., o uso de testes de significância estatística, nem sempre é adequado e nem se presta para uso indiscriminado. O padrão p< 0,05, usado a exaustão em trabalhos acadêmicos nas ciências experimentais, até por quem não consegue perceber o que esse número (0,05) significa na prática, simplesmente, nesse caso, nos diz que 1 em 20 das relações que não existem será declarada significativa naquele experimento. São as falsas descobertas, que depois se mostram erradas. Diminuir as chances das falsas descobertas é o grande anseio da ciência que lida com experimentação empírica e tira conclusões por indução ou inferência estatística. Não é por outra razão que a maioria das ditas descobertas científicas publicadas é falsa, como chamou atenção o polêmico artigo do médico John P. A. Ioannidis, publicado em 2005 (PLoS Med 2 (8):e124), referente a descobertas positivas apresentadas em periódicos da área médica (2/3 não conseguiram ser reproduzidas em laboratório).
Vislumbram-se aplicações Big Data no complexo agroindustrial de um produto, caso da soja, do milho ou do trigo por exemplo, em agricultura de precisão, gestão de frotas de maquinas agrícolas e uso de insumos em plantas industriais; entre outras.
Nunca tivemos tanta informação disponível ao nosso alcance. Mas, mais informação também pode significar mais problemas. Por isso, recomenda-se: mais Jacob Bernoulli e mais Thomas Bayes, para lidarmos com Big Data.

Colunistas

A era do Big Data

Últimas colunas

Assine a nossa newsletter e receba nossas notícias e informações direto no seu email