COVID-19 e a tsunami de dados – Henrique de Andrade

Muita gente inteligente repete como um mantra a seguinte frase: “dado gera informação e informação gera conhecimento”. Mas, poucos se perguntam uma coisa muito importante: qual a origem deste dado que principia a tão repetida sequência de fatores que levaria ao conhecimento?

O dado não é algo “dado”, que está pronto na natureza e basta magicamente ser colhido para que informações sejam extraídas dele. Seja através de pesquisas, análises, softwares, fórmulas matemáticas, observações… todo dado é construído, independente da metodologia adotada para sua confecção.

Isto significa então que não podemos confiar nos dados? Claro que não! Mas significa que precisamos entender o processo de construção dos dados que utilizaremos. Se “dados geram informações” e “informações geram conhecimentos”, podemos afirmar também que “conhecimentos geram dados”, e os detentores deste conhecimento sobre a criação dos dados estarão sempre um passo à frente dos que utilizam os mesmo dados sem conhecer sua história.

Não digo aqui que um profissional que for utilizar ciência de dados em seu trabalho precisa entender todos os detalhes de cada metodologia de pesquisa, software ou fórmula estatística utilizada no processo de construção de seus dados, mas é imprescindível que ele entenda de forma macro quais as escolhas feitas por sua equipe de pesquisadores, programadores e/ou softwares, e seja capaz de debater com eles mudanças de abordagem para a criação de dados mais eficientes para contar a história que deseja.

Assim, entendendo os dados como elementos construídos deliberadamente, que carregam em si escolhas e recortes feitos a priori, o profissional deixa de ser presa fácil para contra argumentações “baseadas em dados”. Inclusive, passa a ter elementos para se defender de antagonistas que tentem fazer seus dados “confessarem” algo que eles não foram criados para dizer.

Um exemplo que todo mundo está acompanhando agora é a evolução dos casos de COVID-19 pelo mundo. A todo momento vemos na TV e nas redes sociais gráficos sobre a evolução diária dos casos de contaminação ao redor do mundo e comparativos de sua letalidade em cada país. Mas, não vejo ninguém comentando sobre qual o caminho percorrido por esses dados, e fico com várias perguntas na cabeça sobre a história por trás destes dados

Como cada país reporta seus casos de contaminação? Aqui no Brasil, por exemplo, o sistema de saúde é descentralizado, e unidades de atendimento nas pontas enviam relatórios periódicos ao Ministério da Saúde, que não tem informações ao vivo do que está acontecendo.

Quem está sendo testado? A diferença de espaço amostral muda totalmente uma análise estatística. Se um país só testa quem chegou doente no hospital e o outro está testando o máximo de pessoas possível, esses resultados podem ser comparados?

Ainda sobre o recorte amostral da população: todos os países estão testando seus mortos? Qual a chance de em um local pessoas estarem sendo enterradas sem nunca sabermos que estavam contaminadas, enquanto em outro lugar, que testa todas as pessoas, essas mortes serem contabilizadas?

E sobre mortos; como é decretado que alguém morreu por conta da COVID-19? Pacientes que já estavam internados com uma doença terminal e tiveram o vírus encontrado em seu sangue contam? E pessoas contaminadas que tiveram complicações generalizadas? E as pessoas com outras doenças, com alta possibilidade de cura em situações normais, que não conseguiram leitos em UTI pois todos estavam ocupados com enfermos da COVID-19, também são contabilizados como vítimas do SARS-CoV-2?

Como os testes são feitos? Existem diferentes metodologias e equipamentos para testar a presença do SARS-CoV-2 em uma pessoa, e novas formas estão sendo criadas enquanto a pandemia evolui. Os resultados serão sempre os mesmos para casos idênticos testados de forma diferente?

Como estão sendo tratados os resultados leves? Resultados de exames de presença de um vírus no sangue não são binários. A resposta “está contaminado” ou “não está contaminado” é dada usando qual recorte de presença do agente virótico no organismo? Todos os países estão usando o mesmo critério?

E para todas essas perguntas ainda vale outro questionamento: os países estão mantendo internamente a mesma metodologia ao longo do tempo ou estão a alterando? Se um país passa a testar mais pessoas e a curva de infectados sobe, isso significa que mais pessoas se contaminaram ou que antes elas simplesmente não haviam sido aferidas?

Com todas essas reflexões não quero de forma nenhuma dizer que os dados sobre a COVID-19 são falsos, e que você não deveria confirmar neles. Afirmo sim que esses dados (assim como todos os dados do mundo) carregam consigo subjetividades originadas nas escolhas que necessariamente são feitas para a construção de um dado.

Então, o que fazer na prática? Sabendo que o dado não é uma dádiva, encontrada pura e neutra na natureza pronta para ser utilizada, se você quiser se aprofundar em um assunto e entender como uma tese está sendo construída e sustentada por números, não poderá simplesmente confiar nos dados apresentados por seus antagonistas, e necessariamente precisará compreender a origem e a confecção dos dados que estiverem sendo apresentados. Assim, sabendo quais histórias eles contam, você terá elementos para refutar conclusões que estejam sendo feitas a partir destes dados e, eventualmente, criar novos dados que revelem novos fatos sobre o mesmo caso.

Complexo esse assunto, né? Por isso que criamos um curso inteiro de “Mergulho em Ciência de Dados” no Programa Direito Inovador. Cadastre-se agora gratuitamente e tenha acesso hoje mesmo às primeiras aulas!