Categorias
Tecnologia

Palestra no HackCovid19

Entre os dias 15 e 17 de maio acontecerá o HACKCOVID19, organizado pelo Centro Brasileiro de Pesquisas Físicas (CBPF), pela Fundação Oswaldo Cruz (Fiocruz) e pelo Laboratório Nacional de Computação Científica (LNCC).

Eu atuarei como mentor durante o evento e apresentarei uma palestra de Warm-up no sábado, dia 09/05, às 19 horas, sobre “MVP (mínimo produto viável): o que é e como fazer”.

A palestra será transmitida ao vivo no canal do CBPF no Youtube para todos os interessados, inscritos ou não no hackathon!

Para participar do hackathon, acesse o site oficial do evento em https://hackcovid-19.devpost.com/

Programação das palestras disponível em http://www.cbpf.br/hackcovid19/pdf/PROGRAMA_HACKCOVID19.pdf

Categorias
Tecnologia

Podemos confiar na Wikipédia durante a pandemia de COVID-19?

Texto originalmente publicado na Revista Espírito Livre, em abril de 2020.

Sempre admirei o trabalho incrível feito pela Revista Espírito Livre, e me senti honrado quando recebi de meu amigo João Fernando o convite para ser colunista aqui. Pensando sobre qual seria meu tema de estreia, não tive como fugir do assunto que está dominando todas as conversas do momento: a pandemia de COVID-19.

Muito conteúdo tem sido gerado sobre o surto da doença e, nos últimos meses, jornais, televisões, redes sociais e grupos de mensagens estão incansavelmente compartilhando informações sobre o vírus, dicas sobre prevenção, notícias de possíveis curas e vacinas, teorias acerca da origem da pandemia, etc. No meio desta enxurrada de informações, muitas vezes contraditórias e quase nunca com fontes claras rastreáveis, o cidadão fica perdido, sem saber o que é crível e o que é mera especulação ou fake news.

A receita que tenho para saber em qual informação confiar é muito simples: eu acesso a Wikipédia! Alguns podem dizer que estou louco, e que a enciclopédia virtual poderia até ser usada para saber quem ganhou um torneio de futebol, ou a lista de participantes de uma edição do Big Brother, mas que jamais deveria ser levada a sério em um assunto tão importante.

Uma afirmação como essa só pode ser feita por quem não conhece o funcionamento da Wikipédia. A “enciclopédia livre, que qualquer um pode editar” não se tornou um dos sites mais visitados do mundo (o primeiro colocado entre os mantidos por instituições sem fins lucrativos) espalhando achismos e, em seus quase 20 anos de estrada, desenvolveu políticas editoriais que garantem a qualidade de seu conteúdo.

Sendo uma obra escrita por não especialistas, a Wikipédia tem como um de seus princípios ser fonte terciária de informações. Isso significa que, para uma informação ser exibida lá, precisa já ter sido publicada em uma fonte secundária. Na prática, textos auto publicados, declarações, opiniões e todo tipo de informação que não tenha sido validada por uma fonte secundária, considerada fiável pela comunidade, não poderão ser incluídas nos verbetes. Essa lógica é garantida pela política de verificabilidade, que dita a obrigatoriedade de inclusão de referências para toda informação escrita nos verbetes.

Ademais, existe a famosa “Lei de Linus”, cunhada por Eric Raymond ao explicar como o desenvolvimento de softwares livres funciona: “Dados olhos suficientes, todos os erros são óbvios”, que se aplica muito bem à Wikipédia. Toda edição feita passa pelo escrutínio de filtros de edição e bots, que podem impedir ou rapidamente reverter uma edição que seja identificada com um padrão danoso para o site. Após os controles automatizados atuam os humanos patrulhadores, que utilizam ferramentas para monitorar a página de mudanças recentes da Wikipédia, revisando todas as edições salvas em tempo real. E os vigilantes, que escolhem páginas para vigiar e recebem alertas por e-mail toda vez que uma edição é feita em um dos verbetes de sua lista.

Agora que você já começou a entender como a Wikipédia funciona podemos voltar ao COVID-19, e observar o que os wikipedistas tem produzido sobre ele.1

Imagem do vírus SARS-CoV-2 disponível na Wikipédia desde o dia 13 de fevereiro de 2020, com a legenda: “Imagem de viriões de SARS-CoV-2 obtida por microscópio eletrónico de varrimento, em que se observa partículas virais a emergir de uma célula”. Licença: domínio público. Autor NIAID Rocky Mountain Laboratories (RML), U.S. NIH. Fonte: https://commons.wikimedia.org/wiki/File:SARS-CoV-2_49534865371.jpg .

Quando o vírus foi identificado, em dezembro de 2019, já existia um verbete chamado “Coronavírus” na Wikipédia. Essa palavra é utilizada para denominar um grupo de vírus, e o verbete já versava sobre os agentes infecciosos responsáveis por outras doenças, como SARS e MERS. Essa página apresentava em dezembro de 2019 uma audiência de 11 acessos por dia, e oferecia a seus leitores um simplório conteúdo de 1.421 bytes, com duas referências, não sendo atualizada desde 2015. Mas chega janeiro de 2020, e com ele o interesse crescente pelo assunto. Logo no início do ano o verbete vê uma escalada monstruosa de acessos, chegando ao pico de 167.158 acessos no dia 29 de janeiro de 2020. E, junto com o interesse dos leitores, também cresce o engajamento dos editores.

Nos dias seguintes o verbete passa a ser massivamente editado por várias pessoas, aumentando em 12 vezes seu tamanho e expandindo em 1000% seu número de referências!2 Calma que ainda tem mais! Com o aumento do interesse no assunto, os wikipedistas começaram a criar novos verbetes para detalhar questões específicas sobre o tema, como “Coronavírus da Síndrome Respiratória Aguda Grave 2”, para tratar deste novo vírus em si, “COVID-19”, para falar da nova doença, “Pandemia de COVID-19”, para explorar o surto vivido agora pelo mundo e “Pesquisa de vacina para COVID-19”. Vejamos na tabela a seguir alguns dados de edição e de visita destes artigos:

Verbete Data de criação Total de visitas Visitas diárias em 2020 Edições Editores Bytes Referências
Coronavírus 15/07/05 438.989 20.904 23 8 18.860 29
Pandemia de COVID-19 20/01/20 260.873 12.423 304 58 90.679 337
COVID-19 11/02/20 111.352 5.302 113 31 68.793 103
Coronavírus da Síndrome Respiratória Aguda Grave 2 20/01/20 42.354 1.949 101 37 10.947 19
Pesquisa de vacina para COVID-19 15/03/20 335 16 7 2 21.573 42

Podemos ver que três dos novos artigos já receberam uma enorme atenção dos usuários, e o último já apresenta um volume considerável de informações para um verbete com menos de uma semana de vida. Vale também destacar que o verbete Coronavírus tem 36 vigilantes, que recebem e-mails a cada edição feita, e o “Pandemia de COVID-19” conta com 42. E, enquanto finalizo este artigo, os verbetes “Coronavírus”, “COVID-19” e “Coronavírus da Síndrome Respiratória Aguda Grave 2” estão protegidos para usuários autoconfirmados (cadeado azul no topo da página ao lado do título), o que significa que usuários anônimos e recém criados não podem editar essa página. E, o atual maior verbete sobre o tema, “Pandemia de COVID-19”, está protegido para autorrevisores (cadeado cinza), o que significa que somente pode ser editado por um grupo ainda menor de editores, previamente reconhecidos como bons contribuidores da enciclopédia.3

Sabendo de tudo isso tenho certeza que agora você poderá acessar a Wikipédia com mais tranquilidade. Mas não esqueça: ela é apenas uma (muito boa!) enciclopédia. Se quiser realmente se aprofundar no tema e ler o que os especialistas estão produzindo agora sobre o assunto, nenhuma enciclopédia será suficiente para sanar sua curiosidade. Você deverá mergulhar na literatura especializada sobre o assunto para encontrar o que busca. Imagino agora que o leitor deva estar se perguntando: mas onde encontrarei tal literatura específica de forma estruturada e catalogada para saber o que e onde ler? Uma dica: dê uma olhada na seção de Referências que aparece ao final de todo verbete da Wikipédia, você pode se surpreender 😉

1Todos os dados aqui citados foram obtidos no fechamento desta edição, no dia 19/03/2020.

2Dados sobre os verbetes podem ser encontrados em https://tools.wmflabs.org/pageviews/?project=pt.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=COVID-19|Coronav%C3%ADrus_da_S%C3%ADndrome_Respirat%C3%B3ria_Aguda_Grave_2|Coronav%C3%ADrus|Pesquisa_de_vacina_para_COVID-19|Pandemia_de_COVID-19 .

3Não caberá neste texto uma explicação mais detalhada sobre o funcionamento dos grupos de usuários e níveis de proteção de páginas, mas o assunto pode vir a ser tratado em um artigo futuro se for de interesse dos leitores da revista.

Categorias
CTS Direito Inovador Tecnologia

COVID-19 e a tsunami de dados

Muita gente inteligente repete como um mantra a seguinte frase: “dado gera informação e informação gera conhecimento”. Mas, poucos se perguntam uma coisa muito importante: qual a origem deste dado que principia a tão repetida sequência de fatores que levaria ao conhecimento?

O dado não é algo “dado”, que está pronto na natureza e basta magicamente ser colhido para que informações sejam extraídas dele. Seja através de pesquisas, análises, softwares, fórmulas matemáticas, observações… todo dado é construído, independente da metodologia adotada para sua confecção.

Isto significa então que não podemos confiar nos dados? Claro que não! Mas significa que precisamos entender o processo de construção dos dados que utilizaremos. Se “dados geram informações” e “informações geram conhecimentos”, podemos afirmar também que “conhecimentos geram dados”, e os detentores deste conhecimento sobre a criação dos dados estarão sempre um passo à frente dos que utilizam os mesmo dados sem conhecer sua história.

Não digo aqui que um profissional que for utilizar ciência de dados em seu trabalho precisa entender todos os detalhes de cada metodologia de pesquisa, software ou fórmula estatística utilizada no processo de construção de seus dados, mas é imprescindível que ele entenda de forma macro quais as escolhas feitas por sua equipe de pesquisadores, programadores e/ou softwares, e seja capaz de debater com eles mudanças de abordagem para a criação de dados mais eficientes para contar a história que deseja.

Assim, entendendo os dados como elementos construídos deliberadamente, que carregam em si escolhas e recortes feitos a priori, o profissional deixa de ser presa fácil para contra argumentações “baseadas em dados”. Inclusive, passa a ter elementos para se defender de antagonistas que tentem fazer seus dados “confessarem” algo que eles não foram criados para dizer.

Um exemplo que todo mundo está acompanhando agora é a evolução dos casos de COVID-19 pelo mundo. A todo momento vemos na TV e nas redes sociais gráficos sobre a evolução diária dos casos de contaminação ao redor do mundo e comparativos de sua letalidade em cada país. Mas, não vejo ninguém comentando sobre qual o caminho percorrido por esses dados, e fico com várias perguntas na cabeça sobre a história por trás destes dados

Como cada país reporta seus casos de contaminação? Aqui no Brasil, por exemplo, o sistema de saúde é descentralizado, e unidades de atendimento nas pontas enviam relatórios periódicos ao Ministério da Saúde, que não tem informações ao vivo do que está acontecendo. 

Quem está sendo testado? A diferença de espaço amostral muda totalmente uma análise estatística. Se um país só testa quem chegou doente no hospital e o outro está testando o máximo de pessoas possível, esses resultados podem ser comparados?

Ainda sobre o recorte amostral da população: todos os países estão testando seus mortos? Qual a chance de em um local pessoas estarem sendo enterradas sem nunca sabermos que estavam contaminadas, enquanto em outro lugar, que testa todas as pessoas, essas mortes serem contabilizadas?

E sobre mortos; como é decretado que alguém morreu por conta da COVID-19? Pacientes que já estavam internados com uma doença terminal e tiveram o vírus encontrado em seu sangue contam? E pessoas contaminadas que tiveram complicações generalizadas? E as pessoas com outras doenças, com alta possibilidade de cura em situações normais, que não conseguiram leitos em UTI pois todos estavam ocupados com enfermos da COVID-19, também são contabilizados como vítimas do SARS-CoV-2?

Como os testes são feitos? Existem diferentes metodologias e equipamentos para testar a presença do SARS-CoV-2 em uma pessoa, e novas formas estão sendo criadas enquanto a pandemia evolui. Os resultados serão sempre os mesmos para casos idênticos testados de forma diferente? 

Como estão sendo tratados os resultados leves? Resultados de exames de presença de um vírus no sangue não são binários. A resposta “está contaminado” ou “não está contaminado” é dada usando qual recorte de presença do agente virótico no organismo? Todos os países estão usando o mesmo critério?

E para todas essas perguntas ainda vale outro questionamento: os países estão mantendo internamente a mesma metodologia ao longo do tempo ou estão a alterando? Se um país passa a testar mais pessoas e a curva de infectados sobe, isso significa que mais pessoas se contaminaram ou que antes elas simplesmente não haviam sido aferidas?

Com todas essas reflexões não quero de forma nenhuma dizer que os dados sobre a COVID-19 são falsos, e que você não deveria confirmar neles. Afirmo sim que esses dados (assim como todos os dados do mundo) carregam consigo subjetividades originadas nas escolhas que necessariamente são feitas para a construção de um dado.

Então, o que fazer na prática? Sabendo que o dado não é uma dádiva, encontrada pura e neutra na natureza pronta para ser utilizada, se você quiser se aprofundar em um assunto e entender como uma tese está sendo construída e sustentada por números, não poderá simplesmente confiar nos dados apresentados por seus antagonistas, e necessariamente precisará compreender a origem e a confecção dos dados que estiverem sendo apresentados. Assim, sabendo quais histórias eles contam, você terá elementos para refutar conclusões que estejam sendo feitas a partir destes dados e, eventualmente, criar novos dados que revelem novos fatos sobre o mesmo caso.

Complexo esse assunto, né? Por isso que criamos um curso inteiro de “Mergulho em Ciência de Dados” no Programa Direito Inovador. Cadastre-se agora gratuitamente e tenha acesso hoje mesmo às primeiras aulas!

Categorias
Direito Inovador Tecnologia

Programa de Imersão em Direito Inovador

Com prazer anuncio que farei parte da coordenação do Programa de Imersão em Direito Inovador, uma série de cursos a distância criados por profissionais de pelo menos 8 diferentes ramos do conhecimento que, juntos, e depois de anos de estrada no front de combate do dia a dia, decidiram criar um caminho mais assertivo, concreto e acessível para construir e compartilhar conhecimentos multidisciplinares nas áreas do Direito, de Ciência de Dados, Design, Analytics, Jurimetria, Gestão, Tecnologia e Pesquisa.

A primeira versão do site já está no ar com detalhes sobre nossos três primeiros cursos: “Direito Digital” e “Mergulho na Ciência de Dados” e “Narrativa, Visual Law & Legal Design”.

Acesse agora e inscreva-se gratuitamente para ter acesso em primeira mão às aulas inaugurais!

Categorias
Tecnologia

O que é MVP?

Já está no ar minha entrevista para o programa BNDES Garagem onde falamos sobre criação de MVPs e mais um monte de outras coisas relacionadas a criação de produtos digitais!

Categorias
Tecnologia

Inteligência artificial para classificação de documentos

Hoje nossa equipe do MPRJ abriu o ciclo de palestras do Arquivo Nacional com apresentações sobre Inteligência artificial para classificação de documentos. Confira abaixo o vídeo na íntegra:

Categorias
Cotidiano CTS Tecnologia

Manifesto Scientófago

Texto originalmente publicado no CTS Brasil Blog.

Brasil! Meu latino nortenho
Meu cientista inzoneiro
Vou sambar-te com meus papers

Ser e não estar? Eis a questão!

Califórnia, Cambridge, longe da Favela da Maré
A fuga interior de cérebros vai pro Lattes
E dá entrevistas na TV.

Me cita, me cita, me cita. Nem sempre se lê!
A gente somos inútil?
Quem cubriu o Brasil?

A gente não quer só comer,
A gente quer prazer sem um indicador!
Índio quer arbítrio e vai dar pra comer sim!

A-B-C, A-B-C, nenhuma criança vai ler o que você escrever.
Qual imagem criamos de nossos selfies?
Autor bom é autor morto!

No meio do caminho tinha uma patente, tinha uma patente no meio do caminho.
Paca, tatu, não publica não.
As entidades que gorjeiam aqui não gorjeiam como lá.

Yes, we podi!

Totenizar o complexo e virar a lata!
Uma entidade furou o asfalto, o cnpq, a capes e o comitê de estética.
Foi no mangue catar sentido, pegar empodimento e conversar com o Quipu.

Meu corpo docente, minhas regras!
Vamos denunciar nossa linguiça,
o produtivismo e a crosscitação!

Desce do trono, doutrina.
De que te vale a ciência sozinha,
Enquanto é carnaval?

Ai, ciência, deixa eu me apropriar de você
Mestiço, sabe contradizer
aqui no sul também tem saber!

#foraQualis