Refinamento de dados em investigações: Microsoft Access e Google Refine

O primeiro dia da 8ª Conferência Global de Jornalismo Investigativo contou com uma programação recheada de oficinas sobre ferramentas digitais para facilitar o dia-a-dia dos jornalistas em suas investigações.

“Bancos de dados não mentem para você, eles não dizem que vão te ligar depois nem ‘dizem sem comentários’, declarou o jornalista Mark Horvit, diretor-executivo da Repórteres e Editores Investigativos (IRE, na sigla em inglês). O palestrante, ao lado da treinadora da IRE, Jaimi Dowdell, deu dicas básicas para os participantes usarem o programa Microsoft Access durante a oficina “Uso de base de dados em investigações: como evitar erros e limpar dados”, realizada nesse sábado de manhã.

À tarde, foi a vez do professor Nils Mulvad, da Escola Dinamarquesa de Mídia e Jornalismo, e do sociólogo Peter Verweij, fundador e diretor da empresa de consultoria e treinamento D3-Media, ensinarem a usar o software Google Refine na oficina “Como usar o Open Refine para limpar dados”.

Veja abaixo como funcionam as ferramentas:

1. Microsoft Access:

Parecido com a famosa planilha Excel, o Access oferece um leque maior de filtros para agrupar, contar e visualizar informações de forma mais rápida e eficiente nas chamadas planilhas de consulta, sem alterar o documento inicial. “É uma forma de fazer perguntas ao programa e salvar as respostas”, explicou Mark Horvit.

Uma vez aberta a planilha, vá na aba “Modo de Exibição” e selecione “Design de Consulta” para escolher as colunas que deseja filtrar. A tabela abaixo é o exemplo dado pelos palestrantes da lista de reservatórios de água dos Estados Unidos e seus riscos:

1 - design de consulta

O programa permite ao usuário escolher a ordem das colunas, a ordem, critérios de seleção e também fazer modificações nas planilhas mesmo depois da execução dos filtros.

2 - executar3 - selecionar e classificar

Outro diferencial do Access para as planilhas convencionais é a possibilidade de agrupar as informações, ou seja, mostrar a mesma coluna mais de uma vez em tabelas diferentes. Para isso, o usuário deve selecionar o filtro “Totais” (na barra superior do programa).

No exemplo abaixo, a coluna de hazards (riscos) aparece duas vezes — uma para mostrar os níveis de riscos e outra para contar quantas vezes cada nível aparece na planilha original.

4 - agrupar

2. Google Refine:

Com mais possibilidades de limpeza e refinamento de dados, o Google Refine — em breve disponível como Open Refine —, é um software livre e gratuito. Além de Excel (.xls e .xlsx), o software também trabalha com planilhas nos formatos TSV, CSV, *SV, JSON, XML, RDF (XML) e Google Data.

Clique aqui para ver o passo-a-passo do processo de download e instalação do Google Refine (em inglês).

Uma vez instalado o programa, o usuário abre o aplicativo e seleciona o arquivo para ser refinado na opção “Create project”, como mostram os exemplos abaixo:

pasta google refine2

create project2

Depois de escolhido o arquivo, o usuário pode configurar o modo de exibição da planilha na pré-visualização.

preview - create project_editado

Vale destacar a função cluster (grupo), que permite agrupar a mesma informação de uma coluna que aparece escrita de formas diferentes. Para isso, selecione a coluna a ser refinada, clique em “Editar células” e depois em “Agrupar e editar”, como mostra a imagem abaixo:

cluster e edit_editado

Uma nova janela é aberta e as palavras parecidas são agrupadas. O usuário pode selecionar todos os grupos de uma vez para que o programa agrupe novamente e unifique as palavras parecidas. Esse processo pode ser feito quantas vezes necessárias até alcançar o resultado desejado.

merge selected e re-cluster2_editado

Por fim, a nova planilha com os dados refinados pode ser salva no formato original como também nos outros tipos compatíveis com o software.

fim-exportar documento refinado2

O Google Refine requer certo conhecimento em bancos de dados, o que não impede seu uso por iniciantes como uma ferramenta indispensável no cotidiano.

 Texto: Déborah Araujo (ECO, 4º ano)

Serviço:

Uso de base de dados em investigações: como evitar erros e limpar dados

Com Mark Hovit (IRE) e Jaimi Dowdell (IRE)

Sábado, 12 de outubro – 11:00

Como usar o Open Refine para limpar dados

Com Nils Mulvad (Escola Dinamarquesa de Mídia e Jornalismo) e Peter Verweij (D3-Media)

Sábado, 12 de outubro – 14:00

Leave a Reply

Your email address will not be published. Required fields are marked *