Esse é o site da primeira unidade do meu curso de Jornalismo de Dados. Aqui você vai encontrar materiais de aula e links para exercícios.
Essa disciplina apresenta o modo de pensar e as ferramentas necessárias para que o jornalista trabalhe com dados de maneira eficiente.
Durante as aulas, serão expostas estratégias para contar boas histórias a partir de dados públicos e técnicas para coletar informações não-estruturadas e produzir bancos de dados exclusivos. Assim, o aluno vai aprender a “entrevistar os números” para extrair informações de interesse jornalístico.
Além do foco na produção de conteúdo, também será abordado o uso de informações quantitativas para tomar decisões gerenciais ou editoriais de acordo com o comportamento e as métricas da audiência.
Temos encontros semanais todas as manhãs entre os dias 16 de março e 27 de abril. Isso significa que tenho quatro horas para dar aula. Muitas vezes, isso vai ser tempo demais.
Para tornar o dia mais suportável e produtivo, vou dividir as atividades em duas metades. Na primeira parte, eu falo um monte, apresento o conteúdo e discutimos. Na segunda, começamos a fazer exercícios da semana de forma colaborativa. Sugiro que aproveitem para dar uma boa olhada nas questões e tirar dúvidas presencialmente.
Gosto de coisas simples e diretas. Para cada semana de aulas, vocês vão receber uma série de exercícios. Cada um deles vale 100 pontos. Ao fim da disciplina, vou calcular a média dessas notas, que vai ser a pontuação final.
Algumas das aulas vão ter duas opções de conjuntos de exercícios: a “confortável” e a “desafiadora”.
Ambos vão trabalhar os mesmos conceitos jornalísticos, mas o primeiro pode ser feito com ferramentas mais simples, enquanto o segundo vai exigir algumas técnicas mais avançadas e apresentar conceitos de programação.
Você pode escolher qual conjunto de exercícios vai responder, mas seria muito bom se tentasse fazer os dois. As questões desafiadoras sempre serão acompanhas de um passo-a-passo detalhado. O importante é ter contato com as técnicas e não necessariamente domina-las.
Caso escolha fazer as duas atividades (faça isso, vai ser legal!), na hora de calcular a média vou considerar apenas aquela em que você for melhor. Além disso, você vai ganhar um bônus de nota para cada atividade desafiadora que completar.
Além deste site, que contém uma descrição geral do curso e links para os exercícios de cada semana, temos também uma newsletter. Ela vai ser usada para mandar lembretes sobre deadlines da semana e, eventualmente, para compartilhar boas reportagens e infográficos.
É importante que você assine e acompanhe. Certifique-se de que os e-mails não vão cair no filtro de spam.
O curso não deve ser muito apavorante, mas com as dicas abaixo deve ficar ainda mais fácil. Nada do que listo nessa sessão é obrigatório. São apenas sugestões que devem tornar o conteúdo de aula mais proveitoso.
Como já disse, um dos meus objetivos, embora não seja o principal, é apresentar jornalistas ao universo da programação. Não quero transformar ninguém em programador, e na verdade aprender código nem é requisito para passar. A ideia é, justamente, apresentar e desfazer medos.
Entretanto, se você está entusiasmo para virar um jorna-hacker (ou se quer apenas fazer os exercícios desafiadores com facilidade), recomendo que faça o curso Python’s not (just) for unicorns.
O material foi elaborado por Jonathan Soma, o professor que me fez virar um programador de verdade e cujo método de ensino eu tento imitar.
Ele vai apresentar de forma super didática conceitos básicos de programação em Python. São coisas que eu não vou conseguir detalhar em aula, mas que vão facilitar demais a vida de quem quer se aventurar na área. Me procure se quiser ajuda com alguma coisa que ver por ali e podemos resolver juntos.
Fazer bom jornalismo de dados é, na maioria das vezes, adaptar as ideias dos veículos mais criativas e competentes da área. Assim, nem preciso dizer que é muito importante acompanhar boas referências.
Eu consumo diariamente o trabalho dos departamentos gráficos de pesos-pesados como New York Times, Washignton Post, The Guardian, La Nación e Reuters. Entretanto, meu site favorito se chama The Pudding. Sugiro ler estes, mas o mais legal é montar um cardápio com conteúdos que você goste e admire.
De início, vou apresentar a dinâmica da disciplina, o sistema de avaliação e todas as formalidades que se costuma esperar de uma primeira aula.
Em seguida, vamos falar da história do jornalismo de dados: pensamos nesse gênero como algo super moderno, mas há pesquisadores que vêm elementos da prática já no século XVI – como chegamos de lá até aqui, e o que mudou no processo?
Para terminar, serão apresentados conceitos matemáticos simples que fazem toda a diferença na hora de trabalhar com números em uma matéria. A ideia é se familiarizar e ficar confortável com taxas, variações e comparações entre grandezas. Não é nada de outro mundo, mas necessário para avançar para partes mais técnicas da disciplina.
Introduction - The Data Journalism Handbook
Capítulo introdutório de um dos primeiros manuais de jornalismo de dados do mundo. Repórteres de grandes veículos trazem definições e explicações didáticos sobre esse tipo de trabalho, que na época ainda era uma grande novidade.
Adrian Holovaty - A fundamental way newspaper sites need to change
Texto já bastante antigo, mas seminal. Holovaty defende que jornalistas precisam enxergar o conteúdo que produzem como dados estruturados, não apenas como uma narrativa pontual, com prazo de validade. Assim, seria possível construir um outro tipo de conhecimento, capaz de transcender os limites do que ele chama de “formato de história” – o infame textão.
The Guardian - Analysing data is the future for journalists, says Tim Berners-Lee
Tim Berners-Lee é ninguém menos que o inventor da internet moderna (ou do hipertexto, para usar um jargão). Ele acha que o ambiente digital é um espaço cheio de histórias, assim como uma rua, um bar ou uma praça no ambiente “real”, físico. Para achar essas histórias, porém, o jornalista contemporâneo precisa desenvolver uma nova competência: lidar com dados.
Agência Lupa - Como mentir com estatísticas: um kit de sobrevivência para as eleições
Math basics for journalists: Working with averages and percentages
Alexander Howard - The Art and Science of Data Driven Journalism
São aproximadamente 100 páginas de reflexões sobre a prática do jornalismo guiado por dados. Quase tudo que cobrimos nas próximas aulas tem um capítulo na obra. A melhor parte, acho eu, é o capítulo três: “Why Data Journalism Matters”.
Sarah Cohen - Numbers in The Newsroom
É um bom livro para consultas. Mais do que ler inteiro numa sentada, vale ter esse PDF salvo para consultar sempre que puder.
Você vai resolver uma série de exercícios que trabalha conceitos básicos de compreensão numérica. São perguntas sobre taxas, percentuais, variação ao longo do tempo, comparação de grandezas, correlação, causalidade e coisas do gênero.
É nessa aula que começamos a sujar as mãos de verdade. De início, vamos falar sobre os conceitos de open data e open data journalism. Depois, olharemos para marcos históricos na política de dados abertos brasileira, com ênfase na Lei de Acesso à Informação, comparando-a com outros países. Em seguida, vamos visitar as principais fontes públicas de dados que podem ser úteis para reportagens, escolher uma delas e explora-la juntos.
The Guardian - Big data and open data: what’s what and why does it matter?
Joshua Tauberer - A Brief Legal History of Open Government Data
Aqui, começa o esquema de “dois caminhos” para cada uma das tarefas, do qual falei no começo do documento. Você pode escolher qualquer um dos conjuntos de exercícios. Será ótimo se você puder tentar fazer os dois, mesmo que parcialmente – ou, ao menos, dar uma olhada no segundo conjunto. Entretanto, sei que a vida é corrida e super entendo se conseguir fazer apenas um.
Conjunto de exercícios 2.1: confortável
Você vai precisar acessar dados em portais de dados abertos, baixá-los, limpá-los e analisá-los usando Excel ou Google Sheets. As perguntas vão ser tanto específicas (“quanto o PIB brasileiro cresceu entre 2009 e 2014, de acordo com o IBGE?”) ou abertas (“escreva um lead interessante com os dados que analisou”).
Conjunto de exercícios 2.2: desafiador
Nesse conjunto, vamos fazer duas coisas: analisar bases de dados maiores, daquelas que o Excel não dá conta, e apresentar o conceito de APIs. Para isso, vamos começar a brincar com as linguagens Python e SQL. Não entre em pânico ainda: tentei ser o mais didático possível no material, apresentando os conceitos passo a passo, desde a instalação dos programas até a execução do código. Meu objetivo não é transformar ninguém em programador (temos aulas de menos para isso), mas mostrar o caminho para quem quiser ir atrás dessas competências por conta própria.
Bases de dados governamentais têm seus problemas, mas no geral são bastante limpas e completas. Entretanto, muitas vezes elas são insuficientes para dar conta de uma apuração. Pode ser também que você queira explorar um tema no qual a oferta de dados abertos é limitada.
Isso não é motivo para abandonar a pauta: a vida pode ficar um pouco mais complicada, mas é possível organizar os dados de lugares onde a informação não está tão aberta ou estruturada. Nessa aula, vamos aprender a lidar com tabelas em formato PDF e a “raspar” dados de páginas que não oferecem opção de download.
Escola de Dados - Ferramentas simples e gratuitas de raspagem
Escola de Dados - Guia Quartz Para Limpeza de Dados
O link acima é uma tradução e adaptação deste:
Mais dois conjuntos de exercícios, no mesmo esquema de “confortável” e “desafiador”. Ambos lidam com a coleta de informação não estruturada. O primeiro usa apenas ferramentas “prontas” para extrair dados. O segundo mostra como raspar dados usando Python. De novo, não se assuste! Vamos passo por passo.
Conjunto de exercícios 3.1: confortável
Vamos praticar a transformação de PDFs em planilhas usando o Tabula, extrair dados de sites sem opção de download com extensões de raspagem de dados para o Chrome, nos conectar com tabelas em HTML usando o Google Sheets e automatizar a coleta de tweets usando o IFTTT.
Conjunto de exercícios 3.2: desafiador
Com as ferramentas do conjunto de exercícios 3.1 dá pra fazer muita coisa, mas com o que temos aqui dá pra fazer muito mais. Vamos transformar documentos escaneados em algo mais ou menos aberto, automatizar a raspagem de várias páginas de tabelas e transformar o Google Chrome em um robô.
A essa altura do campeonato, já sabemos coletar dados e fizemos algumas perguntas para eles. Provavelmente já descobrimos uma história legal. Mas como comunicar ela da maneira mais efetiva? Nessa aula, vamos analisar bons exemplos de narrativa e aprender as técnicas por trás delas. Além disso, vamos estudar os princípios da comunicação efetiva com gráficos e tabelas.
The Data Visualization Catalogue
Ferramenta útil para selecionar o tipo de gráfico mais adequado a um tipo de dados.
Towards Data Science - Why visual literacy is essential to good data visualization
O melhor desse texto é o argumento que ele faz em defesa de visualizações bonitas, mesmo que mais imprecisas. É polêmico, mas a provocação vale a pena.
Alberto Cairo - Reflections on the Challenges and Pitfalls of Evidence-Driven Visual Communication
Artigo um pouco longo, mas que explica como gráficos e visualizaçõe de dados podem ser usados para difundir mensagens enganosas. É bom ler para não ser ludibriado e também para não cometer erros parecidos sem querer.
Sim, os dois livros abaixos são pagos e não são fáceis de encontrar de graça por aí. Entretanto, são leituras praticamente definitivas sobre visualização de dados e jornalismo gráfico. Recomendo demais comprar uma cópia, ainda que seja caro.
Alberto Cairo - The Functional Art
A função da infografia é informar, não apenas ilustrar. A partir desse princípio básico, Alberto Cairo reflete sobre e ensina como fazer narrativas gráficas efetivas. Ele é um entusiasta da comunicação visual e vai fundo na defesa dela, trazendo desde conceitos de neurologia até design da informação
Alberto Cairo - The Truthful Art
Praticamente uma sequência do livro anterior, mas dedicada exclusivamente à visualização gráfica de informações quantitativas - ou seja, às visualizações de dados que queremos aprender a fazer bem nessa aula. O capítulo sobre análise exploratória é ótimo.
Esse é um exercício mais aberto do que os anteriores, sem a divisão entre “confortável” e “desafiador”. Escolha uma base de dados, ache uma história e elabore a narrativa que achar mais adequada. Vou dar atenção especial para os elementos gráficos, conforme os parâmetros e boas práticas vistos em aula. Idealmente, você vai bolar uma peça jornalística que vai além do “textão”.
Os links abaixo vão mostrar ferramentas úteis para elaborar boas visualizações de dados e, por tabela, para fazer o exercício da semana.
Até aqui, usamos números para encontrar notícias e produzir reportagens. Entretanto, esse não é o único uso que dados podem ter no jornalismo. Na era digital, tudo são dados – até o comportamento dos usuários de um site. Nessa aula, vamos ver como as técnicas que aprendemos anteriormente podem ser usadas para analisar métricas e planejar decisões editoriais e de negócios.
-Usando métricas para melhorar o jornalismo
The New York Times - Metrics Are Everywhere in Media. Here’s How They Help.
Descrição breve, em forma de reportagem, de como funciona o departamento de métricas do New York Times.
Current.org - To build and engage your audience, consider these core metrics for measuring success
Discute quais métricas são úteis para mensurar engajamento e fidelidade, não apenas simplesmente contar cliques e comentários. Texto útil para pensar quais são os objetivos do analytics aplicado ao jornalismo, especialmente agora que as empresas deixam de focar simplesmente em escala para se preocupar com a construção de um público leal e cativo disposto a pagar por assinaturas.
Sem exercícios nessa semana. Aproveite para se dedicar ao material que você começou a produzir no encontro anterior.
Na última aula desse primeiro módulo, vamos olhar para os principais exemplos de jornalismo de dados no mundo. O que coloca essas publicações na vanguarda? Que tipo de tecnologia elas usam? Como organizam suas redações e seu fluxo de trabalho? Também vamos entender os conceitos de “jornalismo computacional” e “reportagem sobre algoritmos”, que levam a ideia de trabalho com dados e código a um lugar completamente novo.
Data Journalism Awards - This is what the best of data journalism looks like
Uma das organizadoras da maior premiação de jornalismo de dados do mundo comenta os trabalhos que achou mais interessantes. Além de ler o texto, vale a pena visitar os links e ver o que as melhores redações do muito têm feito.
Columbia Journalism Review - Boosting local news with data journalism and automation
Matéria sobre uma empresa chamada RADAR, do Reino Unido, que vende matérias geradas por inteligência artificial e dados para veículos locais. É interessante para pensar sobre automatização de processos jornalísticos e o impacto (positivo e negativo) que isso pode ter no mercado de mídia.
Columbia Journalism Review - Investigating the algorithms that govern our lives
O texto apresenta o conceito e a importância do “algorithmic reporting” – ou seja, o que significa e como fazer para cobrir códigos proprietários, como aquele que gera linha do tempo do Facebook ou o que calcula o preço de uma corrida de Uber. De novo, vale navegar pelos links citados para ver como repórteres têm tentado decifrar essas caixas pretas que têm tanto impacto em nossas vidas.
Natália Mazotte - As novas fronteiras do jornalismo de dados no Brasil
Texto breve, publicado no final de 2016, que elenca boas práticas e desafios para o jornalismo de dados no Brasil. Avançamos bastante desde lá, mas os problemas seguem, no geral, os mesmos.
Nieman Lab - How the Argentinian daily La Nación became a data journalism powerhouse
Reportagem sobre o time de dados do jornal argentino La Nación, que é tem uma das melhores (a melhor, provavelmente) equipes de jornalismo de dados da América Latina. Como eles se organizaram institucionalmente, que tipo de competências procuram nos membros do time, como estimulam a curiosidade por esse tipo de trabalho nos outros repórteres?
Folha de S.Paulo - Estudo indica alta chance de fraude em mil provas do Enem
Exemplo brasileiro de investigação usando dados. O repórter, programador e biólogo (!) Daniel Mariani usou técnicas estatísticas para denunciar uma possível fraude no ENEM. Ele detectou provas com padrões de resposta improvavelmente similares, o que dá indícios da existência de um esquema de cola sistemática.
Estadão - Como votou sua vizinhança? Explore o mapa mais detalhado das eleições
Auto-promoção desavergonhada, mas vamos lá: nessa matéria, minha equipe no Estadão cruzou dados de diferentes fontes e usou um algoritmo da geometria para estimar como votou cada vizinhança do Brasil e quais são suas características demográficas.
Nikki Usher - Interactive Journalism: hackers, data and code
Outro livro que é difícil de achar, mas que vale a pena ter. Nikki Usher é uma pesquisadora da Universidade de Illinois que tem feito um tipo de estudo de que eu gosto muito: observação participante em redações, flertando com técnicas da etnografia. Dessa vez, ela visitou jornais de vários países para descobrir como as equipes de “jornalismo interativo” trabalham. Ela constrói conceitos interessantes e oferece uma visão bastante ampla das rotinas produtivas, competências mobilizadas e pressões a que essa vanguarda do jornalismo digital está sujeita.
Sem exercícios de novo, mas com uma tarefa simples: selecionar dois ou três links de trabalhos de dados que você achou legais e explique o que eles têm de especial. Coisa curta, não mais de um parágrafo para cada.
A carga horária do curso exige também que eu oferça duas aulas completamente virtuais. Abaixo, você encontra a solução para os exercícios do curso, que certamente tomariam todo o tempo do mundo para fazer presencialmente.