capas da FSP, just for fun

26 de julho de 2011

Ontem eu por acaso caí num link "the nytimes they are a-changin'" pra um site de um cara que tinha feito um timelapse com as páginas iniciais do site do New York Times durante pouco menos que um ano, foi através de um twit do news.ycombinator. O propósito meio Bob Dylan do cara foi interessante, ter uma idéia do que aconteceu recentemente, e ele até foi reclamar que ninguém arquiva páginas iniciais assim com propósitos realmente jornalísticos (como jornais de verdade fazem).

Mas aí eu lembrei que em 2006, praticamente 5 anos atrás, eu tinha feito um shell one-liner pra pegar todas as capas da Folha de S. Paulo desde sei lá quando. Toin! Eu podia fazer a mesma coisa que o cara, e com mais dados! Afinal agora eu tinha uma década inteira pra uma timelapse, não menos que um ano... pfft! Dei uma sacudida na poeira do script, deixei rodando e minutos depois tinham mais de 4 mil capas do jornal de maior circulação no Brasil. Todos anos de 2000 a 2010, 365 capas. Incluindo anos bi-sextos. Cerca de 500mb de imagens.

Confira o vídeo com as capas entre 2000 e 2010, primeira década dos anos 2000 :-)

Clique aqui e veja a galeria de capas da Folha de S. Paulo, de 1999 até 2011, mais do que no vídeo.

Mas seu tucano! FSP é de direita! Zzzzzzzz... peguei as capas da FSP simplesmente porque eles se deram ao trabalho de gerar fac similes delas e botar online abertamente, se você souber outros jornais ou revistas que façam isso também me conte quais são e eu faço timelapses deles também ora bolas. Espero não ver reclamações por ser um jornal que cobre basicamente o estado de SP também.

A parte nerd não é muito diferente do cara do New York Times, um script que baixa todas as imagens, uns comandos pra juntar tudo num vídeo e pronto. No meu caso usei o one-liner que falei e tá linkado acima. Depois precisei só renomear as imagens pra facilitar manipulação: elas se chamam cpDDMMYYYY.jpg e eu queria algo mais próximo do formato ISO pra ajudar até em ordenação, YYYYMMDD.jpg.

Com as imagens renomeadas só precisei juntar tudo com o convert do pacote do ImageMagick: convert -delay 5 *.jpg fsp.mjpg. A opção de delay do convert é pra esperar 5 ticks pra exibir o próximo frame, ou seja, a próxima capa. Qualquer valor abaixo disso complica entender algo do vídeo, que com 5 ticks já fica ultra rápido. Usei MPEG por motivos óbvios, são JPEG animados, por isso. Não sei se era bug do ImageMagick ou se minha máquina é ruim (duvido), mas processar as 4 mil capas de uma vez travava, se existia algum erro nas imagens dava problema e você não sabia até se passarem 30 minutos e notar algo errado; a saber, cada ano era transformado em vídeo em cerca de 20 segundos aqui. Você vai acabar precisando ter o ffmpeg instalado já que o convert delega a criação efetiva do vídeo a ele. Claro, você pode usar o ffmpeg direto como o cara do NYT, mas eu queria usar explicitamente a opção de delay e não sabia como ela era no ffmpeg. A imagem deve estar bem ruim no vídeo pela cambada de coisas que usei, sinto muito, mas é um hack mesmo: jpeg + convert + ffmpeg + imovie + youtube

Depois de tudo pronto mandei o mjpg pro iMovie, fiz cropping pra pegar só o topo com manchetes e botei a trilha sonora, que deu trabalho pra ser escolhida porque eu queria uma duração e sincronia quase perfeita entre o início e fim dela com o início e fim das imagens em timelapse. As galerias fim usando o igal 2 com -w 25 -r pra ficar bem largo e sem efeito de filme. Acho que deu tudo certo apesar da xunxerice :-)

Sobre as capas, claro! Se você contar 365 dias por ano, vai perceber que 4 mil capas não bate. Eu preferi pegar todas as capas do primeiro ao último dia de cada ano, de 2000 até 2010. Ou seja, todas as capas de 2010 estão no vídeo, mas a rigor não são mais da primeira década. Eu gosto de pensar que 2010-2000 é igual a 10 em anos de calendário. Se você olhar na galeria, as capas entre 1999-2001 em geral são bem ruins, se bobear até em anos seguintes, algumas tem manchas e mesmo faixas horizontais bizarras. Não é erro de processamento, elas são assim mesmo. Eu pensava que os fac similes eram digitais, mas aparentemente são fac similes puros mesmo, escaneadas e tudo, então se deu erro na hora de escanear já era.

E agora? Bom, eu comecei a navegar pelas capas e já pensei em várias coisas. Achei engraçado ler notícias antigas que eu pensava terem sido tratadas de um jeito mas foram noticiadas de outro. Um uso direto pra essa galeria seria transcrever todas as manchetes e montar um corpus simples de manchetes da FSP da primeira década dos anos 2000 e fazer experimentos com NLTK. Fazer sentiment analysis seria incrível. Não sei se o conteúdo com manchetes de todas essas FSP estão abertas online, suponho que só pra assinantes, então transcrever deve ser até mais prático (!).

Aposto que saem umas análises interessantes daí, especialmente por terem coberto, nesse período: o governo de 3 presidentes (um intelectual, um operário e uma mulher, bastante conteúdo político pra analisar), queda do WTC, guerras mil, fim do Saddam, diversas eleições locais, recessões ao redor do mundo, busca por terroristas e morte do Osama, 3 copas do mundo, outras tantas Olimpíadas e por aí vai. Muita coisa interessante! O mundo e o Brasil mudaram absurdamente nessa primeira década, boa parte de tudo o que aconteceu tá nessas manchetes do vídeo.

Claro, o número de escândalos de corrupção foi ignorado por falta de recursos pra contagem.

Problemas conhecidos: as capas de 1999 e 2011 estão incompletas e com possíveis problemas. Algumas capas de 1999 não são de 1999 (pelo menos a primeira estava errada, não conferi todas). Tem um fac simile corrompido em 2006 que tive que recortar manualmente. As capas de 2011 estão incompletas, bem... porque 2011 não terminou ainda, talvez. Se encontrar links quebrados ou capas em lugares errados me avise! E um bug curioso já conhecido mas que tá fora do meu controle, infelizmente... a FSP tem todas as capas online, MENOS UMA: sabe dizer qual? Valendo um almoço grátis.

Nota legal breve: eu não tenho nenhum tipo de relação profissional ou simpatia política com a Folha de S. Paulo, fiz isso simplesmente porque todas as capas estavam disponíveis para acesso livre nos servidores da FSP (porém não indexadas e organizadas) e porque achei que seria interessante tanto jornalisticamente quanto linguisticamente. O copyright de qualquer coisa que seja é da FSP, considere isso somente um "remix" ou algo do gênero.

Bom, fim. Nada mal pra 24h de brincadeira, acho que passei mais tempo descobrindo como colocar botõeszinhos sociais na galeria e fazendo uploads do que realmente fazendo a coisa em si :-)

© caio1982