Um grupo de defensores da divulgação organizada de dados públicos se reuniu e criou a lista que segue, chamada em inglês de Open Government Data Principles.
Segundo eles, dados do governo só podem ser considerados abertos se forem liberados publicamente de acordo com os princípios abaixo. (Mantive os links para os verbetes originais em inglês).
Completos Todos os dados públicos estão disponíveis. Um dado público é o dado que não está sujeito a limitações válidas de privacidade, segurança ou privilégios de acesso.
Primários Os dados são como os coletados na fonte, com o maior nível possível de granularidade e sem agregação ou modificação.
Atuais Os dados são colocados à disposição tão rapidamente quanto necessário para preservar o seu valor.
Acessíveis Os dados estão disponíveis para a o maior escopo possível de usuários e para o maior escopo possível de finalidades.
Processáveis por máquinas Os dados são razoavelmente estruturados para permitir processamento automatizado.
Não-discriminatórios Os dados estão disponíveis para todos, sem necessidade de cadastro.
Não-proprietários O dados estão disponíveis em um formato sobre o qual nenhuma entidade tem controle exclusivo.
Livres de licenças Os dados não estão sujeitos a nenhuma regulação de direitos autorais, patentes, propriedade intelectual ou segredo industrial. Restrições sensatas relacionadas à privacidade, segurança e privilégios de acesso podem ser permitidas.
A observância aos princípios deve ser revisável (veja item 3 abaixo).
Definições
O significado de “público” :Estes princípios não tratam sobre que dados devem ser públicos e abertos. Privacidade, segurança e outras preocupações podem impedir legalmente (e com razão) que conjuntos de dados sejam compartilhados com o público. Por isso, os princípios especificam apenas as condições que os dados públicos devem atender para serem considerados “abertos”.
O significado de “dados”:Informações ou gravações armazenadas eletronicamente. Exemplos incluem documentos, bases de dados de contratos, transcrições de audiências e gravações audio/visuais de eventos.Embora fontes informativas não eletrônicas, como artefatos físicos, não sejam objeto destes princípios, encoraja-se que elas sejam convertidas para formatos eletrônicos na medida do possível.
O significado de “revisável”:Alguém deve ser designado como contato para responder a pessoas que tentarem utilizar os dados.A pessoa de contato deve estar claramente designada para que possa responder a reclamações sobre violações dos princípios.
Uma corte administrativa ou judicial deve ter a jurisdição para revisar se a agência aplicou estes princípios apropriadamente.
* * *
E o que isso tem a ver com o Brasil?
Toda entidade pública que gera dados de interesse público deveria liberá-los seguindo os princípios acima. Simples assim. Não importa de onde elas são.
O exemplo mais gritante é o de dados que são acessíveis apenas pelo browser, como a lista de devedores do INSS, que viola claramente o princípio 5 (dados devem ser processáveis por máquinas).
O que os desafios dos posts anteriores incentivam é a aplicação na marra destes princípios aos dados públicos brasileiros.
INSTITUTO DE PREVIDENCIA DO ESTADO DO RIO GRA
300.026.754,78
TELESP - TELECOMUNICACOES DE SAO PAULO S/A
299.645.695,76
Voltando ao assunto, queremos juntar A+B.
Objetivo - Cruzar a lista de senadores com a de devedores e descobrir:
a) Se existem senadores caloteiros,
b) Se existirem, quem são eles
c) Quanto devem nossos ilustres representantes
Quem conseguir nos responder a, b e c completa o desafio. Não custa lembrar que a única condição é que você libere todo o código e explique como fez, para que outras pessoas também consigam reproduzir o seu resultado e aprender com ele. De preferência, use algumrepositóriopúblicode código. Dúvidas: @pedrovalente e @fangelico.
Objetivos secundários
Bônus 2 - Será agraciado com nossa eterna gratidão o desenvolvedor que conseguir extrair a TODA a base de devedores do INSS, incluindo valores devidos (os detalhes que aparecem quando se clica no nome). Aceitamos CSV, dump de SQL, JSON ou qualquer formato razoavelmente reaproveitável. A base é atualizada a cada 3 meses, então devemos poder rodar a coleta novamente quando isso ocorrer. Se não tiver onde hospedar, mande para mim, no endereço pedro.valente no gmail.
Bônus 3 - A medalha de honra por serviços prestados à sociedade vai para quem, com a base acima em mãos, criar uma API pública para consulta desses dados. Algo como um serviço rodando no Google App Engine ou em algum servidor caridoso.
Bônus 4 - Encontrar os CPFs dos deputados federais e rodar o cruzamento do calote com eles.
Qualquer um pode participar. Até agora todo mundo usou Python, mas você pode usar a linguagem de programação de que mais gosta, sem problema.
Atualizarei o post com novidades. Usem os comentários para colaborar ou discutir e bom passatempo.
Atualização de 13 de abril
Como disse nos comentários, o Felipe Zorzo mandou uma solução para o desafio, na qual não encontrou-se nenhum senador devedor do INSS.
Aqui vai mais uma lista fornecida pelo Fabiano Angélico, com CPF de 2.224 parlamentares (deputados federais, vereadores das capitais e deputados estaduais). Alguém se habilita a passá-la pela checagem e ver quem sai limpo do outro lado?
Sugiro também uma implementação bem simples e reutilizável, algo assim:
>>> import inss
# Caso não haja dívida:
>>> inss.divida('999.999.999-99')
None
# E se houver dívida:
>>> inss.divida('111.111.111-11')
[{'descricao':'Divida 1', 'valor': 5000000, 'data': 'xx-xx-xxxx'},
{'descricao':'Divida 2', 'valor': 1000000, 'data': 'xx-xx-xxxx'}]
A maioria dos programadores que conheço curtem passar o tempo livre resolvendo desafios, então eu gostaria de propor um para quem se interessar.
É um desafio diferente, a complexidade não é a mesma dos problemas matemáticos e quebra-cabeças lógicos, mas não deixa de ser bem interessante.
O problema
1. Existe uma “lista negra” de empresas queimadas na praça. São as chamadas “inidôneas” e “suspensas”.
O Cadastro Nacional de Empresas Inidôneas e Suspensas (CEIS) é um banco de informações mantido pela Controladoria-Geral da União que tem como objetivo consolidar a relação das empresas que sofreram sanções pelos órgãos e entidades da Administração Pública das diversas esferas federativas.
Pra facilitar, já exportamos os dois bancos no formato CSV. Baixe-os aqui.
2. Existe um formulário do TSE na web que permite consultar se uma determinada empresa foi doadora de campanha para algum candidato. Ele traz também os detalhes dessa doação, e principalmente para quem foi o dinheiro.
Queremos encontrar a intersecção entre esses dois mundos, que nos traria um resultado muito revelador: quem são os políticos que recebem dinheiro de empresas inidôneas. A idéia é usar o CNPJ das listas na busca do TSE para descobrir se há conexões e quais são os seus detalhes.
A solução
Está dada a largada. Quem quiser debater o problema ou mandar tudo resolvido pode usar os comentários deste post. Você também pode perguntar no Twitter pra mim (@pedrovalente) ou para o Fabiano Angélico (@fangelico), da Transparência Brasil. Foi ele quem me propôs o desafio, que resolvi compartilhar com quem quiser ajudar.
Só existe uma condição para participar, que você libere todo o código e explique como fez, para que outras pessoas também consigam reproduzir o seu resultado e aprender com ele.
O prêmio é apenas o reconhecimento público de um trabalho bem feito, e a satisfação de ter gasto seu tempo livre com um desafio que realmente pode ter algum impacto na vida real.
Se esta experiência der certo e alguém responder, quem sabe pode ser o início de uma série de cooperações independentes entre jornalistas e programadores na busca de menos sacanagem com o dinheiro público.
Atualização de domingo à noite (15/3):
Parece que já temos a resolução do problema. O Marcos Vinícius da Silva, de Ribeirão Preto, foi o primeiro a mandar uma solução que consegui rodar tranquilamente e pareceu funcionar direitinho. Com a palavra, o próprio Marcos:
Estou te mandando os fontes do que fiz até agora para o desafio.
Os fontes que estou te mandando assumem o Python instalado (o meu aqui é o 2.5.2), e que os arquivos Inidoneas.csv e Suspensas.csv estejam no mesmo diretorio dos fontes.
O programa irá gerar os arquivos saida_Suspensos.csv e saida_Inidoneos.csv, na mesma ordem que aparecem nos resultados das pesquisas realizadas no site.
Para executar o programa, basta chamar “python pesquisar.py”. Eu testei no Linux (Ubuntu), mas creio que funcione no windows também, pois não utilizei nenhum recurso fora do que o Python oferece.
Não posso deixar de agradecer também o Julio Biason, por ter liberado seu código inicial e aos outros que tentaram resolver. Acabo de dar uma olhada (23h) no repositório compartilhado pelo Julio e parece que ele está bem perto de um resultado. Aguardo seu relato para publicar aqui.
Fiquem à vontade pra comentar sobre as soluções e ajudar a melhorá-las, se necessário.
Agora é digerir esses dados e tentar interpretar o que eles significam. Já vi alguns nomes bem interessantes ali dentro…
“Na natureza nada se cria, nada se perde, tudo se transforma” Lavoisier
Um post recente do @jasper tocou neste assunto, que considero essencial pra evolução da web, e por isso deveria ser tratado com mais esmero do que tem sido por quem mexe com redes sociais: a reciclagem de informação.
No modelo atual de blogs, a informação está em um lugar fixo, o Blog, e os usuários pulam de site em site deixando comentários. No modelo da reciclagem de informação, o fragmento de conteúdo, ou Meme, é o que se espalha de pessoa a pessoa, no “boca-a-boca”. Ele pode receber adendos ou comentários ao ser reproduzido e até ficar como a brincadeira de telefone sem fio, onde a última versão pode até não ter nada a ver com o original.
Isso tudo expõe o contraste entre o modelo antigo de “publicação+comentários” e o modelo emergente de rede social que incentiva a distribuição de Memes.
Correntes por email foram as primeiras manifestações desse tipo de transmissão viral de informação na era digital, onde a reprodução e multiplicação não têm mais custo.
Com o tempo, apesar das limitações das ferramentas, os usuários continuaram reproduzindo os outros, em qualquer plataforma que lhes fosse colocada à disposição. No exemplo mais recente, o Twitter, surgiu o Retweet. Milhões de blogs vivem de copiar e colar o que outros blogs copiaram de outros blogs, muitas vezes sem crédito. Tumblelogs têm botões de Reblog ou Repost. O Delicious tem a sua rede de conhecidos. O We Heart It é uma rede de distribuição de fotos baseada exclusivamente em “selos de aprovação”. O Google Reader tem o botão de ‘Share’ e ‘Share with comments’. E por aí vai.
A reciclagem de informação na internet não é novidade. Mas o apoio explícito de ferramentas a essa prática, dando condições pros usuários citarem e reproduzirem a produção dos outros com facilidade, é uma tendência que vai crescer bastante, sem dúvida.
É evidente que conteúdo Retuitado, Repostado ou Reblogado ganha em relevância. Recebe um selo de aprovação de quem o reproduz. É mais relevante ainda para mim se quem deu aval ao conteúdo está perto no meu grafo social.
Enfim, é uma área em que eu prestaria bastante atenção em 2009. Vão surgir mais e mais ecossistemas feitos especialmente para o nascimento, reprodução e evolução de Memes. Evolução no sentido Darwiniano mesmo, onde o mais apto sobrevive e as mutações oferecem novas chances de propagação. E estes ecossistemas vão receber organismos selvagens, vindos de toda a internet e também migrar suas crias para outros ambientes, se espalhando por aí.
No final de semana passado aconteceu o Yahoo! Open Hack Day em São Paulo. Participei junto com umas 200 outras pessoas que inventaram hacks divertidos por 36 horas seguidas sem dormir.
A idéia era fazer alguma mistura de serviços, um mashup para criar um negócio novo que fosse interessante. Uma das idéias que tive foi trazer respostas do Yahoo! Answers para quem perguntasse pelo Twitter. Conversando com a Roberta Zouain, descobri que ela também havia tido a mesma idéia, mas com uma diferença essencial, aproveitar as perguntas que muita gente já vinha fazendo, o infame “comofas/”.
Comofas/ é um jeito cool e moderninho e errado de propósito de escrever “como faz?”. É escrito tudo junto porque dá preguiça de apertar a barra de espaço entre as palavras e tem uma barra ao fim porque é o ponto de interrogação, mas sem o shift, que também dava muito trabalho manter pressionado ao digitar outra tecla.
A partir daí já tínhamos a idéia formada, um robô que lesse todos os comofas do Twitter e respondesse puxando do Yahoo! Respostas. Batizamos o monstrinho de “@fasassim“, (faz assim), uma resposta lógica à indagação também no dialeto tiopês.
Em seguida o incansável faixa-preta de Python Luiz Honda resolveu se juntar a nós para dar forma ao hack. Às 5 da manhã, depois de assistir Monty Python e o Cálice Sagrado e Homem de Ferro no telão, o @fasassim deu seus primeiros suspiros. E todo o sono que tínhamos acabou, de tanta risada que dávamos com as respostas devolvidas por este oráculo. Ali mesmo o pessoal que estava por perto no twitter também começou a consultá-lo, e logo outras pessoas que nos seguiam vinham perguntar por que diabos todo mundo só escrevia comofas? Faz 4 dias que ele está no ar e já tem 113 seguidores e 509 perguntas respondidas.
Ao final do evento apresentei algumas respostas dele para um auditório que gargalhava incontrolavelmente. Para entender o motivo, pergunte ao @fasassim “#comofas pra cortar cabelo num domingo?”. Não concorremos a nenhum prêmio, afinal somos de casa (pra quem não sabe, desde outubro trabalho no Yahoo!), mas foi tudo muito divertido.
Deixo como um exercício para o leitor garimpar boas respostas desse bot (siga em tempo real aqui e veja algumas aqui e aqui), mas fica o alerta para tomarem cuidado, ele pode soar desbocado, sem noção e um pouco tapado. Tal como um mestre Zen que usa parábolas aparentemente sem sentido para explicar um conceito mais profundo, @fasassim parece nonsense mas não é não. Afinal, soube responder corretamente a pergunta do título deste post: 42.
Um fenômeno bem interessante tem acontecido em várias conferências, principalmente as relacionadas com tecnologia, que têm maior número de pessoas conectadas: a crítica em tempo real aos palestrantes picaretas.
A autoridade de quem está no palco não é mais um fato indiscutível, é algo a ser conquistado slide a slide. Se o palestrante pisa na bola ou repete obviedades, a turma do fundão esculacha. É muito divertido ver isso acontecer, e hoje tenho acompanhado no twitter com a tag #nbc08. Por exemplo:
simviral #nbc08 já começo a ouvir resmungos e suspiros impacientes da platéia.
radfahrer #nbc08 entendi! Esses caras são a desculpa que a organização do evento precisa para descontar o evento do Imposto de Renda.
Além de usar tags no twitter, várias ferramentas permitem a criação dessas conversas paralelas, também conhecidas como “backchannels”. Praticamente todo “evento” que se preze tem algum tipo de ferramenta pra isso. Se não tem, os usuários inventam. Até o IRC serve.
Essa emergência do senso crítico coletivo em relação ao que é apresentado é uma mudança muito bem vinda na dinâmica sacal de powerpoints intermináveis. Pelo menos agora quem se incomoda tem companhia e pode fazer piada e se distrair com coisa melhor.
Por isso não se surpreenda se no próximo evento, quando você estiver quase pegando no sono, todo mundo com um laptop comece a dar risada ao mesmo tempo, sem ter nada a ver com a apresentação lá na frente.
Agora é esperar que os palestrantes mais espertos comecem a usar esses comentários pra melhorar suas apresentações e entender onde erraram para agradar a turma do fundão.
Encontrei o php desse gerador nos meus backups e resolvi colocá-lo de volta em funcionamento. Foi feito nos idos de 2003 pro falecido site do Homem Chavão por mim e pelo Zé Lacerda. Recarregue a página para gerar um novo logotipo
As cores e o “swoosh” são criados aleatoriamente. Os nomes das empresas são sorteados entre listas de prefixos e sufixos. Só as fontes originais é que eram um pouco melhores e não consegui recuperar, pelo backup ser ainda uma versão menos aprimorada da que foi ao ar.
Não sei se é verdade, mas já ouvi a história que tinha um cara levando a sério e usando esta ferramenta pra encontrar um nome para a sua empresa.
Um jeito menos chato de ver novos logotipos é abrir direto a imagem e ficar apertando F5.
O jornalista Marc Frons, “chief technology officer” de operações digitais do New York Times, responde a perguntas dos leitores. Entre outros assuntos, fala da integração entre os tecnólogos (technologists) e os jornalistas:
Shortly before I joined The Times, the print and digital sides of the newspaper decided to merge their operations — what we call “integration.” I’m sure there were many people who thought this was a terrible idea, that the ink-stained Luddites of the print newsroom (the Web stereotype) and the arrogant, illiterate Digerati (the print stereotype) would never find common ground.
We’ve certainly had our moments. But the truth is integration has been a huge success. I don’t think any of the things we have achieved over the past two years in terms of interactive journalism, technology or our business would have been possible without it.
There are many reasons for this, and a few key individuals who made it all work. But as someone who has long had a foot in both worlds, my perspective is we have succeeded largely because beneath the obvious cultural (and sartorial) differences, journalists and technologists are really kindred spirits. The best of them, anyway, are passionate about their calling (because it’s much more than just a job), are skeptical of conventional wisdom and focus groups, like to trust their instincts, yet pride themselves on their analytical abilities and their almost religious devotion to the facts. And for disciplines where teamwork is vitally important, they also tend to share an individualistic, sometimes anarchistic bent, which as a manager is either a constant source of aggravation or amusement, depending upon how much sleep I’ve had the night before. In the end, technologists and journalists like to get stuff done, which makes them ideally suited to one another.
The trouble is they view the world from opposite ends of the telescope. The instincts that serve you so well as a print journalist often don’t work online (and vice versa) because the rules of the mediums are so different. But once journalists and technologists start to breathe the same air, they begin to understand one another. While we still have some distance to travel, that has certainly been the case at The Times.
We’ve accelerated this process through some fairly unconventional means. Last year, we formed a new software group called Interactive News Technologies, a team of journalistically minded techies (led by a technically minded journalist named Aron Pilhofer) who sit side by side with our editors, reporters and graphics journalists in the newsroom and produce Web applications at daily deadline speed. They have already been responsible for some terrific applications that use interactive databases that we wouldn’t have able to build as fast otherwise, or perhaps at all because we would not have had anyone focused on developing that technical capability.
While there will always be differences between journalists and technologists, I think we are in the midst of a vast generational shift. In the not-too-distant future, the majority of working journalists will be “digital natives” who cannot remember a world without the Internet, and who read most of their news online. That is bound to lead to some profound changes as this Facebook generation begins to assume leadership positions in newsrooms around the country. This next generation is going to have a much greater understanding of the possibilities and limitations of technology, as well as an innate sense of what works (and what doesn’t) online.
Em outra resposta, disse o que vem por aí:
In the next few months, we hope to announce more innovations in multimedia and data visualization as we link these platforms to our strategy around user generated content and APIs.
E também mostrou como o NYT entende e trabalha pra usar ao seu favor as mudanças causadas pela web no jornalismo, principalmente na questão bloco de texto vs. informação estruturada:
In the past, we treated all this structured information as plain text. So there was no way to search, sort and filter all this information or link it to anything else. There was no useful metadata (a term that basically means data about data), no “tags” or other information to help our online readers find all this rich information we were producing every day.
But for the past several months, we’ve been building systems to ensure that everything we produce is tagged at the outset so that it can be placed in a database where it can then be accessed by software developers using the APIs I talked about earlier. We’re doing this not just for structured data but for articles as well so that there will be much richer and more descriptive information about everything we’re ever written going all the way back to 1851.
We have many ideas around creating much richer and more collaborative Times Topics pages and more enhanced articles and multimedia in general. Much of this is necessarily vague because we’re not yet ready to talk about all the things we’re doing in this area. But part of the idea behind creating this vast database of articles and data, making it available, and then giving people the tools to manage it and recombine it with other information, is to tap into the incredible creativity made possible by the Web. We’re really not sure what applications our own developers, external developers and our readers will create using all this information — and to me, that’s the beauty of it.
Tenho falado aqui do livro “Here Comes Everybody”, do Clay Shirky. Desde 2005 ele vem discutindo as idéias do livro e resume quase tudo - com os mesmos exemplos - nesse vídeo:
Continuação do resumo das partes mais interessantes do livro “Here Comes Everybody”, do Clay Shirky. Leia a parte 1 aqui.
A facilidade extrema de publicação possibilitada pela internet transforma qualquer um em uma editora. De fato, quem escreve na internet tem o potencial de atingir qualquer pessoa no mundo todo. Mas Shirky alerta para um fenômeno que muitos estudiosos da comunicação online deixam passar: a maioria das pessoas que escreve em blogs, no twitter ou em redes sociais não está nem aí para o público global. O público delas é a roda de amigos.
Se você fuçar nos scraps das pessoas no Orkut vai encontrar um monte de piadas internas, referências a amigos mútuos e outras informações que só interessam ao pequeno círculo de envolvidos na conversa. É como entreouvir o papo de alguns adolescentes desconhecidos na praça de alimentação do shopping.
“A maioria do ‘conteúdo produzido pelo usuário‘ não é ‘conteúdo‘ coisa nenhuma, no sentido de haver sido criado para consumo geral. É como dizer que uma ligação telefônica entre você e um parente é ‘conteúdo produzido pela família‘”
A partir daí surge a distinção entre mídia de comunicação e mídia de difusão. A mídia de difusão, que inclui rádio, TV, jornais e filmes, é como um megafone, facilita a distribuição da mensagem para que todos a recebam. A mídia de comunicação, por outro lado, facilita a conversa de duas vias e tem como exemplos o telegrama, o telefone ou o fax.
A mídia de comunicação sempre foi entre um emissor e um receptor, no padrão um-para-um. Eu falo e você escuta, em seguida você fala e eu escuto. A difusão seguia o padrão de um-para-muitos, e os receptores não tinham como responder.
O padrão que não existia até pouco tempo atrás é o de muitos-para-muitos, e o e-mail foi a primeira ferramenta simples e verdadeiramente global a seguir este padrão.
Conforme a tecnologia evolui, as diferenças entre os padrões evaporam e áreas de transição entre eles surgem. Antes, o meio bastava para se determinar o conteúdo da mensagem. Ler “Eu te amo” em uma carta é bem diferente de ouvir “Eu te amo” na fala de uma personagem na televisão. A carta é o padrão um-para-um e a TV um-para-muitos. Não tem como confundi-los. Mas este limite tão claro acaba ficando nublado na internet.
“Antes da internet se tornar ‘mainstream’, um esforço considerável era necessário para dizer algo que fosse ouvido por um número significativo de pessoas, e por isso consideramos todo material disponível publicamente como material oferecido diretamente para nós. Agora que o custo de colocar coisas em uma mídia global desmoronou, muito do que é postado em um dia qualquer está em público mas não é para o público.”
Por enquanto é isso, mas o livro não acabou ainda. Acho que rende mais um post ou dois para breve.
Sou um jornalista programador que de vez em quando escreve alguma coisa a ver com esses assuntos ou qualquer coisa que interesse no momento. RSS dos posts RSS dos comentários