Como receber pelo email a atualização de qualquer página web

Postado em

Ainda que para a maioria de vocês o uso de RSS á tão comum como respirar, para a grande maioria do mundo é um grande desconhecido, usando ainda o velho sistema de newsletters ou do F5, o que é pior…

O que quero fazer com este artigo é mostrar uma técnica que faz bastante tempo que uso para obter atualizações de algumas páginas web sem necessidade de acessá-la, usando várias ferramentas que já comentei de forma independente aqui no wwwhatsnew.

O primeiro que vamos fazer é mostrar um problema, vendo uma possível solução logo depois.

Problema

Um grupo de advogados no Brasil tem que acessar cada dia à página do tribunal da Paraíba para ver se tem atualizações no Diário Oficial. Depois de entrar na página se faz uma busca pelo número de processo, cliente ou palavra e se gera uma lista de arquivos pdf com os dados buscados.

A página é www.tjpb.jus.br. Ao realizar a busca obtemos a url personalizada com o termo buscado:

[…] servicos/diario_justica?p_busca=2008 […]

Já temos a url que queremos checar automaticamente, agora temos que buscar uma forma de obter atualizações e enviá-las pelo email (imaginemos que os advogados não sabem anda de RSS).

Solução

Usando o serviço oferecido pelo Feed43, vamos a configurá-lo para gerar um endereço RSS com as atualizações da página. Depois usaremos outro serviço para enviar o rss pelo email.

A primeira coisa a fazer pe encontrar uma repetição no código fonte da página buscada para que Feed43 possa detectar novos registros. Se buscamos no HTML gerado pela busca, vemos que os pdfs se guardam numa tabela com a seguinte estrutura:

Agora temos que configurar os dados:

Passo 1: indicar a url que queremos checar.
Passo 2: Indicar a origem e final do código fonte que deve ser revisado e determinar os elementos repetidos:

O símbolo {%} o usamos para indicar que é código que queremos recuperar e o símbolo {*} para indicar que é código que queremos ignorar.

Depois disso teremos que criar o feed RSS com os dados extraídos. Cada vez que usemos o {%} fará referência a um dado, de forma que podemos construir um feed da seguinte forma:

Com isso teremos um endereço com o título (data) do processo e o link para o pdf do diário oficial.

Já temos o feed, agora apenas temos que encontrar uma forma para que seja enviada pelo email cada atualização. Para isso podemos usar o feedmyinbox.com, que solicita o rss e o endereço de email.

Espero que tenha sido útil. O Feed43 requer um pouco de prática, mas é mão na roda.