Duas formas de extrair dados estruturados de um site

Muitas vezes encontramos páginas com informações que queremos exportar, rastrear e monitorar de alguma forma. Quando existe um canal RSS com as atualizações destes dados, é simples tê-los sob controle com um leitor como Feedly, TheOldReader ou qualquer das muitas alternativas existentes na web, porém, caso contrário, temos que inventar alguma forma de seguir as atualizações sem necessidade de estar constantemente atualizando a página.

Hoje apresento duas opções, uma extremamente flexível e mais complexa, a outra simples e básica:

Feed43

feed

Essa opção pouco veio mudando com o tempo, embora continue sendo tão efetiva como sempre.

Se trata de uma ferramenta na qual para mostrar a estrutura HTML de qualquer página é preciso indicar o padrão que deve seguir para sermos avisados das atualizações. Se o conteúdo que queremos rastrear tiver uma tag HTML específica ou mantém uma estrutura no código que geralmente é repetida, Feed43 conseguirá criar um Feed, um endereço RSS, em qualquer página.

Os endereços criados podem ser atualizados a qualquer momento para se adaptar a uma possível atualização de código.

A vantagem é que é capaz de criar um feed de praticamente qualquer página web, a desvantagem é que para o fazer é preciso conhecer noções básicas de HTML.

convextra.com

convextra

Esta segunda opção é mais simples, não requer conhecimento de código e não cria um canal RSS, porém, permite enviar alertas quando há alteração de conteúdo que estamos rastreando.

Só temos que incluir um bookmarklet e clicá-lo quando estivermos com a página web aberta. Depois é só clicar no local onde queremos rastrear (o conteúdo de um blog, a lista de produtos de uma busca em uma loja, etc.) e selecionarmos a frequência de atualização dos alertas.

Convextra permite exportar o conteúdo em csv, ideal para usá-lo em algum sistema interno e analizá-lo com calma.