Como extrair tabelas em PDF e levá-las para o Excel


É muito comum recebermos um PDF com tabelas dentro, tabelas que você gostaria de enviar diretamente para o Excel sem ter que gravar os dados manualmente, perdendo um tempo enorme nesse processo.

Pois bem, felizmente, já existem várias formas de resolver o problema, e aqui estão algumas delas:

– Usando um OCR, um sistema de reconhecimento de caracteres, para extrair as informações do PDF e colocá-las em um documento diferente. Isso pode ser feito enviando o PDF para onlineocr.net, por exemplo. Só temos que indicar o idioma do arquivo original e o formato de destino desejado. Não é muito eficaz com tabelas, mas extrai os números ou textos dentro de cada célula, e claro que é sempre mais fácil copiar o conteúdo de um arquivo do que escrevê-lo manualmente.

– Verificando algumas das ferramentas ilovepdf. É uma plataforma online, com uma versão instalável, que permite transformar arquivos PDF. Uma delas muda de PDF para Excel, para que as tabelas fiquem perfeitas.

De todas as ferramentas de transformação de PDF para Excel, a do ILovePDF é uma das melhores, e a equipe está sempre trabalhando para melhorar suas funções.

– Usando o Excalibur, um aplicativo de código aberto que podemos instalar em nosso computador para que as tabelas sejam extraídas diretamente no Excel. O código do aplicativo está no github .

Existem ferramentas abertas (Tabula, pdf-table-extract) e código-fonte fechado (Smallpdf, Docparser) que são amplamente usados para extrair tabelas de dados de arquivos PDF. Nesse caso, Excalibur usa o Camelot, que é uma biblioteca Python criada para oferecer aos usuários controle completo sobre a extração da tabela. Você pode instalar o Excalibur usando o “pip install excalibur-py” ou simplesmente fazendo o download na página indicada acima.

Como podemos ver, não faltam opções, só é preciso encontrar a que melhor se encaixe com nossas necessidades.