Google indexa imagens dentro de arquivos PDF

Postado em

pdfs

Google pode reconhecer o que está escrito em uma publicação em PDF com imagens e texto, oferecendo como resultado em seu buscador, porém, também pode encontrar as imagens do documento para mostrá-las em seu conhecido Google Images.

O OCR (sistema de reconhecimento de texto) usado por Google, já permite encontrar o texto de arquivos PDF desde 2008, porém, até agora não haviam comentado nada sobre o que acontece com as imagens deste tipo de documentos.

Embora a fonte dessa notícia não seja o Google (não foi publicado como nova funcionalidade em nenhum site), ela foi detectada em googlesystem, onde mostram alguns exemplos com resultados vindos de arquivos pdf.

Tecnicamente não representa muita dificuldade, é preciso se focar em uma melhor classificação das imagens encontradas (em Google Photos já podemos comprovar que os avanços neste sentido são bastante bons) e em um melhor sistema de reconhecimento de caracteres manuscritos (algo que não é muito simples).

Sobre a licença destas imagens: é ainda mais difícil descubri-la, já que, teoricwmente, a licença deve ser a mesma da do documento PDF, e muitos dos arquivos com este formato publicados na Internet não indicam a licença com a qual é compartilhada, por isso, é preciso ter cuidado na hora de copiá-las para projetos próprios.