Extraia texto de arquivos PDF e de imagem

Tem um documento PDF(PDF document) do qual gostaria de extrair todo o texto? E os arquivos de imagem de um documento digitalizado que você deseja converter em texto editável? Esses são alguns dos problemas mais comuns que tenho visto no local de trabalho ao trabalhar com arquivos.

Neste artigo, falarei sobre várias maneiras diferentes de tentar extrair texto de um PDF ou de uma imagem. Os resultados da extração variam de acordo com o tipo e a qualidade(type and quality) do texto no PDF ou na imagem(PDF or image) . Além disso, seus resultados variam dependendo da ferramenta que você usa, portanto, é melhor experimentar o máximo possível das opções abaixo para obter os melhores resultados.

Extrair texto de imagem ou PDF

A maneira mais simples e rápida de começar é experimentar um serviço de extração de (extractor service)texto PDF(PDF text) online . Normalmente, eles são gratuitos e podem fornecer exatamente o que você procura sem precisar instalar nada no seu computador. Aqui estão dois que eu usei com resultados muito bons a excelentes:

Extrair PDF

extrairpdf

ExtractPDF é uma ferramenta gratuita para pegar imagens, texto e fontes(text and fonts) de um arquivo PDF(PDF file) . A única limitação é que o tamanho máximo(max size) do arquivo PDF(PDF file) é 10 MB. Isso é um pouco pequeno; portanto, se você tiver um arquivo maior, tente alguns dos outros métodos abaixo. Escolha seu arquivo e clique no botão Enviar arquivo(Send file) . Os resultados são normalmente muito rápidos e você deve ver uma prévia do texto quando clicar na guia Texto(Text tab) .

baixar texto

Também é um bom benefício adicional que extrai imagens do arquivo PDF(PDF file) também, caso você precise delas! No geral, a ferramenta online funciona muito bem, mas encontrei alguns documentos em PDF(PDF docs) que me deram resultados engraçados. O texto é extraído muito bem, mas por algum motivo terá uma quebra de linha(line break) após cada palavra! Não é um grande problema para um arquivo PDF(PDF file) curto , mas certamente um problema para arquivos com muito texto. Se isso acontecer com você, tente a próxima ferramenta.

OCR on-line

O OCR online(Online OCR) geralmente funcionava para os documentos que não foram convertidos corretamente com ExtractPDF , portanto, é uma boa ideia experimentar os dois serviços para ver qual deles oferece melhor resultado. O OCR online(Online OCR) também possui alguns recursos melhores que podem ser úteis para qualquer pessoa com um arquivo PDF(PDF file) grande que precise apenas converter texto em algumas páginas, em vez de todo o documento.

A primeira coisa que você quer fazer é ir em frente e criar uma conta gratuita. É um pouco chato, mas se você não criar a conta gratuita, ela converterá apenas parcialmente seu PDF em vez de todo o documento. Além disso, em vez de carregar apenas um documento de 5 MB(MB document) , você pode carregar até 100 MB por arquivo com uma conta.

ocr online

Primeiro, escolha um idioma e, em seguida, escolha o tipo de formato de saída que você deseja para o arquivo convertido. Você tem algumas opções e pode escolher mais de uma, se quiser. Em Documento(Multipage document) de várias páginas , você pode selecionar Números de página(Page numbers) e escolher apenas as páginas que deseja converter. Então você seleciona o arquivo e clica em (file and click) Converter(Convert) !

documentos de ocr online

Após a conversão, você será levado à seção Documentos(Documents) (se estiver logado), onde poderá ver quantas páginas gratuitas disponíveis ainda restam e links para baixar seus arquivos convertidos. Parece que você tem apenas 25 páginas de graça por dia, então se você precisar de mais do que isso, terá que esperar um pouco ou comprar mais páginas.

O OCR online(Online OCR) fez um excelente trabalho ao converter meus PDFs(PDF) porque conseguiu manter o layout real do texto. No meu teste, peguei um documento do Word(Word doc) que usava marcadores, tamanhos de fonte diferentes etc. e o converti em um PDF . Então eu usei o Online OCR para convertê-lo de volta para o formato Word(Word format) e foi cerca de 95% igual ao original. Isso é bastante impressionante para mim.

Além disso, se você deseja converter uma imagem em texto, o Online OCR pode fazer isso tão facilmente quanto extrair texto de arquivos PDF .

OCR on-line gratuito

Já que estávamos falando sobre OCR de imagem para texto , deixe-me mencionar outro bom site que funciona muito bem com imagens. O OCR Online Gratuito(Free Online OCR) foi muito bom e muito preciso ao extrair texto das minhas imagens de teste. Tirei algumas fotos do meu iPhone de páginas de livros, panfletos, etc e fiquei surpreso com o quão bem ele conseguiu converter o texto.

ocr online gratis

Escolha seu arquivo e clique no botão Upload(Upload button) . Na próxima tela, há algumas opções e uma visualização da imagem. Você pode cortá-lo se não quiser fazer o OCR inteiro. Em seguida, basta clicar no botão OCR(OCR button) e seu texto convertido aparecerá abaixo da visualização da imagem(image preview) . Também não tem limitações, o que é muito bom.

Além dos serviços online, existem dois conversores de PDF freeware que quero mencionar caso você precise de um software rodando localmente em seu computador para realizar as conversões. Com os serviços online, você sempre precisará de uma conexão com a Internet(Internet connection) e isso pode não ser possível para todos. No entanto, notei que a qualidade das conversões dos programas freeware eram significativamente piores do que as dos sites.

Extrator de texto A-PDF

O A-PDF Text Extractor(A-PDF Text Extractor) é um freeware que faz um bom trabalho de extração de texto de arquivos PDF(PDF file) s. Depois(Once) de baixá-lo e instalá-lo, clique no botão Abrir(Open button) para escolher seu arquivo PDF(PDF file) . Em seguida, clique em Extrair texto(Extract text) para iniciar o processo.

extrator de apdf

Ele solicitará um local para armazenar o arquivo de saída de texto(text output file) e, em seguida, começará a extrair. Você também pode clicar no botão Opção(Option) , que permite escolher apenas determinadas páginas a serem extraídas e o tipo de extração(extraction type) . A segunda opção é interessante porque extrai o texto em diferentes layouts e vale a pena experimentar as três para ver qual te dá o melhor resultado.

Piloto PDF2Text

O PDF2Text Pilot(PDF2Text Pilot)  faz um bom trabalho de extração de texto. Não tem opções; você apenas adiciona arquivos ou pastas, converte e espera(convert and hope) o melhor. Funcionou bem em alguns PDFs , mas para a maioria deles, houve vários problemas.

pdf2texto

Basta clicar em Adicionar arquivos(Add Files) e, em seguida, clicar em Converter(Convert) . Quando a conversão estiver concluída, clique em Procurar(Browse) para abrir o arquivo. Sua milhagem irá variar usando este programa, então não espere muito.

Além disso, vale a pena mencionar que, se você estiver em um ambiente corporativo ou puder obter uma cópia do Adobe Acrobat do trabalho, poderá obter resultados muito melhores. Obviamente, o Acrobat(Acrobat) não é gratuito, mas tem opções para converter PDF para formato Word , Excel e HTML(Excel and HTML format) . Ele também faz o melhor trabalho de manter a estrutura do documento original e converter texto complicado.



About the author

Eu sou um engenheiro de windows,ios,pdf,errors,gadgets com mais de 10 anos de experiência. Trabalhei em muitos aplicativos e estruturas do Windows de alta qualidade, como OneDrive for Business, Office 365 e muito mais. Meu trabalho recente incluiu desenvolver o leitor de pdf para a plataforma Windows e trabalhar para tornar as mensagens de erro mais claras para os usuários. Além disso, estou envolvido no desenvolvimento da plataforma ios há alguns anos e estou muito familiarizado com seus recursos e peculiaridades.



Related posts