Extraia texto de arquivos PDF e de imagem
Tem um documento PDF(PDF document) do qual gostaria de extrair todo o texto? E os arquivos de imagem de um documento digitalizado que você deseja converter em texto editável? Esses são alguns dos problemas mais comuns que tenho visto no local de trabalho ao trabalhar com arquivos.
Neste artigo, falarei sobre várias maneiras diferentes de tentar extrair texto de um PDF ou de uma imagem. Os resultados da extração variam de acordo com o tipo e a qualidade(type and quality) do texto no PDF ou na imagem(PDF or image) . Além disso, seus resultados variam dependendo da ferramenta que você usa, portanto, é melhor experimentar o máximo possível das opções abaixo para obter os melhores resultados.
Extrair texto de imagem ou PDF
A maneira mais simples e rápida de começar é experimentar um serviço de extração de (extractor service)texto PDF(PDF text) online . Normalmente, eles são gratuitos e podem fornecer exatamente o que você procura sem precisar instalar nada no seu computador. Aqui estão dois que eu usei com resultados muito bons a excelentes:
Extrair PDF
ExtractPDF é uma ferramenta gratuita para pegar imagens, texto e fontes(text and fonts) de um arquivo PDF(PDF file) . A única limitação é que o tamanho máximo(max size) do arquivo PDF(PDF file) é 10 MB. Isso é um pouco pequeno; portanto, se você tiver um arquivo maior, tente alguns dos outros métodos abaixo. Escolha seu arquivo e clique no botão Enviar arquivo(Send file) . Os resultados são normalmente muito rápidos e você deve ver uma prévia do texto quando clicar na guia Texto(Text tab) .
Também é um bom benefício adicional que extrai imagens do arquivo PDF(PDF file) também, caso você precise delas! No geral, a ferramenta online funciona muito bem, mas encontrei alguns documentos em PDF(PDF docs) que me deram resultados engraçados. O texto é extraído muito bem, mas por algum motivo terá uma quebra de linha(line break) após cada palavra! Não é um grande problema para um arquivo PDF(PDF file) curto , mas certamente um problema para arquivos com muito texto. Se isso acontecer com você, tente a próxima ferramenta.
OCR on-line
O OCR online(Online OCR) geralmente funcionava para os documentos que não foram convertidos corretamente com ExtractPDF , portanto, é uma boa ideia experimentar os dois serviços para ver qual deles oferece melhor resultado. O OCR online(Online OCR) também possui alguns recursos melhores que podem ser úteis para qualquer pessoa com um arquivo PDF(PDF file) grande que precise apenas converter texto em algumas páginas, em vez de todo o documento.
A primeira coisa que você quer fazer é ir em frente e criar uma conta gratuita. É um pouco chato, mas se você não criar a conta gratuita, ela converterá apenas parcialmente seu PDF em vez de todo o documento. Além disso, em vez de carregar apenas um documento de 5 MB(MB document) , você pode carregar até 100 MB por arquivo com uma conta.
Primeiro, escolha um idioma e, em seguida, escolha o tipo de formato de saída que você deseja para o arquivo convertido. Você tem algumas opções e pode escolher mais de uma, se quiser. Em Documento(Multipage document) de várias páginas , você pode selecionar Números de página(Page numbers) e escolher apenas as páginas que deseja converter. Então você seleciona o arquivo e clica em (file and click) Converter(Convert) !
Após a conversão, você será levado à seção Documentos(Documents) (se estiver logado), onde poderá ver quantas páginas gratuitas disponíveis ainda restam e links para baixar seus arquivos convertidos. Parece que você tem apenas 25 páginas de graça por dia, então se você precisar de mais do que isso, terá que esperar um pouco ou comprar mais páginas.
O OCR online(Online OCR) fez um excelente trabalho ao converter meus PDFs(PDF) porque conseguiu manter o layout real do texto. No meu teste, peguei um documento do Word(Word doc) que usava marcadores, tamanhos de fonte diferentes etc. e o converti em um PDF . Então eu usei o Online OCR para convertê-lo de volta para o formato Word(Word format) e foi cerca de 95% igual ao original. Isso é bastante impressionante para mim.
Além disso, se você deseja converter uma imagem em texto, o Online OCR pode fazer isso tão facilmente quanto extrair texto de arquivos PDF .
OCR on-line gratuito
Já que estávamos falando sobre OCR de imagem para texto , deixe-me mencionar outro bom site que funciona muito bem com imagens. O OCR Online Gratuito(Free Online OCR) foi muito bom e muito preciso ao extrair texto das minhas imagens de teste. Tirei algumas fotos do meu iPhone de páginas de livros, panfletos, etc e fiquei surpreso com o quão bem ele conseguiu converter o texto.
Escolha seu arquivo e clique no botão Upload(Upload button) . Na próxima tela, há algumas opções e uma visualização da imagem. Você pode cortá-lo se não quiser fazer o OCR inteiro. Em seguida, basta clicar no botão OCR(OCR button) e seu texto convertido aparecerá abaixo da visualização da imagem(image preview) . Também não tem limitações, o que é muito bom.
Além dos serviços online, existem dois conversores de PDF freeware que quero mencionar caso você precise de um software rodando localmente em seu computador para realizar as conversões. Com os serviços online, você sempre precisará de uma conexão com a Internet(Internet connection) e isso pode não ser possível para todos. No entanto, notei que a qualidade das conversões dos programas freeware eram significativamente piores do que as dos sites.
Extrator de texto A-PDF
O A-PDF Text Extractor(A-PDF Text Extractor) é um freeware que faz um bom trabalho de extração de texto de arquivos PDF(PDF file) s. Depois(Once) de baixá-lo e instalá-lo, clique no botão Abrir(Open button) para escolher seu arquivo PDF(PDF file) . Em seguida, clique em Extrair texto(Extract text) para iniciar o processo.
Ele solicitará um local para armazenar o arquivo de saída de texto(text output file) e, em seguida, começará a extrair. Você também pode clicar no botão Opção(Option) , que permite escolher apenas determinadas páginas a serem extraídas e o tipo de extração(extraction type) . A segunda opção é interessante porque extrai o texto em diferentes layouts e vale a pena experimentar as três para ver qual te dá o melhor resultado.
Piloto PDF2Text
O PDF2Text Pilot(PDF2Text Pilot) faz um bom trabalho de extração de texto. Não tem opções; você apenas adiciona arquivos ou pastas, converte e espera(convert and hope) o melhor. Funcionou bem em alguns PDFs , mas para a maioria deles, houve vários problemas.
Basta clicar em Adicionar arquivos(Add Files) e, em seguida, clicar em Converter(Convert) . Quando a conversão estiver concluída, clique em Procurar(Browse) para abrir o arquivo. Sua milhagem irá variar usando este programa, então não espere muito.
Além disso, vale a pena mencionar que, se você estiver em um ambiente corporativo ou puder obter uma cópia do Adobe Acrobat do trabalho, poderá obter resultados muito melhores. Obviamente, o Acrobat(Acrobat) não é gratuito, mas tem opções para converter PDF para formato Word , Excel e HTML(Excel and HTML format) . Ele também faz o melhor trabalho de manter a estrutura do documento original e converter texto complicado.
Related posts
Como combinar ou mesclar vários arquivos de texto
Melhor visualizador de PDF alternativo gratuito ao Adobe Reader
Converter um PC Windows em uma máquina virtual usando o Hyper-V
Como alterar a cor do ícone da pasta no Windows
A melhor ferramenta de desfragmentação gratuita para Windows é ela mesma
Converter diretório do Windows para listagem HTML
Dividir ou dividir a tela da área de trabalho em várias partes
10 ferramentas úteis para manter em sua unidade flash USB
10 melhores ferramentas para marcar MP3s e editar metadados
3 principais aplicativos para usar o Instagram no seu PC
Mapear uma pasta para uma letra de unidade no Windows
Como compartilhar arquivos entre PCs, smartphones e tablets
Como adicionar Shadow a Text or Image em GIMP
Como reparar arquivos AVI corrompidos ou danificados
HoneyView Review: Free Rápido Image Viewer Software para Windows 10
Melhores gerenciadores de área de transferência gratuitos para Windows
ImBatch é um Batch Image Processing Software livre para Windows PC
Como sincronizar duas pastas em tempo real no Windows
Image Editing Software and Editors livre para Windows 11/10
Como remover Password de PDF com Free Software or Online Tool