Como extrair texto destacado de PDF como arquivo de texto?

Destacar o texto em um documento PDF é útil para marcar as áreas importantes que você pode acessar mais tarde rapidamente. Você pode usar o Microsoft Edge para destacar PDF(Microsoft Edge to highlight PDF)  ou qualquer outro software que venha com o recurso de realce de PDF . Às vezes, você também pode ter sentido a necessidade de ter apenas o texto destacado para poder ter o resumo do PDF contendo todo o texto essencial. Se você está procurando algumas maneiras de salvar apenas o texto destacado de um PDF como um arquivo TXT , este post pode ser útil.

Extrair texto destacado de PDF

Existem alguns softwares gratuitos e um serviço para extrair o texto destacado de um arquivo PDF e salvá-lo como um arquivo de texto:

  • Extrator de destaque de PDF
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor.

Vamos verificar esses softwares PDF Highlight Extractor um por um.

1] Extrator de destaque de PDF

Software extrator de destaque de PDF

PDF Highlight Extractor é uma das opções mais fáceis para extrair o texto destacado de um arquivo PDF . Este extrator de destaque de texto PDF (PDF text highlight extractor)de código aberto(open-source) tem dois recursos que chamam a atenção. Você pode visualizar o texto destacado(preview highlighted text) do PDF na interface do software.

O segundo recurso é que você pode definir a página inicial ou final ou o intervalo de páginas para extrair o texto(set start or end page or page range to extract the text) . Assim, em vez de digitalizar o PDF(PDF) inteiro , você pode definir números de página para obter o texto destacado.

Outro bom recurso é que você tem a opção de salvar o texto como texto simples(save text as plain text) ou arquivo do Excel(Excel file) .

Em sua interface, adicione seu arquivo PDF usando a opção fornecida e pressione o botão Extrair(Extract) . Desmarque a opção Todas as páginas(All Pages) se quiser definir o intervalo de páginas ou deixá-lo como está. Uma vez que o texto é buscado, você pode visualizá-lo. Por fim, pressione o botão Texto(Text) ou Excel para salvar o texto destacado.

Você pode baixar este software aqui(here) . Java também é necessário para usar este software. Portanto, instale o Java(Java) (se ainda não estiver) e execute este software para usar.

2] Foxit Reader

Extrair texto destacado de PDF

O Foxit Reader é um dos melhores leitores de PDF gratuitos . Você pode abrir vários arquivos PDF em guias separadas, destacar PDF , adicionar uma nota, exportar comentários(export comments) , adicionar assinaturas(add signatures) e muito mais. Entre a enorme lista de recursos, a extração de texto destacado do PDF também está lá. A melhor parte desse recurso é que ele também salva os números das páginas junto com o texto extraído(saves page numbers along with the extracted text) .

Para buscar o texto destacado do PDF , abra o arquivo PDF em sua interface e acesse a guia Comentário . (Comment)Nessa aba, clique na opção Exportar(Export) disponível na seção Gerenciar Comentários(Manage Comments) . Você verá a opção Texto(Highlighted Text) realçado. Use essa opção e você poderá salvar todo o texto destacado como um arquivo de texto.

Aqui(Here) está o link para download deste software. Durante a instalação, você deve selecionar a instalação personalizada(custom installation) para incluir apenas os componentes necessários deste software.

3] Sumnotes.net

Notas de soma

Sumnotes.net é um serviço gratuito que permite anotar PDF , bem como extrair o texto destacado. Todo o texto destacado é visível separadamente na barra lateral esquerda. Usando essa barra lateral, você também pode remover o texto destacado que não precisa(remove highlighted text that you don’t need) e baixar o restante do texto destacado.

Antes de baixar o texto destacado, você também pode incluir números de página e excluir(exclude) o texto destacado de uma cor específica(highlighted text of specific color) .

Você também tem a opção de salvar o texto destacado do PDF como arquivo Excel(save highlighted text from PDF as Excel) ou Word . Então, os recursos são bons. Você pode se inscrever com um plano gratuito e extrair 50 destaques(extract 50 highlights) ou anotações por download(per download) , o que é suficiente na maioria dos casos.

Aqui(Here) está o link para sua página inicial. Para extrair o texto realçado do PDF , adicione um PDF do PC ou Google Drive . Quando o PDF é carregado, as anotações e o texto realçado ficam visíveis no lado esquerdo. Use a opção Download Annotations e, em seguida, você pode salvar o texto destacado no arquivo de formato TXT , XLSX ou DOC .

4] DyAnnotationExtractor

Software de linha de comando DyAnnotationExtractor

O software DyAnnotationExtractor(DyAnnotationExtractor) pode ajudá-lo a extrair texto e comentários(comments) destacados de um documento PDF. É um software de linha de comando , mas usá-lo é muito simples. (command-line)Apenas um único comando irá buscar o texto destacado no arquivo PDF de entrada.(PDF)

Você pode obter este software usando este link(this link) . Faça o download do arquivo (Download)ZIP e extraia-o. Para facilitar a execução do comando, você também deve colocar o PDF na mesma pasta onde extraiu este software. Depois disso, abra a janela do prompt(Command Prompt) de comando nessa pasta. Você pode fazer isso digitando cmd na caixa de endereço dessa pasta e pressionando a tecla Enter .

Quando a janela CMD for aberta, adicione o arquivo BAT deste software, o comando de entrada incluindo o caminho do PDF de entrada , o comando de saída e o nome do arquivo de saída junto com a extensão '.txt'. O comando completo será

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Execute o comando. Aguarde(Wait) alguns segundos e o arquivo de texto simples estará pronto contendo todo o texto destacado e comentários obtidos desse PDF . O arquivo de saída é salvo na mesma pasta de entrada.

Portanto, essas são algumas opções que você pode usar para extrair o texto destacado do PDF e salvar a saída como um arquivo de texto. Espero(Hope) que estes ajudem.



About the author

Eu sou um engenheiro de windows,ios,pdf,errors,gadgets com mais de 10 anos de experiência. Trabalhei em muitos aplicativos e estruturas do Windows de alta qualidade, como OneDrive for Business, Office 365 e muito mais. Meu trabalho recente incluiu desenvolver o leitor de pdf para a plataforma Windows e trabalhar para tornar as mensagens de erro mais claras para os usuários. Além disso, estou envolvido no desenvolvimento da plataforma ios há alguns anos e estou muito familiarizado com seus recursos e peculiaridades.



Related posts