Como extrair tabelas de documentos PDF

Este artigo mostrará como extrair tabelas de documentos PDF(extract tables from PDF documents) . Você pode ter muitos arquivos PDF que contêm várias tabelas que deseja usar separadamente. Copiar(Copying) e colar essas tabelas não é uma boa opção, pois pode não fornecer a saída esperada, portanto, você precisa de outras opções simples que possam extrair tabelas de um arquivo PDF e salvá-las como arquivos separados.

A maioria dessas ferramentas de extração de tabela PDF(PDF table extractor tools) não pode ajudar se a tabela PDF for digitalizada. Nesse caso, você deve primeiro tornar o PDF pesquisável(make the PDF searchable)  e depois tentar essas opções.

Extraia tabelas de documentos PDF

Neste post, adicionamos 2 serviços online gratuitos e 3 softwares gratuitos para extrair tabelas de um arquivo PDF :

  1. PDF para XLS
  2. PDFtoExcel.com
  3. Tábula
  4. Multiferramenta ByteScout PDF
  5. Sejda PDF Desktop.

1] PDF para XLS

Serviço de PDF para XLS

PDF to XLS é uma das melhores opções para extrair tabelas de PDF . Ele tem dois recursos que o tornam acessível. Você pode buscar tabelas de 20 documentos PDF(20 PDF) juntos. Além disso, a extração da tabela PDF é automática. Ele gera a saída como um arquivo XLSX . Se um PDF tiver várias tabelas, cada tabela será armazenada separadamente em diferentes folhas de arquivo XLSX de saída.(XLSX)

Abra a página inicial(Open the homepage) deste serviço. Depois disso, arraste e solte os arquivos PDF ou use o botão UPLOAD FILES . Cada PDF carregado é convertido em arquivo de formato XLSX automaticamente. Quando os arquivos de saída estiverem prontos, você poderá baixá-los um por um ou baixar um arquivo ZIP que conterá todos os arquivos de saída.

2] PDFtoExcel.com

Extraia tabelas de documentos PDF

O serviço PDFtoExcel.com(PDFtoExcel.com) pode extrair tabelas de um PDF de uma só vez, mas suporta várias plataformas para fazer upload de PDF . Ele suporta as plataformas OneDrive , desktop , Google Drive e Dropbox para fazer upload de um PDF . Além disso, o processo de conversão é automático.

Esta página inicial do serviço está aqui(here) . Lá, selecione uma opção de upload para adicionar PDF . Depois disso, ele carrega e converte automaticamente o arquivo PDF para Excel ( XLSX ). Quando a saída estiver pronta, você receberá o link de download para salvar o arquivo de saída contendo a(s) tabela(s) PDF .

Nota:(Note: ) Embora este serviço mencione que também pode extrair tabelas de arquivos PDF digitalizados , não funcionou para mim. Você ainda pode experimentá-lo para PDF(PDF) digitalizado .

3] Tábula

Software extrator de PDF Tabula

Tabula é um software poderoso que pode detectar automaticamente as tabelas presentes em um PDF e, em seguida, permite que você salve essas tabelas como arquivo TSV , JSON ou CSV . Você pode selecionar a opção de salvar arquivos CSV separados para cada tabela PDF ou salvar todas as tabelas em um único arquivo CSV .

Para baixar este extrator de tabela PDF de código aberto , (open-source)clique aqui(click here) . Ele também requer Java(requires Java) para ser executado e usado com sucesso.

Extraia o arquivo ZIP que você baixou e execute o arquivo tabula.exe . Ele abrirá uma página no seu navegador padrão. Se a página não for aberta, adicione http://localhost:8080 em seu navegador e pressione Enter .

Agora você verá sua interface onde você pode usar a opção Procurar(Browse) para adicionar um PDF . Depois disso, pressione o botão Importar(Import) . Quando o PDF é adicionado, você pode ver as páginas do PDF em sua interface.(PDF)

Use o botão Autodetect Tables e ele destacará todas as tabelas presentes nesse PDF automaticamente. Você também pode destacar manualmente uma tabela selecionando uma tabela específica. Se desejar, você também pode remover as tabelas selecionadas(remove selected tables) de sua escolha.

Isso irá ajudá-lo a salvar apenas as tabelas que você deseja. Quando as tabelas PDF estiverem destacadas, clique no botão Visualizar e exportar dados extraídos(Preview & Export Extracted Data) .

Por fim, use o menu suspenso disponível na parte superior para selecionar um formato de saída e pressione o botão Exportar(Export) . Isso salvará as tabelas PDF no arquivo de formato de saída selecionado por você.

4] Multiferramenta ByteScout PDF

ByteScout PDF Multitool - adicione pdf e detecte tabelas

Como o nome sugere, este software vem com várias ferramentas. Ele possui ferramentas como converter PDF em TIFF de várias páginas(convert PDF to multipage TIFF) , girar documento PDF(rotate PDF document) , tornar PDF não pesquisável(make PDF unsearchable) , otimizar PDF(optimize PDF) , adicionar uma imagem a PDF(add an image to PDF) e muito mais. O recurso de detector de tabela PDF(PDF) também está lá, o que é bastante impressionante. A vantagem desta ferramenta é que você também pode extrair tabelas de PDF digitalizado(extract tables from scanned PDF) . Você pode detectar tabelas em várias páginas e extrair essas tabelas como arquivo de formato CSV , XLS , XML , TXT ou JSON . Antes da extração, também permite definir um intervalo de páginas(page range)para extrair tabelas apenas de páginas especificadas.

Você pode pegar este software aqui(here) . É gratuito apenas para uso não comercial(free for non-commercial use) . Após a instalação, execute este software e use a opção Abrir documento(Open Document) para adicionar um arquivo PDF(PDF) . Depois disso, clique na ferramenta Detectar tabelas(Detect tables) conforme destacado na imagem acima. Esta ferramenta está presente na categoria Extração de Dados(Data Extraction) .

Ele abrirá uma caixa onde você pode definir condições para detectar tabelas. Por exemplo, você pode definir um número mínimo de colunas, linhas, quebras de linha mínimas entre tabelas, definir o modo de detecção de tabela para tabela com ou sem borda, etc. Use as opções ou mantenha as configurações padrão.

Depois disso, pressione o botão Detectar próxima tabela(Detect next table) nessa caixa. Ele identificará e selecionará uma tabela na página atual. Dessa forma, você pode passar para outra página e detectar mais tabelas.

detectar tabelas e salvar tabelas pdf com saída selecionada

Quando terminar, use o botão Prosseguir para extração(Proceed to extraction) e selecione o formato de saída. Finalmente, você pode usar opções para salvar as tabelas da página atual ou definir um intervalo de páginas e salvar a saída.

A ferramenta dá uma saída satisfatória. Mas, às vezes, pode detectar outro conteúdo em PDF e pode não conseguir extrair tabelas de várias páginas. Nesse caso, você deve usá-lo para buscar e salvar as tabelas uma a uma.

5] Sejda PDF Desktop

Sejda PDF Desktop com conversor de pdf para excel

O Sejda PDF Desktop(Sejda PDF Desktop) também é um software multiuso. Ele pode otimizar ou compactar PDF(compress PDF) , adicionar marca d'água a PDF, remover restrições de PDF(remove restrictions from PDF) , editar documento PDF , etc. No entanto, seu plano gratuito tem limitações. No plano gratuito, apenas 3 tarefas por dia podem ser feitas. Além disso, o limite de tamanho do PDF é de (PDF)50 MB ou 10 páginas(10 pages) .

Você pode usar sua ferramenta de conversão de PDF para Excel(PDF to Excel) para extrair tabelas PDF . Ele detecta automaticamente as tabelas em páginas PDF e permite que você salve essas tabelas como XLSX ou CSV .

Seu link para download está aqui(here) . Após a instalação, use a ferramenta PDF para Excel em sua interface principal. Depois de selecionar essa ferramenta, use o botão Escolher arquivos PDF(Choose PDF files) . Apenas um PDF pode ser adicionado ao plano gratuito.

Quando o PDF for adicionado, ele fornecerá os botões Converter PDF em CSV(Convert PDF to CSV) e Converter PDF em Excel . (Convert PDF to Excel)Use um botão e, em seguida, você pode salvar a saída no local desejado em seu PC.

converter tabela pdf para excel ou csv

Sua ferramenta de detecção de tabela PDF é boa. (PDF)Você não precisa detectar tabelas manualmente. Ainda assim, às vezes pode incluir outro conteúdo de texto como uma tabela PDF e armazená-lo na saída. Mas os resultados gerais são bons.

Isso é tudo.

Estas são algumas boas ferramentas para extrair tabelas de PDF . O software Tabula(Tabula) é mais eficaz do que outras ferramentas. Ainda assim, você pode experimentar todas as ferramentas e verificar o que ajuda.

Leituras semelhantes:(Similar reads:)



About the author

Eu sou um engenheiro de windows,ios,pdf,errors,gadgets com mais de 10 anos de experiência. Trabalhei em muitos aplicativos e estruturas do Windows de alta qualidade, como OneDrive for Business, Office 365 e muito mais. Meu trabalho recente incluiu desenvolver o leitor de pdf para a plataforma Windows e trabalhar para tornar as mensagens de erro mais claras para os usuários. Além disso, estou envolvido no desenvolvimento da plataforma ios há alguns anos e estou muito familiarizado com seus recursos e peculiaridades.



Related posts