Como extrair tabelas de documentos PDF
Este artigo mostrará como extrair tabelas de documentos PDF(extract tables from PDF documents) . Você pode ter muitos arquivos PDF que contêm várias tabelas que deseja usar separadamente. Copiar(Copying) e colar essas tabelas não é uma boa opção, pois pode não fornecer a saída esperada, portanto, você precisa de outras opções simples que possam extrair tabelas de um arquivo PDF e salvá-las como arquivos separados.
A maioria dessas ferramentas de extração de tabela PDF(PDF table extractor tools) não pode ajudar se a tabela PDF for digitalizada. Nesse caso, você deve primeiro tornar o PDF pesquisável(make the PDF searchable) e depois tentar essas opções.
Extraia tabelas de documentos PDF
Neste post, adicionamos 2 serviços online gratuitos e 3 softwares gratuitos para extrair tabelas de um arquivo PDF :
- PDF para XLS
- PDFtoExcel.com
- Tábula
- Multiferramenta ByteScout PDF
- Sejda PDF Desktop.
1] PDF para XLS
PDF to XLS é uma das melhores opções para extrair tabelas de PDF . Ele tem dois recursos que o tornam acessível. Você pode buscar tabelas de 20 documentos PDF(20 PDF) juntos. Além disso, a extração da tabela PDF é automática. Ele gera a saída como um arquivo XLSX . Se um PDF tiver várias tabelas, cada tabela será armazenada separadamente em diferentes folhas de arquivo XLSX de saída.(XLSX)
Abra a página inicial(Open the homepage) deste serviço. Depois disso, arraste e solte os arquivos PDF ou use o botão UPLOAD FILES . Cada PDF carregado é convertido em arquivo de formato XLSX automaticamente. Quando os arquivos de saída estiverem prontos, você poderá baixá-los um por um ou baixar um arquivo ZIP que conterá todos os arquivos de saída.
2] PDFtoExcel.com
O serviço PDFtoExcel.com(PDFtoExcel.com) pode extrair tabelas de um PDF de uma só vez, mas suporta várias plataformas para fazer upload de PDF . Ele suporta as plataformas OneDrive , desktop , Google Drive e Dropbox para fazer upload de um PDF . Além disso, o processo de conversão é automático.
Esta página inicial do serviço está aqui(here) . Lá, selecione uma opção de upload para adicionar PDF . Depois disso, ele carrega e converte automaticamente o arquivo PDF para Excel ( XLSX ). Quando a saída estiver pronta, você receberá o link de download para salvar o arquivo de saída contendo a(s) tabela(s) PDF .
Nota:(Note: ) Embora este serviço mencione que também pode extrair tabelas de arquivos PDF digitalizados , não funcionou para mim. Você ainda pode experimentá-lo para PDF(PDF) digitalizado .
3] Tábula
Tabula é um software poderoso que pode detectar automaticamente as tabelas presentes em um PDF e, em seguida, permite que você salve essas tabelas como arquivo TSV , JSON ou CSV . Você pode selecionar a opção de salvar arquivos CSV separados para cada tabela PDF ou salvar todas as tabelas em um único arquivo CSV .
Para baixar este extrator de tabela PDF de código aberto , (open-source)clique aqui(click here) . Ele também requer Java(requires Java) para ser executado e usado com sucesso.
Extraia o arquivo ZIP que você baixou e execute o arquivo tabula.exe . Ele abrirá uma página no seu navegador padrão. Se a página não for aberta, adicione http://localhost:8080 em seu navegador e pressione Enter .
Agora você verá sua interface onde você pode usar a opção Procurar(Browse) para adicionar um PDF . Depois disso, pressione o botão Importar(Import) . Quando o PDF é adicionado, você pode ver as páginas do PDF em sua interface.(PDF)
Use o botão Autodetect Tables e ele destacará todas as tabelas presentes nesse PDF automaticamente. Você também pode destacar manualmente uma tabela selecionando uma tabela específica. Se desejar, você também pode remover as tabelas selecionadas(remove selected tables) de sua escolha.
Isso irá ajudá-lo a salvar apenas as tabelas que você deseja. Quando as tabelas PDF estiverem destacadas, clique no botão Visualizar e exportar dados extraídos(Preview & Export Extracted Data) .
Por fim, use o menu suspenso disponível na parte superior para selecionar um formato de saída e pressione o botão Exportar(Export) . Isso salvará as tabelas PDF no arquivo de formato de saída selecionado por você.
4] Multiferramenta ByteScout PDF
Como o nome sugere, este software vem com várias ferramentas. Ele possui ferramentas como converter PDF em TIFF de várias páginas(convert PDF to multipage TIFF) , girar documento PDF(rotate PDF document) , tornar PDF não pesquisável(make PDF unsearchable) , otimizar PDF(optimize PDF) , adicionar uma imagem a PDF(add an image to PDF) e muito mais. O recurso de detector de tabela PDF(PDF) também está lá, o que é bastante impressionante. A vantagem desta ferramenta é que você também pode extrair tabelas de PDF digitalizado(extract tables from scanned PDF) . Você pode detectar tabelas em várias páginas e extrair essas tabelas como arquivo de formato CSV , XLS , XML , TXT ou JSON . Antes da extração, também permite definir um intervalo de páginas(page range)para extrair tabelas apenas de páginas especificadas.
Você pode pegar este software aqui(here) . É gratuito apenas para uso não comercial(free for non-commercial use) . Após a instalação, execute este software e use a opção Abrir documento(Open Document) para adicionar um arquivo PDF(PDF) . Depois disso, clique na ferramenta Detectar tabelas(Detect tables) conforme destacado na imagem acima. Esta ferramenta está presente na categoria Extração de Dados(Data Extraction) .
Ele abrirá uma caixa onde você pode definir condições para detectar tabelas. Por exemplo, você pode definir um número mínimo de colunas, linhas, quebras de linha mínimas entre tabelas, definir o modo de detecção de tabela para tabela com ou sem borda, etc. Use as opções ou mantenha as configurações padrão.
Depois disso, pressione o botão Detectar próxima tabela(Detect next table) nessa caixa. Ele identificará e selecionará uma tabela na página atual. Dessa forma, você pode passar para outra página e detectar mais tabelas.
Quando terminar, use o botão Prosseguir para extração(Proceed to extraction) e selecione o formato de saída. Finalmente, você pode usar opções para salvar as tabelas da página atual ou definir um intervalo de páginas e salvar a saída.
A ferramenta dá uma saída satisfatória. Mas, às vezes, pode detectar outro conteúdo em PDF e pode não conseguir extrair tabelas de várias páginas. Nesse caso, você deve usá-lo para buscar e salvar as tabelas uma a uma.
5] Sejda PDF Desktop
O Sejda PDF Desktop(Sejda PDF Desktop) também é um software multiuso. Ele pode otimizar ou compactar PDF(compress PDF) , adicionar marca d'água a PDF, remover restrições de PDF(remove restrictions from PDF) , editar documento PDF , etc. No entanto, seu plano gratuito tem limitações. No plano gratuito, apenas 3 tarefas por dia podem ser feitas. Além disso, o limite de tamanho do PDF é de (PDF)50 MB ou 10 páginas(10 pages) .
Você pode usar sua ferramenta de conversão de PDF para Excel(PDF to Excel) para extrair tabelas PDF . Ele detecta automaticamente as tabelas em páginas PDF e permite que você salve essas tabelas como XLSX ou CSV .
Seu link para download está aqui(here) . Após a instalação, use a ferramenta PDF para Excel em sua interface principal. Depois de selecionar essa ferramenta, use o botão Escolher arquivos PDF(Choose PDF files) . Apenas um PDF pode ser adicionado ao plano gratuito.
Quando o PDF for adicionado, ele fornecerá os botões Converter PDF em CSV(Convert PDF to CSV) e Converter PDF em Excel . (Convert PDF to Excel)Use um botão e, em seguida, você pode salvar a saída no local desejado em seu PC.
Sua ferramenta de detecção de tabela PDF é boa. (PDF)Você não precisa detectar tabelas manualmente. Ainda assim, às vezes pode incluir outro conteúdo de texto como uma tabela PDF e armazená-lo na saída. Mas os resultados gerais são bons.
Isso é tudo.
Estas são algumas boas ferramentas para extrair tabelas de PDF . O software Tabula(Tabula) é mais eficaz do que outras ferramentas. Ainda assim, você pode experimentar todas as ferramentas e verificar o que ajuda.
Leituras semelhantes:(Similar reads:)
- Extraia anexos de PDF(Extract attachments from PDF)
- Extraia o texto realçado do PDF(Extract highlighted text from PDF) .
Related posts
Document Converter: Convert DOC, PDF, DOCX, RTF, TXT, HTML arquivos
O que é um PPS file? Como converter PPS para PDF em Windows 11/10?
PDF text desaparece ao editar ou salvar o arquivo em Windows 10
Best Free PDF Editor Online Tools que são baseados em nuvem
PDF Editor Online Tool livre para editar PDF arquivos - PDF Yeah
Compare PDF, HTML, PPT, etc. Documentos on-line usando essas ferramentas gratuitas
Best Free PDF Voice Readers para Windows 10
Como converter documentos para PDF com CutePDF para Windows 10
Remove PDF Restrictions usando software or online tools grátis
Best Free PDF Editing software para Windows 10
Como salvar as páginas da Web como PDF em Chrome or Firefox
PDFTK Builder é um software livre para modificar e dividir arquivos e documentos PDF
Como reparar PDF usando PDF Fixer Tool para Windows 10
Como Convert Scanned PDF a pesquisável PDF?
Como mesclar múltiplos PDF file s em PDF file
Como converter PDF document a um multipage TIFF image em Windows
Convert PDF para PPT (PowerPoint) usando estes software & online tools livre
Best PDF word counter software and online tools
Ver imagens e PDF docs rapidamente via PRIMA Rapid Image Viewer
Download Adobe Reader app para Windows 10 de Microsoft Store