提取PDF里面的EXCEL表格

2024-06-03 05:57| 来源: 网络整理| 查看: 265

提取PDF里面的EXCEL表格 1. 批量提取PDF中的表格，其中一些常见的工具包括： Tabula：Tabula 是一款免费的开源工具，可以轻松地从 PDF 中提取表格并将其导出为 CSV 格式的文件。。 Adobe Acrobat Pro DC ：Adobe Acrobat Pro DC 是一款收费的 PDF 编辑器，它具有一个功能强大的表格提取工具，可以帮助用户从 PDF 中提取表格，并将其保存为 Excel、Word 或 HTML 文件。 PDFTables：PDFTables 是一款在线工具，可以将 PDF 中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。 ABBYY FineReader：ABBYY FineReader 是一款功能强大的 OCR 软件，可以将 PDF 文件中的表格转换为可编辑的 Excel 文件，但它是一款收费软件。 Smallpdf：Smallpdf 是一款在线工具，可以将 PDF 文件中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。

「请注意，在提取表格之前，确保您拥有适当的授权来复制和使用这些PDF 文件中的数据。」

2. 使用Python提取提取PDF中的excel表格

在 Python 中，您可以使用第三方库来提取 PDF 文件中的表格。其中一些常见的库包括：：

PyPDF2：这是一个用于处理 PDF 文件的 Python 库。使用 PyPDF2，您可以访问 PDF 文件中的每个页面和对象，并提取表格数据。 Camelot：这是一个用于从 PDF 中提取表格的 Python 库。它可以轻松地处理包含复杂表格的 PDF 文件，并将其导出为 Pandas DataFrame。 Tabula-py：Tabula-py是一个Python库，它是Tabula的Python接口，可以轻松地从PDF文件中提取表格并将其导出为CSV或JSON文件。 PaddlePaddle:PaddlePaddle是一个开源深度学习平台，可以在其上使用Python编写深度学习模型。也可以可以使用PaddlePaddle处理PDF文件中的表格数据。 3.Python具体实现如下： Tabula-py :在这个例子中，我们使用了Tabula-py库，将表格从PDF文件中提取出来，并将其保存为CSV格式的文件。您可以根据需要调整页面和表格区域的参数，以提取您需要的表格数据。 import tabula# 指定PDF文件的路径pdf_path = "example.pdf"# 指定提取表格的页面，可以是单个页面或多个页面pages = "all"# 指定表格的区域，可以是数字列表[x1, y1, x2, y2]，也可以是"top", "bottom", "left", "right"和"all"area = [0, 0, 100, 100]# 使用tabula.read_pdf()函数读取表格df = tabula.read_pdf(pdf_path, pages=pages, area=area)# 将表格保存为CSV文件df.to_csv("output.csv", index=False) 下面是使用PyPDF2提取PDF文件中的表格的一个简单示例 import PyPDF2# 打开PDF文件pdf_file = open('example.pdf', 'rb')# 创建一个PDF文件阅读器对象pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 获取PDF文件中的第一页page = pdf_reader.getPage(0)# 获取第一页中的表格文本table_text = page.extractText()# 关闭PDF文件pdf_file.close()# 输出表格文本print(table_text)

「请注意，PyPDF2库不支持提取PDF文件中的所有表格，因为某些表格可能是作为图像呈现的，而不是真正的文本表格。在这种情况下，您可以考虑使用OCR工具来提取表格数据。」

4.PaddlePaddle具体实现如下：

「PaddlePaddle也可以用于提取PDF文件中的表格数据。您可以使用PaddleOCR这个OCR工具，它可以帮助您提取PDF文件中的文本和表格数据。具体操作步骤如下：」

安装PaddlePaddle和PaddleOCR：可以使用pip命令进行安装。 pip install paddlepaddlepip install paddleocr 加载PDF文件并进行图像处理：将PDF文件加载到Python中，使用Pillow或OpenCV等工具将PDF文件转换为图像。 from pdf2image import convert_from_path# 将PDF文件转换为图像pages = convert_from_path('example.pdf')

3.使用PaddleOCR提取表格数据：使用PaddleOCR的TableRecognizer模型提取表格数据。

from paddleocr import PaddleOCR# 加载OCR模型ocr = PaddleOCR()# 提取表格数据for page in pages: result = ocr.table_recognize( table_lang="ch", img=page ) for line in result: print(line)

在这个例子中，我们使用PaddleOCR库，将PDF文件转换为图像，并使用OCR模型提取表格数据。您可以根据需要使用PaddleOCR库中的其他模型和函数，以提取PDF文件中的其他内容，例如文本和图像等。

「如果需要数据和代码的请关注我的公众号」 alt

【本文地址】

公司简介

联系我们