成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Python替代Adobe,零成本從PDF提取數據

開發 前端
通過利用Python強大的庫,可以自動化繁瑣的PDF數據提取任務。這種方法不僅成本低,而且提供了Python開發者所喜愛的靈活性和強大功能。

一、簡介

PDF文件是官方報告、發票和數據表的通用語言,然而從PDF文件中提取表格數據可能是一項挑戰。盡管Adobe Acrobat等工具提供了解決方案,但它們并不總是易于獲取或可自動化運行,而Python則是編程語言中的瑞士軍刀。本文將探討如何利用Python輕松實現PDF數據提取,而無需使用昂貴的軟件。

二、了解挑戰

PDF文件是為展示而設計的,而不是為提取數據。它們通常包含復雜的布局,在視覺上很吸引人,但在計算上卻無法訪問。因此,提取表格等結構化信息非常困難。

三、使用PyMuPDF提取文本

PyMuPDF是一款輕量級的庫,擅長讀取PDF文件并提取文本。只需幾行代碼,就可以讀取PDF并從任意頁面提取文本。本文從奔馳集團2022年第四季度年度報告中提取“股東權益變動綜合報表(Consolidated Statement of Changes in Equity)”,代碼如下。

import fitz  
import pandas as pd
import re

# --- PDF處理 ---
# 定義PDF文件的路徑并打開文檔
pdf_path = '..../Merc 2022Q4 Rep.pdf'
pdf_document = fitz.open(pdf_path)

# 選擇要閱讀的特定頁面
page = pdf_document[200]

# 獲取頁面的尺寸
page_rect = page.rect
page_width, page_height = page_rect.width, page_rect.height

# 定義感興趣區域的矩形(不包括腳注)
non_footnote_area_height = page_height * 0.90
clip_rect = fitz.Rect(0, 0, page_width, non_footnote_area_height)

# 從定義的區域提取文本
page_text = page.get_text("text", clip=clip_rect)
lines_page = page_text.strip().split('\n')

四、規整數據

提取的文本通常帶有不需要的字符或格式。這就是預處理發揮作用的地方。Python的字符串處理功能使用戶能夠清洗和準備數據以轉換為表格格式。

# --- 數據清洗 ---
# 定義要搜索的字符串并查找其索引
search_string = 'Balance at 1 January 2021 (restated) '
try:
    index = lines_page.index(search_string)
    data_lines = lines_page[index:]
except ValueError:
    print(f"The string '{search_string}' is not in the list.")
    data_lines = []

# 如果不是數字或連字符,則合并連續字符串條目
def combine_consecutive_strings(lines):
    combined = []
    buffer = ''
    
    for line in lines:
        if isinstance(line, str) and not re.match(r'^[-\d,.]+$', line.strip()):
            buffer += ' ' + line if buffer else line
        else:
            if buffer:
                combined.append(buffer)
                buffer = ''
            combined.append(line.strip())
    
    if buffer:
        combined.append(buffer)
    
    return combined

cleaned_data = combine_consecutive_strings(data_lines)

五、使用Pandas創建表格

一旦數據清洗完成,就可以使用pandas了。這個功能強大的數據分析庫可以將一系列數據點轉換為DataFrame,即一個二維的、大小可變的、可能是異構的帶有標記軸的表格數據結構。

# --- 創建DataFrame ---
# 根據列數將清洗后的數據分割成塊
num_columns = 6
data_chunks = [cleaned_data[i:i + num_columns] for i in range(0, len(cleaned_data), num_columns)]

# 定義DataFrame的表頭
headers = [
    'Description',
    'Share capital',
    'Capital reserves',
    'Retained earnings (restated)',
    'Currency translation (restated)',
    'Equity instruments / Debt instruments'
]

# 使用數據塊和表頭創建DataFrame
financial_df = pd.DataFrame(data_chunks, columns=headers)

# Display the head of the DataFrame to verify its structure
financial_df.head()

如下所示是從PDF文件中提取的表格結果。

圖片圖片

六、結語

通過利用Python強大的庫,可以自動化繁瑣的PDF數據提取任務。這種方法不僅成本低,而且提供了Python開發者所喜愛的靈活性和強大功能。

責任編輯:武曉燕 來源: Python學研大本營
相關推薦

2020-08-18 10:58:36

PC電腦智能手機電腦密碼

2022-10-28 12:00:03

前端開源

2011-05-04 14:24:04

iPad打印機

2018-07-25 09:06:18

數據中心機房容災

2010-05-13 09:24:39

2020-07-08 07:54:03

PythonPDF數據

2009-06-18 11:12:49

IP通信

2024-11-04 10:44:15

2024-06-03 08:48:16

2017-09-19 12:17:53

共享醫療邵逸夫醫療

2015-08-31 09:39:05

數據中心能源

2010-01-15 10:42:40

2010-01-14 20:29:51

2018-11-23 10:48:04

云計算開源云服務

2020-02-25 08:38:13

AI 數據人工智能

2011-04-22 19:41:35

Windows Emb嵌入式開發

2024-04-15 08:53:07

OpenAISoraGIF動畫

2019-10-09 15:51:45

Python 開發編程語言

2022-11-15 12:04:54

手機數據監控
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精选久久 | jlzzjlzz国产精品久久 | 黄在线免费观看 | 欧美国产精品 | 国产成人免费视频网站视频社区 | 521av网站| 国产午夜精品一区二区三区四区 | 国产福利在线 | 成人三级在线观看 | 在线免费激情视频 | 久久精品亚洲一区二区三区浴池 | 午夜精品一区 | 亚洲精品一区在线 | 欧美jizzhd精品欧美巨大免费 | 一级黄色播放 | 最近中文字幕在线视频1 | 亚洲一区二区在线 | 亚洲精品白浆高清久久久久久 | 日韩午夜精品 | 91麻豆精品国产91久久久久久久久 | 日韩精品一区二区不卡 | 精品乱码一区二区 | 高清色视频 | 午夜午夜精品一区二区三区文 | 日韩亚洲欧美综合 | 日韩一区二区三区在线视频 | 欧美中文字幕在线观看 | 国产ts一区 | 亚洲 中文 欧美 日韩 在线观看 | 久久伊人亚洲 | 日韩精品在线免费观看视频 | 精品亚洲一区二区三区四区五区高 | 亚洲精品1| 久久精品亚洲国产 | 亚洲韩国精品 | 国产成人免费视频网站视频社区 | 青青激情网 | 理论片87福利理论电影 | 天天天操| 中文字幕在线电影观看 | 欧美精品第三页 |