成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用于清理數據的五個簡單有效 Python 腳本

開發 前端
通常情況下,在機器學習中的數據清理往往是一件令人頭疼的事情,本文整理了一份清單,列出了5個常用的Python腳本,用于自動化數據清理。

將 PDF 轉換為 CSV

在機器學習中,我們應該少一些“數據清理”,多一些“數據準備”。當我們需要從白皮書、電子書或其他PDF文檔中抓取數據時,這個腳本為我節省了很多時間。

import tabula
#獲取文件
pdf_filename = input ("Enter the full path and filename: ")
# 提取PDF的內容
frame = tabula.read_pdf(pdf_filename, encoding = 'utf-8', pages='all')
#根據內容創建CSV文件
frame.to_csv('pdf_conversion.csv')

這是一種相對簡單的快速提取數據的方法,可以在將數據導入機器學習數據庫、Tableau或Count等工具。

合并 CSV 文件

許多系統會提供導出到CSV選項,但是沒有辦法在導出數據之前首先合并數據。這可能導致5個以上的文件導出到一個文件夾,這些文件包含相同的數據類型。該Python腳本通過獲取這些文件)并將它們合并到一個文件中來解決這個問題。

from time import strftime
import pandas as pd
import glob
# 定義包含CSV文件的文件夾的路徑
path = input('Please enter the full folder path: ')
#確保后面有一個斜杠
if path[:-1] != "/":
path = path + "/"
#以列表形式獲取CSV文件
csv_files = glob.glob(path + '*.csv')
#打開每個CSV文件并合并為一個文件
merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] )
#創建新文件
merged_file.to_csv(path + 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False)
print('Merge complete.')

最終輸出將為您提供一個 CSV 文件,其中包含您從源系統導出的 CSV 列表中的所有數據。

從 CSV 文件中刪除重復的行

如果您需要從CSV文件中刪除重復的數據行,這可以幫助您快速執行清理操作。當機器學習數據集中擁有重復數據時,這會直接影響可視化工具或機器學習項目中的結果。

import pandas as pd
# 獲取文件名
filename = input('filename: ')
#定義要檢查是否重復的CSV列名
duplicate_header = input('header name: ')
#獲取文件的內容
file_contents = pd.read_csv(filename)
# 刪除重復的行
deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True)
#創建新文件
deduplicated_data.to_csv('deduplicated_data.csv')

拆分 CSV 列

當從其他系統導出文件時,它有時會包含一列數據,而我們需要將其作為兩列。

import pandas as pd
#獲取文件名并定義列
filename = input('filename: ')
col_to_split = input('column name: ')
col_name_one = input('first new column: ')
col_name_two = input('second new column: ')
#將CSV數據添加到dataframe中
df = pd.read_csv(filename)
# 拆分列
df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True)
#創建新csv文件
df.to_csv('split_data.csv')

合并不同的數據集

假設您有一個帳戶列表和與其關聯的訂單,并希望查看訂單歷史以及關聯的帳戶詳細信息。一個很好的方法就是通過合并數據到一個CSV文件。

import pandas as pd
#獲取文件名并定義用戶輸入
left_filename = input('LEFT filename: ')
right_filename = input('RIGHT filename: ')
join_type = input('join type (outer, inner, left, right): ')
join_column_name = input('column name(i.e. Account_ID): ')
#讀取文件到dataframes
df_left = pd.read_csv(left_filename)
df_right = pd.read_csv(right_filename)
#加入dataframes
joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name)
#創建新的csv文件
joined_data.to_csv('joined_data.csv')

最后

這些腳本可以有效幫助我們進行自動化清理數據,然后可以將清理后的數據加載到機器學習模型中進行處理。Pandas是操作數據的首選庫,因為它提供了許多的選項。

責任編輯:華軒 來源: 不靠譜的貓
相關推薦

2024-01-04 16:43:42

Python前端

2022-10-10 23:19:02

Python腳本語言工具庫

2021-08-05 13:49:39

Python工具開發

2022-10-08 14:47:21

Python工具開源

2020-04-22 11:11:22

LinuxShell腳本

2020-04-22 12:46:30

LinuxShell腳本

2021-08-30 11:07:32

iPhone存儲空間

2017-06-27 10:23:01

Linuxps_memPython

2021-01-03 19:58:35

混合云云遷移云計算

2025-01-24 08:00:00

深度偽造人工智能網絡安全

2022-02-17 13:03:28

Python腳本代碼

2010-08-27 10:12:53

CSS

2022-08-29 18:34:46

Pythonsubprocess系統

2018-09-17 11:55:21

Linux命令管理進程

2020-05-15 10:22:07

Python開發工具

2023-10-07 11:36:15

2022-09-28 13:33:27

云運營云計算

2022-09-30 14:59:30

Ubuntu

2013-04-18 14:54:08

Linux監控腳本Linux監控

2023-01-12 09:06:55

裝飾器Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 羞羞在线观看视频 | 天堂视频免费 | 亚洲欧美一区二区三区1000 | 精品成人免费视频 | 99精品在线观看 | 国产精品成人一区二区三区夜夜夜 | av网站免费观看 | 欧美在线色 | 亚洲精品一区二区三区蜜桃久 | 欧美成人精品一区二区男人看 | 久久高清国产 | 亚洲三区在线观看 | 中文在线播放 | 国内av在线 | 国产日韩欧美中文字幕 | 国产精品成人一区二区三区 | xx性欧美肥妇精品久久久久久 | 日韩一区二区三区四区五区六区 | 国产精品中文字幕在线观看 | 国产成人午夜高潮毛片 | 不卡一区二区三区四区 | 国产精品久久久久久久久久 | 日韩精品久久一区 | 国产视频一区二区三区四区五区 | 超碰伊人| 99只有精品 | 青草青草久热精品视频在线观看 | 九九99久久 | 一区二区高清在线观看 | 精品国产伦一区二区三区观看说明 | 美美女高清毛片视频免费观看 | 亚洲精品国产成人 | 精品久久久久久 | 欧美日产国产成人免费图片 | 亚洲成av人片在线观看无码 | www.午夜| 日韩一二三区视频 | 国产精品视频在线播放 | 成人在线电影网站 | 久久tv在线观看 | 97伦理 |