成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你會用Python做數(shù)據(jù)預(yù)處理嗎?

大數(shù)據(jù)
在拿到一份數(shù)據(jù)準(zhǔn)備做挖掘建模之前,首先需要進(jìn)行初步的數(shù)據(jù)探索性分析(你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?),對數(shù)據(jù)探索性分析之后要先進(jìn)行一系列的數(shù)據(jù)預(yù)處理步驟。

前戲

在拿到一份數(shù)據(jù)準(zhǔn)備做挖掘建模之前,首先需要進(jìn)行初步的數(shù)據(jù)探索性分析(你愿意花十分鐘系統(tǒng)了解數(shù)據(jù)分析方法嗎?),對數(shù)據(jù)探索性分析之后要先進(jìn)行一系列的數(shù)據(jù)預(yù)處理步驟。因?yàn)槟玫降脑紨?shù)據(jù)存在不完整、不一致、有異常的數(shù)據(jù),而這些“錯誤”數(shù)據(jù)會嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)行效率甚至導(dǎo)致挖掘結(jié)果出現(xiàn)偏差,因此首先要數(shù)據(jù)清洗。數(shù)據(jù)清洗完成之后接著進(jìn)行或者同時進(jìn)行數(shù)據(jù)集成、轉(zhuǎn)換、歸一化等一系列處理,該過程就是數(shù)據(jù)預(yù)處理。一方面是提高數(shù)據(jù)的質(zhì)量,另一方面可以讓數(shù)據(jù)更好的適應(yīng)特定的挖掘模型,在實(shí)際工作中該部分的內(nèi)容可能會占整個工作的70%甚至更多。

01、缺失值處理

由于人員錄入數(shù)據(jù)過程中或者存儲器損壞等原因,缺失值在一份數(shù)據(jù)中或多或少存在,所以首先就需要對缺失值進(jìn)行處理,缺失值處理總的原則是:使用最可能的值代替缺失值,使缺失值與其他數(shù)值之間的關(guān)系保持***。具體的常用方法如下:

  • 刪除缺失值(缺失值占比很小的情況)
  • 人工填充 (數(shù)據(jù)集小,缺失值少)
  • 用全局變量填充(將缺失值填充一常數(shù)如“null”)
  • 使用樣本數(shù)據(jù)的均值或中位數(shù)填充
  • 用插值法(如拉格朗日法、牛頓法)

Python缺失值處理實(shí)例代碼:

a、判斷刪除缺失值- -isnull,notnull

  • 判斷缺失值可以用來計算缺失值占比整個數(shù)據(jù)的大小,如果占比很小可以刪除缺失值。

b、填充替換缺失值--fillna

  • 如果缺失值不可以占比很多,就不能能夠輕易的刪除缺失值,可以用上述的插值方法填充缺失值。

c、核心代碼和結(jié)果圖: 

你會用Python做數(shù)據(jù)預(yù)處理嗎?

你會用Python做數(shù)據(jù)預(yù)處理嗎?

02、異常值處理

異常值是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)值上表現(xiàn)為:數(shù)據(jù)集中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的數(shù)據(jù),其中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的數(shù)據(jù)(3σ原則),稱為高度異常的異常值。

  • 異常值分析方法
  • 3σ原則 (數(shù)據(jù)分布為正態(tài)分布)
  • 箱型圖分析(內(nèi)限or外限)。

常用處理方法如下:

  • 直接刪除 (異常值占比小)
  • 暫且保留,待結(jié)合整體模型綜合分析
  • 利用現(xiàn)有樣本信息的統(tǒng)計量填充(均值等)

Python異常值處理實(shí)例代碼:

  • 檢驗(yàn)是否符合正態(tài)分布,符合用3σ原則判斷并處理,核心代碼結(jié)果如下:

你會用Python做數(shù)據(jù)預(yù)處理嗎?

 

你會用Python做數(shù)據(jù)預(yù)處理嗎?

2. 當(dāng)不符合正態(tài)分布時可用箱型圖分析處理,核心結(jié)果代碼如下:

你會用Python做數(shù)據(jù)預(yù)處理嗎?

你會用Python做數(shù)據(jù)預(yù)處理嗎?

03、數(shù)據(jù)標(biāo)準(zhǔn)化處理

數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán),最典型的就是數(shù)據(jù)歸一化處理就是將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上 。

常用數(shù)據(jù)標(biāo)準(zhǔn)化方法:

  • MIN- MAX標(biāo)準(zhǔn)化(x - x_min)/(x_max-x_min)
  • z-score標(biāo)準(zhǔn)化(x-x_mean)/x_std
  • 小數(shù)定標(biāo)標(biāo)準(zhǔn)化
  • 向量歸一化
  • 線性比例變換法
  • 平均值法
  • 指數(shù)轉(zhuǎn)換法

歸一化的目的:

  • 使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍
  • 消除奇異樣本數(shù)據(jù)導(dǎo)致的不良影響

在大佬Ng的視頻課中聽過一句話,歸一化會加快梯度下降的求解速度。

應(yīng)用場景說明:

  • SVM、線性回歸之類的***化問題需要?dú)w一化,是否歸一化主要在于是否關(guān)心變量取值;
  • 神經(jīng)網(wǎng)絡(luò)需要標(biāo)準(zhǔn)化處理,一般變量的取值在-1到1之間,這樣做是為了弱化某些變量的值較大而對模型產(chǎn)生影響。一般神經(jīng)網(wǎng)絡(luò)中的隱藏層采用tanh激活函數(shù)比sigmod激活函數(shù)要好些,因?yàn)閠anh雙曲正切函數(shù)的取值[-1,1]之間,均值為0;
  • 在K近鄰算法中,如果不對解釋變量進(jìn)行標(biāo)準(zhǔn)化,那么具有小數(shù)量級的解釋變量的影響就會微乎其微。

注意:沒有一種數(shù)據(jù)標(biāo)準(zhǔn)化的方法,放在每一個問題,放在每一個模型,都能提高算法精度和加快算法的收斂速度。所以對于不同的問題可能會有不同的歸一化方法。在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進(jìn)行降維的時候,Z-score standardization表現(xiàn)更好。

04、數(shù)據(jù)連續(xù)屬性離散化

一些數(shù)據(jù)挖掘算法,特別是分類算法,要求數(shù)據(jù)是分類屬性形式。常常需要將連續(xù)屬性變換成分類屬性,即連續(xù)屬性離散化。 常用的離散化方法:

  • 等寬法:將屬性值域分成具有相同寬度的區(qū)間,區(qū)間的個數(shù)由數(shù)據(jù)本身的特點(diǎn)決定,或者由用戶指定,類似于制作頻率分布表。
  • 等頻法:將相同數(shù)量的記錄放進(jìn)每個區(qū)間。
  • 基于聚類分析的方法。 通過分箱離散化、通過直方圖分析離散化、通過聚類、決策樹和相關(guān)分析離散化、標(biāo)稱數(shù)據(jù)的概念分層產(chǎn)生。

05、總結(jié)

本文是筆者在學(xué)習(xí)數(shù)據(jù)分析過程中記錄下來的一些通用的數(shù)據(jù)預(yù)處理步驟,并且用Numpy、Pandas、Matplotlib等實(shí)現(xiàn)了每一種處理方法并可視化了處理結(jié)果。

責(zé)任編輯:未麗燕 來源: 數(shù)據(jù)分析成長手冊
相關(guān)推薦

2023-11-27 13:58:00

數(shù)據(jù)預(yù)處理數(shù)據(jù)標(biāo)準(zhǔn)化

2024-05-20 09:31:53

PandasPython大數(shù)據(jù)集

2024-04-08 00:00:00

asyncawaiPromise

2022-02-10 09:04:50

架構(gòu)

2021-03-28 08:57:57

Python 文本數(shù)據(jù)

2024-09-23 00:00:05

CSS進(jìn)化項(xiàng)目

2022-06-29 09:54:17

Python數(shù)據(jù)可視化Altair

2025-01-20 00:00:00

反射Java語言

2021-08-11 10:00:51

緩存MyBatis管理

2021-09-06 10:42:18

Linux命令服務(wù)器

2021-11-03 17:40:51

Python線程

2020-06-04 14:15:55

Java中BigDecimal函數(shù)

2018-09-29 15:34:34

JavaList接口

2024-03-06 08:15:03

@Autowired注入方式Spring

2021-05-21 12:36:16

限流代碼Java

2019-07-25 12:46:32

Java高并發(fā)編程語言

2025-03-07 08:00:00

數(shù)據(jù)數(shù)據(jù)集集神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理

2021-09-16 11:02:49

Python線程

2016-12-20 16:07:13

Python數(shù)據(jù)預(yù)處理

2016-12-18 15:03:57

Python Scikit Lea數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 午夜免费| 国产精品亚洲一区二区三区在线 | 亚洲成人免费网址 | 国产高清av免费观看 | 视频一区二区在线观看 | 国产成人福利视频在线观看 | av看片| 午夜精品一区二区三区在线视频 | 国产精品视频一区二区三区, | 亚洲一区二区免费电影 | 视频一区在线观看 | 欧美1级| 精品粉嫩aⅴ一区二区三区四区 | 国产精品久久视频 | 午夜视频网站 | 美女视频一区 | 精品一区二区三区在线观看 | 久久国产高清视频 | 黄色成人在线观看 | 久久99久久99久久 | 亚洲综合网站 | 一区二区三区四区在线免费观看 | 少妇一级淫片免费播放 | 成人做爰69片免费观看 | 青娱乐一区二区 | 国产精品不卡一区 | 国产精品久久久久久久久久久久久 | 天天操天天干天天爽 | 国产在线观看av | 日韩爱爱网站 | 97国产在线观看 | 成人福利 | 91视频亚洲| 精品国产一区二区三区日日嗨 | 少妇av片 | 夜夜骑天天干 | 国产精品不卡 | 91精品一区二区三区久久久久 | 日韩午夜精品 | 91中文字幕在线 | 五月婷婷在线播放 |