成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python數(shù)據(jù)分析必知必會:TGI指數(shù)

開發(fā) 后端 數(shù)據(jù)分析
經(jīng)常有一些專業(yè)的數(shù)據(jù)分析報告,會提到TGI指數(shù),例如“基于某某TGI指數(shù),我們發(fā)現(xiàn)某類用戶更偏好XX”。對于不熟悉TGI定義的同學(xué),看到類似的話一定是云山霧罩。這次,我們就來聊一聊什么是TGI指數(shù)以及怎么樣結(jié)合案例數(shù)據(jù)實現(xiàn)簡單的TGI偏好分析。

這是Python數(shù)據(jù)分析實戰(zhàn)的第一個案例,詳細(xì)解讀TGI指數(shù),并用Python代碼實現(xiàn)基礎(chǔ)的TGI偏好分析。

經(jīng)常有一些專業(yè)的數(shù)據(jù)分析報告,會提到TGI指數(shù),例如“基于某某TGI指數(shù),我們發(fā)現(xiàn)某類用戶更偏好XX”。對于不熟悉TGI定義的同學(xué),看到類似的話一定是云山霧罩。這次,我們就來聊一聊什么是TGI指數(shù)以及怎么樣結(jié)合案例數(shù)據(jù)實現(xiàn)簡單的TGI偏好分析。

內(nèi)事不決網(wǎng)上搜,對于TGI指數(shù),百科是這樣解釋的——TGI指數(shù),全稱Target Group Index,可以反映目標(biāo)群體在特定研究范圍內(nèi)強勢或者弱勢。

很好,這個解釋官方中透漏著專業(yè),專業(yè)中彌漫著晦澀,晦澀的讓人似懂非懂。粗暴翻譯下來,TGI指數(shù)是反應(yīng)偏好的一種指標(biāo)。這樣還是不夠清楚,我們結(jié)合公式理解一下。

TGI指數(shù)計算公式 = 目標(biāo)群體中具有某一特征的群體所占比例 / 總體中具有相同特征的群體所占比例 * 標(biāo)準(zhǔn)數(shù)100

是不是更暈了?暈就對了!不暈我們還聊啥呢?

01 指標(biāo)拆解

TGI計算公式中,有三個關(guān)鍵點需要進(jìn)一步拆解:某一特征,總體,目標(biāo)群體。

隨便舉個栗子,假設(shè)我們要研究A公司脫發(fā)TGI指數(shù):

某一特征,就是我們想要分析的某種行為或者狀態(tài),這里是脫發(fā)(或者說受脫發(fā)困擾)

總體,是我們研究的所有對象,即A公司所有人

目標(biāo)群體,是總體中我們感興趣的一個分組,假設(shè)我們關(guān)注的分組是數(shù)據(jù)部,那目標(biāo)群體就是數(shù)據(jù)部

于是乎,公式中分子“目標(biāo)群體中具有某一特征的群體所占比例”可以理解為“數(shù)據(jù)部脫發(fā)人數(shù)占數(shù)據(jù)部的比例”,假設(shè)數(shù)據(jù)部有15個人,有9個人受脫發(fā)困擾,那數(shù)據(jù)部脫發(fā)人數(shù)占比就是9/15,等于60%。

而分母“總體中具有相同特征的群體所占比例”,等同于“全公司受脫發(fā)困擾人數(shù)占公司總?cè)藬?shù)的比例”,假設(shè)公司一共500人,有120人受脫發(fā)困擾,那這個比例是24%。

所以,數(shù)據(jù)部脫發(fā)TGI指數(shù),可以用60% / 24% * 100 = 250,其他部門脫發(fā)TGI指數(shù)計算邏輯是一樣的,用本部門脫發(fā)人數(shù)占比 / 公司脫發(fā)人數(shù)占比 * 100即可。

TGI指數(shù)大于100,代表著某類用戶更具有相應(yīng)的傾向或者偏好,數(shù)值越大則傾向和偏好越強;小于100,則說明該類用戶相關(guān)傾向較弱(和平均相比);而等于100則表示在平均水平。

剛才的例子中,我們瞎掰的數(shù)據(jù)部脫發(fā)TGI指數(shù)是250,遠(yuǎn)遠(yuǎn)高于100,看來搞數(shù)據(jù)的脫發(fā)風(fēng)險極高,數(shù)據(jù)才是真正的發(fā)際線推手。 

[[281436]]

下面,我們通過一個案例來鞏固概念理解,順便和潘大師(Pandas)過過招。

02 TGI實例分析

項目背景

BOSS拋來一份訂單明細(xì),“小Z啊,我們最近要推出一款客單比較高的產(chǎn)品,打算在一些城市先試銷,你看看這個數(shù)據(jù),哪些城市的人有高客單偏好,幫我篩選5個吧”。

小Z趕緊打開表格,看看數(shù)據(jù)到底長什么樣子: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

訂單數(shù)據(jù)包括品牌名、買家姓名、付款時間、訂單狀態(tài)和地域等字段,一共28832條數(shù)據(jù),沒有空值。

粗略看了幾眼源數(shù)據(jù),小Z趕緊明確數(shù)據(jù)需求:“領(lǐng)導(dǎo),那客單比較高的定義是什么?”

“就我們產(chǎn)品線和歷史數(shù)據(jù)來看,單次購買大于50元就算高客單的客戶了”。

確認(rèn)了高客單之后,我們的目標(biāo)非常明確:按照高客單偏好給城市做個排序。這里的偏好,可以用TGI指數(shù)來衡量,我們再次復(fù)習(xí)下TGI三個核心點:

  • 特征,高客單,即客戶單次購買超過50元
  • 目標(biāo)群體,就是各個城市,這里我們可以分別計算出所有城市客戶的高客單偏好
  • 至于總體,就非常直白了,計算所涉及到的所有客戶即為總體

解題的關(guān)鍵在于,計算出不同城市,高客單人數(shù)及所占的比例。

單個用戶打標(biāo)

第一步,我們先判斷每個用戶是否屬于高客單的人群,所以先按用戶昵稱進(jìn)行分組,看每位用戶的平均支付金額。這里用平均,是因為有的客戶多次購買,而每次下單金額也不一樣,故平均之。 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

接著,定義一個判斷函數(shù),如果單個用戶平均支付金額大于50,就打上“高客單”的類別,否則為低客單,再用apply函數(shù)調(diào)用: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

到這里基于高低客單的用戶初步打標(biāo)已經(jīng)完成。

匹配城市

單個用戶的金額和客單標(biāo)簽已經(jīng)搞定,下一步就是補充每個用戶的地域字段,一句pd.merge函數(shù)就能搞定。由于源數(shù)據(jù)是未去重的,我們得先按昵稱去重,不然匹配的結(jié)果會有許多重復(fù)的數(shù)據(jù): 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

高客單TGI指數(shù)計算

要計算每個城市高客單TGI指數(shù),需要得到每個城市高客單、低客單的人數(shù)分別是多少。如果用EXCEL的數(shù)據(jù)透視表處理起來就很簡單,直接把省份和城市拖拽到行的位置,客單類別拖到列的位置,值隨便選一個字段,只要是統(tǒng)計就好。

不要慌,這一套操作,Python實現(xiàn)起來也灰常容易,pivot_table透視表函數(shù)一行就搞定: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

這樣得到的結(jié)果包含了層次化索引,受篇幅限制就不展開講,我們只要知道要索引得到“高客單”列,需要先索引“買家昵稱”,再索引“高客單”: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

這樣,拿到了每個省市的高客單人數(shù),然后再拿到低客單的人數(shù),進(jìn)行橫向合并: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

我們再看看每個城市總?cè)藬?shù)以及高客單人數(shù)占比,來完成“目標(biāo)群體中具有某一特征的群體所占比例”這個分子的計算: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

有些非常小眾的城市,高客單或者低客單人數(shù)等于1甚至沒有,而這些值尤其是空值會影響結(jié)果的計算,我們要提前檢核數(shù)據(jù): 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

果然,高客單和低客單都有空值(可以理解為0),從而導(dǎo)致總?cè)藬?shù)也存在空值,而TGI指數(shù)對于空值來說意義不大,所以我們剔除掉存在空值的行: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

接著統(tǒng)計總?cè)藬?shù)中,高客單人群的比例,來對標(biāo)公式中的分母“總體中具有相同特征的群體所占比例”: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

最后一步,就是TGI指數(shù)的計算,順便排個序: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

出了結(jié)果,小Z興致勃勃的打算第一時間報告老板,說時遲那時快,在按下回車之前又掃了一眼數(shù)據(jù),發(fā)現(xiàn)了一個嚴(yán)重的問題:高客單TGI指數(shù)排名靠前的城市,總客戶數(shù)幾乎不超過10人,這樣的高客單人口占比,完全沒有說服力。

TGI指數(shù)能夠顯示偏好的強弱,但很容易讓人忽略具體的樣本量大小,這個是需要格外注意的。

怎么辦呢?為了加強數(shù)據(jù)整體的信度,小Z決定先對總?cè)藬?shù)進(jìn)行篩選,用總?cè)藬?shù)的平均值作為閾值,只保留總?cè)藬?shù)大于平均值的城市: 

Python數(shù)據(jù)分析必知必會——TGI指數(shù)

處理之后,小Z覺得這份數(shù)據(jù)合理多了。

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2024-01-09 13:58:22

PandasPython數(shù)據(jù)分析

2021-06-09 11:06:00

數(shù)據(jù)分析Excel

2018-03-28 14:33:33

數(shù)據(jù)分析師工具Spark

2020-07-10 07:58:14

Linux

2022-08-19 10:31:32

Kafka大數(shù)據(jù)

2024-11-15 11:11:48

2017-07-12 15:32:12

大數(shù)據(jù)大數(shù)據(jù)技術(shù)Python

2024-01-03 07:56:50

2023-04-20 14:31:20

Python開發(fā)教程

2023-05-08 15:25:19

Python編程語言編碼技巧

2022-05-18 09:01:19

JSONJavaScript

2021-04-15 10:01:18

Sqlite數(shù)據(jù)庫數(shù)據(jù)庫知識

2020-08-23 18:18:27

Python列表數(shù)據(jù)結(jié)構(gòu)

2021-04-12 10:00:47

Sqlite數(shù)據(jù)庫CMD

2022-04-25 21:40:54

數(shù)據(jù)建模

2021-03-11 15:35:40

大數(shù)據(jù)數(shù)據(jù)分析

2023-11-15 18:03:11

Python數(shù)據(jù)分析基本工具

2015-10-20 09:46:33

HTTP網(wǎng)絡(luò)協(xié)議

2019-01-30 14:14:16

LinuxUNIX操作系統(tǒng)

2018-10-26 14:10:21

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 午夜精品 | 中文字幕av一区二区三区 | 亚洲第一视频网 | 日本一级淫片免费啪啪3 | 久久精品国产久精国产 | 欧美一区二区三区视频在线播放 | 91精品免费视频 | 国产激情91久久精品导航 | www日日日| 夜夜夜久久 | 日韩天堂av | 91在线观看视频 | www.久久国产精品 | 天天操,夜夜爽 | 日韩中文字幕一区 | 成人免费视频网站在线看 | 伊人久久综合影院 | 久久综合影院 | 午夜寂寞影院在线观看 | 日一区二区三区 | 色中文在线 | 视频一区在线观看 | 欧美极品一区二区 | 欧美日韩电影免费观看 | 国产美女精品视频 | 日韩色视频 | 欧美一区二区久久 | 日日精品| 免费视频一区 | 亚洲一区久久 | 国产97在线看 | 国产精品久久久久久网站 | www.日本在线 | 欧美在线高清 | 天天天天操 | 看片国产| 免费国产一区二区 | 一区二区三区在线播放 | 亚洲精品国产一区 | 亚洲乱码国产乱码精品精98午夜 | 日本在线观看视频 |