數據挖掘的方法很多,實用易懂的就這一種
六人定律,相信大家一定都不會陌生。簡單的說,你只需要通過6個人,就可以認識到世界上所有的人。足以說明,世界就像一張網,任何事物之間都能找到關系。
大數據時代,我們把這樣的網絡叫關系網絡,那么,如何從關系網絡中挖掘出有價值的信息?以下為你一一道來。
什么是關系網絡
關系網絡有時也叫社會網絡,是指社會參與者及其間的關系的集合。也可以說,一個關系網絡是由多個點(社會參與者)和各點之間的連線(參與者之間的關系)組成的集合。
這里的參與者不但指具體的個人,還可指一個群體、公司或其他集體性的社會單位或實體。每個參與者在網絡中的位置被稱為"節點(node)"或“頂點(Vertex)”,參與者之間的關系稱為“邊(Edge)”。
常見的關系網絡可能由以下關系構成:
- 親屬關系:父母、子女、夫妻關系等。
- 社會關系:社會角色也是關系性的,如老板/職員、教師/學生、醫生/病人關系等。
- 個人之間的評價關系:贊成、喜歡、信任、尊重等。
- 行為上的互動關系:參與者之間的自然交往,如談話、參加會議、拜訪、提建議等。
- 隸屬關系:如參加一項協會、屬于某些俱樂部等。
- 物質或資本的傳遞:商業往來、物資交流。
- 非物質資源的轉換關系:參與者之間的交往、信息的交換等。
- 空間關系:城市之間的關系,遷入和遷出。
職位的升遷,地位的變動。
關系網絡分析方法
要分析關系網絡,從了解一些基本概念開始。
1、“圖”的概念
為方便計算機處理關系網絡,在計算機理論中,把關系網絡抽象為“圖”的概念。這里的“圖”不是圖形,也不是照片,而是一種數據結構。“圖”由下面三種關鍵元素構成:
- 節點(Node):即頂點(Vertex)
- 邊(Edge):表示節點之間的關系
- 屬性(Property):節點和邊都可以有自己的屬性
“圖”中的屬性用于描述節點或邊的特征。例如,對于某學校關系網絡,點的屬性可能有姓名、角色等,邊的屬性可能有同學、師生、同事等。

2、有向圖和無向圖
圖也分為有向圖和無向圖,分別用有箭頭的連線和無箭頭的連線表示。有向圖中的關系是有方向的,如借貸關系、權力關系等。無向圖中的關系是無方向的,例如參會、交談等。所有的關系網絡都可以抽象為“圖”的形式來表述。

3、最短路徑
有個很著名的理論,世界上任意兩個人之間最多經過6個人就能建立聯系。也就是說,你只需要通過6個人,就可以和美國總統特朗普說上話。但是,如何找到這6個人呢?最短路徑算法就用于這樣的場景,用于找到源節點到目標節點的最短路徑。它的主要特點是以起始點為中心向外層層擴展,直到擴展到終點為止。Dijkstra(迪杰斯特拉)算法是典型的單源最短路徑算法,是很有代表性的最短路徑算法。
如下圖所示,通過最短路徑計算,我們很容易在一個復雜的網絡中找到任意兩個節點(我和特朗普)之間的最短路徑。

4、度和權重
點的“度”數,是指與該點相連的邊的條數。對于有向圖,“度”也可以細分為出度和入度。與節點相連的邊越多,說明該點越重要,所以節點的“度”數反映了一個點的重要程度。
再說說點的權重,權重是表示點的重要程度的另一種方式。權重有很多種評價方式,可以用點的某項屬性度量值為權重,例如:注冊資本等。也可以用某種算法求出點的權重,例如:PageRank。
可以用度數或權重在”圖”中直觀表示節點的重要程度。下圖是《悲慘世界》人物關系,用PageRank為直徑表示不同人物的重要性,可以看到,Valjean是其中的核心人物(主角)。

5、中介中心性
中介中心性在我們WonderDM中又稱節點影響度。中介中心性指的是一個結點擔任其它兩個結點之間最短路徑的橋梁的次數。一個結點充當“中介”的次數越高,它的中介中心度就越大。中介中心性是研究一個參與者在多大程度上居于其他兩個參與者之間,因而是一種"控制能力"指數。
下圖是《悲慘世界》人物關系,用中介中心性為直徑表示人物節點。可以看到,Fantine是其中的關鍵人物。

6、模塊化
模塊化(Modularity)是關系網絡分析中用于分析網絡結構的一種方法。根據一個群組內部比群組外部具有更高密度的聯結的原則,它將網絡分成不同的群組,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用來偵測網絡的社群結構。通俗的說,找出網絡由哪些小圈子組成。
以微博轉發數據形成的關系網絡為例,將此網絡模塊化之后按模塊進行分組配色,可以很鮮明的看到整個網絡形成了若干個不同的圈子,可以對圈子內的個體詳細了解后,定位該圈子的群組特征。

7、K-Core
一個圖的k-Core是指反復去除“度”小于k的節點后,所余下的子圖,所有的節點度數都為k。K-Core算法是簡化復雜網絡并得到核心子網絡的算法之一,其簡單有效可以運用到很多領域。K-Core可以幫助我們從復雜的關系網絡中提取高度相關的子結構(如社區、團體、關聯企業等)。例如可以在采購欺詐模型中,幫助我們分析買家或賣家之間行為異常的團伙或找出整個交易網絡中處在核心位置的供應商或采購商。
如下圖所示,使用K-Core算法,我們在一個復雜的關系網絡中,找到若干關聯度比較高的客戶群體。

小結
現在是萬物互聯的時代,可謂萬物皆有關系,關系網絡分析可以應用到幾乎所有社會活動當中。利用關系網絡分析手段,結合時空數據、地理關系等建立可視化表征,可以揭示對象間的關聯和對象時空相關的模式及規律,億信華辰的數據挖掘產品WonderDM提供了涵蓋分類、回歸、聚類、關聯規則以及時間序列等五大類、十余個小類的核心數據挖掘算法,同時支持擴展數據挖掘算法,讓用戶能夠快速找到與業務更為貼合的數據挖掘模型。可以廣泛應用于金融、銀行、保險、物流、交通、安防、互聯網等各行各業。