成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用隨機森林分類算法進行Iris 數據分類訓練,是怎樣的體驗?

大數據 算法
MLlib是Spark的機器學習(ML)庫,旨在簡化機器學習的工程實踐工作,并方便擴展到更大規模。

[[205745]]

MLlib是Spark的機器學習(ML)庫,旨在簡化機器學習的工程實踐工作,并方便擴展到更大規模。

MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。

MLllib目前分為兩個代碼包:spark.mllib 包含基于RDD的原始算法API。

spark.ml ,提供了基于DataFrames高層次的API,可以用來構建機器學習管道,FEA-spk技術的機器學習就是基于spark.ml 包。

spark.ml 包,是基于DataFrame的,未來將成為Spark機器學習的主要API。它可以在分布式集群上進行大規模的機器學習模型訓練,并且可以對數據進行可視化。

一、隨機森林分類算法的介紹

隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之后,當有一個新的輸入樣本進入時,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對應分類算法),然后看看哪一類被選擇最多,就預測這個樣本為那一類。

使用Spark MLlib隨機森林算法存在不足,需要改進!

具體來講,使用Spark MLlib進行模型的訓練,需要進行大量的數據轉化,列聚合為向量等。非常麻煩,并且不能做數據的可視化。

而FEA-spk技術可以很好的解決這些問題。對模型進行訓練只需要一句命令就行了,并且可以對結果數據進行可視化展示。

二、Iris 數據分類訓練案例

下面列舉一個用隨機森林分類算法進行Iris 數據分類的例子。

1. 數據準備

原始的數據以及相應的說明可以到https://pan.baidu.com/s/1c2d0hpA下載。 我在這基礎之上,增加了header信息。

這里將下載好的數據放到hdfs上面進行讀取。

2. Iris 數據進行訓練的具體步驟

(1)要使用FEA-spk技術,首先要創建一個spk的連接,所有的操作都是以它為上下文進行的。在fea界面運行以下命令

(2)加載數據,數據在hdfs上面,數據的格式為csv文件格式,目錄為/data/iris_data.txt

(3)使用ML_si方法將字符型的label變成index

(4)將特征列的類型轉化為double類型,因為spark.ml只支持double類型,使用 ML_double方法

(5)使用隨機森林模型進行訓練

在訓練RandomForest模型的時候,我們需要設置好幾個參數:

  • maxBins

***裝箱數,為了近似統計變量,比如變量有100個值,我只分成10段去做統計,默認值是32;

  • numTrees

森林里有幾棵樹,默認值是20;

  • minInstancesPerNode

每個節點最少實例,默認值是1;

  • minInfoGain

最小信息增益,默認值是0.0;

  • maxDepth

***樹深度,默認值是5;

  • maxMemoryInMB

***內存MB單位,這個值越大,一次處理的節點劃分就越多,默認值是256;

  • cacheNodeIds

是否緩存節點id,緩存可以加速深層樹的訓練,默認值是False;

  • checkpointInterval

檢查點間隔,就是多少次迭代固化一次,默認值是10;

  • impurity

隨機森林有三種方式,entropy,gini,variance,回歸肯定就是variance,默認值是gini;

  • seed

采樣種子,種子不變,采樣結果不變,默認值None;

  • featureSubsetStrategy

auto: 默認參數。讓算法自己決定,每顆樹使用幾條數據。

使用的參數如下圖所示

(6)對訓練好的模型進行打分

可以看到準確率達到了97%

(7)將訓練好的模型保存到hdfs上面,以供下次使用

這個非常實用,對于模型比較大的情況下,利用HDFS的分布式結構就可以提高加載性能。

(8)將hdfs上面保存的模型加載進來

(9)對加載后的模型做預測

其中prediction列就是預測的結果

以上就是使用FEA-spk技術進行機器學習的步驟,它非常適合數據分析處理大規模的數據,簡單、強大、可視化,不懂Java\Python同樣可以玩轉Spark!

責任編輯:武曉燕 來源: openfea博客
相關推薦

2023-09-22 10:34:19

學習算法隨機森林Java

2020-10-10 12:53:57

邏輯回歸機器學習分析

2022-08-19 07:38:51

數據備份系統存儲

2015-10-30 16:09:23

分類算法總結

2015-10-09 10:59:26

算法分類

2018-01-31 14:11:31

微信紅包隨機

2022-08-10 15:09:44

數據安全大數據數據分類

2022-12-04 00:09:07

2016-08-31 14:41:31

大數據實時分析算法分類

2023-02-23 08:00:00

Python機器學習編程代碼

2023-01-11 07:28:49

TensorFlow分類模型

2024-12-09 09:44:34

機器學習模型分類器

2018-04-09 10:20:32

深度學習

2021-02-23 15:13:41

人工智能機器學習數據

2023-02-17 08:10:58

2018-03-26 20:49:08

圖像分類

2018-04-06 05:10:04

K-NN數據集算法

2018-04-16 12:14:34

數據科學機器學習神經網絡

2022-10-09 08:00:00

機器學習文本分類算法

2022-06-05 21:16:08

機器學習Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久夜精品 | 一区二区高清不卡 | 成人一区二区三区 | 精品国产乱码久久久久久丨区2区 | 国产成在线观看免费视频 | 中文字幕成人在线 | 中文字幕一区二区三区乱码在线 | 欧美成人精品一区二区男人看 | 日本久久精 | 日产精品久久久一区二区福利 | 日本爱爱视频 | 国产精品视频久久 | 黄色在线免费观看 | 成人在线精品视频 | 中文字幕在线免费观看 | 欧美一区二区另类 | 久久日韩精品 | 亚洲精品视频一区二区三区 | 婷婷在线免费 | 日韩一区二区三区在线观看 | 欧美一区二区在线观看 | 精品久久久久久久久久久 | 国产精品一区二区日韩 | 伊人网伊人 | 成人免费一区二区三区视频网站 | 久久国内 | 精品一二 | 欧美中文在线 | 久久中文字幕一区 | av久久| 韩国成人在线视频 | 91精品国模一区二区三区 | 中文字幕一区二区三区在线观看 | 国产伊人精品 | 久久久一区二区三区四区 | 日本三级视频 | 国产一区h | 国产在线拍偷自揄拍视频 | 久久亚洲国产精品日日av夜夜 | 国产特一级黄色片 | 97色在线观看免费视频 |