如果你剛剛進入數據科學領域，不如從這些算法開始吧

作者：讀芯術 2020-12-14 12:56:43

每個類別都有各種旨在執行特定任務的特定算法。本文將介紹每個數據科學家都必須了解的5種基本算法，內容涵蓋機器學習的基礎知識。

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

機器學習是數據科學領域最重要的子領域之一。1959年，IBM研究人員ArthurSamuel首次使用了機器學習這一術語。從此以后，機器學習領域引發了很多人的極大興趣。

當你開始數據科學之旅時，遇到的第一個子領域可能就是機器學習。機器學習是用于描述計算機算法集合的名稱，這些算法在運行過程中通過收集信息不斷進行學習和改進。

機器學習算法都是基于某些數據的。最初，該算法通過一些“訓練數據”來建立解決特定問題的直覺。一旦算法通過了學習階段，就可以通過已獲得知識解決基于不同數據集的相似問題。

一般而言，機器學習算法分為4類：

以上每種算法都有特定目標。例如，監督學習旨在擴展訓練數據的范圍，并據此預測未來或新數據。另一方面，無監督算法用于組織和篩選數據以使其有意義。

每個類別都有各種旨在執行特定任務的特定算法。本文將介紹每個數據科學家都必須了解的5種基本算法，內容涵蓋機器學習的基礎知識。

1. 回歸

回歸算法是監督算法，用于查找不同變量之間的可能關系，以了解自變量對因變量的影響程度。可以將回歸分析視為一個方程，例如，假設有方程y = 2x + z，y是因變量，則x，z是自變量。回歸分析就是找出x和z在多大程度上影響y的值。

相同的邏輯適用于更高級和更復雜的問題。對于各種問題，回歸算法的類型也有很多。最常用的前五名可能是：

2. 分類

機器學習中的分類是基于預分類的訓練數據集將項歸類的過程。分類被認為是監督學習算法的一種。這些算法利用訓練數據的分類結果，計算出新的項落入已定義類別之一的概率。分類算法的一個著名示例是將傳入的電子郵件分為垃圾郵件或非垃圾郵件。

分類算法有多種類型，最常用的有：

[[357500]]

圖源：Google

3. 集成

集成算法通過將兩個或多個其他機器學習算法的預測結合來得到更準確的結果。可以通過投票或平均結果來組合結果。投票通常在分類過程中使用，而平均則在回歸過程中使用。

集成算法有3種基本類型：Bagging、Boosting、以及Stacking。

4. 聚類

聚類算法是一組用于對數據點進行分組的無監督算法同一聚類中的點比不同聚類中的點彼此之間更相似。聚類算法有4種類型：

5. 關聯

關聯算法是無監督算法，用于發現某些項在特定數據集中一起出現的概率，主要用于購物籃分析。最常用的關聯算法是Apriori。Apriori算法是交易數據庫中常用的挖掘算法。Apriori用于挖掘頻繁項集，并從那些項集生成一些關聯規則。

例如，如果一個人購買牛奶和面包，那么他也可能會買一些雞蛋。這可以從各個顧客的先前購買記錄得出。然后算法算出這些項被一起購買的頻繁程度，根據針對該置信度的特定閾值來形成關聯規則。

如果你剛剛進入數據科學領域，不如從這些算法開始吧

圖源：Google

機器學習是數據科學中最著名、研究最深入的子領域之一。人們也一直在開發新的機器學習算法，以達到更高的準確性和更快的執行速度。無論采用哪種算法，通常都可以將其歸為以下四類之一：有監督、無監督、半監督和增強算法。每個算法的用途都不一樣。

這些算法經過了深入研究和廣泛使用，你只需要了解如何使用它，而不是如何實現它。大多數著名的Python機器學習模塊(例如ScikitLearn)都包含大多數(如果不是全部)這些算法的預定義版本。

了解其原理后，趕緊掌握用法并開始用起來吧。

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看