詳解SQL中的機器學習

作者：聞數起舞 2021-02-03 09:21:59

如此多的現代數據分析都建立在ML技術的基礎之上，并且在可預見的將來將繼續這樣做。但是，并非所有人都能從這些巨大的進步中受益，因為使用ML技術主要涉及使用Python，開發代碼和理解許多新技術。

有時很難相信ML之前的世界已經存在。如此多的現代數據分析都建立在ML技術的基礎之上，并且在可預見的將來將繼續這樣做。但是，并非所有人都能從這些巨大的進步中受益，因為使用ML技術主要涉及使用Python，開發代碼和理解許多新技術。尤其是當大數據和分布式系統進入游戲時，事情變得一團糟。

[[380168]]

這是SQL查詢引擎試圖解決的問題。它們使使用簡單但功能強大的SQL命令來使用復雜的分布式系統世界成為可能。dask-sql是一個新的SQL查詢引擎(免責聲明：我是作者)，建立在僅python的Dask分布式庫之上。這個新庫可讓您將Python與SQL和分布式可擴展計算結合起來!(在我的其他一篇文章中了解更多有關它的信息)。

dask-sql的最新版本0.3.0具有對機器學習的實驗性支持，因此今天我們將了解如何使用它。當然，我們將為此使用著名的Iris數據集-數據科學的世界。即使這個特定的數據樣本很小，只需將更多的計算節點添加到群集中，本文中顯示的所有內容都可以輕松擴展到大量數據。

旁注：帶有dask-sql的ML仍處于試驗階段:-)可以隨意嘗試，但請謹慎使用。

先決條件和準備

在本文中，我將假設您(或您的數據工程師)已經設置并運行了dask-sql。有關更多信息，請參考文檔或此博客文章。我還將假設您通過其SQL Server接口連接dask-sql，例如通過諸如Apache Hue之類的BI工具，該工具甚至提供了最新版本對dask-sql的本機支持。

如果您正在使用dask-sql的Python接口，則仍然可以繼續。只需使用以下單元格初始化Jupyter筆記本

from IPython.core.magic import register_line_cell_magic 
from dask_sql import Context 
# Create a context to store the tables and models 
c = Context() 
# Small helper function to make our life easier 
@register_line_cell_magic 
def sql(line, cell=None): 
    if cell is None: 
        cell = line 
        line = None 
     
    if not line: 
        line = {} 
    return c.sql(cell, return_futures=False, **line)

在以下代碼示例中，在每個SQL命令前加上%% sql，例如

%%sql 
SELECT 1 + 1

加載和準備數據

在這些事情都解決了之后，讓我們開始導入數據。由于dask-sql利用大型的Python和Dask生態系統，您可以從許多不同的位置讀取許多不同格式的數據樣本。在此示例中，我們將以相當標準的CSV格式從Internet提取數據：

CREATE OR REPLACE TABLE iris WITH ( 
    location = 'https://datahub.io/machine-learning/iris/r/iris.csv', 
    persist = True 
)

數據集被加載并存儲為名為“ iris”的表。persist = True使dask-sql將數據緩存在內存中。

現在，檢查數據是否正確加載

DESCRIBE iris

如您所見，數據類型是自動分配的。我們可以使用以下標準SQL命令顯示數據的前十行：

SELECT * FROM iris LIMIT 10

鳶尾花數據集的簡要介紹：如上面的輸出所示，數據集描述了鳶尾花及其種類的測量結果。它是機器學習中的標準數據集之一，可以用作許多類型的ML方法的示例。在此示例中，我們將應用無監督的聚類算法。

在開始培訓之前，讓我們首先在每個ML管道中執行另一個重要步驟：特征提取。由于我不是生物學家，因此在此僅以一個非常簡單且幼稚的新功能為例：將萼片長度乘以萼片寬度。還可以使用SQL語句和函數生成更復雜的功能。如果這還不夠，dask-sql允許注冊用Python編寫的用戶定義函數(UDF)。

SELECT  
    *,  
    sepallength * petallength AS new_feature  
FROM iris 
LIMIT 10

為了讓我們的生活更輕松，讓我們為該增強型表引入一個別名

CREATE OR REPLACE TABLE transformed_data AS ( 
    SELECT  
        *,  
        sepallength * petallength AS new_feature 
    FROM iris 
)

我們現在準備應用機器學習!

訓練機器學習模型

機器學習模型的種類繁多，從簡單的模型(如線性回歸)到強大的Boosted Decision Trees，再到最先進的研究模型(如Transformers)。其中許多是在著名的scikit-learn Python軟件包中實現的，因此(在許多其他庫中)可在dask-sql中使用。

在此示例中，我們應用了k-Means聚類算法。簡而言之，它將數據集分組為具有相似特征的行簇。如果一切順利，我們希望它可以將相同物種的花朵聚在一起-而無需我們告訴算法。讓我們看看該算法的性能如何(破壞者：不是很好)。如果您想了解有關與dask-sql兼容的模型及其設置的更多信息，建議您閱讀一下文檔。

因此，讓我們將聚類算法應用于數據!

CREATE OR REPLACE MODEL clustering WITH ( 
    model_class = 'sklearn.cluster.KMeans', 
    wrap_predict = True, 
    n_clusters = 3 
) AS ( 
    SELECT sepallength, sepalwidth, petallength, petalwidth, new_feature 
    FROM transformed_data 
)

如您所見，我們使用了一個新的SQL構造CREATE MODEL進行訓練，它獲得一些參數來指定要訓練的模型。在我們的例子中，我們從scikit-learn中選擇k-Means算法，并將我們期望的組或簇數設置為三個(因為我們有三個種類)。scikit-learn軟件包中的算法在中等大小的數據上可以很好地工作，如果您需要超出此范圍，請查看dask-ml。

培訓應立即完成(因為總數據集很小)，因此我們可以繼續檢查預測。

檢查性能

SELECT * FROM PREDICT ( 
    MODEL clustering, 
    SELECT * FROM transformed_data 
    LIMIT 10 
)

該SQL語句將訓練有素的模型應用于給定的數據，并向其中添加帶有模型的預測目標的新列“目標”。從前十行來看，它看起來不錯(所有“ setosa”都有相同的預測目標)。因此，我們再次引入別名以進行更多計算

CREATE OR REPLACE TABLE iris_results AS ( 
    SELECT class AS label, target AS predicted FROM PREDICT ( 
        MODEL clustering, 
        SELECT * FROM transformed_data 
    ) 
)

為了簡短起見，我們只快速瀏覽一下結果，并檢查物種和預測簇的分布。

SELECT  
    label, predicted, COUNT(*) AS numbers 
FROM iris_results 
GROUP BY label, predicted

一點都不完美，但是幸運的是，這不是關于ML的文章，所以我將跳過優化步驟:-)。您的BI工具可能能夠自動繪制這些數字，并且作為python用戶，您可以使用

df = c.sql(""" 
SELECT  
    label, predicted, COUNT(*) AS numbers 
FROM iris_results 
GROUP BY label, predicted 
""", return_futures=False) 
dfdf = df.set_index(["label", "predicted"]) 
df.numbers.unstack(0).plot.bar(ax=plt.gca())

概要

感謝您關注這篇文章直到最后!我們已經介紹了相當多的材料，所以這里有個簡短的回顧：

SQL查詢引擎很酷，因為您可以使用它們使用具有簡單SQL語法(以及很多魔術)的復雜分布式系統來查詢復雜數據。
dask-sql就是其中之一，它與Python生態系統的交互特別簡單(因為它建立在Dask之上，Dask是可擴展Python應用程序的庫)。
好處之一是可以輕松集成各種Python ML庫，例如scikit-learn包中的k-Means算法，如本博文所示。另一個好處是，一切都可以通過使用SQL來完成!

如果您想了解更多信息，請轉至文檔，然后對數據進行SQL處理。

原文鏈接：https://towardsdatascience.com/machine-learning-in-sql-it-actually-works-56e8d91fc273

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳解SQL中的機器學習