成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

選型指南:詳解八大支持機器學習的數據庫

數據庫 其他數據庫 機器學習
本文中介紹的這些數據庫盡管在方法和功能上存在差異,但是都允許用戶在數據所在的位置上構建機器學習模型。

選擇平臺的首要原則是“靠近數據”,讓代碼靠近數據是保持低延遲的必要條件。

機器學習,特別是深度學習往往會多次遍歷所有數據(遍歷一次被稱為一個epoch)。對于非常大的數據集來說,理想的情況是在存儲數據的地方建立模型,這樣就不需要大量的數據傳輸。目前已經有部分數據庫在一定程度上支持這種功能。我們會很自然地問到一個問題,即哪些數據庫支持內部機器學習,它們又是如何做到的?下面我將對這些數據庫進行探討。

[[412195]]

Amazon Redshift

Amazon Redshift為托管的PB級數據倉庫服務,旨在讓使用現有商業智能工具對數據進行分析的工作變得更加簡單且經濟高效。其專門針對數據集進行了優化,成本合算下來每年每TB不到1000美元。

Amazon Redshift ML可讓SQL用戶能夠更加輕松地使用SQL命令創建、訓練和部署機器學習模型。Redshift SQL中的CREATE MODEL命令可定義用于訓練和目標列的數據,然后通過同一區域中加密的Amazon S3 bucket將數據傳輸給Amazon SageMaker Autopilot以用于訓練。

在AutoML訓練之后,Redshift ML將編譯最佳模型并將其注冊為Redshift集群中的預測函數。隨后,用戶可以通過在SELECT語句中調用預測函數的方式調用模型進行推測。

總結:通過SQL語句,Redshift ML可使用SageMaker Autopilot利用指定數據自動創建預測模型。在這過程中,SQL語句會被提取到S3 bucket中。最佳的預測函數會被注冊在Redshift集群中。

BlazingSQL

BlazingSQL是一個建立在RAPIDS生態系統頂層上的由GPU加速的SQL引擎,雖然是開源項目,但是提供付費服務。RAPIDS為一套得到了Nvidia支持的開源軟件庫和API,其使用了CUDA并且采用了Apache Arrow列式內存格式。作為RAPIDS的一部分,cuDF為一個類似于Pandas的GPU數據幀庫,主要用途是對數據進行加載、連接、聚合、過濾等操作。

開源工具Dask可將Python套件擴展到多臺機器上。此外,Dask還可在同一系統或多節點集群中通過多個GPU分發數據和計算。整合了RAPIDS cuDF、XGBoost和RAPIDS cuML的Dask可用于GPU加速的數據分析和機器學習當中。

總結:BlazingSQL可以在Amazon S3的數據湖上運行GPU加速的查詢,然后將生成的數據幀傳輸給cuDF進行數據操作,最后再使用RAPIDS XGBoost和cuML執行機器學習,或是使用PyTorch和TensorFlow執行深度學習。

谷歌Cloud BigQuery

BigQuery是谷歌Cloud托管理的PB級數據倉庫。用戶可以通過BigQuery對大量數據進行近實時分析。BigQuery ML允許用戶使用SQL查詢在BigQuery中創建和執行機器學習模型。

BigQueryML支持用于預測的線性回歸、用于分類的二元多類邏輯回歸、用于數據分割的K-均值聚類、用于創建產品推薦系統的矩陣分解、用于執行時間序列預測的時間序列、XGBoost分類和回歸模型、分類和回歸模型專用的基于TensorFlow的深度神經網絡、AutoML Tables、TensorFlow模型導入。用戶可以使用來自多個BigQuery數據集的數據模型進行訓練和預測。雖然BigQuery ML不會從數據倉庫中提取數據,但是用戶可以使用CREATE MODEL語句中的TRANSFORM子句,通過BigQuery ML執行特征工程。

總結:BigQuery ML通過SQL語法將谷歌Cloud機器學習引入到了BigQuery數據倉庫,從而不從數據倉庫中提取數據。

IBM Db2 Warehouse

雖然IBM Db2 Warehouse是一個托管的公有云服務,但是用戶可以在本地或在私有云中部署它們。作為一個數據倉庫,IBM Db2 Warehouse包含有內存數據處理和用于在線分析處理的列式表格等功能。其Netezza技術提供了強大的分析功能,可高效查詢數據。此外,IBM Db2 Warehouse的大量的庫和函數可以幫助用戶獲得所需的精確洞察力。

Db2 Warehouse支持Python、R和SQL中的數據庫機器學習。IDAX模塊中有分析存儲程序,包括方差分析、關聯規則、數據轉換、決策樹、診斷、K均值聚類、K近鄰、線性回歸、元數據管理、naive貝葉斯分類、主要素分析、概率分布、隨機抽樣、回歸樹、序列模式與規則,以及參數和非參數統計等等。

總結:IBM Db2 Warehouse包含一系列數據庫內SQL分析,例如一些基本的機器學習功能。此外,IBM Db2 Warehouse對R和Python也提供數據庫內支持。

Kinetica

Kinetica 流數據倉庫(Streaming Data Warehouse)將以往的流數據分析與本地的智能和人工智能整合在了一個單一的平臺上,所有這些都可以通過API和SQL進行訪問。Kinetica為GPU加速數據庫,不僅具有快速、分布式、柱狀和內存優先等特點,還整合了過濾、可視化和聚合等功能。

為了實現大規模的實時預測分析,Kinetica將機器學習模型和算法與用戶的數據集成在一起,并且允許用戶對分析數據管道、機器學習模型、數據工程的生命周期以及流計算功能進行優化。Kinetica為GPU加速的機器學習提供了一個全生命周期解決方案,包括管理Jupyter筆記本,通過RAPIDS進行模型訓練,以及Kinetica平臺中的自動模型部署和推理。

總結:Kinetica為GPU加速的機器學習提供了一個完整的數據庫生命周期解決方案,并且可以利用流數據進行預測。

微軟SQL Server

微軟SQL Server機器學習服務在SQL Server RDBMS中支持R、Python、Java、PREDICT T-SQL命令和rx_Predict存儲程序,在SQL Server Big Data Clusters中支持SparkML。在R和Python語言中,微軟提供了多個用于機器學習的套件和庫。用戶可以將經過訓練的模型存儲在數據庫中或是數據庫外部。Azure SQL Managed Instance支持Python和R專用的Machine Learning Services進行預覽。

R語言可以處理來自磁盤和內存中的數據。SQL Server提供了一個擴展框架,以便R、Python和Java代碼可以使用SQL Server數據和函數。SQL Server Big Data Clusters可在Kubernetes中運行SQL Server、Spark和HDFS。當SQL Server調用Python代碼時,Azure機器學習也可以被調用,生成的模型將被保存在數據庫中以用于預測。

總結:當前版本的SQL Server可使用多種編程語言訓練和推斷機器學習模型。

甲骨文數據庫

甲骨文云基礎設施(OCI) Data Science 是一款托管無服務器平臺,可供數據科學團隊使用包括Oracle Autonomous Database和Oracle Autonomous Data Warehouse在內的OCI構建、訓練和管理機器學習模型。該平臺包含有由開放源碼社區和Oracle Accelerated Data Science (ADS) Library開發的以Python為中心的工具、庫和套件,支持預測模型端到端的生命周期:

  • 數據采集、分析、準備和可視化
  • 特征工程
  • 模型訓練(包括Oracle AutoML)
  • 模型評估、解釋和說明(包括Oracle MLX)
  • Oracle Functions中的模型部署

OCI Data Science還與包括Functions、Data Flow、Autonomous Data Warehouse和對象存儲等OCI堆棧進行了整合。

目前支持的模型包括:

  • Oracle AutoML
  • Keras
  • Scikit-learn機器學習庫
  • XGBoost
  • ADSTuner (超參數優化)

此外,ADS還支持MLX(機器學習可解釋性)。

總結:甲骨文云基礎設施(OCI)可以托管與其數據倉庫、對象存儲和函數集成的數據科學資源,從而實現完整的模型開發生命周期。

Vertica

Vertica分析平臺為可擴展的列式存儲數據倉庫,其有兩種運行模式:Enterprise和EON,前一種模式將數據存儲在本地組成數據庫的節點內的文件系統中,后一種模式將數據存儲在公共的計算節點上。

Vertica使用大規模并行運算處理PB級數據,并通過數據并行進行內部機器學習。該產品有8個用于數據準備的內置算法、3個回歸算法、4個分類算法、2個聚類算法以及多個模型管理函數,并具備將已訓練的TensorFlow和PMML模型導入至其他地方的功能。在導入了模型之后,用戶就可以使用它們進行預測。Vertica 還允許用戶使用由C++、Java、Python或R等語言編譯的自定義擴展程序。此外,用戶還可以使用SQL語法進行訓練和推理。

總結:Vertica內置了一套優秀的機器學習算法,并且可以導入TensorFlow和PMML模型。用戶既可以使用導入的模型進行預測,也可以使用自己訓練的模型進行預測。

其它選擇:MindsDB

如果用戶的數據庫不支持內置機器學習,那么他們可以使用MindsDB。該款產品集成了6個數據庫和5個商業智能工具,支持的數據庫包括MariaDB、MySQL、PostgreSQL、ClickHouse、微軟SQL Server和Snowflake。目前MindsDB還正在努力與MongoDB整合,2021年晚些時候還將會與流數據庫實現集成。MindsDB支持的商業智能工具包括SAS、Qlik Sense、微軟Power BI、Looker和Domo。

MindsDB的功能還包括AutoML、AI表和可解釋的人工智能(XAI)。用戶可以從MindsDB Studio、SQL INSERT語句或Python API調用中調用AutoML訓練。用戶可以選擇使用GPU進行訓練,也可以選擇創建時間序列模型。

用戶可以將模型另存為數據庫表,然后從已保存模型專用的SQL SELECT語句、MindsDB Studio或Python API調用中調用它們。此外,用戶還可以通過MindsDB Studio對模型質量實現評估、解釋和可視化。

與此同時,用戶還可以將MindsDB Studio和 Python API 與本地和遠程數據源聯接在一起。MindsDB還額外提供了一個可在PyTorch上運行的簡化版深度學習框架Lightwood。

總結:MindsDB為許多不支持內置機器學習的數據庫帶來了機器學習功能。

越來越多的數據庫開始在內部支持機器學習。雖然機制各不相同,但是有些機制確實性能更加出眾。如果擁有大量數據,且需要為采樣子集選擇適當的模型,那么上面所列的8個數據庫,以及支持MindsDB的其他數據庫都可以幫助用戶為完整的數據集構建模型,并且不需要擔心因數據導出導致費用嚴重超支。 

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2023-02-10 14:49:32

人工智能機器學習

2009-07-07 17:27:37

JDBC連接Oracl

2023-11-28 12:12:46

機器學習算法

2021-11-29 18:33:38

數據分析模型

2011-04-14 18:03:49

2009-09-15 15:51:52

2017-09-29 08:56:13

2023-01-05 08:42:47

數據庫優化方案

2022-04-11 13:34:07

區塊鏈比特幣安全

2023-10-17 15:29:44

2023-11-15 15:45:22

2013-08-27 17:55:23

2011-04-29 09:15:16

Servlet

2024-04-24 09:52:19

云技能云遷移云計算

2009-06-22 14:07:46

JSF優勢

2016-01-27 13:37:53

機器學習數據模型算法

2024-12-31 06:00:00

Python編程代碼

2025-03-05 08:30:00

2010-07-08 15:18:13

UML類圖符號

2022-01-05 09:26:56

IT災難IT故障
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www国产亚洲精品久久网站 | 免费午夜视频 | 婷婷在线视频 | 一区二区三区四区在线视频 | 日韩中文一区 | 久草在线 | 视频第一区 | 国产一区二区精华 | 午夜久久久 | 欧美日韩国产欧美 | 国产做a爱片久久毛片 | 亚洲精品456 | 亚洲精品一区二区在线观看 | 91在线观看 | 色综合久久伊人 | 在线亚洲欧美 | 中文字幕一区二区三区四区五区 | 国产91亚洲精品一区二区三区 | 欧美不卡一区 | 欧美日韩不卡合集视频 | 日韩精品久久久久 | 欧美视频区 | 国产一区亚洲 | 黄色毛片免费 | 成人午夜免费视频 | 久久精品免费观看 | 91麻豆精品国产91久久久久久 | 国产精品美女久久久久久久久久久 | 国产乱码精品一区二区三区中文 | 国产精品久久 | 午夜影院在线播放 | 玖玖综合网 | 国产日韩电影 | 亚洲伊人久久综合 | 免费看91| 欧美日本高清 | 欧美日韩不卡 | 久久成人一区 | 亚洲www啪成人一区二区麻豆 | 黑人中文字幕一区二区三区 | 国产精品一区二区三区在线 |