5個開源數(shù)據(jù)挖掘工具,收下這波干貨
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取隱藏的或未知,但可能有用信息的過程。尤其在機器學(xué)習(xí)中,數(shù)據(jù)挖掘是十分重要的一環(huán)。今天給大家介紹5個開源數(shù)據(jù)挖掘工具,收下這波干貨吧。
1. Orange
Orange 是由C++ 和 Python開發(fā)的,基于組件的數(shù)據(jù)挖掘和機器學(xué)習(xí)軟件套裝,它的功能很豐富,而且強大。它包含了一系列組件,能進行數(shù)據(jù)預(yù)處理,并提供了數(shù)據(jù)帳目,過渡,建模,模式評估和勘探的功能。通過它快速且多功能的可視化編程前端,能夠瀏覽數(shù)據(jù)分析和可視化,可以綁定Python進行腳本開發(fā)。
2. KNIME
KNIME 由Java寫成,它基于Eclipse,是一個開源的、智能的,而且有豐富數(shù)據(jù)集成,數(shù)據(jù)處理,數(shù)據(jù)分析和數(shù)據(jù)勘探的平臺。它可視化的方式,能夠創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道,而且可以選擇性地運行分析步驟,并研究結(jié)果,模型以及可交互的視圖。并且,可以集成到其它各種各樣的開源項目中,比如:R語言,Weka, Chemistry Development Kit等。
3. Apache Mahout
Apache Mahout是分布式線性代數(shù)框架,這個框架是具有數(shù)學(xué)表達(dá)能力的Scala DSL,構(gòu)建了一個用于快速創(chuàng)建可擴展,且性能驅(qū)動的機器學(xué)習(xí)應(yīng)用程序的環(huán)境,可以使得數(shù)據(jù)科學(xué)家、統(tǒng)計學(xué)家等更迅速地實現(xiàn)其算法。
4. Weka
Weka是用Java編寫的,可以在大部分平臺上運行,是一種開源機器學(xué)習(xí)軟件,能通過圖形用戶界面,標(biāo)準(zhǔn)終端應(yīng)用程序或Java API進行訪問。總之它是一個集合,用來解決實際數(shù)據(jù)挖掘問題的機器學(xué)習(xí)算法。
5. DataMelt
DataMelt是一個開源軟件,用于數(shù)值計算,數(shù)學(xué)、統(tǒng)計、符號計算,數(shù)據(jù)分析和數(shù)據(jù)可視化的。DataMelt可以與Java平臺的幾種腳本語言一起使用,例如Jython,Groovy,JRuby(Ruby編程語言)和BeanShell等。