7種主流數據分析軟件比較 | 附經典教材推薦!
STATA
軟件優點:Stata以其簡單易懂和功能強大受到初學者和高級用戶的普遍歡迎。使用時可以每次只輸入一個命令,也可以通過一個Stata程序一次輸入多個命令。這樣的話即使發生錯誤,也較容易找出并加以修改。盡管Stata的數據管理能力沒有SAS那么強大,它仍然有很多功能較強且簡單的數據管理命令,能夠讓復雜的操作變得容易。Stata主要用于每次對一個數據文件進行操作,難以同時處理多個文件。Stata也能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,以及一些多變量分析)。Stata***的優勢可能在于回歸分析(它包含易于使用的回歸分析特征工具),logistic回歸(附加有解釋logistic回歸結果的程序,易用于有序和多元logistic回歸)。
推薦書目:《計量經濟學及Stata應用》、《高級計量經濟學及Stata應用》,作者:陳強
推薦理由:陳強老師的計量經濟學教材,在設計上單獨章節工具變量、二值選擇模型等,解決其他教材沒有詳細講解這部分的疑問。而且陳老師教材行文,以生活實際來講計量,容易理解。《高級計量經濟學及Stata應用》還加入多值選擇模型、非參數估計、貝葉斯估計等內容。Stata較好地實現了使用簡便和功能強大兩者的結合。
Eviews
軟件優點:EViews是在Windows操作系統中計量經濟學軟件里世界性領導軟件。強而有力和靈活性加上一個便于使用者操作的界面;***的建模工具,快速直覺且容易使用的軟件。由于它革新的圖表使用者界面和精密的分析引擎工具,EViews 是強大,靈活性和便于使用的功能。EViews 預測分析計量軟件在科學數據分析與評價、金融分析、經濟預測、銷售預測和成本分析等領域應用非常廣泛。這也是撰寫計量模型論文最方便的軟件之一。
推薦書目:《計量經濟分析方法與建模--Eviews應用及實例(第二版) 》,作者:高鐵梅
推薦理由:計量經濟學研究的核心是設計模型、收集資料、估計模型、檢驗模型、應用模型(結構分析、經濟預測、政策評價)。該書在數學描述方面適當淡化,以講清楚方法、思路為目標,不做大量的推導和證明,重點放在如何運用各種計量經濟方法對實際的經濟問題進行分析、建模、預測、模擬等實際操作上。該書很多內容都講解、總結的透徹明白,例如流量、存量一般是否平穩等問題。
SPSS
軟件優點:SPSS非常容易使用,故最為初學者所接受。它有一個可以點擊的交互界面,能夠使用下拉菜單來選擇所需要執行的命令。它也有一個通過拷貝和粘貼的方法來學習其“句法”語言,但是這些句法通常非常復雜而且不是很直觀。SPSS有一個類似于Excel的界面友好的數據編輯器,可以用來輸入和定義數據(缺失值,數值標簽等等)。SPSS也主要用于對一個文件進行操作,難以勝任同時處理多個文件。它的數據文件有4096個變量,記錄的數量則是由你的磁盤空間來限定。SPSS也能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析)。它的優勢在于方差分析(SPSS能完成多種特殊效應的檢驗)和多變量分析(多元方差分析,因子分析,判別分析等)
推薦書目:《SPSS統計分析基礎教程》 作者:張文彤
推薦理由:以真實案例貫穿全書,從統計分析實戰的角度出發詳細介紹SPSS的界面操作、數據管理、統計圖表制作、統計描述和常用單因素統計分析方法的原理與實際操作,并結合SPSS的強大功能進行很好地擴展。書中還提供醫療、經濟、市場研究等各行業的綜合案例,完全從實際案例出發講解各類方法的綜合運用,以更好地協助讀者提高實戰能力。
SAS
軟件優點:SAS由于其功能強大而且可以編程,很受高級用戶的歡迎。也正是基于此,它是最難掌握的軟件之一。使用SAS時,你需要編寫SAS程序來處理數據,進行分析。如果在一個程序中出現一個錯誤,找到并改正這個錯誤將是困難的。在數據管理方面,SAS是非常強大的,能讓你用任何可能的方式來處理你的數據。它包含SQL(結構化查詢語言)過程,可以在SAS數據集中使用SQL查詢。但是要學習并掌握SAS軟件的數據管理需要很長的時間,在Stata或SPSS中,完成許多復雜數據管理工作所使用的命令要簡單的多。SAS能夠進行大多數統計分析(回歸分析,logistic回歸,生存分析,方差分析,因子分析,多變量分析)。SAS的***之處可能在于它的方差分析,混合模型分析和多變量分析,而它的劣勢主要是有序和多元logistic回歸(因為這些命令很難),以及穩健方法(它難以完成穩健回歸和其他穩健方法)。
推薦書目:《SAS應用統計分析》 作者:科迪,史密斯
推薦理由:SAS是一個數據管理和統計分析的工具,尤其在醫療設備公司和制藥行業極負勝名。一般的SAS手冊主要為有一定統計基礎的使用者提供各種程序的使用指導,一般的統計教材則通常傳授最基礎的理論知識和統計方法。很少有教材可以兩者兼顧,所以可以預想,發展趨勢就是通過統計軟件(尤其是SAS)的使用來介紹基本統計和高級統計方法。這本書就做到了,它既提出了許多應用問題,又演示了SAS的分析執行。
R語言
軟件優點:R語言與前幾種軟件相比,已經徹徹底底上升為一款相當熱門的編程軟件了,當然涉及到計算機編程可能會令不少小伙伴們頭大。這款軟件強大,免費,包羅萬象,開源。是專門為統計和數據分析開發的語言,統計前沿的主流語言。擴展性好,豐富的資源涵蓋了多種行業數據分析中幾乎所有的方法。R與SAS相比速度快,有大量統計分析模塊,但可擴展性稍差,昂貴。與SPSS相比,具有復雜的用戶圖形界面,簡單易學,但編程十分困難。
推薦書目:《R語言實戰 第二版》 作者:卡巴科弗(Robert I. Kabacoff)
推薦理由:開源軟件R是世界上***的數據分析、統計計算及制圖語言,幾乎能夠完成任何數據處理任務,可安裝并運行于所有主流平臺,為我們提供了成千上萬的專業模塊和實用工具,是從大數據中獲取有用信息的***工具。本書可以說是學習R的必備教程之一,可以讓人快速進入R的世界本書從解決實際問題入手,跳脫統計學的理論闡述來討論R語言及其應用,講解清晰透澈,***實用性。作者不僅高度概括了R語言的強大功能、展示了各種實用的統計示例,而且對于難以用傳統方法分析的凌亂、不完整和非正態的數據也給出了完備的處理方法。這本書側重R語言實戰,以實際項目講解R的若干常見應用場景。適合新手上路,回歸、方差兩章展示了完整的統計分析的過程。
Matlab
軟件優點:MATLAB 的應用范圍非常廣,包括信號和圖像處理、通訊、控制系統設計、測試和測量、財務建模和分析以及計算生物學等眾多應用領域。附加的工具箱(單獨提供的專用 MATLAB 函數集)擴展了 MATLAB 環境,以解決這些應用領域內特定類型的問題。數學函數可用于線性代數、統計、傅立葉分析、篩選、優化以及數值積分等
推薦書目:《Matlab R2016a從入門到精通》 作者:溫欣研
推薦理由:針對MATLAB R2016a(V9.0)*版本進行編寫的。書中講述的內容是使用MATLAB進行科學研究、系統仿真、數據分析與處理的必備知識。通過全面學習本書,讀者可以獲得使用MATLAB進行數學計算、數據分析及處理的相關技能,并能快速掌握使用MATLAB進行工作的基本方法。基礎知識部分包括MATLAB概述、數據輸入輸出基礎、編程基礎和可視化基礎;數學基礎部分包括數組與矩陣操作、數學函數運算和符號數學計算;數據分析部分包括多項式分析、數值運算、優化和概率統計;拓展知識部分包括句柄圖形、GUI編程、Simulink基礎、編譯器和應用程序接口;MATLAB應用部分包括信號處理應用、圖像處理應用、小波分析應用和偏微分方程應用等內容。本書作為一本實用性超強的工具書,是學習復習,參加建模比賽的必備書籍。
python
軟件優點:python非常簡單,非常適合人類閱讀。閱讀一個良好的Python程序就感覺像是在讀英語一樣,盡管這個英語的要求非常嚴格。Python的這種偽代碼本質是它***的優點之一,使你能夠專注于解決問題而不是去搞明白語言本身。Python是FLOSS(自由/開放源碼軟件)之一,可以自由地發布這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用于新的自由軟件中。Python相比于Matlab的***優勢是:Python是一門通用編程語言,實現科學計算功能的numpy、scipy、matplotlib只是Python的庫和Package而已,而這些科學計算數據處理的庫,在處理大數據方面有奇效。
推薦書目:《利用Python進行數據分析》 作者:Wes McKinney
推薦理由:這本書是Pandas的模塊作者寫的書,被譽為Pandas的***工具書。Pandas是python的一個數據分析包,最初被作為金融數據分析工具而開發出來,因此,pandas為時間序列分析提供了很好的支持。使用Pandas可以把Python基本當作R用,用NumPy和SymPy還有SciPy把Python當作Matlab用。作者對于利用Python進行數據分析有著很豐富的經驗,因此寫出的書也是深入淺出,讓人很容易就能看懂。本書講的是利用Python進行數據控制、處理、整理、分析等方面的具體細節和基本要點。同時,它也是利用Python進行科學計算的實用指南(專門針對數據密集型應用)。本書重點介紹了用于高效解決各種數據分析問題的Python語言和庫。“Life is short, you need Python!”