這些Pandas演示tips,你一定相見恨晚……
Pandas在數據分析中的重要作用不必多言。不管是Confluence上的一篇文章、GitHub中Readme文檔,抑或一篇科學論文,每個項目都會以報告之類來收尾。
使用Pandas,就不必再將數據幀(DataFrame)里的值逐一復制到另一個軟件中,它的格式化函數能夠將數據幀轉換成多種格式。
無論是學生、數據科學家還是博士研究人員,這些技巧都一定能幫到你。
圖源:medium.com
下載Jupyter notebook,一起動動小手來試試吧!
設置
創建一個10行3列的數據幀,數值隨機。
- n =10
- df = pd.DataFrame(
- {
- "col1": np.random.random_sample(n),
- "col2": np.random.random_sample(n),
- "col3": [[random.randint(0,10) for _ in range(random.randint(3, 5))] for _ inrange(n)],
- }
- )
與HTML共享結果
通過使用to_html函數,可以將Pandas數據幀轉換為HTML,這對于通過HTML發送自動報告十分有用。還可以在pandas分析服務器上制作API,這樣就可以在網頁瀏覽器的數據幀中追蹤最新數值。
注意,這需要用到lxml軟件包,可以用pip安裝lxml。
- dfdf_html =df.to_html()with open( analysis.html , w ) as f:
- f.write(df_html)
read_html函數甚至可以將HTML解析為pandas數據幀。筆者還沒有使用過通用HTML進行嘗試,但無疑會很有用。
- df_list =pd.read_html( analysis.html )
- df_list
編寫文件
在代碼中編寫注釋時,將數據幀轉換為字符串會非常有用。
- print(df.to_string())
Excel電子表格
Excel的大佬地位毋庸置疑,而Pandas能夠將數據幀轉化為Excel電子表格。使用pandas,人們可以輕松閱讀Excel電子表格。
注意,需要xlwt和openpyxl軟件包,可以用pip進行安裝。
- df.to_excel( analysis.xlsx ,index=False)
- pd.read_excel( analysis.xlsx )
Github創作
在存儲庫中,Github使用Markdown格式語言來編寫README和Wiki文件。一個優秀的README文件能讓項目更有可能被其他人采用。雖然在GitHub上逐步進行示范相當普遍,但將pandas數據幀手動格式化為markdown標記語言,會花費大量時間。這時Pandas可就幫了我們大忙。
- print(df.to_markdown())
撰寫科學論文
大部分高質量的研究論文都是用LaTeX——一個高質量的排版系統編寫而成。許多LaTeX作者制作數據幀截圖,然后放在自己的論文中,還有許多人花了相當多的時間將數據幀的值格式化為LaTe X表格。
圖源:unsplash
pandas中的to_latex函數可以幫助人們完成繁重的任務。來看看這個例子:
- df.to_latex()
結合使用print函數,你可以得到一個格式工整的輸出結果。
- print(df.to_latex())
這些技巧幫到你了嗎?