成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

優(yōu)化Python代碼的4種方法

開發(fā) 后端
我是一個程序員。從大學(xué)時代開始我就一直在進行編程,而我仍然對使用簡單的Python代碼所開辟的道路之多感到驚訝。

介紹

我是一個程序員。從大學(xué)時代開始我就一直在進行編程,而我仍然對使用簡單的Python代碼所開辟的道路之多感到驚訝。

但是我并不總是那么高效。我相信這是大多數(shù)程序員(尤其是剛起步的程序員)共有的一個特征,編寫代碼的快感始終優(yōu)先于效率和簡潔性。雖然這在我們的大學(xué)期間有效,但在專業(yè)環(huán)境中,尤其是在數(shù)據(jù)科學(xué)項目中,情況卻大相徑庭。

[[278339]]

作為數(shù)據(jù)科學(xué)家,編寫優(yōu)化的Python代碼非常非常重要。雜亂,效率低下的代碼即浪費你的時間甚至浪費你項目的錢。經(jīng)驗豐富的數(shù)據(jù)科學(xué)家和專業(yè)人員都知道,當(dāng)我們與客戶合作時,雜亂的代碼是不可接受的。

因此,在本文中,我將借鑒我多年的編程經(jīng)驗來列出并展示四種可用于優(yōu)化數(shù)據(jù)科學(xué)項目中Python代碼的方法。

優(yōu)化是什么?

首先定義什么是優(yōu)化。我們將使用一個直觀的示例進行此操作。

這是我們的問題:

假設(shè)給定一個數(shù)組,其中每個索引代表一個城市,該索引的值代表該城市與下一個城市之間的距離。假設(shè)我們有兩個索引,我們需要計算這兩個索引之間的總距離。簡單來說,我們需要找到兩個給定索引之間距離的總和。

優(yōu)化Python代碼的4種方法

 

優(yōu)化Python代碼的4種方法

首先想到的是,一個簡單的FOR循環(huán)在這里可以很好地工作。但是,如果有100,000多個城市,而我們每秒接收50,000多個查詢,該怎么辦?你是否仍然認為FOR循環(huán)可以為我們的問題提供足夠好的解決方案?

FOR循環(huán)并不能提供足夠好的方案。這時候優(yōu)化就派上用場了

簡單地說,代碼優(yōu)化意味著在生成正確結(jié)果的同時減少執(zhí)行任何任務(wù)的操作數(shù)。

讓我們計算一下FOR循環(huán)執(zhí)行此任務(wù)所需的操作數(shù):

優(yōu)化Python代碼的4種方法

我們必須在上面的數(shù)組中找出索引1和索引3的城市之間的距離。

優(yōu)化Python代碼的4種方法

對于較小的數(shù)組大小,循環(huán)的性能良好

如果數(shù)組大小為100,000,查詢數(shù)量為50,000,該怎么辦?

優(yōu)化Python代碼的4種方法

這是一個很大的數(shù)字。如果數(shù)組的大小和查詢數(shù)量進一步增加,我們的FOR循環(huán)將花費大量時間。你能想到一種優(yōu)化的方法,使我們在使用較少數(shù)量的解決方案時可以產(chǎn)生正確的結(jié)果嗎?

在這里,我將討論一個更好的解決方案,通過使用前綴數(shù)組來計算距離來解決這個問題。讓我們看看它是如何工作的:

優(yōu)化Python代碼的4種方法

 

優(yōu)化Python代碼的4種方法

 

優(yōu)化Python代碼的4種方法

你能理解嗎?我們只需一次操作就可以得到相同的距離!關(guān)于此方法的最好之處在于,無論索引之間的差是1還是100,000,都只需執(zhí)行一個操作即可計算任意兩個索引之間的距離。

我創(chuàng)建了一個樣本數(shù)據(jù)集,其數(shù)組大小為100,000和50,000個查詢。你可以自己執(zhí)行代碼來比較兩者所用的時間

注意:數(shù)據(jù)集總共有50,000個查詢,你可以更改參數(shù)execute_queries以執(zhí)行最多50,000個查詢,并查看每種方法執(zhí)行任務(wù)所花費的時間。

  1. import time 
  2. from tqdm import tqdm 
  3. data_file = open('sample-data.txt''r'
  4. distance_between_city = data_file.readline().split() 
  5. queries = data_file.readlines() 
  6. print('SIZE OF ARRAY = ', len(distance_between_city)) 
  7. print('TOTAL NUMBER OF QUERIES = ', len(queries)) 
  8. data_file.close() 
  9. # 分配要執(zhí)行的查詢數(shù) 
  10. execute_queries = 2000 
  11. print('\n\nExecuting',execute_queries,'Queries'
  12. FOR循環(huán)方法 
  13. # 讀取文件并存儲距離和查詢 
  14. start_time_for_loop = time.time() 
  15. data_file = open('sample-data.txt''r'
  16. distance_between_city = data_file.readline().split() 
  17. queries = data_file.readlines() 
  18. # 存儲距離的列表 
  19. distances_for_loop = [] 
  20. # 計算開始索引和結(jié)束索引之間的距離的函數(shù) 
  21. def calculateDistance(startIndex, endIndex): 
  22.  distance = 0 
  23.  for number in range(startIndex, endIndex+1, 1): 
  24.  distance += int(distance_between_city[number]) 
  25.  return distance 
  26. for query in tqdm(queries[:execute_queries]): 
  27.  query = query.split() 
  28.  startIndex = int(query[0]) 
  29.  endIndex = int(query[1]) 
  30.  distances_for_loop.append(calculateDistance(startIndex,endIndex)) 
  31. data_file.close() 
  32. # 獲取結(jié)束時間 
  33. end_time_for_loop = time.time() 
  34. print('\n\nTime Taken to execute task by for loop :', (end_time_for_loop-start_time_for_loop),'seconds'
  35. # 前綴數(shù)組方法 
  36. # 讀取文件并存儲距離和查詢 
  37. start_time_for_prefix = time.time() 
  38. data_file = open('sample-data.txt''r'
  39. distance_between_city = data_file.readline().split() 
  40. queries = data_file.readlines() 
  41. # 存儲距離列表 
  42. distances_for_prefix_array = [] 
  43. # 創(chuàng)建前綴數(shù)組 
  44. prefix_array = [] 
  45. prefix_array.append(int(distance_between_city[0])) 
  46. for i in range(1, 100000, 1): 
  47.  prefix_array.append((int(distance_between_city[i]) + prefix_array[i-1])) 
  48. for query in tqdm(queries[:execute_queries]): 
  49.  query = query.split() 
  50.  startIndex = int(query[0]) 
  51.  endIndex = int(query[1]) 
  52.  if startIndex == 0: 
  53.  distances_for_prefix_array.append(prefix_array[endIndex]) 
  54.  else
  55.  distances_for_prefix_array.append((prefix_array[endIndex]-prefix_array[startIndex-1])) 
  56. data_file.close() 
  57. end_time_for_prefix = time.time() 
  58. print('\n\nTime Taken by Prefix Array to execute task is : ', (end_time_for_prefix-start_time_for_prefix), 'seconds'
  59. # 檢查結(jié)果 
  60. correct = True 
  61. for result in range(0,execute_queries): 
  62.  if distances_for_loop[result] != distances_for_prefix_array[result] : 
  63.  correct = False 
  64. if correct: 
  65.  print('\n\nDistance calculated by both the methods matched.'
  66. else
  67.  print('\n\nResults did not matched!!'

結(jié)果極大的節(jié)省了時間,這就是優(yōu)化Python代碼的重要性。我們不僅節(jié)省時間,而且還可以節(jié)省很多計算資源!

你可能想知道這些如何應(yīng)用于數(shù)據(jù)科學(xué)項目。你可能已經(jīng)注意到,很多時候我們必須對大量數(shù)據(jù)點執(zhí)行相同的查詢。在數(shù)據(jù)預(yù)處理階段尤其如此。

我們必須使用一些優(yōu)化的技術(shù)而不是基本的編程來盡可能快速高效地完成工作。因此,這里我將分享一些我用來改進和優(yōu)化Python代碼的優(yōu)秀技術(shù)

1. Pandas.apply() | 特征工程的鉆石級函數(shù)

Pandas已經(jīng)是一個高度優(yōu)化的庫,但是我們大多數(shù)人仍然沒有充分利用它?,F(xiàn)在你思考一下在數(shù)據(jù)科學(xué)中會使用它的常見地方。

我能想到的一項是特征工程,我們使用現(xiàn)有特征創(chuàng)建新特征。最有效的方法之一是使用Pandas.apply()。

在這里,我們可以傳遞用戶定義的函數(shù),并將其應(yīng)用于Pandas序列化數(shù)據(jù)的每個數(shù)據(jù)點。它是Pandas庫中很好的插件之一,因為此函數(shù)可以根據(jù)所需條件選擇性隔離數(shù)據(jù)。所以,我們可以有效地將其用于數(shù)據(jù)處理任務(wù)。

讓我們使用Twitter情緒分析數(shù)據(jù)來計算每條推文的字數(shù)。我們將使用不同的方法,例如dataframe iterrows方法,NumPy數(shù)組和apply方法。你可以從此處下載數(shù)據(jù)集(https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?utm_source=blog&utm_medium=4-methods-optimize-python-code-data-science)。

  1. ''
  2. 優(yōu)化方法:apply方法 
  3. ''
  4. # 導(dǎo)入庫 
  5. import pandas as pd  
  6. import numpy as np 
  7. import time 
  8. import math 
  9. data = pd.read_csv('train_E6oV3lV.csv'
  10. # 打印頭部信息 
  11. print(data.head()) 
  12. # 使用dataframe iterows計算字符數(shù) 
  13. print('\n\nUsing Iterrows\n\n'
  14. start_time = time.time() 
  15. data_1 = data.copy() 
  16. n_words = [] 
  17. for i, row in data_1.iterrows(): 
  18.  n_words.append(len(row['tweet'].split())) 
  19. data_1['n_words'] = n_words  
  20. print(data_1[['id','n_words']].head()) 
  21. end_time = time.time() 
  22. print('\nTime taken to calculate No. of Words by iterrows :'
  23. (end_time-start_time),'seconds'
  24. # 使用Numpy數(shù)組計算字符數(shù) 
  25. print('\n\nUsing Numpy Arrays\n\n'
  26. start_time = time.time() 
  27. data_2 = data.copy() 
  28. n_words_2 = [] 
  29. for row in data_2.values
  30.  n_words_2.append(len(row[2].split())) 
  31. data_2['n_words'] = n_words_2 
  32. print(data_2[['id','n_words']].head()) 
  33. end_time = time.time() 
  34. print('\nTime taken to calculate No. of Words by numpy array : '
  35. (end_time-start_time),'seconds'
  36. # 使用apply方法計算字符數(shù) 
  37. print('\n\nUsing Apply Method\n\n'
  38. start_time = time.time() 
  39. data_3 = data.copy() 
  40. data_3['n_words'] = data_3['tweet'].apply(lambda x : len(x.split())) 
  41. print(data_3[['id','n_words']].head()) 
  42. end_time = time.time() 
  43. print('\nTime taken to calculate No. of Words by Apply Method : '
  44. (end_time-start_time),'seconds'

你可能已經(jīng)注意到apply方法比iterrows方法快得多。其性能可媲美與NumPy數(shù)組,但apply方法提供了更多的靈活性。你可以在此處閱讀apply方法的文檔。(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

2. Pandas.DataFrame.loc | Python數(shù)據(jù)處理的技巧

這是我最喜歡的Pandas庫的技巧之一。我覺得對于處理數(shù)據(jù)任務(wù)的數(shù)據(jù)科學(xué)家來說,這是一個必須知道的方法(所以幾乎每個人都是這樣!)

大多數(shù)時候,我們只需要根據(jù)某些條件來更新數(shù)據(jù)集中特定列的某些值。Pandas.DataFrame.loc為我們提供了針對此類問題的優(yōu)化的解決方案。

讓我們使用loc函數(shù)解決一個問題。你可以在此處下載將要使用的數(shù)據(jù)集(https://drive.google.com/file/d/1VwXDA27zgx5jIq8C7NQW0A5rtE95e3XI/view?usp=sharing)。

  1. # 導(dǎo)入庫 
  2. import pandas as pd 
  3. data = pd.read_csv('school.csv'
  4. data.head() 
優(yōu)化Python代碼的4種方法

檢查“City”變量的各個值的頻數(shù):

優(yōu)化Python代碼的4種方法

現(xiàn)在,假設(shè)我們只需要排名前5位的城市,并希望將其余城市替換為“Others”(其他)城市。因此,讓我們這么寫:

  1. # 將熱門城市保存在列表中 
  2. top_cities = ['Brooklyn','Bronx','Manhattan','Jamaica','Long Island City'
  3. # 使用loc更新目標(biāo) 
  4. data.loc[(data.City.isin(top_cities) == False),'City'] = 'Others' 
  5. # 各個城市的頻數(shù) 
  6. data.City.value_counts() 

 

優(yōu)化Python代碼的4種方法

Pandas來更新數(shù)據(jù)的值是非常容易的!這是解決此類數(shù)據(jù)處理任務(wù)的優(yōu)化方法。

3.在Python中向量化你的函數(shù)

擺脫慢循環(huán)的另一種方法是對函數(shù)進行向量化處理。這意味著新創(chuàng)建的函數(shù)將應(yīng)用于輸入列表,并將返回結(jié)果數(shù)組。Python中的向量化可以加速計算

讓我們在相同的Twitter Sentiment Analysis數(shù)據(jù)集對此進行驗證。

  1. ''
  2. 優(yōu)化方法:向量化函數(shù) 
  3. ''
  4. # 導(dǎo)入庫 
  5. import pandas as pd  
  6. import numpy as np 
  7. import time 
  8. import math 
  9. data = pd.read_csv('train_E6oV3lV.csv'
  10. # 輸出頭部信息 
  11. print(data.head()) 
  12. def word_count(x) : 
  13.  return len(x.split()) 
  14. # 使用Dataframe iterrows 計算詞的個數(shù) 
  15. print('\n\nUsing Iterrows\n\n'
  16. start_time = time.time() 
  17. data_1 = data.copy() 
  18. n_words = [] 
  19. for i, row in data_1.iterrows(): 
  20.  n_words.append(word_count(row['tweet'])) 
  21. data_1['n_words'] = n_words  
  22. print(data_1[['id','n_words']].head()) 
  23. end_time = time.time() 
  24. print('\nTime taken to calculate No. of Words by iterrows :'
  25. (end_time-start_time),'seconds'
  26. # 使用向量化方法計算詞的個數(shù) 
  27. print('\n\nUsing Function Vectorization\n\n'
  28. start_time = time.time() 
  29. data_2 = data.copy() 
  30. # 向量化函數(shù) 
  31. vec_word_count = np.vectorize(word_count) 
  32. n_words_2 = vec_word_count(data_2['tweet']) 
  33. data_2['n_words'] = n_words_2 
  34. print(data_2[['id','n_words']].head()) 
  35. end_time = time.time() 
  36. print('\nTime taken to calculate No. of Words by numpy array : '
  37. (end_time-start_time),'seconds'

難以置信吧?對于上面的示例,向量化速度提高了80倍!這不僅有助于加速我們的代碼,而且使其變得更整潔。

4. Python中的多進程

多進程是系統(tǒng)同時支持多個處理器的能力。

在這里,我們將流程分成多個任務(wù),并且所有任務(wù)都獨立運行。當(dāng)我們處理大型數(shù)據(jù)集時,即使apply函數(shù)看起來也很慢。

因此,讓我們看看如何利用Python中的多進程庫加快處理速度。

我們將隨機創(chuàng)建一百萬個值,并求出每個值的除數(shù)。我們將使用apply函數(shù)和多進程方法比較其性能:

  1. # 導(dǎo)入庫 
  2. import pandas as pd 
  3. import math 
  4. import multiprocessing as mp 
  5. from random import randint 
  6. # 計算除數(shù)的函數(shù) 
  7. def countDivisors(n) :  
  8.  count = 0 
  9.  for i in range(1, (int)(math.sqrt(n)) + 1) :  
  10.  if (n % i == 0) :  
    1. %%time 
    2. pool = mp.Pool(processes = (mp.cpu_count() - 1)) 
    3. answer = pool.map(countDivisors,random_data) 
    4. pool.close() 
    5. pool.join() 
  11.  if (n / i == i) :  
  12.  count = count + 1 
  13.  else :  
  14.  count = count + 2 
  15.  return count  
  16. # 創(chuàng)建隨機數(shù)  
  17. random_data = [randint(10,1000) for i in range(1,1000001)] 
  18. data = pd.DataFrame({'Number' : random_data }) 
  19. data.shape 

 

優(yōu)化Python代碼的4種方法

 

  1. %%time 
  2. data['Number_of_divisor'] = data.Number.apply(countDivisors) 

 

優(yōu)化Python代碼的4種方法

 

 

  1. %%time 
  2. pool = mp.Pool(processes = (mp.cpu_count() - 1)) 
  3. answer = pool.map(countDivisors,random_data) 
  4. pool.close() 
  5. pool.join() 

 

優(yōu)化Python代碼的4種方法

在這里,多進程比apply方法快13倍。性能可能會因不同的硬件系統(tǒng)而異,但肯定會提高性能。

結(jié)束

這絕不是詳盡的列表。還有許多其他方法和技術(shù)可以優(yōu)化Python代碼。但是我在數(shù)據(jù)科學(xué)生涯中發(fā)現(xiàn)并使用了很多這四個,相信你也會發(fā)現(xiàn)它們也很有用。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2024-12-23 08:10:00

Python代碼性能代碼

2020-05-15 10:09:17

優(yōu)化創(chuàng)新數(shù)字化轉(zhuǎn)型CIO

2020-11-16 15:51:54

Kubernetes

2013-01-07 10:44:00

JavaScriptjQueryJS

2023-04-13 14:54:00

云存儲云計算

2018-05-29 11:20:18

數(shù)據(jù)中心方法省錢

2011-12-16 14:45:36

JavaJSP

2022-10-13 10:32:46

IT專業(yè)人員IT職業(yè)生涯

2010-11-09 11:11:12

SQL Server查

2011-09-19 14:30:27

2017-04-28 15:07:10

網(wǎng)絡(luò)瓶頸問題

2011-05-30 13:37:46

JSP

2020-12-01 09:00:00

數(shù)據(jù)中心IT技術(shù)

2020-07-24 00:34:54

工業(yè)物聯(lián)網(wǎng)IIOT物聯(lián)網(wǎng)

2009-04-13 09:09:53

WebServices返回數(shù)據(jù)橫向

2023-12-29 09:23:25

Python回調(diào)函數(shù)遍歷字典

2019-03-25 14:00:36

Linux主機名

2021-03-16 10:56:33

網(wǎng)絡(luò)安全首席信息安全官信息安全

2010-12-02 08:12:16

2018-01-04 09:46:48

PHPHTTP
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区中文字幕 | 91精品国产手机 | 国产精品国产三级国产a | 欧美 中文字幕 | 毛片网在线观看 | 精品国产一区二区三区免费 | 国产一区 在线视频 | 国产日韩欧美 | 欧美a区| 国产农村妇女精品一二区 | 精品一级毛片 | 中文字幕高清av | 欧美精品一区二区三区视频 | 久久r免费视频 | 99av成人精品国语自产拍 | 在线观看国产视频 | 国产成人精品视频在线观看 | 久久久性色精品国产免费观看 | www九色| 九九精品网 | 亚洲国产高清高潮精品美女 | 日本精品一区二区三区在线观看视频 | 一级片网址 | 在线观看电影av | 精品国产欧美一区二区三区成人 | 综合色播| 亚洲一页| 亚洲免费婷婷 | 久久亚洲欧美日韩精品专区 | 免费视频二区 | 亚洲一区二区视频 | 成人一区二区三区在线观看 | 成人午夜影院 | 国产精品久久久久久久久久久免费看 | 看a网站 | 国产精品无 | 成人h视频在线 | 日韩一二区在线 | 日日夜夜天天干 | 91超碰在线 | 国产精品亚洲一区二区三区在线 |