寫 Python 腳本時,一定要加上這個
我發現有不少朋友寫 Python 腳本非常隨意,要么不用函數,要么函數隨處定義,反正第一眼看不出要執行的第一行代碼位于何處,這樣的腳本可讀性很差,而且容易隱藏 bug,解決這個問題很簡單,當我們寫 Python 腳本時,一定要加上這個:
- def main():
- # do something
- print("do something.")
- if __name__ == "__main__":
- main()
你可能要反對了:我怎么爽就怎么寫,憑什么聽你的,多寫個 if __name__...?
別急,讓我說三個原因。
第一,它讓 Python 文件的作用更加明確
首先需要明白 __name__ 的作用,當腳本直接被 Python 解釋器執行時,其值就是 "__main__",當其被其他 Python 程序 import 的時候,其值就是對應的 Python 腳本文件名,可以在 Python 解釋器驗證下,假定有個 some_script.py 其內容如下:
- print("some_script.py")
- print(__name__)
在 Python 解釋器導入一下:
- ❯ vim some_script.py
- ❯ python
- Python 3.8.5 (v3.8.5:580fbb018f, Jul 20 2020, 12:11:27)
- [Clang 6.0 (clang-600.0.57)] on darwin
- Type "help", "copyright", "credits" or "license" for more information.
- >>> import some_script
- some_script.py
- some_script
- >>>
可以看到,__name__ 的值就是 Python 腳本的文件名 some_script。
也就是說 if __name__ == "__main__": 后面的代碼在 import 的時候是不會運行的。
明白了這一點,if __name__ == "__main__": 就可以做為區分腳本和庫的一個標志,當我們看到 if __name__ == "__main__": 時,就認為這一個可以直接運行的腳本,當沒有看到這行代碼時,就認為這是一個庫,可以被其他程序引用,Explicit is better than implicit.,不是嗎?
再舉個例子:
假如你寫了一個不帶if __name__ == "__main__": 的腳本,叫 bad_script.py,內容如下:
- def useful_function(x):
- return x * x
- class UsefulClass:
- def __init__(self, x):
- self.x = x
- #你自己測試了一吧,沒毛病
- for i in range(7):
- print(useful_function(i))
別人寫了個 useful.py,引用了你的 useful_function:
- from bad_script import useful_function
- def main():
- print(f'{useful_function(3)=}')
- if __name__ == '__main__':
- main()
一運行,發現打印了不可預期的內容,見下圖紅色部分:
查了半天原因,發現是你的腳本輸出的,你說別人會不會罵你?
假如你在自己腳本里定義了全局變量,別人如果在不合適的位置導入了 *,就會把你這個全局變量也導入,導致變量覆蓋,很容易會出現 bug。
第二,它讓 Python 文件更加易讀,對 IDE 友好
有了 if __name__ == "__main__": 相當于 Python 程序也有了一個入口函數,所有的變量都從這里開始定義和使用,我們可以清晰的知道程序的邏輯開始于何處(當然還需要我們自覺的把程序的開始邏輯都放在這里)
其實,這也是 PyCharm 推薦的做法,當你新建一個項目的時候,它默認創建的 main.py 就是長這樣的:
在if __name__ == "__main__": 的那一行的最左邊也有一個綠色的運行按鈕,點擊一下,程序就從這一行開始運行了。
為什么很多優秀的編程語言,比如 C、Java、Golang、C++ 都有一個 main 入口函數呢?我想很重要的一個原因就是就是程序入口統一,容易閱讀。
第三、多進程場景下,必須用 if main
比如說你用多進程搞并行計算,寫了這樣的代碼:
- import multiprocessing as mp
- def useful_function(x):
- return x * x
- print("processing in parallel")
- with mp.Pool() as p:
- results = p.map(useful_function, [1, 2, 3, 4])
- print(results)
當你運行的時候,會發現程序不停的在創建進程,同時也在不停的報錯 RuntimeError,即使你 Ctrl C 也無法終止程序。而加上了 if __name__ == "__main__": 程序就會按照預期的進行:
- import multiprocessing as mp
- def useful_function(x):
- return x * x
- if __name__ == '__main__':
- print("processing in parallel")
- with mp.Pool() as p:
- results = p.map(useful_function, [1, 2, 3, 4])
- print(results)
這是為什么呢?
其實我是這樣理解的,Python 的多程序就是啟動了多個 Python 解釋器,每個 Python 解釋器都會導入你這個腳本,復制一份全局變量和函數給子進程用,如果有了if __name__ == "__main__":,那它后面的代碼就不會被 import,也就不會被重復執行。否則,這個創建多進程的代碼就會被 import,就會被執行,從而無限遞歸的去創建子進程,Python3 會報 RuntimeError,順序是先創建進程,然后報錯的,因此就會出現不停的創建進程,不停的報錯,Ctrl C 也無法終止的現象,只能 kill 掉整個終端。這里有個官方解釋[1]
最后的話
if __name__ == "__main__": 雖然不是強制的,但是基于上述三點原因,我強烈推薦你這么做,它是 Python 社區的約定,對應Python 之禪:明確優于隱晦。正如 _ 作為變量名的意思就是告訴讀代碼的人:這個變量不重要,后面也不會用到它。當你看到 Python 腳本有 if __name__ == "__main__": 時,就會意識到,這是一個可執行的腳本,當被其他程序導入時,這部分代碼不會被執行,而多進程的程序中,這是必須的。
本文轉載自微信公眾號「Python七號」,可以通過以下二維碼關注。轉載本文請聯系Python七號公眾號。