NumPy 的 nan 如何理解?
Python 中表示空數據使用 None,它是 NoneType 類型,如下所示:
- In [59]: type(None)
- Out[59]: NoneType
NoneType 類型沒有對外公開屬性和方法:
因此,None 比較容易理解,就是一種空類型。
但是使用過 NumPy 的肯定都會接觸到 nan 這種類型,它的其他寫法:NaN或 NAN,查看其類型卻發現是 float 類型:
- In [63]: type(np.nan)
- Out[63]: float
這不免讓人心生疑惑,nan 不是空數據,而是浮點數,那么到底等于多少?
原來這并不是NumPy特有的數值,而是IEEE754規定的特殊浮點數之一。
特殊在哪里?
這就要知道計算機是如何表示浮點數的,IEEE754 標準中規定 float 單精度浮點數,在機器中表示用 1 位表示數字的符號,用 8 位表示指數,用 23 位表示尾數,即小數部分,如下圖所示:
對于單浮點數,指數部分由8位組成,所以取值范圍:0到255,而指數等于0,255 這兩個值,IEEE754 標準有特別的規定:
- 當指數等于0,并且小數點后所有位全為 0,則這個數為 0
- 當指數等于255,并且小數點后所有位全為 0,則這個數為無窮,當符號位為0時正無窮 float('inf'),當符號位為1時負無窮 float('-inf')
- 當指數等于255,并且小數點后至少一位不為 0,規定此浮點數為 nan,表達的含義:not a number ,不是一個數
以上就是 NumPy 中 nan 的解釋,弄清楚本質后,再來看幾個關于它的運算。
既然 nan 不是一個數,所以拿它與任何浮點數比較,返回結果都是 False:
- In [64]: np.nan < 0
- Out[64]: False
- In [65]: np.nan == np.nan
- Out[65]: False
- In [66]: np.nan < np.inf
- Out[66]: False
找出 np.nan 出現的索引位置,可以使用 isnan 方法:
- In [67]: a = np.array([-9,np.nan,10,np.nan])
- # 找出np.nan出現的索引
- In [68]: a.where(np.isnan(a))
- # 返回結果
- # (array([1, 3]),)