使用Python进行科学计算:NumPy入门
編程派微信號:codingpy
本文由?Python 翻譯組?最新翻譯出品,原作者為?Jamal Moir,譯者為?cystone,并由編程派作者?EarlGrey?校對。這是使用 Python 進行科學計算的系列文章,上一篇可點此查看:Matplotlib 快速入門。
譯者簡介:cystone, 成都信息工程大學,計算機學院學生。擅長領域:圖像處理,機器學習。
你可以用 NumPy 做很多有趣的事情。
NumPy 是一個運行速度非常快的數學庫,主要用于數組計算。它可以讓你在 Python 中使用向量和數學矩陣,以及許多用 C 語言實現的底層函數,你還可以體驗到從未在原生 Python 上體驗過的運行速度。
NumPy 是 Python 在科學計算領域取得成功的關鍵之一,如果你想通過 Python 學習數據科學或者機器學習,就必須學習 NumPy。我認為 NumPy 的功能很強大,而且入門也不難。
數組基礎
創建數組
NumPy 的核心是數組(arrays)。具體來說是多維數組(ndarrays),但是我們不用管這些。通過這些數組,我們能以閃電般的速度使用像向量和數學矩陣之類的功能。趕緊撿起你的線性代數吧!(只是開玩笑,其實并不需要很多復雜的數學知識)
# 1D Arraya = np.array([0, 1, 2, 3, 4]) b = np.array((0, 1, 2, 3, 4)) c = np.arange(5) d = np.linspace(0, 2*np.pi, 5)print(a) # >>>[0 1 2 3 4]
print(b) # >>>[0 1 2 3 4]
print(c) # >>>[0 1 2 3 4]
print(d) # >>>[ 0. ? ? ? ? ?1.57079633 ?3.14159265 ?4.71238898 ?6.28318531]
print(a[3]) # >>>3
上邊的代碼展示了創建數組的四種不同方式。最基本的方式是傳遞一個序列給 NumPy 的 array() 函數;你可以傳給它任意的序列,不僅僅是我們常見的列表之類的。
注意,當輸出的數組中的數值長度不一樣的時候,它會自動對齊。這在查看矩陣的時候很有用。數組的索引和 Python 中的列表或其他序列很像。你也可以對它們使用切片,這里我不再演示一維數組的切片,如果你想知道更多關于切片的信息,查看這篇文章。
上邊數組的例子給你展示了如何在 NumPy 中表示向量,接下來我將帶你們領略一下怎么表示矩陣和多維數組。
# MD Array,a = np.array([[11, 12, 13, 14, 15],[16, 17, 18, 19, 20],[21, 22, 23, 24, 25],[26, 27, 28 ,29, 30],[31, 32, 33, 34, 35]])print(a[2,4]) # >>>25
通過給 array() 函數傳遞一個列表的列表(或者是一個序列的序列),可以創建二維數組。如果我們想要一個三維數組,那我們就傳遞一個列表的列表的列表,四維數組就是列表的列表的列表的列表,以此類推。
注意二維數組是如何成行成列排布的(在我們的朋友—空格的幫助下)。如果要索引一個二維數組,只需要引用相應的行數和列數即可。
背后的數學知識
為了更好的理解這些,我們需要來看一下什么是向量和矩陣。
向量是一個有方向和大小的量,通常用來表示速度、加速度和動量等。向量能以多種方式書寫,但是我們最有用的方式是把它們寫在有 n 個元素的元組里邊,比如(1, 4, 6, 9)。這就是它們在 NumPy 中的表示方式。
矩陣和向量很像,除了它是由行和列組成的;更像一個網格(grid)。矩陣中的數值可以用它們所在的行和列來表示。在 NumPy 中,可以像我們前面所做的那樣,通過傳遞序列的序列來創建數組。
多維數組切片
多維數組切片比一維數組要復雜一點,同時它也是你在用 NumPy 的時候經常會用到的。
# MD slicingprint(a[0, 1:4]) # >>>[12 13 14]
print(a[1:4, 0]) # >>>[16 21 26]
print(a[::2,::2]) # >>>[[11 13 15]# ? ? [21 23 25]# ? ? [31 33 35]]
print(a[:, 1]) # >>>[12 17 22 27 32]
就像你看到的一樣,多維數組切片就是要分別在每個維度上切片,并用逗號隔開。在二維數組中,第一個切片的含義是對行切片,第二個切片的含義是對列切片。
值得注意的是,你通過輸入數字來指定行和列。上邊第一個例子是從數組中選擇第 0 行。(注:原文為第 0 列,應該是作者筆誤)
下邊的這幅圖闡明了上邊切片的例子的含義。
數組屬性
在使用 NumPy 時,你會想知道數組的某些信息。很幸運,在這個包里邊包含了很多便捷的方法,可以給你想要的信息。
# Array propertiesa = np.array([[11, 12, 13, 14, 15],[16, 17, 18, 19, 20],[21, 22, 23, 24, 25],[26, 27, 28 ,29, 30],[31, 32, 33, 34, 35]])print(type(a)) # >>><class 'numpy.ndarray'>
print(a.dtype) # >>>int64
print(a.size) # >>>25
print(a.shape) # >>>(5, 5)
print(a.itemsize) # >>>8
print(a.ndim) # >>>2
print(a.nbytes) # >>>200
如你所看,在上邊的代碼中 NumPy 的數組其實被稱為 ndarray。我不知道為什么它被稱為 ndarray,如果有人知道請在下邊留言!我猜測它是表示 n 維數組(n dimensional array)。
數組的形狀(shape)是指它有多少行和列,上邊的數組有五行五列,所以他的形狀是(5,5)。
‘itemsize’ 屬性是每一個條目所占的字節。這個數組的數據類型是 int64,一個 int64 的大小是 64 比特,8 比特為 1 字節,64 除以 8 就得到了它的字節數,8 字節。
‘ndim’ 屬性是指數組有多少維。這個數組有二維。但是,比如說向量,只有一維。
‘nbytes’ 屬性表示這個數組中所有元素占用的字節數。你應該注意,這個數值并沒有把額外的空間計算進去,因此實際上這個數組占用的空間會比這個值大點。
使用數組
基本操作符
僅僅會賦值、取值和得到一些屬性是不能滿足你的需求的,有時候你還需要做一些數學運算。你可以利用基本的操作符實現這些,比如 +, -, /,等等。
# Basic Operatorsa = np.arange(25) a = a.reshape((5, 5))b = np.array([10, 62, 1, 14, 2, 56, 79, 2, 1, 45,
? ? ? ? ? ? ? ? ? ? ?4, 92, 5, 55, 63, 43, 35, 6, 53, 24,
? ? ? ? ? ? ?? ? ? ? 56, 3, 56, 44, 78]) b = b.reshape((5,5))print(a + b) print(a - b) print(a * b) print(a / b) print(a ** 2) print(a < b)
print(a > b)print(a.dot(b))
除了 dot() 之外,這些操作符都是對數組進行逐元素運算。比如 (a, b, c) + (d, e, ?f) 的結果就是 (a+d, b+e, c+f)。它將分別對每一個元素進行配對,然后對它們進行運算。它返回的結果是一個數組。注意,當使用邏輯運算符比如 “<” 和 “>” 的時候,返回的將是一個布爾型數組,這點有一個很好的用處,后邊我們會提到。
dot() 函數計算兩個數組的點積。它返回的是一個標量(只有大小沒有方向的一個值)而不是數組。
背后的數學知識
dot() 函數有時候也稱為點積。理解這個函數的最好方法就是看下邊它的計算過程。
數組的特定操作符
NumPy 還提供了一些其他很有用的操作符,用于處理數組。
# dot, sum, min, max, cumsuma = np.arange(10)print(a.sum()) # >>>45
print(a.min()) # >>>0
print(a.max()) # >>>9
print(a.cumsum()) # >>>[ 0 ?1 ?3 ?6 10 15 21 28 36 45]
很明顯就能看出 sum()、min() 和 max() 函數的功能:將所有元素加起來,找到最小值和最大值。
cumsum() 函數就不是那么明顯了。它像 sum() 那樣把所有元素加起來,但是它的實現方式是,第一個元素加到第二個元素上,把結果保存到一個列表里,然后把結果加到第三個元素上,再保存到列表里,依次累加。當遍歷完數組中所有元素則結束,返回值為運行數組的總和的列表。
cystone: 這里作者說的比較拗口,其實 cumsum() 就是一個累加計算并且保存每次累加的結果,返回值就是包含所有累加結果的一個列表。比如 np.array([1, 2, 3, 4, 5]).cumsum() = [1, 3, 6, 10, 15]
高級索引
花俏的索引
“花俏的索引”是獲取數組中我們想要的特定元素的有效方法。
# Fancy indexinga = np.arange(0, 100, 10) indices = [1, 5, -1] b = a[indices] print(a) # >>>[ 0 10 20 30 40 50 60 70 80 90]
print(b) # >>>[10 50 90]
如你所見,上邊的例子中,我們用想獲取的索引的序列作為索引。它返回了我們索引的元素。
布爾過濾(boolean masking)
布爾過濾是一個奇妙的特性,它允許我們根據指定條件獲取數組中的元素。
# Boolean maskingimport matplotlib.pyplot as plta = np.linspace(0, 2 * np.pi, 50) b = np.sin(a) plt.plot(a,b) mask = b >= 0
plt.plot(a[mask], b[mask], 'bo') mask = (b >= 0) & (a <= np.pi / 2) plt.plot(a[mask], b[mask], 'go') plt.show()
上邊的代碼展示了實現布爾屏蔽。你需要做的就是傳遞給數組一個與它有關的條件式,然后它就會返回給定條件下為真的值。
上邊的例子將會生成下邊這幅圖:
我們用條件式選擇了圖中不同的點。藍色的點(也包含圖中的綠點,只是綠點覆蓋了藍點),顯示的是值大于零的點。綠點顯示的是值大于 0 小于 Pi / 2 的點。
缺省索引
缺省索引是從多維數組的第一維獲取索引和切片便捷方法。例如,你有一個數組 a = [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]],那么 a[3] 將會返回數組第一維中索引值為 3 的元素,這里的結果是 4。
# Incomplete Indexinga = np.arange(0, 100, 10) b = a[:5] c = a[a >= 50] print(b) # >>>[ 0 10 20 30 40]
print(c) # >>>[50 60 70 80 90]
Where 函數
where() 函數是另外一個根據條件返回數組中的值的有效方法。只需要把條件傳遞給它,它就會返回一個使得條件為真的元素的列表。
# Wherea = np.arange(0, 100, 10) b = np.where(a < 50) c = np.where(a >= 50)[0] print(b) # >>>(array([0, 1, 2, 3, 4]),)
print(c) # >>>[5 6 7 8 9]
這就是 NumPy,不算太難,對吧?當然,這些只是一些基礎,NumPy 還有很多其他的功能,如果你已經熟悉了這些基礎內容,你可以去探索一下。
總結
以上是生活随笔為你收集整理的使用Python进行科学计算:NumPy入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Matplotlib 快速入门
- 下一篇: 802.11 MAC Header(MA