這篇文章好學編程會提供一些優化代碼的工具。會讓代碼變得更簡潔,或者更迅速。
當然這些并不能代替算法設計,但是還是能讓 Python/ target=_blank class=infotextkey>Python 加速很多倍。
其實前面講算法的文章,也有提到過。比如適用于雙向隊列的 deque,以及在合適的條件下運用 bisect 和 heapq 來提升算法的性能。
而且前面也提到過,Python 提供了當今最高級也是最有效的排序算法(list.sort)。
另外還有一個功能多樣又迅速的散列表(dict)。而且如果寫迭代器封裝、功能性代碼或者是某種額外擴展的時候,或許CyToolz可以用得到。當然在itertools 和 functools 模塊中,還有很多函數可以帶來很高效的代碼。
這篇文章主要講優化單處理器的代碼,下面會介紹一些一些高效的函數實現,也有已經封裝好的拓展模塊,還包括速度更快的 Python 解釋器。
當然多處理器版本確實能大幅提高運行效率。如果想了解多核編程,可以從multiprocessing 模塊開始。而且也能找到非常多的關于分布式計算的第三方工具。這里可以看一下 Python wiki 上的關于 Parallel Processing 的內容。
接下來,會說一些關于Python 加速工具的選單。
NumPy、SciPy、Sage 和 Pandas
先說 NumPy,它的核心是一個多維數字數組的實現。除了這個數據結構之外,還實現了若干個函數和運算符,可以高效地進行數組運算。并且對于被調用的次數進行了精簡。它可以被用來進行極其高效的數學運算。
SciPy 和 Sage 都將 NumPy 內置為自身的一部分,同時內置了其他的不同的工具,從而可以用于特定科學、數學和高性能計算的模塊。
Pandas 是一個側重于數據分析的工具。如果處理大量半結構化數據的時候,可能也會用到 Pandas 相關的工具,比如 Blaze。
PyPy、Pyston、Parakeet、Psyco 和 Unladen Swallow
讓代碼運行的更快,侵入性最小的就是使用實時編譯器(JIT 編譯)。以前的話我們可以直接安裝 Psyco。安裝之后導入 psyco,然后調用 psyco.full()。代碼運行速度就可以明顯提升。運行 Python 代碼的時候,它可以實時監控程序,會將一部分代碼編譯為了機器碼。
現在好多 Psyco 等加速器的項目已經停止維護了,不過類似的功能在 PyPy 中得到了繼承。PyPy 為了方便分析、優化和翻譯,用 Python 語言將 Python 重新實現了一遍,這樣就可以 JIT 編譯。而且 PyPy 可以直接將代碼翻譯成像 C 那樣的性能更高的語言。
Unladen Swallow 是一個 Python 的 JIT 編譯器。是 Python 解釋器的一本版本,被稱為底層虛擬機(LLVM)。不過這個開發已經停止了。
Pyston 是一個與 LLVM 平臺較為接近的 Python 的 JIT 編譯器。很多時候已經優于 Python 的實現,但不過還有很多地方不完善。
GPULib、PyStream、PyCUDA 和 PyOpenCL
這四個都是用在圖像處理單元來實現代碼的加速。前面講的都是用代碼優化來實現加速的。而這些都是從硬件層面上進行加速,如果有一個強大的 GPU,我們可以用 GPU 來計算,從而減少 CPU 寶貴的資源。
PyStream 古老一點。GPULib 提供了基于 GPU 的各種形式的數據計算。
如果用 GPU 加速自己的代碼,可以用 PyCUDA 和 PyOpenCL。
Pyrex、Cython、Numba 和 Shedskin
這四個項目都致力于將 Python 代碼翻譯為 C、C++和 LLVM 的代碼。Shedskin 會將代碼編譯為 C++語言。Pyrex、Cython 編譯的主要目標是 C 語言。Cython 也是 Pyrex 的一個分支。
而且,Cython 還有 NumPy 數組的額外支持。
如果面向數組和數學計算的時候,Numba 是更好的選擇導入時會自動生成相應的 LLVM 的代碼。升級版本是 NumbaPro,還提供了對 GPU 的支持。SWIG、F2PY、Boost.Python
這些工具可以將其他的語言封裝為 Python 的模塊。第一個可以封裝 C/C++語言。F2PY 可以封裝 Fortran。Boost.Python 可以封裝 C++語言。
SUIG 只要啟動一個命令行工具,往里面輸入 C 或者 C++的頭文件,封裝器代碼就會自動生成。除了 Python,而且可以成為其他語言的封裝器,比如 JAVA 和 php。
ctypes、llvm-py 和 CorePy2
這些模塊可以幫助我們實現Python 底層對象的操作。ctypes 模塊可以用于在內存中構建編譯 C 的對象。并且調用共享庫中的 C 的函數。不過 ctypes 已經包含在 Python 的標準庫里面了。
llvm-py 主要提供LLVM 的 Python 接口。以便于構建代碼,然后編譯他們。也可以在 Python 中構建它的編譯器。當然搞出自己編程語言也是可以的。CorePy2 也可以進行加速,不過這個加速是運行在匯編層的。
Weave、Cinpy 和 PyInline
這三個包,就可以讓我們在 Python 代碼中直接使用 C 語言或者其他的高級語言。混合代碼,依然可以保持整潔。可以使用 Python 代碼的字符串的多行特性,可以使其他的代碼按照自身的風格來進行排版。
其他工具
如果我們要節省內存,就不能使用 JIT 了。一般 JIT 都太耗費內存。有一句話說的很對,時間和內存經常不能兼得,而我們在工程開發中,總是要尋找他們的平衡點。至于其他的一些東西,比如 Micro Python 項目,這個是用在嵌入式設備或者微控制器上面使用的。
如果只是想在 Python 環境中工作,然后想用別的語言,可以看看這個項目Julia。