2020年十大用於數據科學的Python庫
項目地址: Python在數據科學方面取得巨大成功的另一個原因是它對數據科學和分析的廣泛的庫支持。有許多Python庫包含大量用於管理和分析數據的函數、工具和方法。 這些庫中的每一個都有一個特定的重點,一些庫管理圖像和文本數據、數據挖掘、神經網絡、數據可視化等等。今天,就和大家分享數據科學中的10大Python庫。 1. Pandas Panda是一個用於數據分析和數據處理的免費Python軟件庫。它是作為一個圖書館項目創建的,2008年首次發佈,panda提供了各種高性能且易於使用的數據操作功能。 panda還提供了多種工具,用於在內存中的數據結構和不同的文件格式之間讀取和寫入數據。簡而言之,它適合用於簡單快速的數據操作、讀取和寫入數據以及數據可視化。panda還可以從不同類型的文件(如CSV、excel等)或SQL數據庫中獲取數據,並創建一個名為data frame的Python對象。一個數據框架包含行和列,它可以用於數據操作,例如連接、合併、連接等操作。 項目地址: 2. NumPy NumPy是一個免費的Python軟件庫,用於對大數組和多維矩陣形式的數據進行數值計算。NumPy還提供了各種工具來處理這些數組和高級數學函數,以使用線性代數、傅里葉變換、隨機數處理等操作這些數據。 可以使用NumPy執行的一些基本數組操作包括添加、相乘、重新構造和索引數組。其他高級功能包括疊加數組、將數組分割成N個小數組等。 地址: 3. SciPy SciPy是一個免費的軟件庫,用於對數據進行科學計算。它是作為一個社區庫創建的,並在2001年左右首次發佈,SciPy庫建立在NumPy數組對象上,它還兼容其他科學計算庫和工具,如Matplotlib、panda等。 SciPy允許各種科學計算任務,使用線性代數、傅里葉變換、隨機數生成、特殊函數等來處理數據優化、數據集成、數據插入和數據修改,與NumPy一樣,多維矩陣是SciPy中的主要對象,由NumPy模塊本身提供。 地址: 4. Scikit-learn Scikit-learn是一個主要用Python編程語言編寫機器學習代碼的免費軟件庫。它最初是由David Cournapeau開發的谷歌Summer of Code項目,並於2007年6月發佈。Scikit-learn構建在其他Python庫之上,如NumPy、SciPy、Matplotlib、panda等,因此它提供了與這些庫的完全互操作性。 雖然Scikit-learn主要是用Python編寫的,但它也使用了Cython來編寫一些核心算法,以提高性能。你可以在Scikit-learn上實現各種監督和非監督的機器學習模型,如分類、迴歸、支持向量機、隨機森林、最近鄰、樸素貝葉斯、決策樹、集羣等。 項目地址: 5. TensorFlow TensorFlow是一個免費的端到端開源平台,擁有各種各樣的工具、庫和人工智能資源。它是由谷歌大腦團隊開發的,並於2015年11月9日首次發佈,你可以使用TensorFlow高級API輕鬆地構建和訓練機器學習模型。 TensorFlow還允許你在任何地方部署機器學習模型,例如雲、瀏覽器或你自己的設備。如果你想要完整的體驗,你應該使用TensorFlow Extended (TFX),如果你想要在移動設備上使用,你應該使用TensorFlow Lite,如果你想要在JavaScript環境中訓練和部署模型,你應該使用TensorFlow.js。TensorFlow適用於Python和C API,也適用於c 、Java、JavaScript、Go、Swift等。第三方包也可以用於MATLAB、c#、Julia、Scala、R、Rust等。 項目地址: 6. Keras Keras是一個用Python編寫的免費開源神經網絡庫。它最初由谷歌的工程師Francois Chollet創建,並於2015年3月27日發佈。Keras的創建是為了用户友好、可擴展和模塊化,同時支持深度神經網絡,因此,它可以運行在其他庫和語言之上,如TensorFlow、Theano、Microsoft Cognitive Toolkit、R等。 Keras有多種工具,可以更容易地處理不同類型的圖像和文本數據,以便在深度神經網絡中編碼。它還具有各種神經網絡構建模塊的實現,如層、優化器、激活函數等。你可以使用Keras執行各種操作,例如創建自定義函數層、使用重複的代碼塊編寫函數等等。 項目地址:https://keras.io/ 用於數據可視化的Python庫 1. Matplotlib Matplotlib是一個數據可視化庫和Python的2d繪圖庫,它最初於2003年發佈,是Python社區中最流行和最廣泛使用的繪圖庫,它提供了一個跨多個平台的交互式環境。Matplotlib可用於Python腳本、Python和IPython、Jupyter、Web應用服務器等。 Matplotlib可以使用各種GUI工具包(如Tkinter、GTK 、wxPython、Qt等)將繪圖嵌入到應用程序中。因此,您可以使用Matplotlib創建圖表、條形圖、餅圖、直方圖、散點圖等。Pyplot模塊還提供了一個類似於MATLAB的接口,它與MATLAB一樣多用途且非常有用,同時是完全免費的開源的。 地址: 2. Seaborn Seaborn是一個基於Matplotlib的Python數據可視化庫,與numpy和pandas數據結構緊密集成。Seaborn有各種面向數據集的繪圖函數,這些函數對包含整個數據集的數據和數組進行操作。Seaborn還提供了各種工具來幫助用户自由選擇數據的顏色顯示。 項目地址: 3. Plotly Plotly是一個免費的開源圖形庫,可用於形成數據可視化。可以使用Dash或作為單獨的HTML文件顯示在Jupyter Notes或Web應用程序中。Plotly提供超過40種獨特的圖表類型,如散點圖、直方圖、折線圖、柱狀圖、餅狀圖等。 項目地址:https://plotly.com/ 4. GGplot Ggplot是一個基於ggplot2實現的Python數據可視化庫,Ggplot是為R語言創建的。Ggplot可以使用高級API創建數據可視化,如條形圖、餅圖、直方圖、散點圖等,Ggplot還與panda緊密相連,因此最好將數據保存在DataFrames中。 項目地址:http://ggplot.yhathq.com/