日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

python包 wget_Python数据科学“冷门”库

發布時間:2023/11/27 生活经验 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python包 wget_Python数据科学“冷门”库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原標題 | Lesser Known Python Libraries for Data Science
作者 | Parul Pandey
譯者 | CONFIDANT(福建師范大學)、Seabiscuit、唐里、david95(研發工程師)

Python是一門神奇的語言。事實上,它是世界上發展最快的編程語言之一。它已經一次又一次地證明了它在跨行業的開發人員職位和數據科學職位上的實用性。Python的整個生態系統及其庫使其成為全世界用戶(初學者和高級用戶)的最佳選擇。它的成功和流行的原因之一是它的健壯庫集的存在,這些庫使它能夠做到非常動態和快速。

在本文中,我們將研究一些用于數據科學任務的Python庫,而不是常用的Python庫,如panda、scikit-learn、matplotlib等。雖然像panda和scikit-learn這樣的庫是機器學習任務的默認名稱,但是了解這個領域中的其他 python 應用總是好的。

Wget

抽取數據特別是從網絡上爬取數據是數據科學家的一項重要任務。Wget是一個免費的實用的從網上下載文件的非交互式的命令行工具。它支持HTTP,HTTPS和FTP協議,同時也支持通過HTTP代理進行檢索。因為它是非交互式的,所以它可以在即使沒有登錄的情況下也能工作。所以下次你想下載一個網頁或者是從網頁中下載圖片,Wget可以幫助你。

安裝:

$ pip install wget

例子:

Pendulum

對于那些處理日期時間數據而感到沮喪的人來說,Pendulum就是為這些人準備的。這是一個為減輕日期和時間操作設計的Python包。它是Python內置的類的一個替代。需要深入工作可以參考文檔:https://pendulum.eustace.io/docs/#installation

安裝:

$ pip install pendulum

例子:

imbalanced-learn

可以看出,大多數分類算法在每個類的樣本數量幾乎相同的情況下,即平衡狀態下,分類效果最好。但現實生活中存在大量的不平衡數據集,這些數據集對機器學習算法的學習階段和后續預測都有一定的影響。幸運的是,創建這個庫是為了解決這個問題。它與scikit-learn兼容,是scikit-learn-contrib項目的一部分。下次遇到不平衡的數據集時,可以嘗試一下。

安裝:

pip install -U imbalanced-learn
# or
conda install -c conda-forge imbalanced-learn

有關用法和示例,請參考文檔:

http://imbalanced-learn.org/en/stable/api.html

FlashText

在NLP任務中清理文本數據通常需要替換句子中的關鍵字或從句子中提取關鍵字。通常,這類操作可以使用正則表達式來完成,但是如果要搜索的術語數達到數千,就會變得很麻煩。Python的FlashText模塊基于FlashText算法,為這種情況提供了一個合適的替代方案。FlashText最好的地方在于,無論搜索項的數量如何,運行時都是相同的。

安裝:

$ pip install flashtext

例子:

提取關鍵字

替換關鍵字

有關更多使用示例,請參考官方文檔:

https://flashtext.readthedocs.io/en/latest/#

Fuzzywuzzy

這個名字聽起來有點奇怪,但是fuzzywuzzy是一個很有用的用于字符串匹配的庫。可以用它輕松的實現例如字符串比較比例、單詞比例。它還可以很容易的用于匹配記錄,即使他們是在不同的數據庫的。

安裝:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
fuzz.ratio("this is a test", "this is a test!")
97
# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")100

更多有趣的例子,可以訪問這里:

https://github.com/seatgeek/fuzzywuzzy

PyFlux

時間序列分析是機器學習領域最經常遇到的問題之一。PyFlux就是專門針對時間序列問題設計的一個開源庫。這個庫有著優秀的時間序列模型,包含ARIMA、GARCH和VAR模型。總之,PyFlux提供了一個基于概率的方法來組織時序模型,很值得一試。

安裝:

pip install pyflux

具體試用方法和例子,請參考文檔:

https://pyflux.readthedocs.io/en/latest/index.html

Ipyvolume

溝通結果是數據科學的一個重要方面。 能夠將結果可視化是一個顯著的優勢。Ipyvolume是一個Python庫,用于在Jupyter筆記本中可視化3d體積和字形(例如3d散點圖),并且配置和工作量的需求很少。但是,它目前處于測試階段。一個很好的比喻:IPyvolume的volshow之于3d數組,就像matplotlib的imshow之于2d數組一樣。你可以通過原文了解更多關于它的內容。

安裝:

Using pip
$ pip install ipyvolume
Conda/Anaconda
$ conda install -c conda-forge ipyvolume

例子:

  • 動圖

  • 體繪圖

Dash

Dash是一個用于構建web應用程序的高效Python框架。它寫在Flask上,

Plotly.js和response .js以及下拉菜單、滑塊和圖形等現代UI元素會綁定到您的分析Python代碼中,而不需要javascript。Dash非常適合構建數據可視化應用程序。然后可以在web瀏覽器中呈現這些應用程序。用戶指南可以在這里訪問。

安裝:

例子:

下面的示例展示了一個具有下拉功能的高度交互式圖。當用戶在下拉菜單中選擇一個值時,應用程序代碼將動態地將數據從谷歌Finance導出到panda DataFrame中。

Gym

來自OpenAI的Gym是一個開發和比較強化學習算法的工具箱。它兼容任何數值計算庫,如TensorFlow或Theano。健身房圖書館必然是一個測試問題的集合,也稱為環境——你可以用它來制定你的強化學習算法。這些環境有一個共享接口,允許您編寫通用算法。

安裝:

pip install gym

例子:

一個將要運行1000個CartPole-v0時間步長環境實例,每一步都會呈現其環境。

你可以通過下方鏈接了解其他環境:

https://gym.openai.com/

結論

這些是我為數據科學選擇的有用python庫,而不是常見的如numpy、panda等。如果你知道還有哪些可以添加到列表中的,請評論中告知我。

最后,別忘了試一試!

本文編輯:王立魚

英語原文:https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad

想要繼續查看該篇文章相關鏈接和參考文獻?

點擊底部python數據科學“冷門”庫即可訪問:

福利大放送——滿滿的干貨課程免費送!

「好玩的Python:從數據挖掘到深度學習」該課程涵蓋了從Python入門到CV、NLP實踐等內容,是非常不錯的深度學習入門課程,共計9節32課時,總長度約為13個小時。。

課程頁面:AI研習社 - 研習AI產學研新知,助力AI學術開發者成長。

「計算機視覺基礎入門課程」本課程主要介紹深度學習在計算機視覺方向的算法與應用,涵蓋了計算機視覺的歷史與整個課程規劃、CNN的模型原理與訓練技巧、計算機視覺的應用案例等,適合對計算機視覺感興趣的新人。

課程頁面:AI研習社 - 研習AI產學研新知,助力AI學術開發者成長。

現AI研習社將兩門課程免費開放給社區認證用戶,只要您在認證時在備注框里填寫「Python」,待認證通過后,即可獲得該課程全部解鎖權限。心動不如行動噢~

認證方式:AI研習社 - 研習AI產學研新知,助力AI學術開發者成長。

總結

以上是生活随笔為你收集整理的python包 wget_Python数据科学“冷门”库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。