中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Python數(shù)據(jù)科學(xué)“冷門(mén)”庫(kù)

2018-11-16    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

 

Python是一種神奇的語(yǔ)言。事實(shí)上,它是近幾年世界上發(fā)展最快的編程語(yǔ)言之一,它一次又一次證明了它在開(kāi)發(fā)工作和數(shù)據(jù)科學(xué)立場(chǎng)各行業(yè)的實(shí)用性。整個(gè)Python系統(tǒng)和庫(kù)是對(duì)于世界各地的用戶(hù)(無(wú)論是初學(xué)者或者高級(jí))都是一個(gè)恰當(dāng)?shù)倪x擇。其成功和受歡迎的原因之一是它強(qiáng)大的庫(kù),這些庫(kù)使其具有動(dòng)態(tài)性和快速性。

在本文中,我們將看到一些除了常用的像pandas、scikit-learn、 matplotlib之外的數(shù)據(jù)科學(xué)任務(wù)的Python庫(kù)。雖然一看見(jiàn)像pandas,scikit-learn這些庫(kù)就讓人腦子浮現(xiàn)出機(jī)器學(xué)習(xí)任務(wù),但了解并學(xué)習(xí)這個(gè)領(lǐng)域的其他python庫(kù)總歸是有益的。

1、Wget

從網(wǎng)頁(yè)提取數(shù)據(jù)是數(shù)據(jù)科學(xué)家的重要任務(wù)之一。Wget是一個(gè)免費(fèi)的非交互性的從網(wǎng)上下載文件的實(shí)用工具。它支持HTTP、HTTPS和FTP協(xié)議,以及通過(guò)HTTP代理檢索。因?yàn)樗欠墙换バ缘?所以即使用戶(hù)沒(méi)有登錄,也可以在后臺(tái)工作。所以下次你想下載一個(gè)網(wǎng)站或頁(yè)面的圖片,wget可以幫助你。

安裝:

$ pip install wget

例子:

import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532
filename 'razorback.mp3'

2、Pendulum

對(duì)于那些在python中使用日期時(shí)間感到沮喪的,可以使用Pendulum。它是一個(gè)python包,可以緩解日期時(shí)間操作,是一個(gè)python的原生類(lèi)替代。如果想深入了解請(qǐng)參考該文檔。

安裝:

$ pip install pendulum

例子:

import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours()) 3

3、imbalanced-learn

我看到過(guò)大多數(shù)分類(lèi)算法效果,每個(gè)類(lèi)的樣本數(shù)量幾乎是相同的,如balanced。但是現(xiàn)實(shí)生活情況下大部分是不平衡數(shù)據(jù)集,它會(huì)影響學(xué)習(xí)階段和隨后的機(jī)器學(xué)習(xí)算法的預(yù)測(cè)。幸運(yùn)的是,創(chuàng)建了這個(gè)imbalanced庫(kù)來(lái)解決這個(gè)問(wèn)題。它兼容了scikit-learn并且是scikit-learn-contrib項(xiàng)目的一部分。當(dāng)下次遇到不平衡數(shù)據(jù)集,可以嘗試使用這個(gè)庫(kù)。

安裝:

pip install -U imbalanced-learn #or conda install -c conda-forge imbalanced-learn

例子:

用法和例子請(qǐng)參考文檔。

4、FlashText

NLP任務(wù)中清理文本數(shù)據(jù)常常需要在句子中換關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這些操作可以用正則表達(dá)式來(lái)完成,但如果搜索方面遇到了數(shù)以千計(jì)的數(shù)量,可能會(huì)成為麻煩。Python的FlashText模塊,該模塊基于FlashText算法提供了恰當(dāng)?shù)奶娲惹闆r。FlashText最好的部分是運(yùn)行時(shí)間與搜索詞的數(shù)量無(wú)關(guān),你可以在這里了解更多。

安裝:

$ pip install flashtext

例子:

提取關(guān)鍵字

from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() #
keyword_processor.add_keyword(, )keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found ['New York', 'Bay Area']

替代關(guān)鍵字

keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence =
keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.'

5、Fuzzywuzzy

這個(gè)名字聽(tīng)起來(lái)確實(shí)很奇怪,但在處理字符串匹配時(shí),fuzzywuzzy是一個(gè)非常有用的庫(kù),可以輕松實(shí)現(xiàn)操作,比如字符串比較比率,令牌比率等。它也方便匹配保存在不同數(shù)據(jù)庫(kù)的記錄。

安裝:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz from fuzzywuzzy import process # Simple Ratio fuzz.ratio("this is a test", "this is a test!") 97 # Partial Ratio fuzz.partial_ratio("this is a test", "this is a test!") 100

可以在GitHub repo找到更多有趣的例子。

6、PyFlux

時(shí)間序列分析是機(jī)器學(xué)習(xí)領(lǐng)域最常見(jiàn)的問(wèn)題之一。PyFlux是一個(gè)在Python中為了時(shí)間序列問(wèn)題而建立的開(kāi)源庫(kù)。該庫(kù)有一個(gè)良好的現(xiàn)代時(shí)間序列模型包括但不限于ARIMA、GARCH和VAR模型。簡(jiǎn)而言之,PyFlux針對(duì)時(shí)間序列建模提供了一種概率方法,值得一試。

安裝:

pip install pyflux

例子:用法例子請(qǐng)參考相關(guān)文檔。

7、Ipyvolume

結(jié)果可視化是數(shù)據(jù)科學(xué)的一個(gè)重要方面。能夠可視化結(jié)果具有很大的優(yōu)勢(shì)。 IPyvolume是一個(gè)Python庫(kù),只需最少的配置和精力就可以在Jupyter notebook中可視化3d體積和字形(例如3d散點(diǎn)圖)。但是,它目前處于1.0之前的階段。一個(gè)很好的比喻是這樣的:IPyvolume的volshow是3d數(shù)組而matplotlib的imshow是2d數(shù)組。你可以在這里讀更多關(guān)于它的內(nèi)容。

安裝:

Using pip $ pip install ipyvolume Conda/Anaconda $ conda install -c conda-forge ipyvolume

例子:

動(dòng)畫(huà)

 

 

立體渲染

 

 

8、Dash

Dash是一個(gè)用于構(gòu)建Web應(yīng)用程序的高效Python框架。它寫(xiě)在Flask,Plotly.js和React.js之上,并將現(xiàn)有的UI元素(如下拉列表,滑塊和圖形)與你的分析Python代碼聯(lián)系起來(lái),而無(wú)需使用javascript。Dash非常適合構(gòu)建數(shù)據(jù)可視化應(yīng)用程序,然后可以在Web瀏覽器中呈現(xiàn)這些應(yīng)用程序。用戶(hù)指南可在此處訪問(wèn)。

安裝

pip install dash==0.29.0 # The core dash backend pip install dash-html-components==0.13.2 # HTML components pip install dash-core-components==0.36.0 # Supercharged components pip install dash-table==3.1.3 # Interactive DataTable component (new!)

例子

下面的示例顯示了下拉表的高度交互式圖形。當(dāng)用戶(hù)在下拉列表中選擇一個(gè)值時(shí),應(yīng)用程序代碼會(huì)將Google財(cái)經(jīng)中的數(shù)據(jù)動(dòng)態(tài)導(dǎo)出到Pandas DataFram中。

源代碼

 

 

9、Gym

OpenAI的Gym是一個(gè)用于開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包。它與任何數(shù)值計(jì)算庫(kù)兼容,如TensorFlow或Theano。Gym庫(kù)是測(cè)試問(wèn)題的必要集合,也稱(chēng)為環(huán)境 – 你可以使用它來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)算法。這些環(huán)境具有共享接口,允許編寫(xiě)通用算法。

安裝

pip install gym

例子

以下是運(yùn)行環(huán)境CartPole-v0中1000個(gè)步驟的實(shí)例的例子,在每個(gè)步驟渲染環(huán)境。

你可以在這里了解更多的環(huán)境。

結(jié)論

這些是我選的對(duì)于數(shù)據(jù)科學(xué)有用的python庫(kù),而不是常見(jiàn)的如numpy,pandas等。如果你知道可以添加到列表中的其他庫(kù),請(qǐng)?jiān)谙旅娴脑u(píng)論中提及。別忘了嘗試一下。

文章原標(biāo)題《python-libraries-for-data-science-other-than-pandas-and-numpy》

作者:Parul Pandey 譯者:虎說(shuō)八道

文章為簡(jiǎn)譯,更為詳細(xì)的內(nèi)容,請(qǐng)查看原文。

標(biāo)簽: Google 代碼 數(shù)據(jù)庫(kù) 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:預(yù)測(cè):2018-2026全球大數(shù)據(jù)領(lǐng)域市場(chǎng)、份額、規(guī)模和需求

下一篇:一文盤(pán)點(diǎn)數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)的差異(附鏈接)