中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目來挑戰(zhàn)你的數(shù)據(jù)科學(xué)技能。ǜ芥溄樱

2020-12-04    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用
作者:ranav Dar  翻譯:張達(dá)敏

5個(gè)富有挑戰(zhàn)性的機(jī)器學(xué)習(xí)開源項(xiàng)目幫你找到2020的正確打開方式,以下機(jī)器學(xué)習(xí)項(xiàng)目涉及多個(gè)領(lǐng)域,包括Python編程及自然語言處理。

簡介

越來越多的人開始踏入數(shù)據(jù)科學(xué)領(lǐng)域。不管你是應(yīng)屆畢業(yè)生、初入職場者,還是有一定相關(guān)經(jīng)驗(yàn)的專業(yè)人士,亦或是機(jī)器學(xué)習(xí)的愛好者 – 任何人都想搭上數(shù)據(jù)科學(xué)的快車。

機(jī)器學(xué)習(xí)

https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

如果你來自印度,相信你一定讀過有關(guān)政府在數(shù)據(jù)領(lǐng)域投資的消息(2020年聯(lián)邦預(yù)算)。當(dāng)下是個(gè)投資自己的絕佳時(shí)機(jī)。

在許多開啟自己數(shù)據(jù)科學(xué)生涯的絕佳方式中,投資自己是其中之一。以下是一個(gè)簡化的流程:

找到你所感興趣的機(jī)器學(xué)習(xí)開源項(xiàng)目。

對于該項(xiàng)目,了解當(dāng)前領(lǐng)先的解決方案。

如果有相關(guān)的解決方案,從中汲取知識。但如果這種方案并不存在,就利用你所掌握的機(jī)器學(xué)習(xí)知識來創(chuàng)造一個(gè)。

 

 

我挑選出了5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目(創(chuàng)建于2020年1月)來幫助你了解行業(yè)領(lǐng)先的框架和庫。同往常一樣,我盡可能保證這些項(xiàng)目的多樣性。你會注意到其中包括一些取自自然語言處理和Python編程的想法。

如果你對以往月刊系列展示的項(xiàng)目感興趣,下方已放置鏈接。這個(gè)系列已經(jīng)創(chuàng)辦三年了 – 要對我們社區(qū)鋪天蓋地的響應(yīng)表示感謝!

https://www.analyticsvidhya.com/blog/category/github/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

目錄

1. Reformer – PyTorch里的高效Transformer

2. PandaPy – 你最愛的Python庫

3. 谷歌地球引擎 – 用300多個(gè)Jupyter筆記本來分析地理空間數(shù)據(jù)

4. AVA – 自動化視圖分析

5. Fast Neptune – 你的機(jī)器學(xué)習(xí)項(xiàng)目加速器

谷歌地球引擎 – 用300多個(gè)Jupyter筆記本來分析地理空間數(shù)據(jù)

https://github.com/giswqs/earthengine-py-notebooks

Fast Neptune – 你的機(jī)器學(xué)習(xí)項(xiàng)目加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

回歸正題,以下是5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目。

 

 

Reformer – PyTorch里的高效Transformer

https://github.com/lucidrains/reformer-pytorch

Transformer架構(gòu)的出現(xiàn)改變了自然語言處理。越來越多的自然語言處理框架開始進(jìn)入大眾視野,例如BERT, XLNet, GPT-2.

自然語言處理

https://courses.analyticsvidhya.com/courses/natural-language-processing-nlp?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

自然語言處理框架

https://www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

BERT

https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

GPT-2

https://www.analyticsvidhya.com/blog/2019/07/openai-gpt2-text-generator-python/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

但也存在一個(gè)問題 – 這些基于Transformer的模型實(shí)在是太大了。它們的確實(shí)現(xiàn)了行業(yè)領(lǐng)先的結(jié)果,但成本高的同時(shí),對于大部分僅僅想學(xué)習(xí)并使用它們的人來說,這些框架超出了他們的能力范圍。

“Reformer模型,它和Transformer模型一樣優(yōu)秀,而且它占用的資源和成本更少”

 

 

上面的Github鏈接包含了利用PyTorch搭建Reformer的方法。除了完整的代碼,該項(xiàng)目的作者還提供了一個(gè)簡單且高效的例子來幫助你建模。

我強(qiáng)烈建議你先讀一篇關(guān)于Reformer的內(nèi)部原理的官方研究。

https://openreview.net/pdf?id=rkgNKkHtvB

你可以通過這個(gè)指令在你的機(jī)器上安裝Reformer。

pip install reformer_pytorch

如果你還不了解Transformer架構(gòu)和PyTorch框架,建議先閱讀一下文章。

How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

A Beginner-Friendly Guide to PyTorch and How it Works from Scratch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PandaPy – 你最愛的Python庫

https://github.com/firmai/pandapy

上周我剛剛熟悉了一下PandaPy并在我當(dāng)前項(xiàng)目里加以運(yùn)用。它是個(gè)很神奇的Python庫,將來很有可能成為主流。

如果你的機(jī)器學(xué)習(xí)項(xiàng)目涵蓋了很多混合數(shù)據(jù)類型(int,float,datetime,str等等),你真的應(yīng)該嘗試一下PandaPy而不是Pandas。相比于Pandas,用PandaPy處理混合數(shù)據(jù)類型能為你節(jié)省三分之一的內(nèi)存。

“如果你在生產(chǎn)環(huán)境里使用較小的Pandas數(shù)據(jù)幀(5萬以內(nèi)),那你應(yīng)該嘗試替換成PandaPy。”

 

 

以下三點(diǎn)你會覺得很有趣(這些都是PandaPy的Github上的原話):

在小數(shù)據(jù)集上進(jìn)行簡單計(jì)算時(shí)(例如加法、乘法、取對數(shù)),PandaPy比Pandas快25至80倍。

在小數(shù)據(jù)集上進(jìn)行表操作時(shí)(例如聚合、透視、刪除、合并、填充缺失數(shù)據(jù)),PandaPy比Pandas快5-100倍。

在大多數(shù)小數(shù)據(jù)使用情況下,PandaPy比Dask,Modin Ray和Pandas都要快。

通過pip安裝PandaPy:

!pip3 install pandapy

如果你對Pandas依舊念念不忘,在這里你能找到最新正式版本(v1.0.0)。

https://www.analyticsvidhya.com/blog/2020/01/pandas-version-1-top-4-features/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

谷歌地球引擎 – 用300多個(gè)Jupyter Notebook來分析地理空間數(shù)據(jù)

https://github.com/giswqs/earthengine-py-notebooks

這個(gè)Github庫極其優(yōu)秀!有很多有抱負(fù)的數(shù)據(jù)科學(xué)家在領(lǐng)英上向我詢問如何著手進(jìn)行地理空間分析。這是一個(gè)擁有千兆數(shù)據(jù)的有趣領(lǐng)域。我們僅僅需要一個(gè)結(jié)構(gòu)化的方法來清理分析這些數(shù)據(jù)。

“這個(gè)庫囊括超過300個(gè)Jupyter Notebook,其中包含了如何使用谷歌地球引擎數(shù)據(jù)的例子”

谷歌地球引擎

https://earthengine.google.com/

這是一個(gè)炫酷的GIF圖片,它展示了一個(gè)通過這些Notebook能得到的可視化視圖:

 

 

這些Notebook主要基于三個(gè)Python庫來運(yùn)行代碼:

Earth Engine Python API

Folium

Geehydro

這個(gè)Github庫有大量的Python例子能夠幫你上手。好好研究一下,玩得開心!

這還有一篇很優(yōu)秀的文章能幫你上手地理空間數(shù)據(jù):

Geospatial Data and its Role in Data Science

https://medium.com/analytics-vidhya/geospatial-data-and-its-role-in-data-science-c60b2e0d3f7f

AVA – 自動化視圖分析

https://github.com/antvis/AVA

還有一個(gè)很優(yōu)秀的數(shù)據(jù)可視化概念。數(shù)據(jù)發(fā)掘自動化的想法已經(jīng)流傳一段時(shí)間了,但一直沒有實(shí)質(zhì)性的框架出現(xiàn)。直到現(xiàn)在:

“AVA,自動化視圖分析的簡寫,是阿里巴巴為了讓視圖分析更智能化和自動化所創(chuàng)造的框架。”

下面這個(gè)GIF圖片是AVA的演示:

 

 

我強(qiáng)烈推薦你了解下面的資源,它們能幫你創(chuàng)建和加強(qiáng)數(shù)據(jù)可視化簡介:

Mastering Tableau from Scratch: Become a Data Visualization Rockstar

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

Collection of Data Visualization Articles and Tutorials

https://www.analyticsvidhya.com/blog/tag/data-visualization/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

Fast Neptune – 你機(jī)器學(xué)習(xí)項(xiàng)目的加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

現(xiàn)如今,不論是學(xué)術(shù)界還是工業(yè)界,生產(chǎn)力是任何一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目的重要指標(biāo)。我們需要追蹤每一個(gè)測試、每一次迭代,以及每對參數(shù)和結(jié)果。

“Fast Neptune庫能夠快速記錄開展機(jī)器學(xué)習(xí)測試所需的所有信息。也就是說,F(xiàn)ast Neptune是上文所提及的生產(chǎn)力問題的答案。”

Fast Neptune有幾個(gè)特性能夠幫我們進(jìn)行快速測試(從上文鏈接里引用):

有關(guān)運(yùn)行代碼的機(jī)器的元數(shù)據(jù),包括系統(tǒng)及系統(tǒng)版本。

對測試所在的Notebook的相關(guān)要求。

在測試過程中用到的參數(shù),也就是你想追蹤的變量的值的命名。

測試過程中你想記錄使用的代碼。

是不是很直觀?你只用一行代碼就可以安裝Fast Neptune:

pip install fast-neptune

幾個(gè)值得關(guān)注的框架:

我還想介紹其他幾個(gè)2020年1月發(fā)行的框架,你應(yīng)該關(guān)注一下:

1. Thinc:這是一個(gè)spaCy作者制作的輕量化深度學(xué)習(xí)庫。Thinc“為composing model提供一個(gè)優(yōu)雅、能夠類型檢查、功能化編程的接口,同時(shí)為其他框架定義的層提供支持,例如PyTorch,TensorFlow或者M(jìn)XNet”

Thinc

https://thinc.ai/

spaCy

https://www.analyticsvidhya.com/blog/2019/09/introduction-information-extraction-python-spacy/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PyTorch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

TensorFlow

https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

2. 谷歌仿人類生成聊天機(jī)器人:谷歌創(chuàng)造的Meena是一個(gè)擁有26億參數(shù)點(diǎn)對點(diǎn)訓(xùn)練的神經(jīng)交談式模型。相比于行業(yè)領(lǐng)先的聊天機(jī)器人,Meena能夠引導(dǎo)更合理更具體的對話。谷歌會開源Meena的代碼嗎?我們還不得而知,但這是個(gè)值得關(guān)注的事。

谷歌仿人類生成聊天機(jī)器人

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

結(jié)束語

2020是機(jī)器學(xué)習(xí)快速發(fā)展的一年。先進(jìn)技術(shù)會繼續(xù)快速進(jìn)化,以至于讓新手難以快速上手。

這也是我發(fā)表這些月刊的初衷,把最有相關(guān)性和實(shí)用性的開源機(jī)器學(xué)習(xí)項(xiàng)目帶給我們的社區(qū)。

你有沒有其他想了解的機(jī)器學(xué)習(xí)項(xiàng)目或框架?我非常想在下面的評論區(qū)聽聽你的想法和主意。讓我們一起頭腦風(fēng)暴。

你也可以通過Analytics Vidhya的安卓軟件閱讀這篇文章。

原文標(biāo)題:

5 Open Source Machine Learning Projects to Challenge your Inner Data Scientist

原文鏈接:

https://www.analyticsvidhya.com/blog/2020/02/5-open-source-machine-learning-projects-data-scientist/

標(biāo)簽: 機(jī)器學(xué)習(xí) 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:在數(shù)據(jù)科學(xué)領(lǐng)域,為什么 Python 比 R 更好?

下一篇:為了預(yù)測下一次疫情,一個(gè)動物病毒數(shù)據(jù)庫正在建設(shè)中