站長資訊平臺

5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目來挑戰(zhàn)你的數(shù)據(jù)科學(xué)技能�。ǜ芥溄樱�

2020-12-04 來源：raincent

作者：ranav Dar 翻譯：張達(dá)敏

5個(gè)富有挑戰(zhàn)性的機(jī)器學(xué)習(xí)開源項(xiàng)目幫你找到2020的正確打開方式，以下機(jī)器學(xué)習(xí)項(xiàng)目涉及多個(gè)領(lǐng)域，包括Python編程及自然語言處理。

簡介

越來越多的人開始踏入數(shù)據(jù)科學(xué)領(lǐng)域。不管你是應(yīng)屆畢業(yè)生、初入職場者，還是有一定相關(guān)經(jīng)驗(yàn)的專業(yè)人士，亦或是機(jī)器學(xué)習(xí)的愛好者 – 任何人都想搭上數(shù)據(jù)科學(xué)的快車。

機(jī)器學(xué)習(xí)

https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

如果你來自印度，相信你一定讀過有關(guān)政府在數(shù)據(jù)領(lǐng)域投資的消息(2020年聯(lián)邦預(yù)算)。當(dāng)下是個(gè)投資自己的絕佳時(shí)機(jī)。

在許多開啟自己數(shù)據(jù)科學(xué)生涯的絕佳方式中，投資自己是其中之一。以下是一個(gè)簡化的流程：

找到你所感興趣的機(jī)器學(xué)習(xí)開源項(xiàng)目。

對于該項(xiàng)目，了解當(dāng)前領(lǐng)先的解決方案。

如果有相關(guān)的解決方案，從中汲取知識。但如果這種方案并不存在，就利用你所掌握的機(jī)器學(xué)習(xí)知識來創(chuàng)造一個(gè)。

我挑選出了5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目(創(chuàng)建于2020年1月)來幫助你了解行業(yè)領(lǐng)先的框架和庫。同往常一樣，我盡可能保證這些項(xiàng)目的多樣性。你會注意到其中包括一些取自自然語言處理和Python編程的想法。

如果你對以往月刊系列展示的項(xiàng)目感興趣，下方已放置鏈接。這個(gè)系列已經(jīng)創(chuàng)辦三年了 – 要對我們社區(qū)鋪天蓋地的響應(yīng)表示感謝!

https://www.analyticsvidhya.com/blog/category/github/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

1. Reformer – PyTorch里的高效Transformer

2. PandaPy – 你最愛的Python庫

3. 谷歌地球引擎 – 用300多個(gè)Jupyter筆記本來分析地理空間數(shù)據(jù)

4. AVA – 自動化視圖分析

5. Fast Neptune – 你的機(jī)器學(xué)習(xí)項(xiàng)目加速器

谷歌地球引擎 – 用300多個(gè)Jupyter筆記本來分析地理空間數(shù)據(jù)

https://github.com/giswqs/earthengine-py-notebooks

Fast Neptune – 你的機(jī)器學(xué)習(xí)項(xiàng)目加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

回歸正題，以下是5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目。

Reformer – PyTorch里的高效Transformer

https://github.com/lucidrains/reformer-pytorch

Transformer架構(gòu)的出現(xiàn)改變了自然語言處理。越來越多的自然語言處理框架開始進(jìn)入大眾視野，例如BERT， XLNet， GPT-2.

自然語言處理

https://courses.analyticsvidhya.com/courses/natural-language-processing-nlp?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

自然語言處理框架

https://www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

BERT

https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

GPT-2

https://www.analyticsvidhya.com/blog/2019/07/openai-gpt2-text-generator-python/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

但也存在一個(gè)問題 – 這些基于Transformer的模型實(shí)在是太大了。它們的確實(shí)現(xiàn)了行業(yè)領(lǐng)先的結(jié)果，但成本高的同時(shí)，對于大部分僅僅想學(xué)習(xí)并使用它們的人來說，這些框架超出了他們的能力范圍。

“Reformer模型，它和Transformer模型一樣優(yōu)秀，而且它占用的資源和成本更少”

上面的Github鏈接包含了利用PyTorch搭建Reformer的方法。除了完整的代碼，該項(xiàng)目的作者還提供了一個(gè)簡單且高效的例子來幫助你建模。

我強(qiáng)烈建議你先讀一篇關(guān)于Reformer的內(nèi)部原理的官方研究。

https://openreview.net/pdf?id=rkgNKkHtvB

你可以通過這個(gè)指令在你的機(jī)器上安裝Reformer。

pip install reformer_pytorch

如果你還不了解Transformer架構(gòu)和PyTorch框架，建議先閱讀一下文章。

How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

A Beginner-Friendly Guide to PyTorch and How it Works from Scratch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PandaPy – 你最愛的Python庫

https://github.com/firmai/pandapy

上周我剛剛熟悉了一下PandaPy并在我當(dāng)前項(xiàng)目里加以運(yùn)用。它是個(gè)很神奇的Python庫，將來很有可能成為主流。

如果你的機(jī)器學(xué)習(xí)項(xiàng)目涵蓋了很多混合數(shù)據(jù)類型(int，float，datetime，str等等)，你真的應(yīng)該嘗試一下PandaPy而不是Pandas。相比于Pandas，用PandaPy處理混合數(shù)據(jù)類型能為你節(jié)省三分之一的內(nèi)存。

“如果你在生產(chǎn)環(huán)境里使用較小的Pandas數(shù)據(jù)幀(5萬以內(nèi))，那你應(yīng)該嘗試替換成PandaPy。”

以下三點(diǎn)你會覺得很有趣(這些都是PandaPy的Github上的原話)：

在小數(shù)據(jù)集上進(jìn)行簡單計(jì)算時(shí)(例如加法、乘法、取對數(shù))，PandaPy比Pandas快25至80倍。

在小數(shù)據(jù)集上進(jìn)行表操作時(shí)(例如聚合、透視、刪除、合并、填充缺失數(shù)據(jù))，PandaPy比Pandas快5-100倍。

在大多數(shù)小數(shù)據(jù)使用情況下，PandaPy比Dask，Modin Ray和Pandas都要快。

通過pip安裝PandaPy：

!pip3 install pandapy

如果你對Pandas依舊念念不忘，在這里你能找到最新正式版本(v1.0.0)。

https://www.analyticsvidhya.com/blog/2020/01/pandas-version-1-top-4-features/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

谷歌地球引擎 – 用300多個(gè)Jupyter Notebook來分析地理空間數(shù)據(jù)

https://github.com/giswqs/earthengine-py-notebooks

這個(gè)Github庫極其優(yōu)秀!有很多有抱負(fù)的數(shù)據(jù)科學(xué)家在領(lǐng)英上向我詢問如何著手進(jìn)行地理空間分析。這是一個(gè)擁有千兆數(shù)據(jù)的有趣領(lǐng)域。我們僅僅需要一個(gè)結(jié)構(gòu)化的方法來清理分析這些數(shù)據(jù)。

“這個(gè)庫囊括超過300個(gè)Jupyter Notebook，其中包含了如何使用谷歌地球引擎數(shù)據(jù)的例子”

谷歌地球引擎

https://earthengine.google.com/

這是一個(gè)炫酷的GIF圖片，它展示了一個(gè)通過這些Notebook能得到的可視化視圖：

這些Notebook主要基于三個(gè)Python庫來運(yùn)行代碼：

Earth Engine Python API

Folium

Geehydro

這個(gè)Github庫有大量的Python例子能夠幫你上手。好好研究一下，玩得開心!

這還有一篇很優(yōu)秀的文章能幫你上手地理空間數(shù)據(jù)：

Geospatial Data and its Role in Data Science

https://medium.com/analytics-vidhya/geospatial-data-and-its-role-in-data-science-c60b2e0d3f7f

AVA – 自動化視圖分析

https://github.com/antvis/AVA

還有一個(gè)很優(yōu)秀的數(shù)據(jù)可視化概念。數(shù)據(jù)發(fā)掘自動化的想法已經(jīng)流傳一段時(shí)間了，但一直沒有實(shí)質(zhì)性的框架出現(xiàn)。直到現(xiàn)在：

“AVA，自動化視圖分析的簡寫，是阿里巴巴為了讓視圖分析更智能化和自動化所創(chuàng)造的框架。”

下面這個(gè)GIF圖片是AVA的演示：

我強(qiáng)烈推薦你了解下面的資源，它們能幫你創(chuàng)建和加強(qiáng)數(shù)據(jù)可視化簡介：

Mastering Tableau from Scratch: Become a Data Visualization Rockstar

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

Collection of Data Visualization Articles and Tutorials

https://www.analyticsvidhya.com/blog/tag/data-visualization/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

Fast Neptune – 你機(jī)器學(xué)習(xí)項(xiàng)目的加速器

https://danywind.github.io/2020/01/28/fast-neptune.html

現(xiàn)如今，不論是學(xué)術(shù)界還是工業(yè)界，生產(chǎn)力是任何一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目的重要指標(biāo)。我們需要追蹤每一個(gè)測試、每一次迭代，以及每對參數(shù)和結(jié)果。

“Fast Neptune庫能夠快速記錄開展機(jī)器學(xué)習(xí)測試所需的所有信息。也就是說，F(xiàn)ast Neptune是上文所提及的生產(chǎn)力問題的答案。”

Fast Neptune有幾個(gè)特性能夠幫我們進(jìn)行快速測試(從上文鏈接里引用)：

有關(guān)運(yùn)行代碼的機(jī)器的元數(shù)據(jù)，包括系統(tǒng)及系統(tǒng)版本。

對測試所在的Notebook的相關(guān)要求。

在測試過程中用到的參數(shù)，也就是你想追蹤的變量的值的命名。

測試過程中你想記錄使用的代碼。

是不是很直觀?你只用一行代碼就可以安裝Fast Neptune：

pip install fast-neptune

幾個(gè)值得關(guān)注的框架：

我還想介紹其他幾個(gè)2020年1月發(fā)行的框架，你應(yīng)該關(guān)注一下：

1. Thinc：這是一個(gè)spaCy作者制作的輕量化深度學(xué)習(xí)庫。Thinc“為composing model提供一個(gè)優(yōu)雅、能夠類型檢查、功能化編程的接口，同時(shí)為其他框架定義的層提供支持，例如PyTorch，TensorFlow或者M(jìn)XNet”

Thinc

https://thinc.ai/

spaCy

https://www.analyticsvidhya.com/blog/2019/09/introduction-information-extraction-python-spacy/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

PyTorch

https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

TensorFlow

https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist

2. 谷歌仿人類生成聊天機(jī)器人：谷歌創(chuàng)造的Meena是一個(gè)擁有26億參數(shù)點(diǎn)對點(diǎn)訓(xùn)練的神經(jīng)交談式模型。相比于行業(yè)領(lǐng)先的聊天機(jī)器人，Meena能夠引導(dǎo)更合理更具體的對話。谷歌會開源Meena的代碼嗎?我們還不得而知，但這是個(gè)值得關(guān)注的事。

谷歌仿人類生成聊天機(jī)器人

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

結(jié)束語

2020是機(jī)器學(xué)習(xí)快速發(fā)展的一年。先進(jìn)技術(shù)會繼續(xù)快速進(jìn)化，以至于讓新手難以快速上手。

這也是我發(fā)表這些月刊的初衷，把最有相關(guān)性和實(shí)用性的開源機(jī)器學(xué)習(xí)項(xiàng)目帶給我們的社區(qū)。

你有沒有其他想了解的機(jī)器學(xué)習(xí)項(xiàng)目或框架?我非常想在下面的評論區(qū)聽聽你的想法和主意。讓我們一起頭腦風(fēng)暴。

你也可以通過Analytics Vidhya的安卓軟件閱讀這篇文章。

原文標(biāo)題：

5 Open Source Machine Learning Projects to Challenge your Inner Data Scientist

原文鏈接：

https://www.analyticsvidhya.com/blog/2020/02/5-open-source-machine-learning-projects-data-scientist/

標(biāo)簽：機(jī)器學(xué)習(xí) 數(shù)據(jù) 蒲

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:在數(shù)據(jù)科學(xué)領(lǐng)域，為什么 Python 比 R 更好？

下一篇:為了預(yù)測下一次疫情，一個(gè)動物病毒數(shù)據(jù)庫正在建設(shè)中

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目來挑戰(zhàn)你的數(shù)據(jù)科學(xué)技能�。ǜ芥溄樱�

5個(gè)機(jī)器學(xué)習(xí)開源項(xiàng)目來挑戰(zhàn)你的數(shù)據(jù)科學(xué)技能�。ǜ芥溄樱�