站長資訊平臺

2019五大頂尖數(shù)據(jù)科學GitHub項目和Reddit熱帖

2019-02-28 來源：raincent

沒有什么比GitHub和Reddit更適合數(shù)據(jù)科學了。

GitHub是托管代碼的終極一站式平臺，它擅長于簡化團隊成員之間的協(xié)作過程。多數(shù)領先的數(shù)據(jù)科學家和組織使用GitHub來開源他們的庫和框架。因此，我們不僅能夠及時了解領域的最新發(fā)展，還可以在自己的機器上復制模型。

Reddit的討論與該頻譜的目的相同，領先的研究人員和才華橫溢的人才聚集在一起，討論和推斷機器學習和數(shù)據(jù)科學的最新主題和突破。

從這兩個平臺中，我們可以學習很多東西。本文介紹了2019年以來最新的開源GitHub庫和Reddit討論。

GitHub項目

1. Flair (最先進的NLP庫)

(https://github.com/zalandoresearch/flair)

2018年是自然語言處理(NLP)的分水嶺。像ELMo和谷歌的BERT這樣的庫就是突破性的版本。正如Sebastian Ruder所說，“NLP的ImageNet時刻已經到來”!

Flair是另一個優(yōu)秀的NLP庫，易于理解和實現(xiàn)。它最好的部分是什么?它非常先進。

Flair由Zalando Research基于PyTorch開發(fā)并開源。該庫在廣泛的NLP任務上優(yōu)于以前的方法：

這里，F(xiàn)1是準確度評估指標。

2. face.evoLVe – 高性能人臉識別庫

(https://github.com/ZhaoJ9014/face.evoLVe.PyTorch)

現(xiàn)在的數(shù)據(jù)科學領域，應用于計算機視覺的面部識別算法無處不在。

face.evoLVe是一個基于PyTorch的“高性能人臉識別庫”。它為面部相關分析和應用程序提供全面的功能，包括：

· 面部對齊(檢測、地標定位、仿射變換)

· 數(shù)據(jù)預處理(例如，擴充、數(shù)據(jù)平衡、規(guī)范化)

· 各種骨干(例如，ResNet、DenseNet、LightCNN、MobileNet等)

· 各種損失(例如，Softmax、Center、SphereFace、AmSoftmax、Triplet等)

· 提高性能的一系列技巧(例如，培訓改進、模型調整、知識蒸餾等)。

該庫是實際使用和部署高性能深層識別的必備工具，尤其適用于研究人員和工程師。

3. YOLOv3

(https://github.com/wizyoung/YOLOv3_TensorFlow)

YOLO是用于執(zhí)行對象檢測任務的極其快速且準確的框架。它是在三年前推出的，并且從那以后經歷了幾次迭代，每次都比上一次更加精良。

此存儲庫是在TensorFlow中實現(xiàn)的YOLOv3的完整管道，可以在數(shù)據(jù)集上使用，以訓練和評估自己的對象檢測模型。以下是此存儲庫的主要亮點：

· 高效的tf.data管道

· 重量轉換器

· 極快的GPU非極大值抑制(Non Maximum Suppression)

· 完整的培訓渠道

· 通過K-means算法選擇先前的錨箱

4. FaceBoxes: 高準確度的 CPU實時人臉檢測器

(https://github.com/zisianw/FaceBoxes.PyTorch)

計算機視覺中最大的挑戰(zhàn)之一是管理計算資源。并不是每個人都有多個GPU。這是一個很難克服的障礙。

加強FaceBoxes。這是一種新穎的人臉檢測方法，使用CPU在速度和準確度方面都表現(xiàn)出了令人印象深刻的性能。

該存儲庫在FaceBoxes的PyTorch中運行。它包含安裝、訓練和評估人臉檢測模型的代碼。不要再抱怨缺乏計算能力——今天就試試FaceBoxes吧!

5. Transformer-XL from Google AI

(https://github.com/kimiyoung/transformer-xl)

這是另一個改變游戲規(guī)則的NLP框架�？吹狡溆蠫oogle AI團隊的支持也不足為奇(他們也是那些提出BERT的人)。

長距離依賴性一直是NLP方面的棘手問題。即使去年取得了重大進展，但這個概念還沒有得到很好的解決。使用了RNN和Vanilla變壓器，但它們還不夠好。Google AI的Transformer-XL已經填補了這個空白。以下是關于這個庫的一些要點：

· Transformer-XL能夠學習長距離依賴性，比RNN長約80%，比Vanilla Transformer長450%。

· 即使在計算方面，Transformer-XL也比Vanilla Transformer快1800倍!

· 由于長期依賴性建模，Transformer-XL在長序列中具有更好的混淆性能(在預測樣本時更準確)。

此存儲庫包含TensorFlow和PyTorch中Transformer-XL的代碼�？纯茨闶欠窨梢云ヅ�(甚至擊敗)NLP中最先進的結果!

Reddit 熱帖

1. 數(shù)據(jù)科學家是新型業(yè)務分析師

(https://www.reddit.com/r/datascience/comments/aj6ohk/data_scientist_is_the_new_business_analyst/)

不要被標題中的熱門話題所迷惑。這是對數(shù)據(jù)科學當前狀態(tài)及其在世界各地的教學方式的認真討論。

在不同的數(shù)據(jù)科學角色上確定特定標簽總是很困難的。功能和任務各不相同——那么誰應該準確地學習什么?該主題探討教育機構如何僅涵蓋基本概念并聲稱教授數(shù)據(jù)科學。

對于所有處于初級學習階段的人——請務必瀏覽此討論。你將了解到很多關于招聘人員如何看待持有認證或學位的潛在候選人聲稱他們是數(shù)據(jù)科學家這一事件。

當然，你將了解商業(yè)分析師的工作內容，以及與數(shù)據(jù)科學家的不同之處。

2. 數(shù)據(jù)科學中有什么東西讓你大吃一驚

(https://www.reddit.com/r/datascience/comments/aczhjc/what_is_something_in_ds_that_has_blown_your_mind/)

數(shù)據(jù)科學讓你感到驚嘆的的一件事是什么?

在這個討論主題中有很多不可思議的理論和事實會讓你參與其中。以下是來自該帖子的幾個很酷的答案：

“世界上有多少地方可以用眾所周知的分布來建模。很多事物都是正太分布的這一事實讓我覺得我們正處于模擬中。“

“第一件引起我注意并推動我從事數(shù)據(jù)科學事業(yè)的事情是美聯(lián)航每年通過改變用于制作飛行雜志的紙張類型來節(jié)省170,000的燃料。”

3. 頂尖數(shù)據(jù)科學家在職業(yè)生涯早期致力于解決的問題

(https://www.reddit.com/r/MachineLearning/comments/afl3t1/d_machine_learning_people_what_are_some_things/)

大多數(shù)數(shù)據(jù)科學家很確定地說，他們在最初的日子里很難理解某些概念。甚至像估算缺失值那樣簡單的事情也會成為挫折中的艱苦工作。

這個主題是所有數(shù)據(jù)科學愛好者的金礦。它由經驗豐富的數(shù)據(jù)科學家組成，他們分享了自己如何設法學習或了解最初難以掌握的概念。其中一些甚至可能對你來說很熟悉：

· “最難的部分是學習不同類型的輸入形狀(DNN，RNN，CNN)如何工作。我想我花了大約20個小時來確定RNN的輸入形狀。“

· “每次都是，現(xiàn)在仍然充滿挑戰(zhàn)，就是在系統(tǒng)上設置開發(fā)環(huán)境。安裝CUDA，Tensorflow，PyCharm。那些日子真是令人恐懼和絕望。“

· “配置TensorFlow以使用我的GPU能夠運作，這需要數(shù)小時的谷歌搜索和反復試驗。”

4. 為什么深度學習網絡可以得到很好的推廣

(https://www.reddit.com/r/MachineLearning/comments/abj1mc/d_notes_on_why_deep_neural_networks_are_able_to/)

神經網絡長期以來一直有“黑匣子”的聲譽(它不再是真的了)。當概念擴展到深度神經網絡(DNN)時，事情變得更加混亂。這些DNN是許多最新技術成果的核心，因此了解它們的工作原理至關重要。

這個主題中討論的一個關鍵問題是神經網絡如何深入推廣。如果你有同樣的想法，但對此沒有答案——準備好大吃一驚吧!

該主題包括深度學習專家提出的觀點。包含了大量的鏈接和資源，以深入探討該主題。但請注意，對神經網絡的基本了解將有助于你更多地參與討論。

5. AMA 和 DeepMind的 AlphaStar 團隊

(https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/)

當AlphaGo創(chuàng)作擊敗圍棋冠軍李世石時，谷歌的DeepMind震驚世界。他們又一次席卷而來!

其最新的算法AlphaStar在流行游戲的星際爭霸2中受過訓練。AlphaStar強調將兩位星際爭霸球員放在一邊，以10-1的優(yōu)勢贏得勝利。

這個Reddit討論主題是由兩個DeepMind AlphaStar的創(chuàng)建者主持的AMA(Ask Me Anything)。他們與Reddit社區(qū)討論了各種各樣的主題，解釋了算法如何工作，使用了多少訓練數(shù)據(jù)，硬件設置是什么樣的，等等。

這個討論中有兩個有趣的問題：

“為了達到目前的水平，需要玩多少場比賽? 或者換句話說：以你為例，有多少游戲是需要長達200年的學習?“

“嘗試了哪些其他方法?我知道人們對是否會涉及任何樹搜索、深層環(huán)境模型或分層RL技術感到非常好奇，它們似乎都不可行;如果嘗試過，他們中的任何一個都取得了可觀的進展嗎?”

標簽： Google 代碼谷歌搜索推廣網絡

版權申明：本站文章部分自網絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:2019年頂級技術技能：區(qū)塊鏈編程語言Solidity位居榜首！

下一篇:如何順利轉向云端數(shù)據(jù)分析

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

2019五大頂尖數(shù)據(jù)科學GitHub項目和Reddit熱帖