中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

量化評(píng)估、算法拓展:強(qiáng)化學(xué)習(xí)研究的10大原則

2018-12-21    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

今年9月份舉辦的深度學(xué)習(xí)Indaba2018峰會(huì)的干貨確實(shí)不少,今天給大家整理一份關(guān)于強(qiáng)化學(xué)習(xí)的10個(gè)原則,不僅在強(qiáng)化學(xué)習(xí)中有用,在機(jī)器學(xué)習(xí)研究中也能夠提供一些參考。

這10個(gè)原則是一位來(lái)自Insight數(shù)據(jù)分析研究中心的博士生Sebastian Ruder在參會(huì)期間對(duì)David Silver報(bào)告進(jìn)行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來(lái)。

評(píng)估推動(dòng)進(jìn)步

 

 

量化的評(píng)估才能推動(dòng)進(jìn)步。評(píng)估獎(jiǎng)勵(lì)的選擇決定了進(jìn)步的方向,要確保評(píng)估指標(biāo)與目標(biāo)密切相關(guān),避免主觀評(píng)價(jià)(例如人類學(xué)科)。還有一點(diǎn),雙Q學(xué)習(xí)優(yōu)于單Q學(xué)習(xí),因?yàn)楹笳吣軠p少偏見(jiàn)。

算法的可擴(kuò)展性決定成功

 

 

算法如何擴(kuò)展非常重要,要避免性能上限。深度學(xué)習(xí)非常棒,因?yàn)樗梢杂行У財(cái)U(kuò)展,但是樣本效率同樣重要。

算法的可擴(kuò)展性的表現(xiàn)取決于資源,而算法的可擴(kuò)展性決定是否成功:那么給予更多資源,性能如何提高?值得一提的是,這里的資源指的是計(jì)算,內(nèi)存或數(shù)據(jù)。

通用性,即算法在其他任務(wù)上的表現(xiàn)非常重要

 

 

關(guān)鍵是要設(shè)計(jì)一系列具有挑戰(zhàn)性的任務(wù),即應(yīng)該對(duì)不同的新任務(wù)進(jìn)行評(píng)估。避免過(guò)度使用當(dāng)前的任務(wù)。

相信Agent的經(jīng)驗(yàn)

 

 

不要依賴人類的專業(yè)知識(shí),不要依賴于工程特征。在數(shù)據(jù)有限時(shí),領(lǐng)域?qū)I(yè)知識(shí)和歸納偏差非常重要。

一些任務(wù)可能看起來(lái)不太可能完成,但是,你確實(shí)能在其中學(xué)到很多經(jīng)驗(yàn)。這種任務(wù)或者項(xiàng)目,通常滿足這三點(diǎn):

1.很難接受RL的核心問(wèn)題。

1.是AI的核心問(wèn)題

3.非常值得你去努力

狀態(tài)應(yīng)該是主觀的

 

 

應(yīng)將狀態(tài)建立為模型的狀態(tài),即RNN的隱藏狀態(tài),而不是根據(jù)環(huán)境定義。只有agent對(duì)世界的主觀看法才是重要的。不要推理外部現(xiàn)實(shí),因?yàn)檫_(dá)到的效果非常有限。

控制流

 

 

Agent影響數(shù)據(jù)流和體驗(yàn)。Agent應(yīng)該有能夠訪問(wèn)控制環(huán)境的功能。重點(diǎn)不僅在于最大化獎(jiǎng)勵(lì),還在于建立對(duì)流的控制。

價(jià)值函數(shù)塑造世界

 

 

價(jià)值函數(shù)有效地總結(jié)了當(dāng)前和未來(lái)的狀況。多值函數(shù)允許我們模擬世界的多個(gè)方面。可以幫助控制流。

從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí)

 

 

接下來(lái)該怎樣規(guī)劃?同樣的,RL算法可以從想象的經(jīng)驗(yàn)(imagined experience)中學(xué)習(xí),如Alphago中使用MCTS和值函數(shù)。

利用函數(shù)逼近器

 

 

可以將算法復(fù)雜度揉進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu),甚至MCTS,分層控制等也可以用NN建模。然后要真正理解:我們從模型學(xué)到了什么。

學(xué)會(huì)學(xué)習(xí)

 

 

必須精通元學(xué)習(xí),然后,你可能不再需要手工設(shè)置網(wǎng)絡(luò)架構(gòu),一切都是端到端學(xué)習(xí)?偠灾窠(jīng)網(wǎng)絡(luò)要通過(guò)盡可能少的人工干預(yù)來(lái)處理事情。但是,歸納偏差應(yīng)該仍然有用。

相關(guān)報(bào)道:https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

標(biāo)簽: 數(shù)據(jù)分析 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Julia vs Python:哪種編程語(yǔ)言會(huì)是2019年機(jī)器學(xué)習(xí)界的No 1?

下一篇:舉兩個(gè)栗子:如何正確建立個(gè)人的機(jī)器學(xué)習(xí)項(xiàng)目集