中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

紐約大學陳溪: AlphaGo Zero技術(shù)演進的必然性

2018-08-25    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本講座選自紐約大學助理教授陳溪近日在2018第二屆杉數(shù)科技AI大師圓桌會上所做的題為《 AlphaGo Zero技術(shù)演進的必然性-機器學習與決策的有機結(jié)合》的演講。

陳溪:今天我要跟大家分享一下為什么要把機器學習和運籌學這兩個學科結(jié)合起來,才能有效地解決很多實際的問題。

一、機器學習

 

 

什么是機器學習?首先需要有一堆數(shù)據(jù),然后有機器學習的算法,對于數(shù)據(jù)的統(tǒng)計建模、概率建模和數(shù)據(jù)的假設(shè)來作為算法的支撐。機器學習一般常用的應(yīng)用是對數(shù)據(jù)進行預測,比如預測明天股票的價格,這種都是一些基礎(chǔ)的預測,更重要的是通過機器學習,去學習數(shù)據(jù)中的一些模式。

 

 

機器學習從大的角度分成兩類:監(jiān)督學習與無監(jiān)督學習(Supervised Learning & Unsupervised Learning)。比如我們通過房間里的照片來識別人臉,用某些方式進行一定的標注來確定人臉在什么地方,這時候我們就叫做有監(jiān)督的學習。監(jiān)督學習的框架如上圖所示,根據(jù)預測的函數(shù),把機器學習的特征映射到值域上。

 

 

沒有監(jiān)督的學習是一個更加廣泛的領(lǐng)域,比如我們需要把圖片進行分類,這是完全根據(jù)人的需求和感覺,通過機器學習方法進行分類。

 

 

深度學習是一個自動提取特征的有效工具,比如圖像的結(jié)構(gòu)化讓深度學習得以提取足夠的特征。然而并不是每個領(lǐng)域的數(shù)據(jù)都能夠通過深度學習的方式把有效的特征提取出來,比如在很多金融領(lǐng)域,一定要把深度學習與非深度學習的方法進行有效的比對。

二、從學習到?jīng)Q策

傳統(tǒng)的機器學習通常處理靜態(tài)數(shù)據(jù),但是這并不能滿足很多商業(yè)需求,許多商業(yè)應(yīng)用最終需要做決策。

 

 

上面這張圖把整個數(shù)據(jù)分析分成五個階段:

第一階段:Descriptive(描述性),對數(shù)據(jù)進行基本的描述;

第二階段:Diagnostic(診斷性),對數(shù)據(jù)進行基本的診斷;

第三階段:Discovery(發(fā)現(xiàn)),挖掘數(shù)據(jù)內(nèi)在的模型;

第四階段:Predictive(預測性),預測可能發(fā)生的情況的分析;

第五階段:Prescriptive(指定性),數(shù)據(jù)驅(qū)動決策的過程。

 

 

在現(xiàn)實領(lǐng)域中,我們會遇到很多決策的問題,比如決策庫存量、設(shè)施位置、路線規(guī)劃、商品價格等。

 

 

AlphaGo Zero,作為圍棋的一個重大進展,它不僅要對對手進行預測,同時還要對落子進行決策。所以Google設(shè)計了deep reinforcement learning(深度強化學習),它帶有決策的成分,通過Monte Carlo tree search(蒙特卡洛樹搜索),讓機器和機器自己進行對戰(zhàn),從而進行學習。不管是學習還是決策,Simulation technique(模擬技術(shù))在AlphaGo Zero中也很重要。

對于商業(yè)應(yīng)用仍然很簡單,這是為什么?在一個圍棋的程序中,盡管搜索空間很大,信息是完整的,然后目標函數(shù)簡單而明確(贏或輸),而在商業(yè)決策過程中,目標函數(shù)可能會非常復雜。

 

 

這個研究工作叫Assortment optimization,基本上是一個推薦系統(tǒng),比如搜索一個航班,它會自動幫我挑出性價比最高的幾個航班。

 

 

做Assortment optimization?首先,我們要了解客戶的購買行為,然后用choice model(選擇模型)去做選擇。

 

 

MNL是Logit類模型的基本型式,其選擇一個產(chǎn)品的概率等于這個產(chǎn)品的效率(用戶喜歡的程度)除上所有推薦產(chǎn)品的效率總和加1(S:推薦的產(chǎn)品,a:選擇的產(chǎn)品,1:用戶什么產(chǎn)品都不喜歡)。

在現(xiàn)實生活中還有很多復雜的情況,MNL不可能是一直有效的模型。

 

 

Nested logit models是先選擇一個大類,然后在大類中再進行產(chǎn)品的選擇,如上圖所示,概率分成兩部分,一部分是選擇毛衣的概率,另一部分是選擇毛衣的具體款式的概率,這樣就構(gòu)建了一個多層的選擇過程。

 

 

給定choice model,如何選擇最好的產(chǎn)品推薦給客戶?我們選擇一個S(推薦的產(chǎn)品)做組合優(yōu)化,使得它數(shù)學期望值的收益最大化。然而,現(xiàn)實生活中更復雜的問題是你并不知道用戶選擇產(chǎn)品的概率。

 

 

Ruelala和唯品會是快消品的銷售平臺,銷售時間很短,沒有足夠多的歷史數(shù)據(jù)去學習用戶對產(chǎn)品的喜好程度。Facebook在做在線廣告的時候,若產(chǎn)品的選擇數(shù)以百萬計,這時候就無法估計用戶對每一個產(chǎn)品的喜好程度。所以我們需要動態(tài)推薦系統(tǒng),把機器學習和智能決策結(jié)合起來。

 

 

上圖是簡單的動態(tài)雛形,在每一個時刻我們假設(shè)給用戶做一個產(chǎn)品的推薦,通過用戶購買情況,不斷的學習和做決策,一直到整個銷售區(qū)間終止。如果知道用戶的選擇概率,可以把它做成靜態(tài)的優(yōu)化問題,如果不知道,就做成一個動態(tài)的優(yōu)化問題。

 

 

怎么評估算法的好壞?在學術(shù)圈有一個叫Regret analysis的方法:將最佳分類與選擇分類預期收益均差最小化。我們的目標是構(gòu)造一個機器學習和決策的算法,使得在時間足夠長的時候,收益差非常小,以及收益差怎么減少。

 

 

這些模型雖然很有用,但還不夠復雜,機器學習的精髓在于特征的提取,比如利用上下文的信息,把用戶和產(chǎn)品的特征提取出來,做一個動態(tài)的Choice Model,這樣就能更好的服務(wù)于現(xiàn)實。

 

 

沃爾瑪做過類似的工作,根據(jù)用戶已經(jīng)放在購物車里的產(chǎn)品,在最后結(jié)賬的過程中再推薦產(chǎn)品。

三、總結(jié)

 

 

很多商業(yè)的問題極其復雜,我們要深入理解問題本質(zhì)的結(jié)構(gòu),機器學習與決策要有機的結(jié)合起來。只有把機器學習過程,隨機的建模和優(yōu)化全部柔和在一起,我們才能對大數(shù)據(jù)進行更好的理解和處理。

標簽: Google 大數(shù)據(jù) 金融 數(shù)據(jù)分析 搜索

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:主流大數(shù)據(jù)處理技術(shù)及應(yīng)用方案

下一篇:《2018中國大數(shù)據(jù)發(fā)展指數(shù)報告》發(fā)布:廣東、上海、貴州、北京、重慶領(lǐng)先