中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據就是新一代的石油

2019-01-17    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

人工智能會帶來哪些經濟機會?人工智能會奪去你的工作崗位嗎?人工智能會造成更多的不平等嗎?當人工智能優(yōu)先時,什么才是你的學習策略?

2013年,谷歌的首席經濟學家哈爾·瓦里安(Hal Varian)開導可口可樂公司的羅伯特·戈伊蘇埃塔(Robert Goizueta)說:

“10億小時之前,現(xiàn)代智人出現(xiàn)了。10億分鐘之前,基督教誕生了。10億秒鐘前,IBM的個人電腦上市了。10億次谷歌搜索之前……是今天早上。”

谷歌并不是唯一一家擁有海量數(shù)據的公司。從Facebook、微軟等大型公司到地方政府甚至初創(chuàng)公司,數(shù)據收集都變得比以往更廉價、更容易了。

這些數(shù)據具有價值。數(shù)十億的搜索量意味著,谷歌有了數(shù)十億條可供改善服務的數(shù)據線索。有些人把數(shù)據稱為“新一代的石油”。

預測機器依賴數(shù)據。越來越好的數(shù)據帶來越來越好的預測。從經濟角度來說,數(shù)據是預測的關鍵互補品。隨著預測變得愈發(fā)廉價,它的價值水漲船高。

數(shù)據在人工智能中扮演著三種角色。首先是輸入數(shù)據,它被饋進算法,用于生成預測。其次是訓練數(shù)據,它被用來生成最初的算法。

訓練數(shù)據用于訓練人工智能,讓后者得以在現(xiàn)實環(huán)境下進行良好的預測。最后一種是反饋數(shù)據,通過經驗來改進算法的表現(xiàn)。在某些情況下,這三種角色存在大量重合,同一批數(shù)據甚至能身兼三職。

但獲取數(shù)據的成本可能很高。因此,投資時有必要權衡的是以下兩者:更多數(shù)據帶來的好處與獲取更多數(shù)據所付出的成本。為了做出正確的數(shù)據投資決策,你必須理解預測機器是怎樣使用數(shù)據的。

預測需要數(shù)據

在新近的人工智能熱潮興起之前,有過一輪大數(shù)據熱。過去20年,數(shù)據的種類、數(shù)量和質量均有大幅提升。圖像和文本如今都是數(shù)字形式了,機器可以對其進行分析。傳感器無處不在。大數(shù)據熱的基礎是,人們希望數(shù)據能夠幫助減少不確定性,以及對正在發(fā)生的事情擁有更多了解。

以檢測人類心率變化的傳感器的進步為例。多家有著“醫(yī)學味”十足名字的公司和非營利組織(比如AliveCor和Cardiio)都在開發(fā)使用心率數(shù)據的產品。

初創(chuàng)公司Cardiogram設計了一款蘋果手機應用程序,使用蘋果手表的心率數(shù)據生成了大量信息:使用該款程序,用戶可按秒測量心率。用戶可以查看一天當中,自己的心率什么時候會達到巔峰,又或者一年內(甚至十年內),心率是否有所加快或放緩。

但這些產品的潛在力量來自大量數(shù)據與預測機器的結合。學術界和工業(yè)界的研究人員都指出,智能手機可以預測不規(guī)則的心律(醫(yī)學上叫作“心房顫動”)。

因此,依靠各自的預測機器,Cardiogram、AliveCor、Cardiio和其他公司正在開發(fā)利用心率數(shù)據輔助診斷心臟疾病的功能。一般的方法是,使用心率數(shù)據預測如下未知信息:特定用戶是否心律異常。

沒受過醫(yī)學專業(yè)訓練的消費者從原始數(shù)據里是看不到心率數(shù)據與心律異常之間的關聯(lián)的。而Cardiogram可以運用深層神經網絡探測到心律異常,準確率高達97%。

大約有1/4的中風是心律異常導致的。有了更好的預測,醫(yī)生便可提供更好的治療。某些特定藥物可用來預防中風。

為此,每個消費者必須提供自己的心率數(shù)據。沒有個人數(shù)據,機器無法預估當事人的風險。預測機器與個人數(shù)據相結合便可預測此人心律異常的概率。

機器怎樣從數(shù)據中學習

當前這一代的人工智能技術被稱為“機器學習”是有原因的。機器從數(shù)據中學習。就心率監(jiān)測儀而言,根據心率數(shù)據預測心律異常(以及中風概率提高的可能性),預測機器要先學習數(shù)據跟心律異常的實際發(fā)病率有著怎樣的相關性。

為此,預測機器需要將來自蘋果手表的輸入數(shù)據(統(tǒng)計學家稱之為“自變量”)與心律異常信息(“因變量”)結合起來。

要讓預測機器學習,心律異常信息必須來自同一個向蘋果手表提供心率數(shù)據的群體。因此,預測機器需要多個心律異常者的數(shù)據,以及他們的心率數(shù)據。

重要的是,它還需要許多心律無異常人士的數(shù)據,及其心率數(shù)據。接著,預測機器比較心律正常者和異常者的心率圖。有了這樣的比較,就可以進行預測。

如果新患者的心率圖與心律異常者提供的“訓練”樣本更為接近,那么,機器就會預測這一患者有著心律異常的問題。

像不少醫(yī)療應用一樣,Cardiogram與學術研究人員進行了合作,后者通過在研究中監(jiān)測6000名用戶的心率收集到了數(shù)據。

在6000名用戶里,約有兩百人被確診患有心律不齊。故此,Cardiogram所做的就是收集來自蘋果手表的心率圖數(shù)據并與研究數(shù)據進行對比。

此類產品在上市之后仍會繼續(xù)改進預測的準確度。預測機器需要有關預測是否準確的反饋數(shù)據。因此,它需要用戶中心律異常的發(fā)病率的數(shù)據。該機器將這些數(shù)據與心臟檢測的輸入數(shù)據相結合,生成反饋,并不斷提高預測的準確度。

不過,獲取訓練數(shù)據也可能是件很棘手的事情。為了預測同一組項目(如本例中的心臟病患者),你除了需要目標結果的信息(心律異常),還需要有助于在新條件下預測該結果的信息(心率監(jiān)控)。

若要預測未來事件,就更具有挑戰(zhàn)性了。你只能把想要預測之時已知的信息饋進預測機器。比方說,假設你正想購買明年自己最心愛運動隊的季票。

在多倫多,大多數(shù)人會購買多倫多楓葉冰球隊的季票。你顯然希望自己去觀看比賽的時候,球隊獲勝,而不是輸?shù)。你認為,球隊至少要能贏半數(shù)以上的比賽,購買季票才劃算。為了做出這個決定,你需要預測球隊獲勝的次數(shù)。

就冰球而言,進球最多的球隊獲勝。所以,你認為進球多的球隊能贏,進球少的球隊往往會輸。你決定為預測機器提供過往賽季的數(shù)據,包括每支球隊的進球數(shù),每支球隊對手的進球數(shù),以及每支球隊的獲勝次數(shù)。

你將這些數(shù)據提供給預測機器,發(fā)現(xiàn)這的確是預測獲勝次數(shù)的絕佳指標。于是,你打算使用這些信息來預測明年球隊的獲勝次數(shù)。

很可惜,你做不到。你一籌莫展,你沒有明年球隊進球數(shù)的信息,所以,你沒法用這些數(shù)據來預測球隊的獲勝次數(shù)。你確實擁有去年的進球數(shù)據,但它沒用,因為你的訓練模式是讓預測機器從當前年份的數(shù)據中進行學習的。

為了做出這一預測,你需要掌握做出預測那一刻手頭將會擁有的數(shù)據。你也可以使用前一年的進球數(shù)來重新訓練預測機器,讓它預測今年的勝算。你還可以使用其他信息,比如前一年的獲勝次數(shù),球員的年齡,他們在冰上的過往表現(xiàn)。

許多商業(yè)人工智能應用程序都具有這種結構:將輸入數(shù)據和結果指標結合起來創(chuàng)建預測機器,接著使用來自新情況的輸入數(shù)據來預測該情況下的結果。如果你能獲得實際結果的數(shù)據,那么你的預測機器就能通過反饋不斷學習。

關于數(shù)據的決策

數(shù)據的獲取成本往往很高,但沒有它預測機器便無法運行。預測機器需要數(shù)據來創(chuàng)造、運行和改進。

因此,你必須對所需數(shù)據的規(guī)模和范圍做出決定。你需要多少不同類型的數(shù)據?為對機器進行訓練,你需要多少種不同的對象?需要多長時間收集一次數(shù)據?

類型多,對象多,頻率高,意味著成本更高,但也可能帶來更高的收益。斟酌這一決定時,你必須仔細判斷你想要預測的是什么。特定的預測問題能告訴你到底需要些什么。

Cardiogram想要預測的是中風。它使用心律異常(這是經過醫(yī)學驗證的)作為指標。一旦設定了這個預測目標,它需要的就無非是每個使用這款應用程序的人的心率數(shù)據。

它或許還可以使用睡眠、身體活動、家庭病史和年齡等相關信息。提出一些問題來收集年齡和其他信息之后,它只需要一臺能夠準確地測量心率的設備。

Cardiogram還需要訓練數(shù)據:它的訓練數(shù)據涵蓋了6000人,其中一小部分人心律異常。盡管有各式各樣的傳感器以及關于用戶的具體信息可供使用,但Cardiogram只需要收集大多數(shù)用戶的極少量信息。它只需要得到用戶心律異常的信息就可以訓練自家的人工智能。這樣一來,變量的數(shù)量就相對少了。

為了做出好的預測,機器的訓練數(shù)據必須涵蓋足夠多的用戶(或分析單位)。所需用戶的數(shù)量取決于兩個因素:首先,“信號”相較“噪聲”有多可靠;其次,預測的準確度必須達到多高才具備可用性。

換句話說,所需用戶的數(shù)量取決于我們是否期望心率能準確地預測心律異常,以及一旦出錯,代價有多大。如果心率是一個強預測指標,而且出了錯也沒什么大不了的,那么我們只需要幾個人就夠了。

如果心率是一個弱預測指標,又或者,每一次錯誤都有可能把用戶置于危險境地,那么,我們就需要成千甚至數(shù)百萬的用戶數(shù)。

Cardiogram在初步研究中使用了6000人的數(shù)據,其中有200人心律異常。隨著時間的推移,它通過軟件用戶是否出現(xiàn)心律異常的反饋來進一步收集數(shù)據。

這6000人從哪里來?考慮到對預測的可靠性和準確性的要求,數(shù)據科學家有絕佳的工具可評估所需數(shù)據量。這些工具叫作“功效計算”(power calculations),它們能告訴你需要分析多少個單元才

能生成有用的預測。需要加以管理的要點是,你必須有所權衡:更準確的預測需要更多的單元以供研究,而且更多的單元有可能代價不菲。

Cardiogram需要高頻率的數(shù)據收集。它的技術以蘋果手表逐秒收集的心率數(shù)據為基礎。它需要這么高的頻率,因為心率在一天當中不同時間會有所不同,而且正確的測量需要反復評估,以判斷所測得心率是不是所研究用戶的真實值。為發(fā)揮作用,Cardiogram的算法運用的是可穿戴設備提供的穩(wěn)定測量流,而不是患者只能在醫(yī)生診室里進行測量得到的那一個結果。

收集這些數(shù)據需要一筆昂貴的投資。患者必須隨時佩戴著一個設備,因此它會介入患者的日常行為(尤其是對那些沒有蘋果手表的人來說)。

因為它事關健康數(shù)據,存在隱私問題,因此Cardiogram設計的系統(tǒng)改善了隱私功能,但代價是提高了開發(fā)成本,降低了機器根據反饋改進預測的能力。它通過應用程序來收集預測中使用的數(shù)據;數(shù)據本身始終在手表上。

接下來,我們將討論,在對待需要收集多少數(shù)據的問題上,統(tǒng)計思維和經濟思維有怎樣的區(qū)別。(我們會在第四部分討論策略時思考隱私相關的問題。)

規(guī)模經濟

數(shù)據的增多改進了預測。但你需要多少數(shù)據呢?信息增加(不管是單位數(shù)量更多、變量類型更多還是頻率更高)帶來的,對于現(xiàn)有數(shù)據量來說,既可能是利益的增加,也有可能是利益的減少。用經濟學家的話來說,數(shù)據既可能增加規(guī)模報酬,也可能減少規(guī)模報酬。

從純粹的統(tǒng)計學角度來看,數(shù)據的規(guī)模報酬是遞減的。你從第三次觀察中所得的有用信息比第一百次要多,而你從第一百次觀察中所得的有用信息又比第一百萬次要多。當你將觀察結果加入訓練數(shù)據的時候,它對改進預測的幫助越來越小。

每一次觀察都是一段有助于預測的額外數(shù)據片段。就Cardiogram而言,一次觀察就是所記錄的每兩次心跳之間相隔的時間。我們說數(shù)據收益遞減時,意思是前100次心跳可以讓你很好地了解該用戶是否心律異常,每一次額外的心跳在改進預測方面都不如前一次重要。

以你去機場要花多長時間為例。如果你從未去過機場,那么,第一次能帶來很多有用的信息。第二次和第三次也能讓你對“去機場通常要多久”有個準確的認識。

可到了第100次,你對去機場要花多長時間就不太可能獲得更多的信息了。從這個角度來說,數(shù)據的規(guī)模報酬是遞減的:你獲得的數(shù)據越多,每一段額外的數(shù)據片段的價值就越低。

從經濟的角度來看情況可能并非如此,其著眼點不在于數(shù)據如何改進預測,而在于數(shù)據如何提高你從預測中所獲得的價值。有時候,預測和結果是同步的,因此,統(tǒng)計學上觀察到的報酬遞減暗含了你所在意的那些結果的報酬遞減。然而,這兩者不是一回事。

舉個例子,消費者可以選擇使用你的產品,也可以選擇使用你競爭對手的產品。如果你的產品始終跟對手的產品一樣好甚至更好,他們就只用你的產品。可很多時候,只要有現(xiàn)成可用的數(shù)據,所有的競爭者都能表現(xiàn)得一樣好。

例如,大多數(shù)搜索引擎對常見搜索都可提供類似的結果。不管你使用的是谷歌還是必應,搜索“賈斯汀·比伯”所得的結果都差不多。如果能為非常見的搜索提供更好的結果,這種能力越強,搜索引擎的價值就越高。

試試在谷歌和必應里輸入“破壞(disruption)”一詞。在撰寫本書期間,谷歌既顯示了字典里的定義,也顯示了與克萊·M. 克里斯坦森(Clay Christensen)“顛覆性創(chuàng)新(disruption innovation)”的概念相關的結果。必應的前九個結果均只給出了字典里的定義。

谷歌搜索結果更好的一個關鍵原因在于,要弄清此類非常見搜索中搜索者的需求就要有這類搜索的相關數(shù)據。不管是進行非常見搜索還是常見搜索,大多數(shù)人都會使用谷歌。就算搜索引擎只比對手好一點,也可能在市場份額和收入上造成巨大差異。

因此,盡管從技術角度而言,數(shù)據的規(guī)模報酬是遞減的(第十億次搜索對搜索引擎的改進不如第一次大),但站在業(yè)務角度講,如果你比競爭對手擁有更多更好的數(shù)據,數(shù)據就是最有價值的東西。

有人甚至認為,擁有越多與獨一無二的因素相關的數(shù)據,就越能在市場上獲得不成比例的回報。增加數(shù)據能在市場上帶來不成比例的回報。因此,從經濟的角度來看,此種情況下的數(shù)據有可能帶來規(guī)模報酬遞增。

 

36氪領讀

 

《AI極簡經濟學》

作者:阿杰伊·阿格拉沃爾/喬舒亞·甘斯/阿維·戈德法布

作者&譯者簡介

阿杰伊·阿格拉沃爾(Ajay Agrawal)

顛覆性創(chuàng)新實驗室創(chuàng)始人,多倫多大學羅特曼管理學院策略管理教授,美國全國經濟研究所研究員,“未來人工智能”(Next AI)組織的共同創(chuàng)始人。

喬舒亞·甘斯(Joshua Gans)

顛覆性創(chuàng)新實驗室首席經濟學家,多倫多大學羅特曼管理學院策略管理教授,《紐約時報》《哈佛商業(yè)評論》《福布斯》等多家媒體撰稿人。

阿維·戈德法布(Avi Goldfarb)

顛覆性創(chuàng)新實驗室首席數(shù)據科學家,多倫多大學羅特曼管理學院營銷學教授,美國全國經濟研究所研究員。他的研究結果被多家媒體報道。

顛覆性創(chuàng)新實驗室:致力于將科技創(chuàng)新轉化為可行的商業(yè)項目,它的AI分支,在指導人工智能、機器學習領域的初創(chuàng)企業(yè)方面居于世界領軍地位。其導師大多來自谷歌、亞馬遜、Open AI 等組織的人工智能團隊。

閭佳

資深譯者,主攻大眾經濟學、社會心理學、經濟管理及科普讀物的翻譯,已出版多部廣受好評的譯作,包括《牛奶可樂經濟學》(2008年獲文津圖書獎)、《影響力》《理性樂觀派》等。

內容簡介

人工智能正在以不可阻擋的態(tài)勢席卷全球。無論是 iPhone 的神經網絡引擎、AlphaGo 的圍棋算法,還是無人駕駛、深度學習……毫無疑問,人工智能正在改寫行業(yè)形態(tài)。如同此前個人電腦、互聯(lián)網、大數(shù)據的風行一般,技術創(chuàng)新又一次極大地改變了我們的工作與生活。在《AI極簡經濟學》一書中,三位深耕人工智能和決策領域的經濟學家給出了清晰的答案。他們以堅實的經濟學理論剖析動態(tài),把握本質,將人工智能領域變化多端的表象總結為不斷提高的機器預測能力。

標簽: 大數(shù)據 谷歌 互聯(lián)網 媒體 數(shù)據預測 搜索 搜索引擎 網絡

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018年AI和ML技術總結和2019年趨勢(上)

下一篇:谷歌發(fā)布 TensorFlow 2.0 開發(fā)者預覽版