中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)變多,工作量卻在減少?看媒體如何借助算法優(yōu)化內(nèi)容分析

2020-01-08    來源:全媒派公眾號

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

聲明:本文來自于微信公眾號全媒派(ID:quanmeipai),作者:騰訊傳媒,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

信息大爆炸時代,豐富的數(shù)據(jù)資源是有待挖掘的寶藏之地,卻也很可能變成壓力之源。

隨著媒體越來越多地進行內(nèi)容創(chuàng)新和產(chǎn)品探索,能夠反映用戶情感態(tài)度的數(shù)據(jù)調(diào)查,已成為檢驗創(chuàng)新效果的重要標(biāo)準(zhǔn)。

黑客 代碼 安全漏洞 程序

Maass Media是《衛(wèi)報》美國分部的移動創(chuàng)新實驗室(the Guardian US Mobile Innovation Lab)引入的數(shù)據(jù)分析合作機構(gòu),致力于幫助《衛(wèi)報》深入了解用戶。

此前,一篇名為《零基準(zhǔn)分析:衡量移動創(chuàng)新項目的測量方法》(Analysis Without Benchmarks: An Approach forMeasuring the Success of Mobile Innovation Projects)的文章介紹了Maass Media和實驗室共同合作進行用戶調(diào)查分析的具體操作。比如,在 2016 年,為了測試用戶對手機端的不同新聞格式的態(tài)度,他們以總統(tǒng)大選為契機,展開了用戶對實時結(jié)果推送反應(yīng)的實驗。

在用戶調(diào)查中,Maass Media的一個特色是提供了很多開放式問題,這些開放式問題能幫助調(diào)查者更好地洞察用戶深層心理,避免了封閉式問題的一些弊端。但是,開放式問題會帶來巨量的反饋信息,如果通過人工方式進行分析,效率會非常低。那該如何解決這個問題呢?

本期全媒派(ID:quanmeipai)獨家編譯Medium最新文章,一起來看,如何借助算法解決包含大量非標(biāo)準(zhǔn)數(shù)據(jù)的分析難題。

答案在此:自然語言算法

為了更準(zhǔn)確地衡量新實驗的效果,Maass Media和實驗室十分重視用戶的情緒和感覺,想通過對實驗對象的反饋調(diào)查來發(fā)現(xiàn)用戶反饋的態(tài)度積極與否。

因此,除了客觀選擇題外,在用戶調(diào)查表的結(jié)尾會有一個開放式問題:“關(guān)于這次實驗,你還有什么想告訴我們的嗎?”

通過鼓勵開放式回答,用戶可以為調(diào)查提供更多形式的反饋,從而補充封閉式問題的不足?梢哉f,開放式問題為用戶調(diào)查提供了用戶反饋的盲點補充。

早期,在移動端的調(diào)查數(shù)據(jù)收集時,由于調(diào)查數(shù)量比較小,Maass Media通過人工閱讀和手動分類就能完成分析。但是,隨著用戶人數(shù)的增加,開放式問題的回復(fù)達到成千上萬時,這種方式就顯得太低效。同時,由于主觀性的存在,每個人對答案的理解和分類也存在很大差異。

Maass Media提出,需要找到一種新的分析方法,既能加速數(shù)據(jù)分析處理過程,也能讓處理標(biāo)準(zhǔn)一致。

“我們的解決方案是用自然語言處理(NLP)開發(fā)一個情感分析算法。” Maass Media高級數(shù)字分析師Lynette Chen說道。

自然語言處理是計算機程序分析定性數(shù)據(jù)的有效方法之一。有了合適的模型后,基于大量的文本數(shù)據(jù),調(diào)查者就可通過算法進行情緒分析,迅速完成受訪者對某個特定主題的情緒反應(yīng)與觀點的分析。

“為內(nèi)容分析提供可靠的NLP解決方案,不僅可以減少人工處理的時間和精力,還可以有效減少以往分析中存在的主觀性偏差! Chen說道。

雖然已有不少成熟的模型可供借鑒,Maass Media和實驗室決定從頭構(gòu)建獨立的模型,隨后,他們依據(jù)不同的數(shù)據(jù)集訓(xùn)練模型來對比分析模型的成功率。在經(jīng)過了三次模型迭代后,他們得到了相對完美的解決方案。

模型創(chuàng)建過程

依據(jù)自有模型,對自有數(shù)據(jù)集和公開數(shù)據(jù)集進行對比檢驗后,研究者發(fā)現(xiàn),第一次迭代的算法在公開數(shù)據(jù)集上的表現(xiàn)并不理想,因為內(nèi)外數(shù)據(jù)集對情感詞匯打標(biāo)簽的方式并不相同,經(jīng)過第二、三次迭代后,他們借鑒了VADER算法模型,獲得了良好效果。

“VADER算法由佐治亞理工學(xué)院的研究人員創(chuàng)建,并通過眾包(Crowdsourcing: 指從一廣泛群體,特別是在線社區(qū),獲取所需想法、服務(wù)或內(nèi)容貢獻的實踐。)不斷進行再培訓(xùn)。這一模型所訓(xùn)練的數(shù)據(jù)集更加廣泛,包含了用戶對一系列單詞、表情符號、俚語和首字母縮略詞的評分?jǐn)?shù)據(jù)! Lynette Chen介紹道,“經(jīng)過分析,我們決定改用這一算法框架,而不是使用我們自己的原始基算法,因為它可以讓我們準(zhǔn)確地分析更大范圍的單詞。

在這一算法穩(wěn)定成熟后,通過使用自然語言處理,大大減少了標(biāo)記和統(tǒng)計用戶非標(biāo)準(zhǔn)化回答所需的時間。“如果由我們自己人工閱讀和手動標(biāo)記一份用戶關(guān)于大選期間媒體推送的情感態(tài)度數(shù)據(jù),這項工作可能將花費大約 5 小時。” Chen表示,但通過自然語言處理算法,可以在不到 5 分鐘的時間內(nèi)完成這項工作。

聲明:本文來自于微信公眾號全媒派(ID:quanmeipai),作者:騰訊傳媒,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

雖然歷經(jīng)了各種“痛苦”的磨難,但是Maass Media認(rèn)為,開發(fā)NLP解決方案是一項富有價值的投資,這一過程的構(gòu)建雖然耗時,但是從結(jié)果來看,可以顯著減少數(shù)據(jù)分析所需的時間。

“不過這需要一支具備相當(dāng)技能的團隊,并且還要對算法進行不斷迭代,來提高兼容性和準(zhǔn)確率。” Chen說道。

原文鏈接:

https://medium.com/the-guardian-mobile-innovation-lab/more-data-less-work-experimenting-with-natural-language-processing-for-faster-survey-analysis-d1665200d8e4

image.png

標(biāo)簽: 算法優(yōu)化內(nèi) 媒體 數(shù)據(jù) 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:40萬APP上新 2019這10款最值得關(guān)注

下一篇:搶票“加速”新套路!“沒啥卵用”為何還能讓你多掏錢?