當(dāng)前位置：主頁(yè)?新聞動(dòng)態(tài)?行業(yè)動(dòng)態(tài)?

AI在內(nèi)容分發(fā)上的絆腳石

文章出處：未知人氣：發(fā)表時(shí)間：2017-07-28 18:02

自從互聯(lián)網(wǎng)商業(yè)化發(fā)展以來(lái)，不論是新聞客戶端、視頻網(wǎng)站或是電商平臺(tái)……所有的平臺(tái)，都是把自己默認(rèn)為一個(gè)優(yōu)秀的飼養(yǎng)員，它按照自己的想法，把內(nèi)容（飼料）Push（喂）給用戶。

這些飼養(yǎng)員都是受過(guò)訓(xùn)練的專業(yè)人士，行話叫做---由網(wǎng)站編輯為用戶設(shè)置議程，按照大多數(shù)用戶的口味挑選內(nèi)容。

后來(lái)編輯實(shí)在忙不過(guò)來(lái)，采用機(jī)器幫忙---最簡(jiǎn)單的機(jī)器方式則是“熱門(mén)推薦”，比如按照點(diǎn)擊量或其它數(shù)據(jù)來(lái)做排序。

飼養(yǎng)員模式最大的問(wèn)題是不知道食客胃口如何，這會(huì)導(dǎo)致兩個(gè)顯著的后果：一是食客不滿意，用戶個(gè)性化需求不能得到滿足；二是自身資源浪費(fèi)，大量長(zhǎng)尾資源長(zhǎng)期得不到曝光，增加沉沒(méi)成本。

有人發(fā)現(xiàn)了機(jī)器的好處。機(jī)器可以是根據(jù)用戶特征來(lái)推薦內(nèi)容。正如一個(gè)高明的廚子可以根據(jù)每一個(gè)食客的口味提供飯菜，如果機(jī)器足夠聰明，在一定程度上可以解決所有用戶的個(gè)性化需求。這豈不是內(nèi)容產(chǎn)業(yè)的C2M？

準(zhǔn)確的說(shuō)，這是內(nèi)容分發(fā)的C2M，它以單個(gè)用戶為對(duì)象進(jìn)行溝通，跳出了大眾傳播/分眾傳播窠臼，是不是足以革了所有的搜索引擎和門(mén)戶網(wǎng)站的命？

這種智能化的內(nèi)容C2M有深刻的時(shí)代背景。今天，你已經(jīng)站在時(shí)代邊緣，眼睜睜的看著AI技術(shù)點(diǎn)燃了IOT的引線，接下來(lái)你將發(fā)現(xiàn)自己無(wú)可拒絕的進(jìn)入下一個(gè)信息核爆的時(shí)代：信息終端爆炸、信息規(guī)模爆炸、信息平臺(tái)爆炸……

在信息高速公路上，你開(kāi)過(guò)的車，你走過(guò)的路，全都變了規(guī)則，你所熟悉的一切的基于飼養(yǎng)員模式的知識(shí)框架都面臨顛覆。

在這個(gè)時(shí)代，飼養(yǎng)員模式已經(jīng)失靈了，聰明的機(jī)器將成為最大的變量。

第一個(gè)出現(xiàn)的場(chǎng)景是人類生產(chǎn)內(nèi)容，機(jī)器分發(fā)內(nèi)容。

下一個(gè)出現(xiàn)的場(chǎng)景是機(jī)器生產(chǎn)內(nèi)容，機(jī)器分發(fā)內(nèi)容。

內(nèi)容產(chǎn)業(yè)面臨C2M革命，行不行？

“當(dāng)然不行，機(jī)器很蠢。”如果你這樣想，那么很遺憾，你注定是看不到明天的太陽(yáng)了。

“當(dāng)然行。”如果你這么想，那么祝賀你掉進(jìn)坑里了。

真實(shí)的情況，你可能意想不到。

一、內(nèi)容C2M之路本質(zhì)是走向個(gè)體化溝通

作為一個(gè)獨(dú)立的研究方向，推薦系統(tǒng)的源頭可以追溯到90年代初的協(xié)同過(guò)濾算法，中期的代表則是傳統(tǒng)的機(jī)器學(xué)習(xí)算法，比如Netflix大賽所推動(dòng)的隱語(yǔ)義模型，現(xiàn)在則是更加復(fù)雜的深度學(xué)習(xí)模型。

近些年，深度學(xué)習(xí)突飛猛進(jìn)，使得機(jī)器推薦變成了整個(gè)互聯(lián)網(wǎng)的太陽(yáng)。在新技術(shù)的推動(dòng)下，個(gè)性化溝通也變得更加可行，而且越來(lái)越接近單用戶溝通。

（一）協(xié)同過(guò)濾蹣跚起步

按照百科詞條解釋，協(xié)同過(guò)濾是利用用戶群體的喜好來(lái)為你推薦感興趣的信息，這些用戶要么興趣相投、要么具有共同經(jīng)驗(yàn)，然后網(wǎng)站結(jié)合你的反饋（如評(píng)分），進(jìn)行過(guò)濾分析，進(jìn)而幫助別人篩選信息。

當(dāng)然，用戶喜好不一定局限于特別感興趣的信息，特別不感興趣信息的紀(jì)錄也相當(dāng)重要。協(xié)同過(guò)濾表現(xiàn)出了出色的效果，開(kāi)始在互聯(lián)網(wǎng)行業(yè)稱王稱霸。

起先，協(xié)同過(guò)濾應(yīng)用于郵件過(guò)濾。

1992年，施樂(lè)公司的科學(xué)家提出了Tapestry系統(tǒng)。這是最早應(yīng)用協(xié)同過(guò)濾系統(tǒng)的設(shè)計(jì)，主要是解決Xerox公司在Palo Alto的研究中心資訊過(guò)載的問(wèn)題。這個(gè)研究中心的員工每天會(huì)收到非常多的電子郵件卻無(wú)從篩選分類，于是研究中心便發(fā)展這項(xiàng)實(shí)驗(yàn)性的郵件系統(tǒng)來(lái)幫助員工解決這項(xiàng)問(wèn)題。

接著，協(xié)同過(guò)濾思路開(kāi)始應(yīng)用于內(nèi)容推薦。

1994年，美國(guó)Minnesota的GroupLens項(xiàng)目組創(chuàng)辦了一個(gè)新聞篩選系統(tǒng)，這個(gè)系統(tǒng)可以幫助新聞的閱聽(tīng)者過(guò)濾其感興趣的新聞內(nèi)容，閱聽(tīng)者看過(guò)內(nèi)容后給一個(gè)評(píng)比的分?jǐn)?shù)，系統(tǒng)會(huì)將分?jǐn)?shù)記錄起來(lái)以備未來(lái)參考之用，假設(shè)前提是閱聽(tīng)者以前感興趣的東西在未來(lái)也會(huì)有興趣閱聽(tīng)，若閱聽(tīng)者不愿揭露自己的身分也可以匿名進(jìn)行評(píng)分。作為最老牌的內(nèi)容推薦研究團(tuán)隊(duì)，GroupLens于1997年創(chuàng)建了電影推薦系統(tǒng)MovieLens，還有性質(zhì)相近的音樂(lè)推薦系統(tǒng)Ringo，以及影音推薦系統(tǒng)Video Recommender等等。

后來(lái)，出現(xiàn)了另一個(gè)里程碑——電子商務(wù)推薦系統(tǒng)。

1998年，亞馬遜的林登和他的同事申請(qǐng)的基于物品的協(xié)同過(guò)濾（item-to-item）技術(shù)專利，是亞馬遜早期使用的經(jīng)典算法，一度引爆流行。

協(xié)同過(guò)濾算不算人工智能？從技術(shù)的角度來(lái)看，它也屬于AI范疇。但必須指出的是協(xié)同過(guò)濾算法比較弱智，無(wú)論是基于用戶的協(xié)同過(guò)濾，還是基于物品的協(xié)同過(guò)濾，推薦效果總是差強(qiáng)人意。

怎樣通過(guò)一個(gè)成體系的方法論來(lái)引導(dǎo)推薦系統(tǒng)的不斷優(yōu)化？如何才能把復(fù)雜的現(xiàn)實(shí)因素糅合到推薦結(jié)果中？攻城獅們一度非常非常頭大，重賞之下必有勇夫，后來(lái)，終于有人發(fā)現(xiàn)了更加靈活的思路。

（二）傳統(tǒng)機(jī)器學(xué)習(xí)開(kāi)始加速

2006年，Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線影片租賃網(wǎng)站，舉辦大賽的目的旨在解決電影評(píng)分預(yù)測(cè)問(wèn)題的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘問(wèn)題。主辦方為此下了血本，宣稱對(duì)于那些能夠?qū)etflix的推薦系統(tǒng)Cinematch的準(zhǔn)確率提升10%的個(gè)人或團(tuán)隊(duì)，獎(jiǎng)勵(lì)100萬(wàn)美元！

Netflix在自家blog上披露了許多龐大的數(shù)據(jù)，舉例如下：

我們有幾十億的用戶評(píng)分?jǐn)?shù)據(jù)，并且以每天幾百萬(wàn)的規(guī)模在增長(zhǎng)。

我們的系統(tǒng)每天產(chǎn)生幾百萬(wàn)的播放點(diǎn)擊，并且包含很多特征，例如：播放時(shí)長(zhǎng)、播放時(shí)間點(diǎn)和設(shè)備類型。

我們的用戶每天將幾百萬(wàn)部視頻添加到他們的播放列表。

顯然，在這些海量數(shù)據(jù)面前，我們已經(jīng)不能靠由純?nèi)斯せ蛘咝⌒拖到y(tǒng)建立起來(lái)的分類標(biāo)準(zhǔn)對(duì)整個(gè)平臺(tái)用戶喜好進(jìn)行標(biāo)準(zhǔn)化。

比賽開(kāi)始一年后，Korbell的團(tuán)隊(duì)以8.43%的提升贏得了第一個(gè)階段獎(jiǎng)。他們付出了超過(guò)2000個(gè)小時(shí)的努力，融合了107種算法。其中兩種最有效的算法：矩陣分解（通常被叫做SVD，奇異值分解）和局限型玻爾茲曼機(jī)（RBM）。

矩陣分解作為協(xié)同過(guò)濾的補(bǔ)充，核心是將一個(gè)非常稀疏的用戶評(píng)分矩陣R分解為兩個(gè)矩陣：User特性的矩陣P和Item特性的矩陣Q，并用已知的數(shù)據(jù)構(gòu)建這些向量，使用它們來(lái)預(yù)測(cè)未知的項(xiàng)。該算法在有效提高計(jì)算精度的同時(shí)，還能夠加入各種建模元素，使更多元化的信息融合進(jìn)來(lái)，更好地利用大量數(shù)據(jù)。

然而矩陣分解也有不足。不足之處在于，矩陣分解和協(xié)同過(guò)濾算法一樣，都屬于監(jiān)督學(xué)習(xí)范疇，粗糙且簡(jiǎn)單，適用于小型系統(tǒng)。擺在網(wǎng)絡(luò)巨頭們面前的問(wèn)題是，如果需要建立一個(gè)大型推薦系統(tǒng)，協(xié)同過(guò)濾和矩陣分解則會(huì)花費(fèi)較長(zhǎng)的時(shí)間。怎么辦？

于是，一些攻城獅將眼光轉(zhuǎn)移到無(wú)監(jiān)督學(xué)習(xí)中。無(wú)監(jiān)督學(xué)習(xí)中的聚類算法的本質(zhì)是識(shí)別用戶組，并對(duì)這個(gè)組內(nèi)的用戶推薦相同的內(nèi)容。當(dāng)我們擁有足夠的數(shù)據(jù)，最好使用聚類作為第一步，來(lái)縮減協(xié)同過(guò)濾算法中相關(guān)鄰居的選擇范圍。

隱語(yǔ)義模型運(yùn)用了聚類分析方法，其一大優(yōu)勢(shì)是既可以做評(píng)分預(yù)測(cè)，又可以同時(shí)對(duì)文本內(nèi)容建模，使得通過(guò)內(nèi)容來(lái)進(jìn)行推薦的效果得到較大提升。

傳統(tǒng)的分析方式在對(duì)用戶打標(biāo)簽，并根據(jù)標(biāo)簽映射到結(jié)果的兩個(gè)步驟中準(zhǔn)確度不高。比如用戶填寫(xiě)的年齡不一定真實(shí)，或者并非所有青少年都喜歡漫畫(huà)。而隱語(yǔ)義模型的核心，是超越這些表層語(yǔ)義標(biāo)簽的維度，通過(guò)機(jī)器學(xué)習(xí)技術(shù)，挖掘用戶行為中更深層的潛在關(guān)聯(lián)，使得推薦精度更高。

Netflix Prize百萬(wàn)美元武林大賽號(hào)令之下，天下英才頻出。2009年達(dá)到了一個(gè)高峰，成為推薦系統(tǒng)領(lǐng)域最標(biāo)致性的事件，這次比賽吸引了眾多專業(yè)人士投身于推薦系統(tǒng)領(lǐng)域的研究，也讓這項(xiàng)技術(shù)從專業(yè)圈子滲透到了商業(yè)領(lǐng)域，引發(fā)了熱烈的討論并逐漸勾起了主流網(wǎng)站的垂涎，基于內(nèi)容的推薦、基于知識(shí)的推薦、混合推薦、基于信任網(wǎng)絡(luò)的推薦等等走上了快速發(fā)展的通道。

這些推薦引擎與協(xié)同過(guò)濾不同，例如基于內(nèi)容的推薦是建立在項(xiàng)目的內(nèi)容信息上作出推薦的，而不需要依據(jù)用戶對(duì)項(xiàng)目的評(píng)價(jià)意見(jiàn)，更多地需要用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶的興趣資料。內(nèi)容過(guò)濾主要采用自然語(yǔ)言處理、人工智能、概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行過(guò)濾。

百萬(wàn)美元花得值不值？據(jù)2016年的Netflix用戶數(shù)據(jù)：注冊(cè)會(huì)員6500萬(wàn)人，每天觀看視頻的總時(shí)長(zhǎng)1億個(gè)小時(shí)。Netflix說(shuō)，每年靠這套系統(tǒng)能夠節(jié)省10億美元。

（三）深度學(xué)習(xí)帶來(lái)“無(wú)人駕駛”

近些年來(lái)，用戶的大痛點(diǎn)出現(xiàn)。智能手機(jī)的普及，讓龐大的信息量和狹小的閱讀屏幕成為一對(duì)難以化解的矛盾，用戶閱讀場(chǎng)景不再是固守于電腦屏幕，而是向移動(dòng)化碎片化轉(zhuǎn)變，搜索引擎失靈了，人工推薦忙不過(guò)來(lái)，機(jī)器推薦也不夠用了，這種轉(zhuǎn)變對(duì)大內(nèi)容平臺(tái)簡(jiǎn)直是生死考驗(yàn)。能滿足需求則生，不滿足則死。

面對(duì)這一問(wèn)題，YouTube和Facebook提出了新解決思路：運(yùn)用深度學(xué)習(xí)，制造聰明的機(jī)器。近十年來(lái)，深度學(xué)習(xí)已經(jīng)取得了巨大的飛躍，對(duì)于解決大數(shù)據(jù)量更有優(yōu)勢(shì)。

如果說(shuō)人工內(nèi)容推薦如同司機(jī)開(kāi)車，那么深度學(xué)習(xí)所帶來(lái)的內(nèi)容推薦，則如無(wú)人駕駛汽車。在這種技術(shù)是利用用戶數(shù)據(jù)來(lái)“感知”用戶喜好，其推薦系統(tǒng)基本可以分為數(shù)據(jù)層、觸發(fā)層、融合過(guò)濾層和排序?qū)?，?dāng)數(shù)據(jù)層生成和存儲(chǔ)的數(shù)據(jù)進(jìn)入候選層后，也就觸發(fā)了核心的推薦任務(wù)。

以YouTube為例，其最新公開(kāi)的推薦系統(tǒng)算法由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成，一個(gè)用于候選生成，一個(gè)用于排序。首先，以用戶的瀏覽歷史為輸入，候選生成網(wǎng)絡(luò)可以顯著減小可推薦的視頻數(shù)量，從龐大的庫(kù)中選出一組最相關(guān)的視頻。

這樣生成的候選視頻與用戶的相關(guān)性最高，再進(jìn)一步對(duì)用戶評(píng)分進(jìn)行預(yù)測(cè)。這個(gè)網(wǎng)絡(luò)的目標(biāo)，只是通過(guò)協(xié)同過(guò)濾提供更廣泛的個(gè)性化。排序網(wǎng)絡(luò)的任務(wù)則是仔細(xì)分析候選內(nèi)容，精選出少量最優(yōu)選擇。具體操作為根據(jù)視頻描述數(shù)據(jù)和用戶行為信息，使用設(shè)計(jì)好的目標(biāo)函數(shù)為每個(gè)視頻打分，將得分最高的視頻呈獻(xiàn)給用戶。

在這種模式下，機(jī)器全然接管了平臺(tái)。在深度學(xué)習(xí)的持續(xù)訓(xùn)練下，機(jī)器越來(lái)越聰明，與人打交道的智商會(huì)逐漸提升，在某種意義上也逐漸承擔(dān)起看門(mén)狗的責(zé)任。

二、內(nèi)容產(chǎn)業(yè)是否即將被C2M顛覆

世界之大無(wú)奇不有，美國(guó)得克薩斯州科珀斯—克里斯蒂市一家銀行的一臺(tái)自動(dòng)取款機(jī)（ATM）竟然在11日吐出了字條，上面寫(xiě)著“救我”，這條新聞很快傳遍中文網(wǎng)絡(luò)，成為許多網(wǎng)站的頭條。

你需要從N個(gè)網(wǎng)站上看到一模一樣的文章嗎？

這些冗余的信息消耗了你的精力和流量，就像你打開(kāi)任何一個(gè)電視頻道，都能看到許多方便面廣告一樣，讓人很難從大量的信息中快速找到自己想要的內(nèi)容。

如何解決用戶信息冗余的尷尬？

過(guò)去曾經(jīng)有許多不成功的技術(shù)方案，個(gè)人門(mén)戶曇花一現(xiàn)，RSS訂閱不成氣候，跨站跟蹤上不了臺(tái)面。能引領(lǐng)未來(lái)者，只有C2M。

C2M模式可以像今日頭條這樣應(yīng)用于全網(wǎng)，也可以像Facebook那般基于巨頭的平臺(tái)。其核心就在于基于用戶行為習(xí)慣、特征和訴求，對(duì)海量的信息進(jìn)行提取、分揀然后傳遞給用戶，這是克服痛點(diǎn)的秘密。

但質(zhì)疑的聲音也不少。比如有觀點(diǎn)認(rèn)為，協(xié)同過(guò)濾這樣的推薦容易讓用戶形成信息繭房、無(wú)法識(shí)別閱讀場(chǎng)景、即時(shí)性差、耗時(shí)長(zhǎng)等缺點(diǎn)，而今日頭條這樣的模式也常常被詬病，還要應(yīng)付難以捕捉的用戶興趣、用戶數(shù)據(jù)的隱私和管理等多項(xiàng)挑戰(zhàn)。

支持和質(zhì)疑各執(zhí)一端，孰是孰非？未來(lái)雖有兩大機(jī)遇，但是目前要跨越三座大山。

1.支持的理由如下：

①千人千面，眾口可調(diào)。

個(gè)性化的內(nèi)容推薦機(jī)制能夠根據(jù)用戶的喜好為其推薦信息。通過(guò)各種算法，通過(guò)分析用戶的歷史行為，對(duì)比相關(guān)用戶和相關(guān)物品猜測(cè)用戶可能喜歡的內(nèi)容，列出候選集并進(jìn)行驗(yàn)證，用戶可以得到較為準(zhǔn)確的內(nèi)容，使信息分發(fā)做到千人千面，實(shí)現(xiàn)內(nèi)容與用戶的精準(zhǔn)連接，而不是傳統(tǒng)意義上的千人一面般的投放。

②海里撈針，提高效率

個(gè)性化推薦省去了用戶在海量信息中進(jìn)行提取和搜尋的環(huán)節(jié)。用戶無(wú)需在海量信息中摸針，在一定程度上為用戶去除了部分無(wú)用信息，縮小了用戶信息搜索的范圍，提高了用戶的閱讀效率。

③投其所好，增強(qiáng)粘性

不斷為用戶推薦適合他的內(nèi)容能夠增加用戶粘性。個(gè)性化推薦技術(shù)通過(guò)算法進(jìn)行用戶感興趣的內(nèi)容的精準(zhǔn)推薦，幫助用戶快捷發(fā)現(xiàn)感興趣的內(nèi)容，當(dāng)你看完一個(gè)內(nèi)容后，會(huì)立馬給你推薦相關(guān)的東西，可以增加用戶粘性，提高用戶體驗(yàn)。

④挖掘長(zhǎng)尾，打破兩極

個(gè)性化推薦能夠通過(guò)相關(guān)算法幫助用戶挖掘長(zhǎng)尾內(nèi)容，避免兩極分化的馬太效應(yīng)。當(dāng)A用戶喜歡比較冷門(mén)的長(zhǎng)尾內(nèi)容，而B(niǎo)用戶又有跟A用戶有相同或相似的興趣和行為習(xí)慣時(shí)，系統(tǒng)就能夠把A用戶喜歡的冷門(mén)內(nèi)容推薦給B用戶，這樣就使冷門(mén)內(nèi)容得到更多的曝光，幫助用戶發(fā)現(xiàn)更多的長(zhǎng)尾內(nèi)容，避免內(nèi)容生產(chǎn)生態(tài)兩極分化。

⑤雙向交流，深度優(yōu)化

基于用戶進(jìn)行個(gè)性化推薦是對(duì)用戶進(jìn)行深度分析和交流的結(jié)果，提升了用戶的交互式體驗(yàn)。傳統(tǒng)的人工推薦是遍地撒網(wǎng)地推薦，沒(méi)有對(duì)用戶進(jìn)行細(xì)致地劃分和篩選，機(jī)器推薦以用戶特點(diǎn)和習(xí)慣為基礎(chǔ)進(jìn)行推薦，用戶能夠得到雙向的交流和溝通，用戶的行為也能對(duì)下一步的推薦產(chǎn)生影響，在一定程度上得到了反饋，提升了用戶的交互式體驗(yàn)。

⑥分門(mén)別類，運(yùn)營(yíng)細(xì)化

個(gè)性化推薦也有利于平臺(tái)對(duì)內(nèi)容進(jìn)行分類，從而利于平臺(tái)精細(xì)化管理和運(yùn)營(yíng)。信息時(shí)使得平臺(tái)不斷涌現(xiàn)，各種形式的內(nèi)容越來(lái)越豐富，用戶手機(jī)端展示的區(qū)域有限，個(gè)性化推薦能夠使商家更好地針對(duì)不同客戶對(duì)內(nèi)容進(jìn)行分類，有利于精細(xì)化運(yùn)營(yíng)。

2.質(zhì)疑的觀點(diǎn)主要有：

①畫(huà)地為牢，思維設(shè)限

個(gè)性化新聞體驗(yàn)容易讓思想裹足不前。個(gè)性化推薦的結(jié)果是基于用戶的歷史數(shù)據(jù)和歷史行為，基于相似用戶或者相似物品進(jìn)行的推薦，在一定程度上將用戶感興趣的內(nèi)容固定在一個(gè)特定的閉環(huán)里，在為用戶篩選信息的同時(shí)也為用戶隔斷了很多信息。個(gè)性化推薦的內(nèi)容采集自你的興趣，又決定了你的興趣。因此，無(wú)法接觸“新”事物自然就不能培養(yǎng)新的興趣，容易讓用戶越來(lái)越狹隘。

②人心變幻，機(jī)器何解

機(jī)器推薦無(wú)法識(shí)別閱讀場(chǎng)景的變化而帶來(lái)的需求的變化，無(wú)法感知用戶為什么需要閱讀，難以匹配人類情感的復(fù)雜程度。例如在某一個(gè)階段，我們因?yàn)榇蠹叶荚谟懻撃臣露リP(guān)注這件事，但這并不意味著我們對(duì)類似的事情都感興趣。

③審美下線，好壞難分

個(gè)性化推薦的難度對(duì)推薦內(nèi)容的質(zhì)量帶來(lái)了挑戰(zhàn)。以往評(píng)價(jià)一篇文章的好壞對(duì)編輯來(lái)說(shuō)都沒(méi)那么容易，如今機(jī)器推薦很容易忽略質(zhì)量這一維度。機(jī)器算法不準(zhǔn)確會(huì)使標(biāo)題黨內(nèi)容混雜出現(xiàn)，機(jī)器推薦可能會(huì)把一篇沒(méi)有價(jià)值的文章推薦的很高，也有可能把真正有價(jià)值的文章埋沒(méi)掉，機(jī)器推薦只能從外部數(shù)據(jù)來(lái)衡量你的文章有沒(méi)有價(jià)值，目前還沒(méi)有辦法從內(nèi)容的本質(zhì)上分析有沒(méi)有價(jià)值。

④耗時(shí)較長(zhǎng)，總慢半拍

基于海量數(shù)據(jù)的個(gè)性化推薦行為耗時(shí)較長(zhǎng)，即時(shí)性較差。如新聞推薦存在及時(shí)性問(wèn)題，需要不斷更新，通過(guò)分析用戶的歷史行為、對(duì)比類似用戶等數(shù)據(jù)分析工作耗時(shí)較長(zhǎng)，不易在第一時(shí)間形成推薦結(jié)果。并且協(xié)同過(guò)濾等方法還存在冷啟動(dòng)的問(wèn)題，即在用戶體驗(yàn)之初，并未形成成熟的歷史數(shù)據(jù)時(shí)，需要經(jīng)過(guò)很長(zhǎng)的時(shí)間收集用戶點(diǎn)擊日志數(shù)據(jù)，從而產(chǎn)生推薦。

⑤熱點(diǎn)共通，個(gè)體趨同

并不是所有的用戶都彼此相等，但協(xié)同過(guò)濾方法不考慮用戶之間的個(gè)體差異。例如，我們觀察到娛樂(lè)新聞不斷推薦給大多數(shù)用戶，即使用戶不點(diǎn)擊娛樂(lè)的故事。原因是，娛樂(lè)新聞一般都是非常流行的，因此總是從一個(gè)用戶的“鄰居”的娛樂(lè)故事足夠的點(diǎn)擊進(jìn)行推薦。

3.未來(lái)的機(jī)遇在哪里？

未來(lái)的機(jī)遇在于兩大推動(dòng)力：業(yè)界對(duì)長(zhǎng)尾金礦的商業(yè)動(dòng)力；用戶強(qiáng)烈的個(gè)性化需求的推動(dòng)。

①長(zhǎng)尾金礦

個(gè)性化推薦能夠幫助用戶發(fā)現(xiàn)更多優(yōu)質(zhì)的長(zhǎng)尾內(nèi)容，提高平臺(tái)商業(yè)價(jià)值。一般平臺(tái)用戶訪問(wèn)的只局限在熱門(mén)的10%左右的內(nèi)容，很多小眾的、冷門(mén)的內(nèi)容卻沉在數(shù)據(jù)庫(kù)中不易被發(fā)現(xiàn)，我們將其稱之為長(zhǎng)尾內(nèi)容。

按長(zhǎng)尾理論，由于成本和效率的因素，當(dāng)商品儲(chǔ)存流通展示的場(chǎng)地和渠道足夠?qū)拸V，商品生產(chǎn)成本急劇下降以至于個(gè)人都可以進(jìn)行生產(chǎn)，并且商品的銷售成本急劇降低時(shí)，幾乎任何以前看似需求極低的產(chǎn)品，只要有賣，都會(huì)有人買。個(gè)性化推薦能夠通過(guò)協(xié)同過(guò)濾中基于用戶的推薦技術(shù)將小眾喜歡的長(zhǎng)尾內(nèi)容擴(kuò)散開(kāi)來(lái)，充分挖掘長(zhǎng)尾內(nèi)容，產(chǎn)生長(zhǎng)尾金礦。

②時(shí)代剛需

我們所處的時(shí)代已經(jīng)變化了。經(jīng)過(guò)20年發(fā)展，互聯(lián)網(wǎng)變成了移動(dòng)互聯(lián)網(wǎng)，現(xiàn)在即將融合AI進(jìn)入IOT時(shí)代，終端和信息正在以核爆的態(tài)勢(shì)發(fā)生急劇膨脹，用戶在海量的數(shù)據(jù)中想要找到他們需要的信息將變得越來(lái)越難。在這種情況下，傳統(tǒng)的搜索引擎已經(jīng)力不從心。早先最具代表性的就是分類目錄的雅虎和搜索引擎的谷歌，已經(jīng)進(jìn)入死胡同，想要通過(guò)搜索引擎去了解一個(gè)陌生領(lǐng)域的知識(shí)，效率極低！

要滿足時(shí)代剛需，希望在于個(gè)性化推薦。機(jī)器需要盡可能的了解用戶，并且根據(jù)用戶的數(shù)據(jù)，主動(dòng)推薦讓用戶有興趣和需求的信息。目前這20來(lái)年，雖說(shuō)取得了一點(diǎn)點(diǎn)成就，但僅僅是唐僧取經(jīng)邁出了第一步，還有很長(zhǎng)的路要走。

4.當(dāng)下需要跨越的三座大山

個(gè)性化推薦在發(fā)展過(guò)程中面臨很多諸如難以預(yù)測(cè)用戶興趣、用戶相關(guān)數(shù)據(jù)涉及隱私以及數(shù)據(jù)的處理難度等問(wèn)題，都給個(gè)性化推薦帶來(lái)了很大的威脅和挑戰(zhàn)。

第一座山，準(zhǔn)確。

用戶的興趣易受多重因素影響而不斷變化，這對(duì)個(gè)性化推薦來(lái)說(shuō)是個(gè)不可避免的挑戰(zhàn)。個(gè)性化推薦系統(tǒng)的基礎(chǔ)部分是用戶興趣建模，用戶興趣建模的質(zhì)量直接決定了個(gè)性化推薦的質(zhì)量。但是用戶興趣隨時(shí)都會(huì)受到社交、場(chǎng)景、環(huán)境等多重因素影響，用戶興趣地不斷變化使得根據(jù)以往數(shù)據(jù)預(yù)測(cè)用戶未來(lái)傾向的工作變得很難，也會(huì)影響推薦結(jié)果的準(zhǔn)確性。

第二座山，隱私。

對(duì)以用戶數(shù)據(jù)為基礎(chǔ)進(jìn)行的個(gè)性化推薦來(lái)說(shuō)，如何保護(hù)用戶隱私是個(gè)不小的難題。傳統(tǒng)的內(nèi)容推薦系統(tǒng)對(duì)用戶的頁(yè)面訪問(wèn)記錄進(jìn)行數(shù)據(jù)挖掘,找出用戶的訪問(wèn)習(xí)慣,然后在服務(wù)器端根據(jù)用戶需求進(jìn)行信息篩選，試圖為用戶提供信息推薦服務(wù)和垃圾信息過(guò)濾服務(wù)。但如何能在保護(hù)用戶隱私的同時(shí),又為用戶提供更準(zhǔn)確的內(nèi)容推薦服務(wù)是一個(gè)不小的挑戰(zhàn)。

第三座山，價(jià)值觀。

除了三座大山外，還有一個(gè)問(wèn)題也值得重視?，F(xiàn)在的機(jī)器推薦等于“沒(méi)有三觀”、“沒(méi)有審美”，在中文圈運(yùn)營(yíng)，由于眾所周知的原因，一定會(huì)遇到相當(dāng)?shù)奶魬?zhàn)。

流量造假和作弊是比較明顯的例子。比如有網(wǎng)友告訴筆者說(shuō)：網(wǎng)上經(jīng)?？吹揭恍┮曨l學(xué)習(xí)人數(shù)幾萬(wàn)、幾十萬(wàn)，數(shù)字大的得令我們懷疑人生，結(jié)果測(cè)試了一下，頁(yè)面刷新一次人數(shù)就加三而新課程加幾十，瞬間明了。半夜測(cè)試某些視頻直播，對(duì)著墻拍，從啟動(dòng)直播十分鐘直播粉絲還能蹭蹭往上漲，進(jìn)一個(gè)真粉絲時(shí)人數(shù)又一波漲，作弊一時(shí)爽，但心里不踏實(shí)。

曾經(jīng)有企業(yè)在智能推薦的客戶端上投過(guò)一些非常垂直大號(hào)的廣告，有的效果真好，有的造假太明顯---在閱讀量瞬間破萬(wàn)的時(shí)候帶過(guò)來(lái)的流量，還不如自己閱讀破千的號(hào)效果好。如此種種，數(shù)據(jù)是正經(jīng)的，就看用它的人正經(jīng)不正經(jīng)了。

未來(lái)，個(gè)性化推薦如何在技術(shù)和管理上繼續(xù)革新，人工智能因素的參與能否改善現(xiàn)存的諸多問(wèn)題，為用戶產(chǎn)生更優(yōu)質(zhì)的推薦結(jié)果將成為一個(gè)重要課題。

三、巨頭正在開(kāi)辟的技術(shù)路線

其實(shí)，無(wú)論支持還質(zhì)疑有多么大，個(gè)性化推薦已經(jīng)引得無(wú)數(shù)巨頭競(jìng)折腰。

目前在市場(chǎng)上，依然是新老技術(shù)各占一方地盤(pán)，新派深度學(xué)習(xí)技術(shù)快速崛起，咄咄逼人；老派技術(shù)也在不斷優(yōu)化，以防不測(cè)。新老技術(shù)之爭(zhēng)，是當(dāng)下的一個(gè)熱點(diǎn)，也是決定未來(lái)發(fā)展的兩大路線。

（一）老派技術(shù)認(rèn)為：傳統(tǒng)推薦技術(shù)可以自我完善

1.Google新聞的套路，不斷優(yōu)化

Google新聞是一個(gè)在線信息門(mén)戶站點(diǎn)，它聚集數(shù)千家信息源的新聞報(bào)道（在將相似新聞分組后）并以個(gè)性化的方法展現(xiàn)給登錄用戶。由于文章和用戶數(shù)量巨大，以及給定的響應(yīng)時(shí)間要求，純粹的基于記憶的方法是不適用的，需要一種可擴(kuò)展的算法，因此Google新聞組合使用了基于模型和基于記憶的技術(shù)。

Google新聞的套路依然是協(xié)同過(guò)濾的底子。它在個(gè)性化推薦方面采用的是基于模型和基于記憶的技術(shù)相結(jié)合的協(xié)同過(guò)濾技術(shù)。根據(jù)《推薦系統(tǒng)》一書(shū)的介紹，基于模型的那部分依賴兩種聚類技術(shù)：

①概率潛在語(yǔ)義索引（PLSI）：協(xié)同過(guò)濾的“第二代”概率技術(shù)，為了識(shí)別出有相似想法的用戶和相關(guān)物品的聚類，引入了隱藏變量，對(duì)應(yīng)每個(gè)用戶—物品對(duì)的有限狀態(tài)集合,能適應(yīng)用戶可能同時(shí)對(duì)多個(gè)主題感興趣的情況。

②MinHash：根據(jù)兩個(gè)用戶瀏覽過(guò)物品的交集將兩者放入相同的聚類（哈希桶）。為了讓這種哈希過(guò)程具有可擴(kuò)展性，采用了一種特殊方法尋找近鄰，并采用Google自己的MapReduce技術(shù)在幾個(gè)機(jī)群之間分發(fā)計(jì)算任務(wù)。

基于記憶的方法主要是分析“伴隨瀏覽量”。“伴隨瀏覽量”指的是一篇文章在預(yù)先定義的一段時(shí)間內(nèi)被相同用戶瀏覽過(guò)。預(yù)測(cè)時(shí)需要遍歷活躍用戶最近的歷史數(shù)據(jù)和從內(nèi)存里獲取鄰近的文章。運(yùn)行時(shí)，預(yù)先設(shè)定集合里候選物品的綜合推薦評(píng)分是這三種方法（MinHash、PLSI和伴隨瀏覽）獲得的分?jǐn)?shù)的線性組合計(jì)算值，然后再根據(jù)計(jì)算值的高低進(jìn)行推薦結(jié)果的輸出。

2.Linkedin為四個(gè)場(chǎng)景開(kāi)發(fā)的系統(tǒng)

Linkedin主要是通過(guò)自主研發(fā)設(shè)計(jì)的協(xié)同過(guò)濾推薦平臺(tái)Browsemap實(shí)現(xiàn)個(gè)性化推薦。Browsemap是Linkedin開(kāi)發(fā)的一個(gè)實(shí)現(xiàn)了物品協(xié)同過(guò)濾推薦算法的泛化平臺(tái)，該平臺(tái)可支持Linkedin中所有實(shí)體的推薦，包括求職者、招聘貼、企業(yè)、社會(huì)群體（如學(xué)校等）、搜索詞等，若要通過(guò)該平臺(tái)實(shí)現(xiàn)某個(gè)新的實(shí)體協(xié)同過(guò)濾推薦，開(kāi)發(fā)者要做的工作僅僅包括：相關(guān)行為日志的接入、編寫(xiě)B(tài)rowsemap DSL配置文件和調(diào)整相關(guān)過(guò)期參數(shù)等簡(jiǎn)單工作。

論文指出，Browsemap平臺(tái)在Linkedin最常用的有四個(gè)推薦場(chǎng)景：給求職者推薦公司、相似公司推薦、相似簡(jiǎn)歷推薦和搜索詞推薦等等。

①給求職者推薦公司：通過(guò)Browsemap實(shí)現(xiàn)基于物品的協(xié)同過(guò)濾，計(jì)算用戶和潛在意向公司的相似度值，得到相關(guān)公司特征；將相關(guān)公司特征和用戶/公司內(nèi)容特征（包括用戶位置、工作經(jīng)驗(yàn)；企業(yè)產(chǎn)品、相關(guān)描述）一起分析得到最終的偏好分值。

②相似公司推薦：與給求職者推薦公司有兩點(diǎn)不同：一是內(nèi)容特征相似度變?yōu)楣井?huà)像之間的相似度；二是基于多種用戶行為構(gòu)建browsemap。

③相似簡(jiǎn)歷（用戶）推薦：通過(guò)公司詳情頁(yè)瀏覽行為和用戶畫(huà)像特征實(shí)現(xiàn)該部分推薦。同時(shí)將相似簡(jiǎn)歷的屬性用于補(bǔ)足簡(jiǎn)歷的缺失屬性，得到該用戶的虛擬簡(jiǎn)歷。

④搜索詞推薦提供了四種關(guān)聯(lián)方式：一是協(xié)同過(guò)濾：在計(jì)算搜索詞間相關(guān)性時(shí)會(huì)加入時(shí)間和空間因素；二是基于推薦搜索詞搜索結(jié)果的點(diǎn)擊率；三是基于搜索詞之間的重合度；四是基于推薦搜索詞的點(diǎn)擊率。但實(shí)驗(yàn)結(jié)果表明協(xié)同過(guò)濾的結(jié)果最好，甚至也好于將這四種方式綜合的結(jié)果。

3.今日頭條的三個(gè)階段

作為國(guó)內(nèi)當(dāng)紅的個(gè)性化推薦產(chǎn)品，今日頭條技術(shù)經(jīng)歷了三個(gè)階段：

早期階段，以非個(gè)性化推薦為主，重點(diǎn)解決熱文推薦和新文推薦，這個(gè)階段對(duì)于用戶和新聞的刻畫(huà)粒度也比較粗，并沒(méi)有大規(guī)模運(yùn)用推薦算法。

中期階段，以個(gè)性化推薦算法為主，主要基于協(xié)同過(guò)濾和內(nèi)容推薦兩種方式。協(xié)同過(guò)濾技術(shù)思想和前文介紹的并無(wú)差別?；趦?nèi)容推薦的方式，則是先對(duì)新聞進(jìn)行刻畫(huà)，然后利用用戶的正反饋（如點(diǎn)擊，閱讀時(shí)長(zhǎng)、分享、收藏、評(píng)論等）和負(fù)反饋（如不感興趣等）建立用戶和新聞標(biāo)簽之間的聯(lián)系，從而來(lái)進(jìn)行統(tǒng)計(jì)建模。

當(dāng)前階段，以大規(guī)模實(shí)時(shí)機(jī)器學(xué)習(xí)算法為主，用到的特征達(dá)千億級(jí)別，能做到分鐘級(jí)更新模型。架構(gòu)分為兩層：檢索層，有多個(gè)檢索分支，拉出用戶感興趣的新聞候選；打分層，基于用戶特征、新聞特征、環(huán)境特征三大類特征使用實(shí)時(shí)學(xué)習(xí)進(jìn)行建模打分。值得一提的是，實(shí)際排序時(shí)候并不完全按照模型打分排序，會(huì)有一些特定的業(yè)務(wù)邏輯綜合在一起進(jìn)行最終排序并吐給用戶。

頭條為何能取得成功？文章分析，很多人會(huì)說(shuō)是頭條的個(gè)性化推薦技術(shù)做得好，其實(shí)不盡然。原因在于，今日頭條的個(gè)性化推薦也是經(jīng)歷著復(fù)雜的演變過(guò)程：從人工推薦到機(jī)器推薦再到最終不斷迭代算法和技術(shù)，反復(fù)的進(jìn)行驗(yàn)證，日益完善。

（二）新派技術(shù)認(rèn)為：深度學(xué)習(xí)才是明智選擇

新派技術(shù)主要指采用了深度學(xué)習(xí)的個(gè)性化推薦系統(tǒng)。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。觀測(cè)值（例如一幅圖像）可以使用多種方式來(lái)表示，如每個(gè)像素強(qiáng)度值的向量，或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實(shí)例中學(xué)習(xí)任務(wù)（例如，人臉識(shí)別或面部表情識(shí)別）。深度學(xué)習(xí)的好處是用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取高效算法來(lái)替代手工獲取特征。

當(dāng)常規(guī)推薦算法已經(jīng)無(wú)法及時(shí)地分析處理體量較大的數(shù)據(jù)并準(zhǔn)確地針對(duì)獨(dú)立用戶做出推薦時(shí)，具備相應(yīng)技術(shù)水平的公司開(kāi)始利用深度學(xué)習(xí)解決海量?jī)?nèi)容分析推薦的痛點(diǎn)。我們以較早開(kāi)始引入深度學(xué)習(xí)的YouTube、Facebook為例進(jìn)行分析。

1.YouTube的神經(jīng)網(wǎng)絡(luò)

YouTube的推薦系統(tǒng)是是世界上規(guī)模最大、最復(fù)雜的推薦系統(tǒng)之一。YouTube的全球用戶已經(jīng)超過(guò)十億，每秒上傳的視頻長(zhǎng)度以小時(shí)計(jì)。視頻“語(yǔ)料”庫(kù)存日益增長(zhǎng)，就需要一個(gè)推薦系統(tǒng)及時(shí)、準(zhǔn)確地將用戶感興趣的視頻不斷推薦給用戶。

相比其他商業(yè)推薦系統(tǒng)，Youtube推薦系統(tǒng)面臨三個(gè)主要的挑戰(zhàn)：

①規(guī)?！，F(xiàn)有絕大多數(shù)可行的推薦算法，在處理YouTube級(jí)別的海量視頻就力不從心了。

②新鮮度。YouTube視頻“語(yǔ)料”庫(kù)不僅僅是儲(chǔ)量巨大，每時(shí)每刻上傳的新增視頻也是源源不斷。推薦系統(tǒng)要及時(shí)針對(duì)用戶上傳的內(nèi)容進(jìn)行分析建模，同時(shí)要兼顧已有視頻和新上傳視頻的平衡。

③噪聲。由于用戶行為的稀疏性和不可觀測(cè)的影響因素，用戶的歷史記錄本質(zhì)上難以預(yù)測(cè)。

為了解決這些問(wèn)題，YouTube推薦系統(tǒng)將研究重點(diǎn)轉(zhuǎn)移到深度學(xué)習(xí)，使用Google Brain開(kāi)發(fā)的TensorFlow（Google研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng)）系統(tǒng)為推薦系統(tǒng)帶來(lái)了開(kāi)發(fā)測(cè)試上的靈活性。

YouTube推薦系統(tǒng)主要由兩個(gè)深度神經(jīng)網(wǎng)絡(luò)組成：第一個(gè)神經(jīng)網(wǎng)絡(luò)用來(lái)生成候選視頻列表；第二個(gè)神經(jīng)網(wǎng)絡(luò)用來(lái)對(duì)輸入視頻列表打分排名，以便將排名靠前的視頻推薦給用戶。

候選視頻生成是依靠協(xié)同過(guò)濾算法產(chǎn)生一個(gè)寬泛的針對(duì)用戶的個(gè)性化推薦候選名單。排名神經(jīng)網(wǎng)絡(luò)是基于第一個(gè)候選生成網(wǎng)絡(luò)的列表，提供更精細(xì)的區(qū)分細(xì)化，從來(lái)達(dá)到較高的推薦命中率。通過(guò)定義目標(biāo)函數(shù)來(lái)提供一系列描述視頻和用戶的特征，排名網(wǎng)絡(luò)則根據(jù)目標(biāo)函數(shù)來(lái)給每一個(gè)視頻打分。分?jǐn)?shù)最高的一組視頻就被推薦給用戶。

正是YouTube海量級(jí)別的視頻才產(chǎn)生了深度學(xué)習(xí)的需要，有效彌補(bǔ)了協(xié)同過(guò)濾存在地處理數(shù)據(jù)耗時(shí)長(zhǎng)等問(wèn)題。

2.Facebook邁出的一大步

Facebook近10年來(lái)一直沿用其Newsfeed功能實(shí)現(xiàn)個(gè)性化推薦。2006年9月份，NewsFeed（信息流）問(wèn)世，同時(shí)問(wèn)世的還有MiniFeed（個(gè)人動(dòng)態(tài)）。NewsFeed是一個(gè)系統(tǒng)自動(dòng)整合生成的內(nèi)容信息流，它自行來(lái)決定我們讀到哪些新聞、動(dòng)態(tài)、事件。它所覆蓋的范圍，其信息推送的精準(zhǔn)度，以及其影響力遠(yuǎn)超過(guò)我們的想象，可以說(shuō)NewsFeed是Facebook在人工智能上所走的一大步。

Facebook是如何利用深度學(xué)習(xí)來(lái)評(píng)價(jià)內(nèi)容和用戶的呢？

第一，在檢視文本方面，F(xiàn)acebook使用“自然語(yǔ)言處理”技術(shù)來(lái)掃描每個(gè)人發(fā)的“狀態(tài)”和“日志”，以便“真正理解文本的語(yǔ)義”，不僅如此還要將它們?cè)u(píng)級(jí)。日志在掃描的過(guò)程中，系統(tǒng)會(huì)自動(dòng)識(shí)別出“過(guò)度標(biāo)題黨”或者“過(guò)度商業(yè)化”的內(nèi)容，而且這樣的內(nèi)容在NewFeed里面是越來(lái)越少見(jiàn)到了。

第二，在內(nèi)容翻譯上，當(dāng)在處理非英語(yǔ)的語(yǔ)言時(shí)，F(xiàn)acebook工程師專門(mén)開(kāi)發(fā)了一個(gè)深度學(xué)習(xí)平臺(tái)，每一天會(huì)對(duì)100多種語(yǔ)言所寫(xiě)成的文本進(jìn)行分析，翻譯。比如當(dāng)一個(gè)朋友以德語(yǔ)發(fā)表了一條動(dòng)態(tài)時(shí)，NewsFeed會(huì)以英語(yǔ)體現(xiàn)出來(lái)給一個(gè)美國(guó)的朋友，營(yíng)造了一個(gè)能夠跨過(guò)語(yǔ)言障礙的，人人實(shí)現(xiàn)互聯(lián)互通的數(shù)字虛擬環(huán)境。

第三，在識(shí)別物體方面，F(xiàn)acebook也在利用深度學(xué)習(xí)技術(shù)來(lái)識(shí)別照片和視頻里面的物體，不僅如此，它還能進(jìn)一步地去探究誰(shuí)有可能對(duì)這些照片感興趣，或者這些照片跟哪些用戶相關(guān)聯(lián)，從而推薦給目標(biāo)用戶。

（三）深度學(xué)習(xí)之困境

深度學(xué)習(xí)能打遍天下無(wú)敵手嗎？

至少目前來(lái)看，深度學(xué)習(xí)只是在Speech和Image這種比較“淺層”的智能問(wèn)題上效果是比較明顯的，而對(duì)于語(yǔ)言理解和推理這些問(wèn)題效果就有點(diǎn)失分，也許未來(lái)的深度神經(jīng)網(wǎng)絡(luò)可以更“智能”的解決這個(gè)問(wèn)題，但目前還差點(diǎn)火候。

深度學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域的研究與應(yīng)用還處于早期階段。即使深度學(xué)習(xí)被認(rèn)為能夠解決協(xié)同過(guò)濾的冷啟動(dòng)、數(shù)據(jù)處理較慢的問(wèn)題，但是風(fēng)光之下，它也有自己的難言之隱。

第一，成本太高。數(shù)據(jù)對(duì)深度學(xué)習(xí)的進(jìn)一步發(fā)展和應(yīng)用至關(guān)重要。然而過(guò)分倚重有標(biāo)注的大數(shù)據(jù)也恰恰是深度學(xué)習(xí)的局限性之一。數(shù)據(jù)收集是有成本的，而且標(biāo)注成本已經(jīng)開(kāi)始水漲船高，這就使得深度學(xué)習(xí)的成本過(guò)高。而且對(duì)于體量較小、數(shù)據(jù)較少的眾多小公司來(lái)說(shuō)，即使有能力用深度學(xué)習(xí)改善個(gè)性化推薦結(jié)果，也面臨著沒(méi)有數(shù)據(jù)支撐的尷尬境地。

第二，降低成本的方案有沒(méi)有？有，但是難以實(shí)現(xiàn)。深度學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)，大量無(wú)監(jiān)督數(shù)據(jù)的獲取成本卻是微乎其微的。目前一般用的都是監(jiān)督學(xué)習(xí)，但本質(zhì)上基于監(jiān)督學(xué)習(xí)的大多數(shù)推薦模型都很難徹底規(guī)避現(xiàn)存問(wèn)題從而提高推薦質(zhì)量。無(wú)監(jiān)督學(xué)習(xí)由于無(wú)需對(duì)數(shù)據(jù)進(jìn)行加標(biāo)簽等原因成本較有監(jiān)督學(xué)習(xí)較低，但目前深度學(xué)習(xí)對(duì)無(wú)監(jiān)督數(shù)據(jù)的學(xué)習(xí)能力嚴(yán)重不足，因此深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用仍處于早期階段。

新老派兩大力量相互抗?fàn)帯⑾嗷ゴ龠M(jìn)但又相互交融。傳統(tǒng)推薦技術(shù)在深度學(xué)習(xí)的沖擊下不斷完善，深度學(xué)習(xí)帶著趕超傳統(tǒng)推薦技術(shù)的強(qiáng)勢(shì)勁頭不斷革新但也面臨著發(fā)展窘境。但正是在多個(gè)平臺(tái)的這種自我發(fā)展和革新的過(guò)程中，新老派的界限也變得越來(lái)越模糊，越來(lái)越走向融合。即使堅(jiān)持完善傳統(tǒng)推薦技術(shù)的公司也開(kāi)始慢慢涉足到深度學(xué)習(xí)的領(lǐng)域中，深度學(xué)習(xí)發(fā)展較為成熟的新派也并沒(méi)有完全摒棄老派技術(shù)，那么，未來(lái)到底何派為王？

四．未來(lái)鹿死誰(shuí)手？

內(nèi)容C2M，本質(zhì)上是對(duì)人心的一種洞察和預(yù)測(cè)。技術(shù)與人心的斗法，并非一朝一夕便能奏功。人類思想的根本特征在于“意識(shí)”，即個(gè)體理解自己與他人的心理狀態(tài)，包括情緒意圖、期望、思考和信念等，并借此信息預(yù)測(cè)和解釋他人行為的一種能力。

但是，當(dāng)前的人工智能領(lǐng)域中存在著一個(gè)很嚴(yán)重的問(wèn)題：人們誤解了深度學(xué)習(xí)模型的工作機(jī)理，并高估了網(wǎng)絡(luò)模型的能力。

通過(guò)深度學(xué)習(xí)，我們可以訓(xùn)練出一個(gè)模型，它可以根據(jù)圖片內(nèi)容生成文字描述。這個(gè)過(guò)程被視作機(jī)器“理解”了圖片和它生成的文字。當(dāng)某個(gè)圖像存在輕微改變，導(dǎo)致模型開(kāi)始產(chǎn)生相當(dāng)荒謬的字幕時(shí)，結(jié)果就會(huì)讓人非常驚訝—模型失靈了。機(jī)器能找出一只貓，但機(jī)器仍然不能識(shí)別跟貓相關(guān)的所有信息。

回顧歷史不難發(fā)現(xiàn)，技術(shù)一直追求的目標(biāo)，與其說(shuō)是讓機(jī)器替代人類，而不如說(shuō)是制造聰明的機(jī)器來(lái)提高效率。協(xié)同過(guò)濾技術(shù)的發(fā)展便是個(gè)明顯的例子。

最近幾年來(lái)，互聯(lián)網(wǎng)巨頭制造“聰明的機(jī)器”的積極性異常高漲，也是效率使然。根據(jù)微軟研究院的估計(jì)，亞馬遜網(wǎng)站上大約30%的頁(yè)面瀏覽來(lái)自于推薦系統(tǒng)；Netflix首席產(chǎn)品官聲稱80%以上的電影觀看來(lái)自于推薦系統(tǒng)，并稱Netflix推薦系統(tǒng)的價(jià)值每年高達(dá)十億美元；據(jù)阿里巴巴披露數(shù)字，2013年當(dāng)天由推薦直接引導(dǎo)的成交總額為56.8億元。今日頭條則將公司核心業(yè)務(wù)架構(gòu)在推薦引擎上，是當(dāng)今最重視推薦技術(shù)的公司之一……

在內(nèi)容C2M發(fā)展歷程中，盡管深度學(xué)習(xí)存在許多不足，但深度學(xué)習(xí)主導(dǎo)未來(lái)是大概率事件。我們看到代表著傳統(tǒng)推薦技術(shù)和深度學(xué)習(xí)的新老派在相互促進(jìn)和相互融合，在全球流量前20的平臺(tái)中，雖然有不少公司依然沿用采用協(xié)同過(guò)濾技術(shù)，比如Google新聞，LinkedIn等，但是其中一些公司也已經(jīng)準(zhǔn)備甚至已經(jīng)采用深度學(xué)習(xí)等技術(shù)來(lái)改進(jìn)自身不足。而YouTube、Facebook等先行者已開(kāi)始享受深度學(xué)習(xí)的紅利。

從飼養(yǎng)員模式到聰明的機(jī)器，內(nèi)容產(chǎn)業(yè)的C2M已然成勢(shì)，顛覆日，不遠(yuǎn)了。

我們可以相信，雖然深度學(xué)習(xí)還存在著一些制約因素，但是，隨著AI技術(shù)和產(chǎn)業(yè)的強(qiáng)勁發(fā)展，技術(shù)上的瓶頸終究會(huì)被突破。

需要警惕的是，在C2M跨越了準(zhǔn)確、隱私兩座大山后，人類通過(guò)AI掌握了新的力量，掌握者的欲望和野心，也應(yīng)該受到一定的控制，尤其是價(jià)值觀問(wèn)題，將顯得越發(fā)重要。

下一篇：沒(méi)有了上一篇：阿里影業(yè)為未來(lái)增持淘票票，但眼下“燒錢”依

AI在內(nèi)容分發(fā)上的絆腳石

推薦產(chǎn)品

同類文章排行

最新資訊文章