教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

推薦系統(tǒng)是什么

更新時間:2015年12月29日16時08分 來源:傳智播客云計算學科 瀏覽次數(shù):

推薦系統(tǒng)是什么
為了解決信息過載和用戶無明確需求的問題,找到用戶感興趣的物品,才有了個性化推薦系統(tǒng)。其實,解決信息過載的問題,代表性的解決方案是分類目錄和搜索引擎,如hao123,電商首頁的分類目錄以及百度,360搜索等。不過分類目錄和搜索引擎只能解決用戶主動查找信息的需求,即用戶知道自己想要什么,并不能解決用戶沒用明確需求很隨便的問題。
典型隨便用戶的經(jīng)典對話是:你想吃什么,隨便!
面對這種很隨便又得罪不起的用戶(女友和上帝),只能通過分析用戶的歷史行為給用戶的興趣建模,從而主動給用戶推薦能夠滿足他們興趣和需求的信息。比如問問女友的閨蜜,她一般什么時候喜歡吃什么。該閨蜜因為長期和女友在一起對她經(jīng)常吃什么買什么有足夠的認識,從而給他打標簽,然后通過大腦建模,最后給她推薦。
下圖是一個簡單的推薦系統(tǒng)結(jié)構(gòu)圖,日志系統(tǒng)獲取用戶的行為信息,推薦系統(tǒng)根據(jù)用戶行為信息進行推薦。
 
        推薦系統(tǒng)廣泛存在于各類網(wǎng)站中,作為一個應(yīng)用為用戶提供個性化的推薦。它需要一些用戶的歷史數(shù)據(jù),一般由三個部分組成:基礎(chǔ)數(shù)據(jù)、推薦算法系統(tǒng)、前臺展示?;A(chǔ)數(shù)據(jù)包括很多維度,包括用戶的訪問、瀏覽、下單、收藏等等很多信息;推薦算法系統(tǒng)主要是根據(jù)不同的推薦訴求有多個算法組成的推薦模型;前臺展示主要是對客戶端系統(tǒng)進行響應(yīng),返回相關(guān)的推薦信息以供展示。
        迄今為止,在個性化推薦系統(tǒng)中,協(xié)同過濾技術(shù)是應(yīng)用最成功的技術(shù)。目前國內(nèi)外有許多大型網(wǎng)站應(yīng)用這項技術(shù)為用戶更加智能的推薦內(nèi)容。協(xié)同過濾算法有兩種,一種是基于用戶的協(xié)同過濾,另外一種是基于商品的協(xié)同過濾。
第一代協(xié)同過濾技術(shù)是基于用戶的協(xié)同過濾算法,基于用戶的協(xié)同過濾算法在推薦系統(tǒng)中獲得了極大的成功,但它有自身的局限性。因為基于用戶的協(xié)同過濾算法先計算的是用戶與用戶的相似度(興趣相投,人以群分物以類聚),然后將相似度比較接近的用戶A購買的物品推薦給用戶B,專業(yè)的說法是該算法用最近鄰居(nearest-neighbor)算法找出一個用戶的鄰居集合,該集合的用戶和該用戶有相似的喜好,算法根據(jù)鄰居的偏好對該用戶進行預(yù)測。
基于用戶的推薦邏輯有兩個問題:冷啟動與計算量巨大?;谟脩舻乃惴ㄖ挥幸呀?jīng)被用戶選擇(購買)的物品才有機會推薦給其他用戶。在大型電商網(wǎng)站上來講,商品的數(shù)量實在是太多了,沒有被相當數(shù)量的用戶購買的物品實在是太多了,直接導(dǎo)致沒有機會推薦給用戶了,這個問題被稱之為協(xié)同過濾的“冷啟動”。另外,因為計算用戶的相似度是通過目標用戶的歷史行為記錄與其他每一個用戶的記錄相比較的出來的,對于一個擁有千萬級活躍用戶的電商網(wǎng)站來說,每計算一個用戶都涉及到了上億級別的計算,雖然我們可以先通過聚類算法經(jīng)用戶先分群,但是計算量也是足夠的大。
下圖是基于用戶的協(xié)同過濾算法,該圖片來自百度圖片。
             
    
第二代協(xié)同過濾技術(shù)是基于物品的協(xié)同過濾算法,基于物品的協(xié)同過濾算法與基于用戶的協(xié)同過濾算法基本類似。他使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶。這聽起來比較拗口,簡單的說就是幾件商品同時被人購買了,就可以認為這幾件商品是相似的,可能這幾件商品的商品名稱風馬牛不相及,產(chǎn)品屬性有天壤之別,但通過模型算出來之后就是認為他們是相似的。什么?你覺得不可思議,無法理解。是的,就是這么神奇!
舉個例子:假設(shè)用戶 A 喜歡物品 A 和物品 C,用戶 B 喜歡物品 A,物品 B 和物品 C,用戶 C 喜歡物品 A,從這些用戶的歷史喜好可以分析出物品 A 和物品 C 時比較類似的,喜歡物品 A 的人都喜歡物品 C,基于這個數(shù)據(jù)可以推斷用戶 C 很有可能也喜歡物品 C,所以系統(tǒng)會將物品 C 推薦給用戶 C。
下圖是基于物品的協(xié)同過濾算法,該圖片來自百度圖片。
 

基于物品的協(xié)同過濾推薦機制是 Amazon 在基于用戶的機制上改良的一種策略,因為在大部分的 Web 站點中,物品的個數(shù)是遠遠小于用戶的數(shù)量的,而且物品的個數(shù)和相似度相對比較穩(wěn)定,同時基于物品的機制比基于用戶的實時性更好一些。但也不是所有的場景都 是這樣的情況,可以設(shè)想一下在一些新聞推薦系統(tǒng)中,也許物品,也就是新聞的個數(shù)可能大于用戶的個數(shù),而且新聞的更新程度也有很快,所以它的形似度依然不穩(wěn) 定。
通過介紹以上兩種協(xié)同過濾,可以推薦策略的選擇其實和具體的應(yīng)用場景有很大的關(guān)系。下面是我對推薦系統(tǒng)的幾點總結(jié),供大家參考:
1)    推薦系統(tǒng)分為在線推薦系統(tǒng)和離線推薦系統(tǒng),在電商領(lǐng)域?qū)ν扑]的時效性要求相對較高,在線推薦系統(tǒng)逐漸成為主流。
2)    推薦系統(tǒng)的一般流程:數(shù)據(jù)產(chǎn)生、數(shù)據(jù)準備、數(shù)據(jù)清洗、數(shù)據(jù)存儲、算法計算、推薦數(shù)據(jù)、規(guī)則混合排序、周期性重復(fù)以上過程。
3)    不能做規(guī)則定制的推薦系統(tǒng)不是一個好的推薦系統(tǒng),算法有時候跑出來的結(jié)果并不是很理想,需要通過業(yè)務(wù)人員定義的規(guī)則改善推薦效果。如季節(jié)性產(chǎn)品、習大大等熱點。除此之外,也可以方便業(yè)務(wù)人員增加硬推,硬推包括廣告和導(dǎo)向。
4)    推線系統(tǒng)上線之前,需要做效果測試,一般使用AB Test。測試一個推薦系統(tǒng)的好壞,在學術(shù)領(lǐng)域是看準確率,但在業(yè)務(wù)領(lǐng)域是看的轉(zhuǎn)化率,效果效果效果。另外AB測試本身的就是一個很具有幾率性的問題,因為流量的分配是隨機不確定的,在大型電商中流量就是金錢,拿線上流量做測試是一件非??蓯u可恥的事情。
5)    光明和黑暗是相生相伴的,有推薦的地方就是刷子。從最開始的瀏覽、點擊、訂單、評價等基礎(chǔ)數(shù)據(jù)開始刷,到后期直接刷推薦效果,這對推薦系統(tǒng)的考驗比較大。比較有效的方式之一是在數(shù)據(jù)清洗階段通過規(guī)則將刷子的賬號過濾出去,如何過濾刷子又是一個涉及到防作弊的巨大工程。
6)    不同的推薦位的訴求不同,推薦的產(chǎn)品也不同,學習推薦系統(tǒng),算法、模型、數(shù)據(jù)都是很重要的。但更重要的不是算法、模型、數(shù)據(jù)本身,而是追求對模型的透徹理解以及業(yè)務(wù)需求的把握,也就是根據(jù)業(yè)務(wù)的不同,選擇不同的合適的算法和模型。
0 分享到:
和我們在線交談!