個性化推薦模型 [一種基于智能過濾的Web個性化推薦模型]
發(fā)布時間:2020-03-10 來源: 幽默笑話 點擊:
[摘要]Web個性化研究的關(guān)鍵技術(shù)是推薦系統(tǒng),其作用是根據(jù)用戶模型推薦個性化內(nèi)容,當前推薦技術(shù)的研究主要包括四種模式:基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾和混合過濾模式。前三種工作模式采用的是傳統(tǒng)技術(shù)和方法,根據(jù)當前推薦系統(tǒng)研究的重點和熱點,提出一種Web個性化應(yīng)用的智能過濾推薦模式。智能過濾推薦模式組合采用以上三種工作模式的優(yōu)點、避免前三種單一模式的缺點。該方法的突出特點是根據(jù)離線學習模型提取的用戶偏好特征,實現(xiàn)在線智能推薦。
[關(guān)鍵詞]Web個性化推薦系統(tǒng) Web挖掘 基于規(guī)則過濾 基于內(nèi)容過濾 協(xié)作過濾
[分類號]G350 TP311
1 引言
Web個性化的用途主要是為用戶提供獨立的、特定個人偏好的、方便快捷的和滿足用戶需求的服務(wù)。對于不同的網(wǎng)站來說,實現(xiàn)個性化的目的具有其自身發(fā)展的需要。例如,商業(yè)網(wǎng)站的個性化是通過提供的便捷服務(wù)方式提升顧客忠誠度和吸引更多的客戶,從而實現(xiàn)其銷售業(yè)績和商業(yè)利潤最大化的需要。在公共服務(wù)領(lǐng)域,網(wǎng)站為了提高其服務(wù)質(zhì)量,提升用戶滿意程度,根據(jù)用戶關(guān)注的重點和信息需求,為其定制特定的個性化服務(wù)。專門研究Web個性化理論和方法的國際會議1TWP組委會主席BamshadMobasher教授從20世紀90年代就開始Web個性化的研究,他認為:“在Web網(wǎng)站中,個性化意味著動態(tài)內(nèi)容的發(fā)送,例如文本元素、鏈接、廣告和產(chǎn)品推薦等,這些內(nèi)容專門為特定用戶或者一部分用戶的需要及興趣定制”。他把Web個性化過程看作是一個包含數(shù)據(jù)挖掘循環(huán)所有階段的一個典型應(yīng)用。這些階段包括數(shù)據(jù)收集、預處理模式發(fā)現(xiàn)、性能評價和在用戶和Web網(wǎng)站之間應(yīng)用實時發(fā)現(xiàn)的知識。
個性化的關(guān)鍵技術(shù)是推薦系統(tǒng),其作用是根據(jù)用戶模型推薦個性化內(nèi)容,主要包括四種工作模式:基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾和混合過濾模式。本文重點介紹智能推薦方法和技術(shù),并提出一種Web個性化應(yīng)用智能混合過濾推薦模型。
2 Web挖掘與個性化推薦
個性化推薦是Web挖掘結(jié)果呈現(xiàn)給用戶的應(yīng)用,其依據(jù)原理是數(shù)據(jù)挖掘理論基礎(chǔ)。許多學者認為,Etzioni是第一個提出Web挖掘(Web mining)技術(shù)的人,他認為,Web挖掘技術(shù)可分為三種類型:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Webstructure mining)和Web使用挖掘(Web usage mining)。Srivastava等人對Web使用挖掘的定義是:Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù),為了更好地理解和服務(wù)基于Web應(yīng)用的需要,發(fā)現(xiàn)Web數(shù)據(jù)的使用模式。個性化推薦系統(tǒng)通常對日志數(shù)據(jù)采用Web使用挖掘。
Web挖掘使用的數(shù)據(jù)可能來自Web服務(wù)器訪問日志、代理服務(wù)器日志、引用頁日志、瀏覽器日志、錯誤日志、用戶資料、注冊數(shù)據(jù)、用戶會話、用戶交易、cookies、用戶查詢或者是用戶書簽數(shù)據(jù)。通過分析這些文件和文檔,可以獲得用戶感興趣的使用模式和信息。
目前常見的Web日志格式主要有兩類:①Apache的NCSA日志格式,分為四類:NCSA普通日志格式(CLF)、NCSA擴展日志格式(ECLF)、錯誤日志格式和定制日志格式。②IIs的W3C日志格式,共分為8類:W3C擴展日志格式、集中記錄的日志格式、NCSA普通日志格式、IIS日志格式、ODBC記錄的日志格式、集中記錄的二進制日志格式、錯誤日志格式和定制日志格式。無論是Apache還是IIS的日志格式,常用于信息分析的是擴展日志格式和定制日志格式。通常情況下,系統(tǒng)自動記錄的日志有錯誤日志和訪問日志,記錄的文件名分別為error.1og和access.1og,除了錯誤日志以外的日志均稱為訪問日志。Apache 2.2版的擴展日志文件格式定義及示例如表1所示:
3 推薦技術(shù)
通常,個性化推薦系統(tǒng)分為基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾的方法以及這三種方法混合的具有智能性的推薦方法;谝(guī)則過濾方法的特點在于采用關(guān)聯(lián)規(guī)則、回歸算法,找到用戶對相關(guān)聯(lián)對象之間的興趣度、發(fā)現(xiàn)用戶偏好,預測用戶未來行為;趦(nèi)容的過濾推薦技術(shù)特點是,根據(jù)用戶過去選擇對象的特點,從對象描述、終端數(shù)據(jù)庫里的對象屬性關(guān)聯(lián)抽取其特征,系統(tǒng)為其推薦相似的對象。基于內(nèi)容的過濾系統(tǒng)最大的缺點是用戶模型的建立過度依賴于用戶以前選擇和點擊的具體對象。協(xié)作過濾推薦系統(tǒng)尋找與目標顧客歷史吻合的顧客群組(稱為近鄰),利用了用戶的相似性進行推薦。這些方法的基本模型如圖1所示:
通常情況下,系統(tǒng)采用單一的推薦模型,例如,基于規(guī)則過濾的推薦系統(tǒng),在離線學習階段、數(shù)據(jù)預處理階段需要做的工作是:應(yīng)用程序在系統(tǒng)空閑時間段完成原始日志數(shù)據(jù)從日志文件或者日志數(shù)據(jù)庫抽取,并進行清洗、轉(zhuǎn)換、加載轉(zhuǎn)換工作,清洗后并規(guī)范化的日志加載到日志倉庫以備數(shù)據(jù)挖掘算法使用。在生成模型階段,根據(jù)基于規(guī)則過濾采用的算法,比如關(guān)聯(lián)規(guī)則使用的Apriori經(jīng)典算法進行頻繁模式分析,生成用戶模型,根據(jù)挖掘算法計算生成用戶特征組成的規(guī)則模型庫。在在線推薦階段,Web個性化推薦系統(tǒng)提取出當前用戶的特征,查找規(guī)則模型庫對應(yīng)的匹配規(guī)則,根據(jù)計算結(jié)果檢索當前可推薦的對象,最后以可視化的方法呈現(xiàn)給Web個性化用戶。
當前,個性化技術(shù)研究的熱點是基于協(xié)作過濾推薦,該系統(tǒng)面臨兩個主要挑戰(zhàn):可擴展性和確保對用戶推薦的質(zhì)量?蓴U展性是指個性化系統(tǒng)在用戶數(shù)量增加的情況下,推薦系統(tǒng)能夠正常工作而不影響個性化系統(tǒng)整體性能。保證推薦質(zhì)量是贏得顧客信任的基本要素,缺乏用戶信任的個性化應(yīng)用注定失敗。
4 智能混合過濾推薦
針對單一的基于內(nèi)容過濾或者協(xié)作過濾推薦系統(tǒng)存在的缺點,當前研究的重點是采用混合兩種或以上的推薦算法,目的是提高推薦的效率和精度;同時,已經(jīng)有相關(guān)的理論研究。例如,Burke提出的方法是混合基于內(nèi)容和協(xié)作過濾技術(shù),旨在提高推薦的質(zhì)量隨;Ardissono等人采用多種異構(gòu)推薦技術(shù)的方法,通過收集多種用戶偏好的信息實現(xiàn);Mobasher等人提出一種框架,把在線用戶訪問Web頁面的會話活動過程與在線數(shù)據(jù)準備和數(shù)據(jù)挖掘任務(wù)分開處理,采用基于聚類的技術(shù)把Web站點使用和內(nèi)容模型采用統(tǒng)一的表示方法,用于實時的個性化操作;這種方法的優(yōu)點在于Web站點的使用和內(nèi)容特點集成到Web挖掘框架里,為推薦引擎提供統(tǒng)一的訪問方式,從而提高了個性化效率;Rosenthal等人提出的研究旨在提高推薦系統(tǒng)在線預測精度。
筆者經(jīng)分析認為,基于規(guī)則過濾和基于協(xié)作過濾技術(shù)的缺點是:通常需要離線學習訓練樣本生成關(guān)聯(lián)規(guī)則或者用戶組的分類,二者具有可擴展性差和動態(tài)變化緩慢的特點,因此,不適于在線的迅速響應(yīng),尤其 不適合實時查詢的響應(yīng)。基于內(nèi)容過濾技術(shù)的優(yōu)點是響應(yīng)及時,但其缺點是依賴于用戶的歷史操作記錄,如果用戶的興趣偏好變化或者歷史記錄缺失,推薦給用戶的結(jié)果將可能會產(chǎn)生嚴重的失真。
基于以上分析,本文結(jié)合以上三種推薦方法,提出一種Web個性化應(yīng)用智能混合推薦模型,其優(yōu)點是通過模型適配器智能性地、自動為推薦系統(tǒng)選擇合適的挖掘模型,具有響應(yīng)速度快、推薦準確性較高等特點(見圖2)。該模型的數(shù)據(jù)收集、預處理過程采用的方法與傳統(tǒng)的推薦類似,與原有系統(tǒng)兼容并且進行功能擴展。數(shù)據(jù)挖掘模型可以有多種,主要分為三種類型:基于關(guān)聯(lián)規(guī)則的挖掘類型、基于內(nèi)容的分類挖掘類型和基于協(xié)作的聚類挖掘類型。根據(jù)實際挖掘應(yīng)用環(huán)境需要和企業(yè)規(guī)模的不同,該模型可以實現(xiàn)某一種挖掘類型的幾種具體算法,也可以實現(xiàn)任意兩種或者三種挖掘類型的任意種算法,因此,該模型能夠使用于多種用途,具有較強的靈活性。此外,由于該模型可以實現(xiàn)某種挖掘類型的多種算法,因此,可以進行精度比較,提高推薦的精度。
這種方法與圖1所示的個性化推薦系統(tǒng)模型相比較而言,除了具有單一的推薦功能外,具有以下幾個特點:①混合采用的多種過濾推薦技術(shù),能夠根據(jù)系統(tǒng)應(yīng)用情況和抽取到的用戶特征自動識別用戶需求,是一種智能型推薦系統(tǒng);②這種智能型推薦系統(tǒng)采用多種過濾推薦技術(shù),具體采用哪種過濾技術(shù)由模型適配器根據(jù)用戶特征和推薦內(nèi)容的不同而決定;③本系統(tǒng)能夠完成多種過濾技術(shù)的推薦。例如,一個商務(wù)網(wǎng)站的個性化注冊用戶完成交易之后,Web個性化推薦系統(tǒng)提取該用戶的訪問特征,并進行分析,為用戶的個性化推薦做準備。模型適配器分析該用戶當期的購物內(nèi)容,使用關(guān)聯(lián)規(guī)則挖掘模型發(fā)現(xiàn)用戶的購物內(nèi)容并推薦與此相關(guān)的內(nèi)容,推薦可能關(guān)聯(lián)的商品。使用內(nèi)容過濾模型發(fā)現(xiàn)用戶當前對哪些商品感興趣,從而推薦更多用戶可能會感興趣的商品;使用協(xié)作過濾模型找到與該用戶有相似購物內(nèi)容的用戶還買了哪些商品,根據(jù)用戶的相似性推薦當前用戶還沒有發(fā)現(xiàn)是或者還沒有購買的商品。模型適配器根據(jù)挖掘結(jié)果,可以把推薦內(nèi)容呈現(xiàn)給用戶賬號頁面,或者是推送到用戶使用的電子郵箱。這些復雜的工作都由適配器自動識別并操作完成。
歸納本文提出的智能混合推薦系統(tǒng)模型特點如下:①自動適配功能,提供一種數(shù)據(jù)挖掘算法模型的接口,這種接口能夠自動適配推薦技術(shù),實現(xiàn)在線推薦;②靈活性強,可以根據(jù)實際需要加載、更換數(shù)據(jù)挖掘模型;③通用性強,不但可以用于個性化推薦,還可以用于決策支持系統(tǒng)(Decision Supporting System,DSS)、專家系統(tǒng)(Expert System,Es)商業(yè)智能系統(tǒng)(Business In.telligence,BI)等。
5 結(jié)語
在未來幾年的個性化研究中,其關(guān)鍵技術(shù)依然是推薦系統(tǒng)。個性化推薦基于Web挖掘理論和技術(shù)而不斷發(fā)展,涉及到數(shù)據(jù)挖掘、人工智能、機器學習等多個領(lǐng)域的理論。隨著Web技術(shù)和普適計算的發(fā)展,個性化推薦系統(tǒng)采用的挖掘技術(shù)越來越復雜,由單一技術(shù)向混合技術(shù)和智能型方向發(fā)展。
個性化推薦進行數(shù)據(jù)挖掘需要的數(shù)據(jù)源越來越多樣化,綜合了日志數(shù)據(jù)、歷史交易記錄、用戶搜藏、用戶注冊信息、個人評價反饋信息等。當前,關(guān)于Web日志格式的設(shè)計原則,還缺乏相關(guān)的理論研究,因此,可以考慮進行Web日志格式設(shè)計的研究。一些研究者為了提高個性化推薦系統(tǒng)的精度,把研究重點放在提高推薦系統(tǒng)的算法優(yōu)化方面,但是,有針對性地定制收集用戶數(shù)據(jù)進行用戶模型建模,對于個性化推薦系統(tǒng)精度的提高有著根本性的促進作用。這些定制收集到的用戶數(shù)據(jù)能準確地反映出用戶的偏好,并且,用戶模型建模收集到的數(shù)據(jù)越準確,就越有利于推薦系統(tǒng)的精度提高。同時,經(jīng)過定制收集到的數(shù)據(jù)還能夠有助于減輕推薦系統(tǒng)計算冗余數(shù)據(jù)的負載,從而提高個性化系統(tǒng)整體性能。
參考文獻:
[1]Mobasher B.Data mining for Web personalization.[2010―12―11].http.//maya.cs.depaul.edu/mobasher/papers/awoT-mobas-her.pdf.
[2]Das R,Turkoglu I.Crewing meaningful data from web logs fnr im.proving the impressiveness 0f a website by using path analysis method.Expe~Systems with Applications.2009(36):6635―6644.
[3]Zhang F,Chang H.Research and development in web usage raining system―key issues and proposed solution8:A survey.[2010―12一11].http://ieeexplore.ieee org/xpls/abs―a11.jsp?tp=&amamber=1174531&tag=1.
[4]Srivastava J,Cooley R,Deshpande M,et a1.Web usage mining:Discovery and applications of usage patterns from web data.SigkddExplore,2000,1(12):12―23.
[5]Apache 10g files version 2.2.[2010―12―13].http://httpd.a-pache.0rg/docs/2.2/logs.html#other.
[6]Billsus D,Pazzani M.A personal news agent that talks,learns andexplains.[2010一12―11].http://wwwis.win.tue.n1/asum99/billsus.html.
[7]Han J,Kamber M.數(shù)據(jù)挖掘概念與技術(shù).范明,孟小峰,譯.北 京:機械工業(yè)出版社,2006.
[8]Burke R.Hybrid Web recommender systems//Brusilovsky P,Kob-sa A,Nejdl W.The Adaptive Web:Methods and Strategies 0fWeb Personalization,Lecture Notes in Computer Science.Berlin:Springer―Verlag,2007:377―408.
[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and recom-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.
[10]Mobasher B,Dai Honghua,Luo Tao,et a1.Integrating Web usageand content mining for more effective personalization.[2010―12―11].http://www.省略/eontent/Tlhdxjkwmavpbpda/.
[11]ITWfr2009.[2010―12―16].http://www.dcs.warwick.ac.uk/~ssanand/itwp09/.[12]ITWP2010.[2010―12―16].http://lsl3-www.cs.uni―dort―mund.de/homepage/1TWP2010/index.shtHll.
相關(guān)熱詞搜索:個性化 過濾 模型 一種基于智能過濾的Web個性化推薦模型 個性化推薦模型 一種基于智能過濾的web
熱點文章閱讀