www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

用戶標(biāo)簽 基于folksonomy,標(biāo)簽的用戶分類研究

發(fā)布時(shí)間:2020-03-10 來源: 美文摘抄 點(diǎn)擊:

  [摘要]重點(diǎn)研究基于Folksonomy的數(shù)字資源系統(tǒng)的用戶的共性,提出利用用戶標(biāo)簽對用戶分類的方法,并通過對Flikcr(閃爍照片網(wǎng))的實(shí)證研究,證明通過標(biāo)簽對用戶分類的可行性和實(shí)用性,為興趣推送和進(jìn)一步研究奠定基礎(chǔ)。
  [關(guān)鍵詞]Folksonomy 標(biāo)簽 用戶分類
  [分類號]G202 TP391
  
  1 前言
  
  以人為中心的Web2.0時(shí)代的到來,使互聯(lián)網(wǎng)用戶由被動轉(zhuǎn)為主動,成為信息發(fā)布者和接受者的一體。以del.ieio.us、Flickr為代表的基于folksonomy的數(shù)字資源系統(tǒng)應(yīng)運(yùn)而生,形成了一種新的網(wǎng)絡(luò)信息資源的組織檢索方式。通過用戶標(biāo)簽對用戶的偏好進(jìn)行研究分類以及興趣推送,能夠?yàn)橛脩籼峁┒嗲、全方位的信息,更有利于folksonomy的網(wǎng)站的發(fā)展。
  然而,目前國內(nèi)對folksonomy的研究著重于其國內(nèi)外發(fā)展現(xiàn)狀、概念、優(yōu)劣勢、發(fā)展前景以及與現(xiàn)有信息組織模式的結(jié)合應(yīng)用分析等方面,對folksonomy的標(biāo)簽以及用戶偏好鮮有研究。在folksonomy用戶偏好研究方面,只有王翠英在《基于Folksonomy的用戶偏好研究進(jìn)展》一文中將用戶分成單興趣用戶和多興趣用戶,分別構(gòu)建適用的興趣挖掘機(jī)制及對用戶偏好的應(yīng)用,但主要是從用戶個體進(jìn)行分析,且沒有具體操作過程。
  國外對folksonomy的研究無論理論還是應(yīng)用上都明顯領(lǐng)先于國內(nèi)。在起源方面,國外學(xué)者傾向于從社會化站點(diǎn)的角度研究folksonomy,并以存在的系統(tǒng)為研究對象;在研究內(nèi)容上,Adam Mathes指出了folksonomy系統(tǒng)的存在對個人和社區(qū)的重大意義;Christopher H.Brooks和Nancy Montanezt對博客搜索引擎Technorati的標(biāo)簽做了定量分析,發(fā)現(xiàn)了標(biāo)簽對用戶分類的作用;Marieke Guy也對標(biāo)簽做了定量分析并提供了標(biāo)簽的可視化工具,指出了標(biāo)簽的長尾分布。
  綜上所述,folksonomy是目前越來越受關(guān)注的一個領(lǐng)域,理論方面的研究比較多,但也不是很完善,定量研究方面的內(nèi)容比較少。本文主要從定量的角度研究如何利用folksonomy標(biāo)簽對興趣相似的用戶進(jìn)行分類,提出了通過定量分析標(biāo)簽來研究用戶共性的思想,給出了基于標(biāo)簽進(jìn)行用戶分類的具體方法和操作流程,并以Fliekr為例,對本文提出的用戶分類方法進(jìn)行了實(shí)證研究。
  
  2 用戶分類的思路
  
  Folksonomy是一種以標(biāo)簽為目的的“自下而上的社會化分類”信息組織方法。標(biāo)簽是folksonomy最核心的內(nèi)容,它是一種描述性的非結(jié)構(gòu)化元數(shù)據(jù),由用戶根據(jù)自己的理解和喜好自由添加,不受任何詞表的約束,標(biāo)簽從某些方面代表了用戶的興趣所在,所以依據(jù)標(biāo)簽對用戶進(jìn)行分類,然后對用戶進(jìn)行興趣推薦是十分可行的。
  用戶分類的目的是把興趣相似的用戶分為一類,方便對用戶進(jìn)行興趣推薦。為了不增加用戶的負(fù)擔(dān),研究從系統(tǒng)的角度出發(fā)收集用戶的標(biāo)簽。標(biāo)簽符合負(fù)責(zé)分布,即不同用戶使用了很多相同的標(biāo)簽,表明這些用戶在興趣上有一定的相似性。相同標(biāo)簽的個數(shù)越多,表明這兩個用戶的興趣越相近。
  因此,根據(jù)標(biāo)簽進(jìn)行用戶分類的基本思路是:首先確定用戶之間是否使用了相同的標(biāo)簽,再確定相同標(biāo)簽的數(shù)量及各個標(biāo)簽的使用次數(shù)。在實(shí)證研究中,由于收集標(biāo)簽的使用次數(shù)比較困難,故在抽取用戶標(biāo)簽時(shí)直接抽取使用次數(shù)最多的標(biāo)簽(每個用戶排名前10的標(biāo)簽)。
  
  3 FIickr的用戶分類過程
  
  3.1 Folksonomy數(shù)字資源系統(tǒng)的選取
  實(shí)證研究中數(shù)字資源系統(tǒng)的選取必須滿足如下要求:①該系統(tǒng)能夠提取每個用戶的標(biāo)簽;②該系統(tǒng)必須支持群組,以便分類結(jié)果的驗(yàn)證;③該系統(tǒng)的訪問量要足夠大。根據(jù)以上要求對基于folksonomy的網(wǎng)站進(jìn)行對比分析,排除不支持群組的和無法提取具體用戶標(biāo)簽的,只有Fliekr滿足要求。它是目前比較流行的一個folksonomy數(shù)字資源系統(tǒng),2009年上榜美國《時(shí)代》周刊評選的50個最佳網(wǎng)站,2008年11月份達(dá)到6400萬的獨(dú)立用戶,而且它可以提取每個用戶的標(biāo)簽數(shù)據(jù),也支持群組,可以幫助檢驗(yàn)分組效果,所以,筆者最后選擇Flickr作為實(shí)證研究對象。
  
  3.2 Flickr中用戶和標(biāo)簽的抽取
  考慮到最后要借助群組對分類結(jié)果進(jìn)行檢驗(yàn),所以抽取用戶之前,先抽取了一些群組,然后從每個群組中抽取部分用戶,這樣有利于對分類結(jié)果的驗(yàn)證。
  首先是群組抽取,主要采取兩種方法:①從熱門標(biāo)簽中集中選擇最熱門的標(biāo)簽作為檢索詞去搜索社群,然后從搜索結(jié)果中隨機(jī)選擇;②從網(wǎng)站的推薦群組中選擇。這兩個方法抽取群組的時(shí)候,都要滿足一個先決條件:群組的成員要多,至少超過10個,資源數(shù)量也比較多。按照這兩個方法,筆者從Fliekr中抽取了10個群組,然后按0到9編號,下面是前5個群組的名字及其網(wǎng)址:
  群組0:Motocross(http:/www.省略/groups/motoz/)
  群組1:Nikon D700 UNCENSORED!(http://www。flickr.com/groups/d700/)
  群組2:Your cartoons(http://www.省略/groups/76087665@N00/)
  群組3:European Vacation(http://www.省略/gmups/eumvaeation/)
  群組4:CHRISTMAS WORLDWIDE Fliekr’s#1Xmas Group(http://www.省略/groups/xmas2005/)……
  其次是抽取用戶,抽取方法采用重要性加隨機(jī)抽取。Hickr對每個群組都給出5個貢獻(xiàn)最大的用戶,抽取這5個用戶,然后按照顯示順序隨機(jī)再抽取5個,對于用戶標(biāo)簽是非英語的或標(biāo)簽少于10個的用戶予以刪除,再重新抽取。
  最后是抽取用戶標(biāo)簽,本文選擇該用戶使用次數(shù)最多的10個標(biāo)簽。
  下面是一個具體的用戶及標(biāo)簽的抽取樣本,限于篇幅,本文以群組8的前5個用戶為例:
  群組8:Do More?ror Pets Sponsored by Purina?Pro Plan?(http://www.省略/groups/domore/)
  用戶80:llanniell(http://www.省略/pho-tos/32834911@N08/tags/)
  標(biāo)簽:phipps,flowers,maocro,winter,snow,sky,dogs,canon,birds,blue
  用戶81:richvYYY(http://www.省略/photos/ riehyyy/tags/)
  標(biāo)簽:animal,animals,animales,bull.bulldog,bully,dog,puppy,diosa,perra
  用戶82:Foto Phinagler(http://www.省略/photos/46644938@N07/tags/)
  標(biāo)簽:dogs,gloversville,labs,trees,urban,5bestdogs,winter,statues,eairnterriers,ehoeolatelabs
  用戶83:Nothin’But Moose and Slobber(http://www.省略/photos/31488876@N03/tags/)
  標(biāo)簽:flower,flowers,dog,garden,lab,boydog,close-up,puppy,yellowlab,yellowdog
  用戶84:jati2010(http://www.省略/photos/48414337@N07/tags/)
  標(biāo)簽:flowers,dogs,sprang,roses,morning,nature,flower,dog,birds,landscape
  
  3.3 具體分類過程
  根據(jù)上一節(jié)中收集的100個用戶以及排名最靠前的1000個標(biāo)簽對用戶進(jìn)行大致的分類。將使用相同標(biāo)簽的用戶分為一組,但這樣會存在相似度高低的問題,具體分組要看系統(tǒng)的實(shí)際需求。粒度越大,用戶的興趣的相似度越高,推薦的效果就越好,但會造成群組成員稀少,違背尋找用戶共性這一分類的初衷。粒度越小,用戶的興趣相似性越低,興趣推薦會給用戶帶來大量的“垃圾信息”,影響用戶體驗(yàn),所以分組的粒度要視系統(tǒng)具體分析。由于抽取的都是用戶最靠前的lO個標(biāo)簽,是代表用戶最感興趣的,作為一篇研究性論文,本文對相似度從低到高都進(jìn)行了分析。
  首先把收集的用戶以及標(biāo)簽按用戶編號導(dǎo)人數(shù)據(jù)庫,表名為userandtag,用戶的編號是0~99(用戶n0~n9是從一個群組中抽取的,0≤n≤9),如圖l所示:
  
  分類的具體實(shí)現(xiàn)分為三個步驟,首先是確定任意兩個用戶之間的相似度,然后把任意兩個用戶之間的相似度從0一直到最高統(tǒng)計(jì)出來(見圖3),最后是確定將兩個相關(guān)性用戶聯(lián)系起來的標(biāo)簽,并將其他和這個標(biāo)簽相同的用戶加入到這一類中。最終的用戶分類結(jié)果是(限于篇幅,筆者只列出每個聚合度的一部分用戶)。
  
  聚合度為1的有:
  (0,1,2,4,7,3,5),(0,31),(1,5),(1,9),(2,26,47,73),(2,38,74,92),(19,20,23,68,25,90),(19,25,90,20,23,68),(20,22,24,28),(20,28,22,25),(…………)。
  聚合度為2的有:
  (2,3),(3,4),(8,12),(10,II,12,19),(12,27),(12,36,27,30,38),(30,76,48,51,80),(30,80),(30,94),(…………)。
  聚合度為3的有:
  (11,19),(30,31),(49,69,64),(50,51,59),(51,59),(65,84),(80,84),(83,84)。
  聚合度為4的有:(30,39),(31,37)。
  聚合度為5的有:(49,64)。
  從以上的結(jié)果得知:隨著聚合度的增高,用戶類似的組數(shù)越來越少。這也表示用戶的興趣是多種多樣的,大部分興趣都相同的用戶比較少。
  
  4 結(jié)果和驗(yàn)證
  
  相似度分類的結(jié)果呈現(xiàn)倒金字塔型,為了分析方便筆者從金字塔的底部人手。聚合度為5的一組是(49,64),他們的標(biāo)簽如圖4所示:
  
  這兩個用戶的前10個標(biāo)簽中有5個是相同的(autumn,leaves,trees,nature,park),說明兩用戶的興趣有很大的相似度。而這兩個用戶并不是抽取于一個群組,查看兩個用戶發(fā)現(xiàn)用戶49加入了48個群組,其中10個與自然景色有關(guān),而用戶64本來就是nature群組的主要貢獻(xiàn)者,加入的48個群組有8個與自然景觀相關(guān)。這些說明這兩個用戶的興趣相似度很高,也說明分類的結(jié)果并不一定與抽取的群組一致,而是更注重依據(jù)用戶最明顯的興趣進(jìn)行分類。
  聚合度為3的用戶組是(49,69,64),他們的標(biāo)簽如圖5所示:
  
  他們重復(fù)的標(biāo)簽為autumn、trees、nature。用戶69和用戶64來自同一個群組,興趣上本來就有一定的相似性。從排名靠前的標(biāo)簽看,他們確實(shí)對自然景色比較感興趣,而用戶49來自其他群組,上文提到他加入的48個群組中有10個與自然景色有關(guān),恰好只有他的來源群組是與圣誕相關(guān)的,表明其對自然景色的興趣明顯比圣誕節(jié)大,與用戶64和69的興趣是很相近的。這也說明按照標(biāo)簽對用戶分類會取得比較好的效果,能夠把興趣相近的用戶分為一類。
  再看聚合度為2的用戶組,選擇成員較多的一組(10,11,12,19),其標(biāo)簽如圖6所示:
  這四個用戶因?yàn)闃?biāo)簽d700、nikon而聚在一起,這和他們本來就是從一個群組中抽取的相吻合,說明他們都對nikon這一數(shù)碼產(chǎn)品感興趣,并且興趣很濃厚。
  同樣,聚合度為1的用戶組大多都是來自同一群組,這也和本文當(dāng)初優(yōu)先抽取對群組有突出貢獻(xiàn)的用戶相吻合。
  總的來說,根據(jù)排名靠前的標(biāo)簽對用戶進(jìn)行分類可以將用戶按照較為明顯的興趣進(jìn)行分類。由于標(biāo)簽是經(jīng)過長時(shí)間的積累形成的,所以這也是更傾向與針對用戶的中長期興趣的一種分類。
  
  5 結(jié)語
  
  本文利用基于folksonomy的流行網(wǎng)站――Flickr中的用戶及標(biāo)簽實(shí)證研究了利用標(biāo)簽對用戶進(jìn)行分類的方法,研究結(jié)果表明利用標(biāo)簽?zāi)軐τ脩暨M(jìn)行較好的分類,使同一類中的用戶在興趣上具有較大的相似性,有了用戶群組就可以根據(jù)群組對用戶進(jìn)行興趣推薦,也方便用戶更好地發(fā)現(xiàn)和利用資源。
  在研究中也發(fā)現(xiàn)一些問題或需要改進(jìn)的地方,主要為:①沒有對標(biāo)簽進(jìn)行預(yù)處理,如提取詞根、統(tǒng)一單復(fù)數(shù);②沒有考慮同義詞、多義詞等情況;③只考慮了標(biāo)簽的共現(xiàn),而沒有從標(biāo)簽的相對共現(xiàn)率去定量的研究。以上這些問題都會對用戶的分類產(chǎn)生一定影響。

相關(guān)熱詞搜索:標(biāo)簽 用戶 研究 基于folksonomy 標(biāo)簽的用戶分類研究 用戶標(biāo)簽分類 淘寶用戶標(biāo)簽有哪些

版權(quán)所有 蒲公英文摘 www.91mayou.com