大陆一级毛片国语对白-国产人妻人伦精品熟女麻豆-精品亚洲免费电影在线观看-免费无码av片在线观看播放-日本精品一区二区三区高清-天天综合干

論文查重服務(wù)12年
211、985指定查重網(wǎng)
  • 全國(guó)咨詢電話:
    0571-28284626

基于用戶關(guān)系和文本的微博用戶相似性度量

作者:admin 來源:www.yaqs.cn 時(shí)間:2021-07-03 18:01:16

基于用戶關(guān)系和文本的微博用戶相似性度量

摘要:用戶相似性論文的檢索重量是用戶關(guān)系分析的基礎(chǔ),在推薦系統(tǒng)、用戶集群、社區(qū)發(fā)現(xiàn)等方面具有重要意義。對(duì)于微博用戶的社交關(guān)系和微博文本,分別提供類似度計(jì)算方法,并構(gòu)建加權(quán)集成的用戶類似性度量方法。

最后與用戶的類似度量的實(shí)驗(yàn)分析進(jìn)行比較,對(duì)于傳統(tǒng)的用戶類似度的計(jì)算方法,所提出的方法在準(zhǔn)確性和回收率方面明顯提高,并且顯示了該方法度量的用戶相似性的有效性。微博是一個(gè)基于用戶社交關(guān)系發(fā)布、共享和獲取信息的在線社交平臺(tái),在微博上,可以隨時(shí)發(fā)送信息,轉(zhuǎn)發(fā)感興趣的微博內(nèi)容,進(jìn)行點(diǎn)評(píng)和評(píng)論。據(jù)新浪微博官方發(fā)布的數(shù)據(jù)顯示,目前微博月的活動(dòng)用戶已經(jīng)超過4億人,構(gòu)成了龐大的用戶網(wǎng)絡(luò),分析并挖掘微博平臺(tái)上用戶的特點(diǎn)以及發(fā)布的內(nèi)容和關(guān)注關(guān)系這是目前流行的研究方向,用戶的類似度計(jì)算是其中重要的研究點(diǎn)。

用戶類似度計(jì)算相關(guān)技術(shù)可以用于朋友推薦、類似的用戶發(fā)現(xiàn),并且可以在大容量用戶中發(fā)掘與目標(biāo)用戶的關(guān)系、興趣等特征維度相似的用戶,并向目標(biāo)用戶推薦。此外,用戶類似度計(jì)算在用戶集群、社區(qū)發(fā)現(xiàn)、熱點(diǎn)微博客跟蹤等方面具有重要意義[2]。

本論文將社會(huì)關(guān)系(興趣、粉絲)和微博客文本的兩個(gè)屬性相結(jié)合,并提供微博客用戶的類似性度量方法。1社交媒體上關(guān)于用戶的信息,總體來說,①用戶的背景信息包括年齡、性別、地理位置、教育、職業(yè)、標(biāo)簽信息等。②用戶的社交關(guān)系包括興趣、粉絲、轉(zhuǎn)發(fā)、稱贊等。③用戶發(fā)布的微博客信息。現(xiàn)有研究的許多工作是基于上述三個(gè)信息中的一個(gè)或多個(gè)來構(gòu)建用戶的類似度量的方法。

Bhattacharyya等[3]從用戶的背景信息中提取關(guān)鍵字,通過計(jì)算關(guān)鍵字的意思距離來表示關(guān)鍵字的類似性,進(jìn)而測(cè)量用戶之間的類似度。分析Twitter用戶的興趣和粉絲的關(guān)系,利用由用戶關(guān)系構(gòu)成的網(wǎng)絡(luò)構(gòu)造來測(cè)量用戶之間的相似性。

Kahanda等[5]利用用戶之間的傳送、注釋、文件傳送等交互行為來測(cè)量用戶的類似度。Xiang等[6]根據(jù)用戶的屬性(包括學(xué)校、職場(chǎng)、興趣小組、地理位置等)和用戶之間的相互作用來計(jì)算用戶關(guān)系的強(qiáng)度。徐志明等[7]在進(jìn)行微博用戶的類似性度量時(shí),提供用戶的背景信息、微博文本、社交信息等各種屬性的類似度計(jì)算方法,實(shí)驗(yàn)各屬性對(duì)類似度計(jì)算的影響大小,社交信息對(duì)用戶的類似性度量影響最大。我認(rèn)為有響力。

鄭志緒等[8]將微博用戶自身的背景信息和交互信息的兩個(gè)屬性結(jié)合起來,利用層級(jí)分析法決定各屬性的權(quán)利值,最后構(gòu)建綜合的用戶類似度計(jì)算模型。姚雅修等[9]分別計(jì)算用戶間社交信息的類似度、微博內(nèi)容的類似度和交互關(guān)系的類似度,最后融合各類類似度,導(dǎo)出兩個(gè)用戶的總類似度,進(jìn)行用戶推薦。本文使用用戶的社交關(guān)系和微博客文本來構(gòu)建用戶的類似性度量方法,并提供基于用戶的社交關(guān)系信息和微博客文本信息的用戶類似度計(jì)算方法。基于Jaccard[10-11]方法,用戶之間的公共朋友根據(jù)熱而被賦予權(quán)重,類似度的計(jì)算結(jié)果變得更合理。

②關(guān)于微博文本的類似度計(jì)算,使用LDA模型[12]表示微博文本,計(jì)算類似度,比基于TF-IDF的VSM模型[13-14]有效地降低文本向量的維度,提高了類似度計(jì)算的效果。2微博客用戶類似度計(jì)算模式2.1用戶社交關(guān)系類似度計(jì)算在微博客平臺(tái)上存在用戶間關(guān)心和關(guān)心的關(guān)系,關(guān)注用戶感興趣的賬戶,吸引其他用戶到自己的粉絲興趣和關(guān)心的關(guān)系不斷擴(kuò)大,構(gòu)成了龐大的社交網(wǎng)絡(luò)。

微博客用戶的關(guān)心信息和粉絲信息直觀地反映了用戶的興趣,兩個(gè)微博用戶的共同粉絲和關(guān)心者很多,表明他們有著更密切的社交聯(lián)系。這個(gè)也可以在一定程度上反映用戶之間的類似度。對(duì)于微博客用戶u,其社交信息如上所述示為Jaccard。該方法通過兩個(gè)用戶之間的共同感興趣的用戶的比例來測(cè)量用戶之間的類似度。該方法對(duì)于不同的共同感興趣的用戶,不管狀況如何,無論是更高的熱用戶(即風(fēng)機(jī)較多)還是一般用戶,對(duì)用戶類似度的計(jì)算結(jié)果的影響都相同。但是,實(shí)際上并不是這樣。微博平臺(tái)上有很受歡迎的用戶。這些受歡迎的用戶是超級(jí)粉絲,受到很多微博用戶的喜愛。對(duì)這樣受歡迎的用戶感興趣,往往不能反映出用戶真正的興趣。相比之下,微博用戶在某種意義上反映了用戶真正的興趣。

基于上述現(xiàn)象,在計(jì)算用戶u和用戶v感興趣的類似度時(shí),越是關(guān)注微博用戶z的粉絲越多,在計(jì)算感興趣的類似度時(shí)權(quán)重越小。與此相對(duì),粉絲數(shù)越少,計(jì)算關(guān)注度時(shí)的分量越大。基于這種想法,本文中基于Jaccard方法,可以基于2.2來表示每個(gè)共同的興趣因其熱而具有不同的權(quán)重,并且用戶感興趣的信息的類似度的計(jì)算公式。LDA用戶微博文本類似度計(jì)算可以使用戶在微博平臺(tái)上隨時(shí)發(fā)表自己的想法和見解,并且可以轉(zhuǎn)發(fā)和評(píng)論感興趣的用戶的微博內(nèi)容。微博文本是微博用戶之間交互交流的主要媒體,微博文本直接表達(dá)了用戶感興趣的內(nèi)容和話題。

兩個(gè)用戶所投稿的微博客文本的類似度可以有效地表示兩個(gè)用戶之間的類似度。基于TF-IDF的矢量空間模型(VSM)文本類似度計(jì)算方法被廣泛用于微博客文本類似度計(jì)算[7,9]。

將用戶的微博文本拼接在一個(gè)文檔中,對(duì)關(guān)鍵字進(jìn)行分類、提取,使用TF-IDF計(jì)算關(guān)鍵字權(quán)重,最終將用戶的微博表示為一個(gè)文本向量,根據(jù)余弦類似度計(jì)算兩個(gè)用戶的微博文本的類似度做。VSM將文檔表示為高緯度、稀疏的文本向量,由于計(jì)算效率不高,VSM不能忽略單詞之間的關(guān)系,完全建模自然語言的復(fù)雜性問題。對(duì)于上述方法中存在的缺陷,本文使用LDA主題模型進(jìn)行了文本類似度計(jì)算。

LDA(LatentDirichletAlloca?tion)模型是對(duì)文檔數(shù)據(jù)的主題信息進(jìn)行建模的方法,并且具有文檔主題-特征詞的三層糊精網(wǎng)絡(luò)結(jié)構(gòu)。本文利用LDA模型對(duì)用戶的微博文本進(jìn)行建模,即利用文本的統(tǒng)計(jì)特性,挖掘不同主題與單詞之間的潛在關(guān)系,以主題分布的形式展開文檔,通過該分布計(jì)算文本的類似度。

使用LDA主題模型來計(jì)算文本的類似度可以比矢量空間模型更好地表示文本的意義,并且可以有效地降低文本向量的維度。用戶投稿的微博客

推薦閱讀,更多相關(guān)內(nèi)容:

免費(fèi)的畢業(yè)論文檢測(cè)軟件可靠嗎?

知網(wǎng)查重系統(tǒng)有自動(dòng)降重的功能嗎?

學(xué)術(shù)不端網(wǎng)檢測(cè)系統(tǒng)查重系統(tǒng)的四大優(yōu)勢(shì)

2020cnki官方查重哪些是屬于學(xué)術(shù)不端的行為?

碩士研究生投稿論文檢測(cè)系統(tǒng)文獻(xiàn)庫(kù)有哪些

本科發(fā)表論文嗎本科發(fā)表論文章 本科發(fā)表論文在哪里發(fā)表

北京工商大學(xué)碩士論文查重要求及重復(fù)率 北京工商大學(xué)碩士論文字?jǐn)?shù)一

在哪里可以買畢業(yè)論文ppt在哪里可以買畢業(yè)論文答辯

查重規(guī)則咋地幸免

中國(guó)知網(wǎng)查重能測(cè)試英文論文嗎?

自己可以提前進(jìn)行論文查重嗎?

論文怎么查重論文軟件-論文怎么查重沒通過

為了不讓同學(xué)們?cè)诓橹厣侠速M(fèi)時(shí)間今天分享一下查重經(jīng)驗(yàn)

中國(guó)碩士知網(wǎng)查重率一篇多少錢?

本科畢業(yè)論文知網(wǎng)檢測(cè)系統(tǒng)怎樣檢測(cè) 中國(guó)知網(wǎng)PMLC本科畢業(yè)論文查重檢測(cè)系統(tǒng)

保定學(xué)院碩士論文查重要求及重復(fù)率

學(xué)術(shù)不端論文查重編號(hào)真?zhèn)悟?yàn)證

最新的西安電子科技大學(xué)通信工程學(xué)院研究生論文查重通知 西安電子科技大學(xué)通信工程學(xué)院在哪個(gè)校區(qū)

三峽電力職業(yè)學(xué)院碩士論文查重要求及重復(fù)率一

北京吉利大學(xué)專科論文查重要求及重復(fù)率 北京吉利大學(xué)藝術(shù)專業(yè)專科網(wǎng)上能查到嗎一

學(xué)術(shù)不端外語論文查重檢測(cè)

淘寶知網(wǎng)查重多次對(duì)學(xué)校有沒有影響

博士論文檢測(cè)系統(tǒng)文獻(xiàn)對(duì)比庫(kù)有哪些

畢業(yè)論文開題報(bào)告有什么格式? 學(xué)前教育畢業(yè)論文開題報(bào)告格式模板

論文查重系統(tǒng)優(yōu)點(diǎn) 中南財(cái)經(jīng)政法大學(xué)論文查重系統(tǒng)

主站蜘蛛池模板: 亚洲中文字幕丝祙制服| 人妻洗澡被强公日日澡电影| 中文字幕人妻被公上司喝醉| 久久麻豆成人精品| 午夜福利无码一区二区| 日本动漫瀑乳h动漫啪啪免费 | 无码国内精品人妻少妇蜜桃视频 | 亚洲熟妇色xxxxx欧美老妇 | 免免费国产aaaaa片| 性做久久久久久久免费看| 欧美性猛交xxxx黑人猛| 久久这里只精品国产免费10| 久久无码字幕中文久久无码| 四虎永久在线精品免费观看视频| 麻豆精品导航| 女人国产香蕉久久精品| 免费精品国产人妻国语色戒| 国产精品日日做人人爱| 国产在线无码视频一区二区三区 | 人妻少妇精品视频三区二区一区| 亚洲图片一区二区| 人妻少妇av无码一区二区| 精品动漫一区二区无遮挡| 内射老阿姨1区2区3区4区 | 重口另类在| 99视频国产精品免费观看| 亚洲欧美国产双大乳头| 国产成人综合久久精品免费| 少妇做爰免费视看片| 乱人伦视频中文字幕| 成人丝袜激情一区二区| 香港三级日本三级妇三级| 成人亚洲a片v一区二区三区麻豆| 免费毛儿一区二区十八岁| 久久亚洲精品无码观看| 色综合99久久久无码国产精品 | 日本疯狂爆乳xxxx| 国产精品久久久久免费观看| 午夜福利写真片精品| 国产成人欧美一区二区三区| 夜夜爱夜鲁夜鲁很鲁|