足球比分直播

微博意见领袖与其话题影响力的相关性分析分析与实现.pdf

返回
微博意见领袖与其话题影响力的相关性分析分析与实现.pdf_第1页
第1页 / 共67页
微博意见领袖与其话题影响力的相关性分析分析与实现.pdf_第2页
第2页 / 共67页
微博意见领袖与其话题影响力的相关性分析分析与实现.pdf_第3页
第3页 / 共67页
微博意见领袖与其话题影响力的相关性分析分析与实现.pdf_第4页
第4页 / 共67页
微博意见领袖与其话题影响力的相关性分析分析与实现.pdf_第5页
第5页 / 共67页
点击查看更多>>
资源描述:
国防科学技术大学研究生院工程硕士学位论文 第 I 页 目 录 摘 要 ............................................................................................................................... i ABSTRACT ......................................................................................................................ii 第一章 绪论 .................................................................................................................... 1 1.1 研究背景 ........................................................................................................... 1 1.2 相关研究 ........................................................................................................... 2 1.2.1 意见领袖发现相关研究 ........................................................................ 3 1.2.2 时序模式分析相关研究 ........................................................................ 4 1.2.3 单条微博价值研究 ................................................................................ 6 1.3 主要研究内容和工作 ....................................................................................... 7 1.4 论文结构 ........................................................................................................... 8 第二章 微博话题数据采集及特征分析 ........................................................................ 9 2.1 数据采集 ........................................................................................................... 9 2.2 话题数据集特征分析 ..................................................................................... 10 2.2.1 用户话题发贴数分布 .......................................................................... 10 2.2.2 用户微博被转发次数分布 .................................................................. 11 2.2.3 话题每天产生的博文量分布 .............................................................. 11 2.2.4 话题三个爆发区间的发文量分布 ...................................................... 12 2.2.5 用户提及数量分布 .............................................................................. 13 2.2.6 用户发文类型分布 .............................................................................. 14 2.2.7 用户认证类型分布 .............................................................................. 14 2.2.8 用户地理分布 ...................................................................................... 15 2.3 小结 ................................................................................................................. 15 第三章 基于 DTW 距离的博主影响 力度量技术 ....................................................... 17 3.1 影响力和热度模型构建 ................................................................................. 17 3.1.1 基于话题的意见领袖发现算法 .......................................................... 17 3.1.2 意见领袖话题影响 力和话题热度模型 .............................................. 21 3.2 时序定义及 DTW 距离算法 .......................................................................... 22 3.2.1 DTW 简介 ............................................................................................. 22 3.2.2 时序模式及 DTW 距离定 义 ............................................................... 22 3.2.3 时序数据抽取及 DTW 计算过程 ....................................................... 24 3.3 DTW 距离度量 ................................................................................................ 28 万方数据国防科学技术大学研究生院工程硕士学位论文 第 II 页 3.3.1 DTW 日模式相似性计算 ..................................................................... 28 3.3.2 DTW 小时模式相似性计算 ................................................................. 31 3.4 小结 ................................................................................................................. 34 第四章 基于影响饱和度的关键微博发现技术 .......................................................... 35 4.1 “影响饱和度 ”模型构建 ................................................................................... 35 4.2 “影响饱和度”实证分析 ............................................................................. 38 4.2.1 话题无关微博价值评价 ...................................................................... 38 4.2.2 时序特征研究 ...................................................................................... 42 4.3 话题关键微博发现 ......................................................................................... 48 4.3.1 两种排序下微博用户类型比较 .......................................................... 49 4.3.2 两种排序下微博对话题的不同推动作用 .......................................... 52 4.4 小结 ................................................................................................................. 55 第五章 总结和展望 ...................................................................................................... 57 5.1 总结 ................................................................................................................. 57 5.2 下一步工作 ..................................................................................................... 58 致 谢 ............................................................................................................................ 59 参考文献 ........................................................................................................................ 60 作者在学期间取得的学术成果 .................................................................................... 63 万方数据国防科学技术大学研究生院工程硕士学位论文 第 III 页 表 目 录 表 2.1 WeiboContent 主要字段 ....................................................................................... 9 表 2.2 用户基本信息字段 ............................................................................................ 10 表 3.1 getRtedCountPerUser方法 ................................................................................ 19 表 3.2 getPostCountPerUser方法 ................................................................................ 19 表 3.3 getMentionedCountPerUser方法 ...................................................................... 20 表 3.4 话题上的部分意见领袖 .................................................................................... 20 表 3.5 DTW 距离算法 ................................................................................................... 27 表 3.6 话题部分意见领袖及日被转发量 .................................................................... 28 表 3.7 归一化处理后的日被转博文率 ........................................................................ 29 表 3.8 日模式下意见领袖与话题的 DTW 距离 ......................................................... 30 表 3.9 爆发时间区间及发文量统计 ............................................................................ 32 表 4.1 爬行器伪代码 .................................................................................................... 38 表 4.2 爬取数据属性 .................................................................................................... 39 表 4.3 转发量排在前 5 位的微博 ................................................................................ 39 表 4.4 影响饱和度排在前 5 位的微博 ........................................................................ 40 表 4.5 转发量排在后 5 位的微博 ................................................................................ 41 表 4.6 影响饱和度排在后 5 位的微博 ........................................................................ 42 表 4.7 影响饱和度 Top50 和转发量 Top50 交集和差集 ........................................... 51 万方数据国防科学技术大学研究生院工程硕士学位论文 第 IV 页 图 目 录 图 2.1 用 户在话题上的发贴量分布 ............................................................................ 10 图 2.2 用户微博被转发数分布 .................................................................................... 11 图 2.3 话题日发文量分布 ............................................................................................ 11 图 2.4 第一爆发区间的发 文量 .................................................................................... 12 图 2.5 第二爆发区间的发文量 .................................................................................... 12 图 2.6 第三爆发区间的发文量 .................................................................................... 13 图 2.7 用户提及数量分布 ............................................................................................ 13 图 2.8 用户发文类型分布 ............................................................................................ 14 图 2.9 用户类型分布 .................................................................................................... 15 图 2.10 用户地理位置分布 .......................................................................................... 15 图 3.1 新浪微博平台影响力计算模型 ........................................................................ 18 图 3.2 影响力 Top100 各因素对影响力的影响 .......................................................... 21 图 3.3 几种模式匹配方法 ............................................................................................ 22 图 3.4 话题“小时”时序生成流程图 ........................................................................ 25 图 3.5 用户“小时”时序生成流程图 ........................................................................ 26 图 3.6 邻接矩阵推导过程 ............................................................................................ 27 图 3.7 “头条新闻”与话题的邻接矩阵 .................................................................... 29 图 3.8 “头条新闻”与话题的 DTW 矩阵 ................................................................. 30 图 3.9 日时序模式图 .................................................................................................... 30 图 3.10 两日时序模式图 .............................................................................................. 31 图 3.11 话题总时序 ...................................................................................................... 31 图 3.12 第一爆发区间相关图 ...................................................................................... 32 图 3.13 第二爆发区间相关图 ...................................................................................... 33 图 3.14 第三爆发区间相关图 ...................................................................................... 33 图 4.1 微博评价多维属性模型 .................................................................................... 36 图 4.2 转发覆盖图 ........................................................................................................ 37 图 4.3 类型 A ................................................................................................................ 43 图 4.4 类型 B................................................................................................................. 43 图 4.5 类型 C................................................................................................................. 44 图 4.6 类型 D ................................................................................................................ 44 图 4.7 类型 A 衍生 ....................................................................................................... 45 图 4.8 “小 P 老师 ”微博影响饱和度时序 ...................................................................... 46 万方数据国防科学技术大学研究生院工程硕士学位论文 第 V 页 图 4.9 “老榕”微博影响饱和度时序 ........................................................................ 46 图 4.10 “C 科技”微博影响饱和度时序 ...................................................................... 47 图 4.11 “任志强”微博影响饱和度时序 .................................................................. 48 图 4.12 粉丝去重流程 .................................................................................................. 49 图 4.13 转发量靠前的各类用户被转发与发布博文占比 .......................................... 50 图 4.14 影响饱和度靠前的各 类用户被转发与发布博文占比 .................................. 50 图 4.15 天模式时序图 .................................................................................................. 52 图 4.16 小时模式时序图 .............................................................................................. 52 图 4.17 第一爆发区间时序 图 ...................................................................................... 53 图 4.18 第二爆发区间时序图 ...................................................................................... 54 图 4.19 第三爆发区间时序图 ...................................................................................... 54 万方数据国防科学技术大学研究生院工程硕士学位论文 第 i 页 摘 要 作为信息化发展的重要 产物 , 微博 凭借其 开放、便捷等特征 , 使 大 众在更广泛的领域进行交流成为可能, 并 在极短的时间 内 完成了 由产生到普及,再到 重要舆论平台的蜕变 。 而源于现实的社会事件 ,借微博 平台 酝酿 发酵、 被 意见领袖 传播散布、 经 各类 观点 碰撞 交锋 , 往往会 引起话题内容 上的演变。在上述话题 演变过程中, 如何 发现意见领袖 并准确 衡量 他们对 信息传播的作用 和贡献 如何量化度量 博文 的 传播影响都是 深入研究和分析话题 及 其脉络的 先决条件 。 本文在研究了大量已有 工作 的基础上,从宏观、微观两条线索进行 话题分析 首先,从宏观上研究“话题相关意见领袖与话题间存在怎样 的 时序关联”、 “哪些意见领袖影响话题发展”等 问题 ;在此 基础上,从 微观上 研究“ 不同类型的博主主要发布何种内容特征的博文”、“ 不同内容特征的微博会对话题造成何种影响”等 问题 。 研究中 采取实验和实证相结合的方式,以现实中的微博话题为例进行了分析实验。相关工作和创新点如下 1)采集“南京打护士”话题有关微博数据,结合事实情况分析了数据用于研究的可行性;基于话题中有限的用户关系,采用一种通用简便的方法,找出了话题中存在的意见领袖;建立了“意见领袖在话题上的影响力”模型,和“话题热度”模型,为后续工作提供了支撑。 2)研究并实现了基于动态时间弯曲( DTW)距离的博主 影响力 度量技术 。 在宏观方面,基于 DTW 距离,区分不同的时间窗口和时间粒度,对“意见领袖在话题上的影响力时序”与“话题热度时序”之间的距离进行了度量,发现距离较小的两者之间存在关联关系,发现部分意见领袖 在话题中 起到了 导控和推手 作用,在宏观上把握了话题发展脉络。 3)研究 并实现了 基于 影响饱和度的 关键 微博 发现技术 。 在微观方面,分析了“转发量”和“影响饱和度”两种排序方式下微博的内容特征,基于用户转发行为和影响覆盖范围,研究了“影响饱和度”的时序特征,提出 了 用于单条微博评价的“影响饱和度”模型;在此基础上,基于特定话题,通过 实验 发 现了“转发量”和“影响饱和度”两种排序方式下微博内容上 的 较大区别 和博主类型上的较大区别 , 从微观上 量化分析了其 在 话题中的不同作用。 综上,本文主要通过现实中网络话题“南京打护士”等事件,利用 DTW 距离,研究了意见领袖和话题之间的相关性,从宏观上分析了话题脉络;进而引入了微博的“影响饱和度”概念,从“转发量”和“微博影响饱和度”两种视角,对话题作了微观解构,为现有的话题分析方法作了有益补充。 关键词意见领袖话题影响力;话题热度;时序; DTW 距离;影响饱和度; 万方数据国防科学技术大学研究生院工程硕士学位论文 第 ii 页 ABSTRACT As an important product of ination technology development, with its openness, convenience and other features, microblogging has made it possible for people to communicate with each other in broader fields, and accomplished the process from generation to popularization, and finally transed to an important public opinion plat in a very short period of time. Social events originated in reality are now spreading out on the microblogging plat, from the embryonic stage at the very beginning to the expanding stage via the transation by opinion leaders with all kinds of viewpoint collisions, which often leads to the evolution of the topic content. In the process of the evolution stated above, it is the prerequisites for the in-depth research and analysis of the topic context that how to quantify the impact of the spread of a microblog and how to discover opinion leaders and measure their contribution in the ination dissemination accurately. In this paper, conduct topic analyses based on the existing studies in both macro and micro perspectives first, study in macroscopic view “What sequential association exists between the topic-related opinion leaders and the topics“ and “Which opinion leaders have impacts on the topic evolution“ and other issues. On this basis, study in microscopic view “Different types of bloggers published what the main characteristics of the microblogs “ and “What impact will be made to the topics by the microblogs with different content characteristics“ and other issues. take both experimental and empirical approaches to conduct experiments and data analysis based on microblog topic examples in reality. Related work and innovations are as follows 1 Collect the microblog data on the topic of “Attack on Nanjing Hospital nurse“, analyse the study feasibility of the data based on facts, discover the topic opinion leaders through a common and easy based on limited user relationshi
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播