互联网用户的情绪表达方法研究

网络信息技术的飞跃发展正在全方位、深层次地改变着我们的生产与生活方式。信息发布均传输的方式正经历着巨大变革。互联网等新兴信息载体的出现一方而为社会大众提供了的所未有的海量信息资源;另一方面也为民众提供了便捷地表达各自观点的平台。互联网逐步成

  第一章绪论

  1.1研究背景

  随着网络技术的飞速发展,互联网已经成为报纸等传统大众媒介之外的第四舆论传播新势力,网络用户量和信息量已经超过了传统媒介。互联网的发展不仅革新了信息传播技术,也改变了人们的生活方式及人际交往方式,极大影响着人们社会生活的多个领域。网络已经成为人们每天获取信息、相互交流必不可少的方式。特别是进入到Web 2.0时代之后,网络用户既是网络信息的消费者,也是网络内容的缔造者。网络是现实社会的镜像,现实生活中局部的问题,在网络中可能被放大而引发大量的讨论,直接反作用于真实社会,影响着人们的生活。而一些负面和极端的言论,可能危害网络内容安全及社会的稳定。
  2012年7月19日,中国互联网络信息中心(CNNIC)在京发布的《第30次中国互联网络发展状况统计报告》中指出,截至2012年6月底,中国网民数量达到5.38亿。报告中显示,用户数量增长达到一个稳定的水平,互联网的普及率大大地提高。更加引人注目的是,手机用户急速增加,手机上网用户数超过台式机接入网络用户数0.08亿,这是由于移动终端上网方便快捷,成本较低,且能够随时随地。同时,我国的网络技术也日新月异,网络国际出口带宽到达1,548,811Mbps,IPv6地址数爆发增长,已经跃居全球前三位。各种网络应用的增幅明显,即时通信增长提速,微博和博客的数量较2011年底增长了近10%,信息传播方式更加多元化。网络舆论以交互的自由性和方式的多样性,已经成为关乎社会稳定的一股不可忽视的力量。如何做到在庞大的互联网网络中对互联网用户表达信息的甄别以及大部分网民对某些事件的情绪的大致轮廓的了解,利用计算机等技术进行包括互联网用户情绪表达分析在内的舆情监督是近几年计算机人工智能研究的热点。

  1.2国内外研究现状

  互联网和通信技术的发展使得网络成为人们获取信息分享信息的主要渠道,越来越多的用户参与到网络活动中。用户创造了海量的网络信息,且互联网是一个开放的平台,通过网络信息采集工具可以获取大量的网络数据,从而为互联网的实证分析提供了丰富可靠的数据来源。高性能处理器的出现及并行计算能力的提高,使得对大数据的处理有了可能,因此对互联网海量数据的分析逐渐被提上日程。目前实证分析的研究不断涌现,挖掘用户情绪表达特点,分析网络人际关系,发现潜在的客观规律,有助于互联网理论模型的有效性验证及参数调整。
  文献[1]对博客及社交网络服务等Web 2.0网络的用户拓扑关系进行了分析。作者分别抓取了人人网及新浪博客数据,新浪博客是单向网络,而人人网是无向网络。研究发现,新浪博客的入度及出度均服从幕律分布,但出度分布的具有更大的幂指数,这表示博客用户并未添加很多好友,甚至有32.6%的人未添加任何好友。活跃用户喜欢连接名人或其他活跃用户,因此网络的入链–出链及出链–出链的度相关系数为正。而新浪博客的出链–入链及入链–入链的度相关系数为负。人人网的度服从双尺度的幂律分布,平均最短路径长度更短,节点簇系数按节点度呈幂律减小,且节点度正相关。
  文献[2]分析了Twitter用户的地域分布、用户的好友粉丝数及用户的度相关系数,并将Twitter的用户进行了分类。文献[3]计算了Twitter微博的平均最短距离长度、最大转帖深度、帖子生存时间、用户排序等特征。作者将Twitter中的用户按粉丝数及PageRank值排序,发现两种方法的排序结果近似一致,而将用户按转发数排序则得到的结果有明显区别,这表示用户的转发数与粉丝数之间并非呈严格的依赖关系。97.6%的转帖深度在6跳之内,而转帖深度不会超过11跳。文献[4]比较了Twitter用户的帖子转发数、回复数与好友数的相关性,分析了信息传播过程中用户的影响力特征。文献[5]进一步分析了Twitter中与帖子获得转发相关的因素。根据帖子作者的好友数、账号创建时间等9个因素对Twitter数据进行主分量分析,发现帖子的内容特征及作者特征都具有较强的区分度,是影响帖子转发的重要因素。通过对大量实际数据的验证,描绘出了帖子被转发的概率近似随着帖子作者的好友数、粉丝数、用户创建时间呈上升趋势。
  文献[6]对某经济物理学网站的文章下载量进行了统计分析,发现论文的下载次数以Zipf律递减,且幂指数随着时间的推移而降低,这意味着用户并不总是下载排名靠前的文章,而会翻页去查看其它非推荐的文章。不同文章的单位时间下载率按指数衰减,且文章的平均下载率及方差近似满足指数分布,其中a位于0.6到0.9之间,不同于之前的研究,早先的研究认为序参数的方差与平均值的分布指数a为0.5或1。
  目前的研究主要针对用户关系的宏观结构或用户个体的微观交互单独建模,未能分析驱动网络用户情绪表达的本质因素,也未能解释参与人群情绪表达偏好及用户性格习惯的异质性对群体结构演化的作用,对网络宏观结构的产生原因未达成共识,因此,这些研究在理解网络用户客观规律上面临着诸多的挑战。

  1.3研究意义

  互联网用户情绪表达分析及信息演化机制研究,借助社会物理学、计算机科学、信息科学、系统科学及复杂网络等理论,通过计算机建模和数据挖掘的方法,分析用户情绪表达的内在动机,建立用户参与情绪表达模型,建模网络个体观点交互过程,揭示宏观舆论与微观个体情绪表达的联系,探索群体性意见的出现条件,预测信息传播趋势及用户的传播行动,这些研究具有重要的理论意义和应用价值。互联网用户情绪表达分析及信息演化机制研究,有助于生物群体情绪表达及群落结构演化的研究,为社会学等学科的研究提供数据获取和处理方法。网络用户的发帖、转帖、回帖及用户之间的交流等情绪表达,反映了用户的生活习惯和个体特性,通过对用户情绪表达的分析能够掌握大众的情绪表达特性分布,从而有助于网络异常情绪表达检测,防患于未然。分析网络用户情绪表达与群体结构的关系,理解个体的内在动机,掌握群体结构演化规律,对研究其他复杂群体情绪表达具有借鉴意义。
  互联网用户情绪表达分析及信息演化机制研究,有助于把握舆论动态,发现潜在的热点话题,是实现舆情监测的重要手段。对网络用户关系的研究能够帮助人们理解互联网特殊的拓扑对信息传播的加速和催化作用,提高对信息传播机制的认识,进一步研究如何促进或阻碍信息的流动。对用户传播情绪表达及话题增长趋势的预测,有助于尽可能早地发现潜在的引发大量关注的话题,从而为舆论监测和突发事件预警提供了依据和参考。
  互联网用户情绪表达分析及信息演化机制研究,是认识网络舆论本质演化规律的必要条件,也是研究网络舆论引导策略的前提和基础,对构建健康良好的网络环境、维护社会和谐具有积极的意义。互联网的动态性、内容开放性、匿名性造成了舆论形成的突发性及演变环境的复杂性,而一些负面的情绪能够在短时间内产生较大的影响。对互联网信息演化机制的研究,有利于理解宏观舆论的形成及相变条件,分析互联网的多种特异性对舆论演化方向的影响,掌握微观特性的作用机制,有助于针对性地研究引导舆情发展趋势的方法和手段,恰当构建和谐的网络环境。

  第二章主要理论

  2.1社会物理学及三大理论

  2.1.1社会物理学研究概述
  社会物理学的发展历程稍加追溯就会发现,这是一门渊源久远、根基深厚、内容广泛、实用价值很高的交叉学科。自17世纪威廉·配第对“政治算术”的呼吁和其后拉普拉斯的人口性别“误差曲线”的提出,开启了人们寻求用像物理学的定律一样去研究社会问题。其后,法国政治哲学家奥古斯特·孔德认为“社会秩序”是“自然秩序”的简单延伸,首次在1830年左右使用“社会物理学”名称,并将其划分为“社会静力学”和“社会动力学”,从而成为古典社会物理学的奠基者。
  近200多年来,社会物理学相继经历了以孔德为代表的古典社会物理学以及其后的近代社会物理学和现代社会物理学三个发展阶段。社会物理学研究者正在尝试对“为什么人类行为如同粒子运动那样”进行正确诠释,企图从社会微观行为的随机与无序中揭示出社会宏观行为的识别特征,从而对于网络传播、舆论形成、经济运行和社会安全所遵循的普适性规律,进行深入的挖掘并最终实现对于社会行为规律的认知、模拟和调控。
  中国现代社会物理学派代表人物牛文元教授逐步构建了“社会燃烧理论”、“社会激波理论”和“社会行为熵理论”三大理论体系,并对社会物理学研究的本质进行了理论论述。现代社会物理学的实质总是建立在:统一承认物理世界和人文世界随处呈现出的广义“差异”;统一承认广义的“差异”和“非均衡”必然导致的广义的“梯度”;统一承认广义的“梯度”必然要产生广义的“力”;统一承认广义的“力”的作用下所必然产生的广义“运动”和广义“流”。而探索广义的“运动”和广义的“流”,是自然科学和社会科学共同面对的一致要求,现代社会物理学就是为适应这种统一要求而存在的。并对于现代社会物理学的一般定义作如下的表述:“在网络世界的虚拟情景中,应用自然科学的思路和原理,经过有效的融合和理性的修正,用来识别、模拟、解析和寻求在现实世界中社会行为规律和社会结构分布的充分交叉性学科。”
  2.1.2社会燃烧理论
  “社会燃烧理论”于2001年提出,是将社会的无序、失稳及动乱与自然界的燃烧现象进行合理类比的理论。自然界中的燃烧现象,既有物理过程,也有化学过程。物理过程中主要指物质的平衡和能量的守衡,化学过程中主要指物质的变化以及变化所依赖的基本条件。加以总结,燃烧发生必须具备三个基本条件,即“燃烧物质”、“助燃剂”和“点火温度”,三者缺一不可。其中,“燃烧物质”是燃烧发生的前提性基本条件;“助燃剂”对燃烧过程进行加速,因此在燃烧过程中起催化作用;“点火温度”除了直接使燃烧物质发生燃烧外,不仅激活助燃剂的助燃功能,而起加速了着火温度阈值突破过程。
  把自然界燃烧过程的这一原理引入社会稳定领域,则可将引起社会无序的基本动因,即随时随地发生的“人与自然”关系不协调和“人与人”关系不和谐视为社会不稳定的“燃烧物质”;将非理性的判断、敌对势力的恶意攻击和片面利益的刻意追逐等看做燃烧的“助燃剂”;当上述二者都具备的时候,一个小的突发事件的发生作为动乱的导火线或“点火温度”必将引发具有一定规模和影响的群体性突发事件,最终导致社会的不稳定与不和谐。
  “社会燃烧理论”的机理认为:当“人与自然”之间的关系达到充分平衡、“人与人”之间的关系达到完全和谐时,整个社会处于“理论意义”上绝对稳定的极限状态,只要发生任何背离上述两大关系的平衡与和谐,都会给社会稳定状态以不同程度的“负贡献”(即形成社会动乱的“燃烧物质”),当此类“负贡献的量与质”积累到一定程度,并在错误的舆论导向煽动下(即相当于增加社会动乱的“助燃剂”),将会形成一定的人口数量密度和地理空间规模,使社会稳定程度逐渐降低并逼近于发生动乱的I临界阈值。此时,只要在某一“突发导火线”(即出现了社会动乱的“点火温度”)的刺激下,即可发生“社会失衡(不稳)、社会失序(动乱)或社会失控(暴乱)”直至“社会崩溃”。
  2.1.3社会激波理论
  激波是气体高速运动过程中最重要的现象之一。它是气体受到强烈压缩后产生的强压缩波,也叫强间断面,这种很薄的间断称之为激波(支启军,2003)。在这一薄层中,速度、温度和压强等物理量迅速地从波前值变化到波后值,速度梯度、压强梯度和温度梯度都很大。因此,激波理论中并不十分关注于波内流动情况,而只需知道物理量通过激波后的变化即可。
  目前,多有借用激波理论的思想以解决社会问题,特别是具有波动现象的复杂问题,如在车流、人群流动等方面的应用。在人群拥挤时,可将其视为一连续介质,人群中产生的任何扰动(直接表现为密度的变化)都将以波的形式在人群中传播,同时由于人群中个体间的差异,导致波发生非线性畸变,最后可能导致激波的产生,即拥挤事故。
  “社会激波理论”作为社会物理学中三大理论之一,用以描述社会动乱的时空形式,常用的仿真建模的方法和技术有Ising(铁磁)模型、Sznajd(传教士、Deffuant(谈判者)和Krarise&Hegselmann(机会主义者)模型,以及谣言扩散模型、银行破产模型和蒙特卡洛模型等。
  本文则基于“社会激波理论”来说明舆论的演化模型,即在时空耦合系统中探寻舆论演化机理,包括时间上的传播演化态势以及空间上的扩散和分布规律,寻求多变动态的舆论趋势和波幅扩散的内在规律。
  2.1.4社会行为熵理论
  社会行为熵是社会动乱的本源。借用物理上学的“熵”的理论来解释人组成群体的行为。这一理论有如下六大规则:
  ⑴人类普适的“最小努力”原则
  每个人都想出很小的力气换取最大的效益,个人行为如此,国家的经济发展也是如此,都是想花最少的钱来换取最大的收益,天性自发,无法违背。
  ⑵自发追寻“熵最小”原则
  每个人一直处于平静状态是办不到的,如同好地方住久了也不感觉好。今天,社会主义改革开放带来这么大的成果,有的人却不满意,得到的时候偏不说好,得不到时就一味地叫嚣谩骂,实际上就是不满足于现状。这是因为人有些时候不愿意理性、平静地思考,而总是感到不满足。这也是自然人的一个天性。
  ⑶自觉维系“心理平衡”原则
  假如个人遭受了打击,经过别人的劝说,经过自我的反思,慢慢平静了,这将对构建和谐社会有很大的帮助。也就是说,通过说服工作能使对象自我接受、自我认知、自我体验、自我控制。
  ⑷持续激发“情商共鸣”原则
  “情商共鸣”是一个人只愿意接受他最为尊敬、最为崇拜或最为认可的人开导自己的某种不如意。小到社会公众、大到XX领袖,树立起榜样,其力量和作用就是无穷的。
  ⑸社会取向“倒u型走势”原则
  多数人总是认为过去好,一直推到三皇五帝,那个时候的人好像是最好的;再者就是未来好,像共产主义、大同世界这个大家也都认同,于是乎,就是觉得现在所处的社会有点不大对头,且觉得别人都好而自己不好。这是社会整体走势,这种现象就是“倒U型走势”。
  ⑹都希望有让别人遵守而自己可以例外的社会公约
  每个人的行为,包括群体的行为都有着自己的规则。这些不同规则的共同组合,造成了希望有让别人遵守而自己可以例外的社会公约。

  2.2信息传播动力学

  信息传播是真实世界的普遍现象,对信息传播过程的研究,有助于分析信息流动的内在机制,预测信息的扩散范围,并进一步找到促进或抑制信息传播的措施。信息传播模型能使用平均场进行分析,从而得到解析的表达式。信息传播的研究方法和手段同样也能应用到互联网的舆论传播研究工作中。
  社会物理学包含了社会科学的多个内容,阐述了社会网络、语言进化、人口动力学、疾病传播、恐怖主义、票选和联盟形成等许多不同问题。而信息传播动力学在所有研究主题中渐渐成为主流。此外,舆论如今成为现代社会的一个重要焦点,了解它的内在机制是我们面对的重大挑战。关于该领域的任何进展都可以对全球面临的敏感问题的处理方法产生巨大影响。征对信息传播动力学模型举出下面的一个例子。
  研究舆论现象的方法依赖于一些简单假设,并发现了一系列令人震惊和强有力的结论。特别地,我们发现信息传播形成的动力学机制遵循一些流,这些流的方向由相互对立观点的初始支持和阈值所决定。大多数模型都会服从这样的阈值动力学。事实上,这些都属于单一概率序列机制的范畴。
  值得一提的是,在2005年,使用社会物理学模型首次预测了一个令人难以置信的政治票选结果。不同于其他民意调查的分析预测,得出的结论比实际的票选结果公布13期提前了好几个月。该模型处理少数人观点在公众讨论中传播的动力学机制时使用了两状态变量系统。它可以应用于许多大范围的议题,这其中包括如法国票选的全民投票、吸烟与禁烟的行为改变、伊拉克战争这种对军事行动的支持或反对、法国关于“9·11”事件的谣言,以及改革建议等。
  两状态变量模型研究公众观点如何从公众讨论中形成。agents是活动的,根据每个agents都只持一个观点的原则在小组中进行讨论,每次讨论结束后根据局部多数规则来改变自己的观点。相关的动力学机制就是由这些局部观点的反复更新而驱动。小组人数为偶数时可能会出现平局,即持相对观点的人数各占50%。根据agents的共同信念来选择要支持的观点可以解决该问题。最终舆论形成是带有分隔值口。的阈值动力学过程,决定了朝吸引子或者的流动方向,并能够保证观点A或观点B分别取得可以获胜的多数优势。当所有的agents都是流动的,两个吸引子都只持一个观点且=1,=0,通过公众讨论后在所有人中只会产生一种观点。
  如果对观点A的初始支持,那么存在朝向观点A的n次连续更新,使得。相反地,如果,那么就会产生一个递减序列,使得,并且m≠n。m,n都是可以通过计算求得的整数。取任意小的值,将在阈值处分叉。
  对于奇数大小的讨论组,=1/2,偶数大小的讨论组允许在疑问中达成平局。针对疑问,集体信念被激发,从而产生支持其中某个观点的局部偏见。这个偏见使得的取值介于0和1之间,它依赖于持两类观点人群的群体信念分布和局部更新组的大小。当<1/2时,相关动力学机制使得少数人意见得到传播。
  在=1/2,不存在平局的情况下,我们研究异构agents,如持相反意见的agents和信念的坚定agents,而不是意见流动agents所产生的效果。研究发现,它们都对舆论动力学理论有重要影响。
  持相反意见者指改变自己的立场故意反对局部多数人的意见,而从不考虑多数人的意见的agents。他们使得多数人意见和少数人意见在很低密度下能够稳定共存,即≠1,≠0,保持1/2不变。然而,除了一些关键值外,这将会减小动力学阈值。一种唯一的情况是血会驱动动力学机制。无论初始条件是什么,通过公众讨论都会使群体意见稳定在50%支持观点A和50%支持观点B上。阈值消除这种出人意料的机制被用于解释著名的2000年布什—戈尔的X总统大选。随后,它又预测各自拥有50%选民的情况会再次发生,而且经常发生在民主制国家选举中,比如德国、意大利、墨西哥。民意调查的结果显示,大多数层次上,持相反意见者能控制全局而非局部。在50%附近,这就引起了混乱行为。
  信念坚定的agents在小组讨论中是绝不改变立场的,他们产生的效果和持相反意见的agents产生的效果相似,但是由于坚持观点A和观点B意见者的密度不同,于是产生的效果也是不对称的。特别地,当坚持己见者持有一种观点时,他们让其观点变得确信无疑,从而赢得全部人的支持。相对于拥有绝大多数支持者的另一种观点,即使只有密度很低的坚持己见者支持这种观点,通过讨论将会扭转该比例,最终使得所有人都接受只有少部分坚持己见者所持有的观点。
  因此,自由公开讨论所期待的民主特色也许会成为一台“独裁”机器,用于传播少部分人的观点而不是传播初始时绝大多数人所持有的观点。它也许能够为全球变暖现象的一些社会观点带来全新的和反直觉的想法。

  2.3舆论演化模型

  舆论演进模型是社会物理学家在社会学研究成果的基础上,使用统计物理的方法对观点交互过程的建模。舆论演进过程的研究致力于回答两个主要问题:观点交互过程将最终导致怎样的系统状态;群体中的观点将在何时出现重大相变或转折,何种条件将导致这些突变的出现。第一个问题试图描述舆论演化过程中的宏观状态,是研究舆论演进趋势预测的基础。第二个问题挖掘观点演化过程中的关键因素,找到这些因素对舆论演化过程及演进速度的影响,研究结果有助于舆论引导策略的分析。舆论演进模型假定在有限尺度的群体中,个体持有对某一社会、经济事件等话题的观点。个体就该话题与邻居进行交互,努力劝说对方采纳自己的意见。个体的观点在初始时混合均匀,在更新进程中个体依据预先定义的规则交换意见。动力学模型使用统计物理方法来建立微观个体交互情绪表达与系统宏观状态之间的桥梁。最终,群体观点可能演化到一致意见、极化或者破碎状态。
  2.3.1舆论波及其波动律
  舆论是一种表层意识的传播,呈现上下起伏状态,由于人们接受意见的快慢和能力等区别,出现了不同的反应强度,这种因传播强弱造成的落差,可以感受到如同一种波状的起伏,这种动势就被称为“舆论波”。
  舆论波以非线性形式向四周扩展,使一定范围的公众卷入舆论。舆论传播的强弱落差可以被感知和测度,反应强烈的地区处于舆论的波峰,反应微弱的地区则处于舆论的波谷。舆论波是民心波动的再现,由舆论中心向外震荡起伏地扩展。舆论波通常以连续的冲击方式蔓延,在一定社会环境中回旋、共振,不同的舆论波之间相互抵消或叠加,最终形成一种合力。舆论波表现为社会的冲击力,在时空中时急时缓、忽高忽低地波动,使舆论定势更曲折、更复杂(刘建明等,2009)。j
  舆论波包括意见波和行为波两种,表现为集合意识高涨的不同程度和不同方式。在通常情况下,人们运用语言,通过议论、讲演、游说、新闻报道等表达意见。当人们由于强烈的愤恨或过度不满时,便采取各种行动来表达意向,构成行为舆论波。本文的第四节,在阐述舆论形成的过程中,亦表达了在舆论形成的临界阈值点,行为舆论波的形成,即群体性突发事件的发生,是舆论演化的更高级形式。
  我国多位学者对舆论波有着或多或少的研究,.认为这为追寻舆论流动源头与流向提供了思路。其中,清华大学刘建明教授根据舆论产生后的波动方向提出了舆论波动律,包括“中心辐射律”、“遍地涌动律”、“两点呼应律”和“多波振荡律”四种,具体论述如下:
  (1)“中心辐射律”:舆论的传播以舆论中心为轴,向四面八方传递,围绕舆论中心形成由近及远的波涛气势,称为舆论中心辐射律。辐射律打破了信息传递的线性模式,是舆论传播的普遍规律。
  (2)“遍地涌动律”:舆论不是受中心地带的意见刺激,而是各地公众由于同一种舆论客体(某一社会现象或问题)形成的,构成了舆论的遍地涌动律。社会问题一般具有普遍性,所以由这一现象或问题所引发的舆论波往往遵循着遍地涌动律。
  (3)“两点呼应律”:一些舆论的客体仅涉及两个(或限于几个)舆论主体的关系或利益,更在这两点或几点范围内产生呼应性的舆论,他们之间进行着舆论的立动。
  (4)“多波振荡律”:舆论传播的多渠道互补性和其性质的不断改变构成了多波振荡律。当人们的利益、兴趣和志向等相近时,在各种舆论传播渠道的相互借助下产生明显、快速的激荡效果,以致引起舆论激化的态势。
  2.3.2舆论演化过程中的“三从”行为
  从舆论形成及其演化过程中梳理和剖析社会公众的行为特点,可归纳为“从众”、“从上”和“从利”。“从众”行为多取决于人的心理层面,即惧怕孤独、愿意“少数服从多数”;“从上”行为涉及人的道德观,无论是从权(权力)还是从望(威望),人们,特别是中国人,受到几千年文化遗留下来的思想,不愿意冲破道德的束缚且“官本位”思想严重,容易“从上”;“从利”行为则受人的价值观驱动,在利益面前,人们的言行往往会朝着自己受益的方向摆动。因此,“三从”行为是建立舆论形成及其演化仿真规则的重要依据。
  (1)“从众”行为
  从众,是指他人从事某一活动时自己也去从事这一活动,按群体中多数人的意见行事,自己不另搞一套。社会心理学指出,个体在群体中常常会不知不觉地受到群体的压力,从而在知觉、判断、信仰以及行为方面,表现出与群体中多数人一致的行为倾向,这就是从众现象,或称为从众行为。
  舆论在形成和演化过程中具有整合功能,暗示了“共识”和“一致”的意义。基于此,德国社会学家诺尔纽曼提出了“沉默的螺旋”(the spiral of silence)理论,认为人具有社会天性,为防止交往中的孤立,总是寻求与周围关系的和谐。这样就形成一种“沉默的螺旋”现象:当人们感觉到自己的意见属于“多数”或“优势”时,便倾向于积极发表言论;反之,则会因防止自己被孤立而保持“沉默”。这种过程会激发出人的从众行为,结果则是原有优势的一方越来越强大,而沉默方会越来越无生气。
  (2)“从上”行为
  从上,又叫遵从,是指在他人的要求或权威影响下的服从行为。从上行为包括“从权”和“从望”两种类型。从权多指分布着等级性的“舆论场”中,舆论的主体,即社会公众受到的权力制约。它不以被控者的接受为前提,不论被控者情愿与否(当然思想上自愿接受更好),都必须接受这种制约,遵从这种约束,并在其约束下行使自己的权力。这种接受和遵从一般是无条件的,即使被控者有所不愿,甚至持相反的意见,也只能依从其制约,否则就会受到权力的制裁。从望行为与从权行为的不同之处在于,社会民众不具有强制的服从性。从望多指那些有威望的人自觉地吸引着社会大众的行为选择,在舆论演化过程中,这些人被称为“舆论领袖”,具有榜样的力量。
  (3)“从利”行为
  从利,是指人们外在的利益驱动及偏好选择和内在的价值取向与认知情感。由于舆论客体的多样性,涉及社会舆论主体的层次广泛,其主动性,即趋利倾向往往在舆论演化过程中扮演着主导作用。
  “从利”行为之所以重要,是因为针对同一个舆论客体(社会现象或问题),其舆论主体(社会公众)由国家管理者的冲突所决定的。所谓和谐,是指各种力量在交互作用的运动中,形成的一种相互制约、相互促进、相互牵制的平衡状态。针对于舆论主体和国家管理者之间,基于“从利”行为的舆论就是一把双刃剑。从国家管理者角度,舆论的监督和调控可多从社会公众的利益导向人手;而新闻媒体作为国家管理者的舆论宣传工具,若谋取或包庇当权者的非正当利益,或触及和不顾社会民众的正常利益必将引起民众的舆论或过激行为。
  2.3.4舆论演化的概念建模
  假设:有N个舆论主体,个体i的意见表达为,其中。
  定义1:舆论演化的三要素涉及:社会公众的行为选择;E:舆论的环境;t:舆论演化的时间},表达如下:
  其中,Y是围绕着发生的社会现象或事件的舆论演化度。
  定义2:社会公众的行为选择包括{S:个体偏好选择;:个体间的相互影响},表达如下:
  定义3:社会个体行为偏好选择基于{c:“从众”行为;p:“从上”行为;r:“从理”行为;l:“从利”行为},表达如下:
  其中,个体i在上述几种行为的影响下,t时刻和t+1时刻之问会形成自己在舆论演化过程中坚持原有意见的能力。
  舆论演化或传播是每个个体的不断选择或(被)说服的过程,最终表现形式是群体(或部分群体)行为的一致性。因此,可借用万有引力定律的思想,以体现个体间在t时刻和t+l时刻的交互影响下的行为变化。具体表达如下:
  其中,k是常系数;表示个体i和个体j的距离;描述个体i和个体j之间的一致性。,
  若则个体i和个体j意见一致,个体i持有原有意见;
  若则个体i和个体j意见相左,则:
  当时,个体i仍能持有原有意见;
  当时,个体i改变原有意见。
  定义4:舆论的环境有{E。:外部环境;E,:内部环境},表达如下:
  其中,外部环境包括相关的法律法规、媒体导向等;内部环境涉及已有的约定俗成或宗教信仰等。
  舆论的内外在环境在舆论的形成及其演化过程中起着至关重要的作用。2003年的SARS事件,初期由于信息渠道的不统一、不畅通、不确定,致使社会公众对自己的生存环境表示担忧、焦虑,甚至恐慌。据严三九、徐晖明等的调查结果显示:SARS初期,广州市民对该疾病的传言,有56.1%的人半信半疑,有20.3%的人确信不疑,基本不信和毫不相信的人分别占10%和7.9%,两者之和低于确信不疑的人。人们基本盲目地“从众”跟风,发布谣言,被谣言所迷惑,在此期间的人际互动过程中,谣言压倒性地占据了多数意见,人们更加坚信谣言。之后经有关部门的多方努力和主流媒体的多次辟谣的报道,逐步树立了良好的舆论环境,纠正了舆论的导向,社会公众渐渐趋于理性,可以“从理”、“从上”的看待问题,使谣言最终破灭。
  2.3.5舆论演化的建模仿真
  舆论的演化过程是基于个体在意见“场”中的不断选择,最终表征为群体行为的涌现。研究这类复杂问题或者非结构问题,建模是一种基本的手段。综合集成方法强调复杂问题求解或者复杂系统建模需要有多种视角,力求形成对问题的较为完整的想定。根据R.L.Aekoff等(1968)所提出的建模基本原则,以及近年来复杂系统研究所采用的各种方法,顾基发等(2007)总结了以下6种建模策略和方法:
  (1)基于机理的建模,如计量经济模型和投入产出模型。
  (2)基于类比的建模,如基于案例的推理分析等。
  (3)基于规则的建模,典型的如复杂适应系统理论中的基于主体的建模。
  (4)基于数据的建模,如各种统计模型、系统重构模型等。
  (5)基于演化的建模,如系统演化模型等。
  (6)基于学习的建模(modeling by learning),如基于数据挖掘和知识发现的各种模型、人工神经网络模型等。

  第三章关键技术

  互联网用户情绪表达研究的主要目标是在主题发现和追踪技术的基础上,通过自动发现和深入分析的方式综合展现当前的互联网用户的情绪倾向,其主要研究内容包括:特点舆情热点的自动发现、关键词和摘要提取、互联网用户对特定舆情情绪的倾向性分析、传播分析、互联网用户情绪趋势分析和关联分析等。

  3.1舆情热点的自动发现

  舆情热点自动发现是基于主题检测技术帮助人们应对信息过载问题的研究,以新闻、论坛、博客等媒体网页作为处理对象,自动发现新出现的舆情热点,并将涉及某个热点的报道组织起来以某种方式呈现给用户。其目标是要实现按热点查找、组织和利用来自多种信息源的多语言信息。本技术可以提高舆情监测的综合性,实现对多种来源、多种形式舆情的综合性分析和监测能力,为全面掌握新闻、论坛、博客等各种网络传播媒介的舆情热点、传播动向、趋势分析等提供基础,从而提高舆情监测的全面性和精确性。
  世界各国普遍重视网络热点信息发现、网络信息形成传播机制等方面研究的关键技术。目前关于网络舆情热点的研究主要如下两个方向:
  一是基于自然语言处理技术——词频统计方式的研究,涉及的技术有未登录词的识别、中英文分词。针对快速发现热点话题的问题,参考文献[8]对日本最大的BBS系统进行了分类研究,基于BBS的共享目标(Shared Goals)、信息互惠(Reciprocity)、共享环境(Shared Context)等多种度量指标,提出了使用多维向量来度量话题活性的话题活性测量方法。这种研究方法无法对大量的话题在不基于历史信息的情况下,快速发现讨论热点,均具有较长的时间滞后性或较高的计算复杂度。
  二是从数据挖掘的角度考虑热点信息的发现,利用复杂网络的特性对信息进行分类和聚类。热点发现算法本质上来说是属于数据挖掘中的文本聚类算法,发现热点的质量与文本聚类算法本身的特性以及算法应用中的各种阈值的设置是密切相关的。因为传统的文档聚类需要很多的参数,而没有有效的方法调整这些参数,并且在热点话题的识别中没有先验知识来构造一个好的排序函数来对话题排序,且还很难决定话题热的阶段,中国香港中文大学的Gabriel Pui和CheongFung提出了参数自由的热点话题识别方法。这种方法通过特征分布确定某一个时间单元热的特征单元,然后把这些特征分组成热的话题,并根据特征的时间窗口确定话题热的阶段。北京邮电大学的罗亚平、王枞等认为传统的网络热点话题发现方法仅仅考虑了媒体关注度对形成热点话题的影响,忽视了热点话题的产生与社会大众的关注有密切关系,进而提出基于话题关注度和用户浏览行为的热点话题发现模型,但这种模型中的相关参数很难获取。
  另外,识别出热点话题后,如何对它们进行描述也是热点话题发现的一个研究重点。在话题的显示方面,国内外没有相关的研究,但是可以改进TDT和信息提取中的相关研究方法。

  3.2舆情热点的关键词和摘要提取

  舆情热点的关键词和摘要提取就是自动对舆情热点的文档集合摘取精要或要点,其目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的内容描述。而关键词和摘要都是描述一篇文章或一个文章集主要内容的重要部分,不同之处在于摘要中提供的是语义连贯的句子,而关键词抽取的是彼此独立的词汇。本技术可以为文档或文档集生成高质量的关键词或摘要,方便用户浏览检索结果或文档集合,了解文档或文档集内容。人们希望从海量文本中快速准确地获得自己感兴趣的内容,这是信息检索领域目前迫切需要解决的问题。然而现在的信息检索系统只能提供给用户检索到的文档全文,因此,人们提出了通过关键词和摘要为用户提供简明扼要的内容描述。关键词是简要描述一篇文档内容的重要元数据,用户可以通过关键词迅速了解文档的内容,从而判断文档是否是自己感兴趣的话题。自动关键词技术不但可以满足应用需求,而且是其他方向研究的基础,为改进其他工作的质量起到了很大的作用。例如关键词提取是文本信息检索技术的基础,文本信息检索技术利用每篇文档中的关键词形成对文档的索引,然后根据这些索引检索出满足条件的文档。因此,形成一个有效、正确描述文档的索引是文本信息检索的关键,而这些索引的来源正是从文档中提取出来的关键词。
  同关键词一样,摘要也是描述一篇文档主要内容的重要部分,不同的是摘要中提供的是语义连贯的句子,而不是彼此独立的词汇。根据处理的文档的维度(Dimension),摘要可以分为单文档摘要和多文档摘要:单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。根据摘要所采用的方法,一般情况下,自动摘要技术大致可分为基于统计的摘录式摘要和基于意义的理解式摘要两类方法。其中这两类方法的处理对象都可以是单文档或是多文档,实现技术也可以是有指导的或是无指导的。基于统计的摘录式摘要,也称机械摘要,最终摘要的内容完全是原文档内容的部分拷贝。基于统计的机械文摘是将文本看作句子的线性序列而将句子视为词的线性序列,通过利用一些统计学方法和语言学特征进行文摘的生成,主要是根据线索词词典、词频、词和句子的启发函数进行模式匹配提取摘要。目前,摘录式摘要基本上是以句子为提取单元的,因为基于句子的提取方法尽管可能会使句间存在不连贯,但句子本身是保持一致性和连贯性的;基于段落的提取会造成提取出的摘要冗余度较大,并且摘要的长度难以控制。基于意义的理解式摘要,主要是利用自然语言处理技术对文档进行浅层或深层的理解,用句法和语义知识、一阶谓词逻辑等理论对文章的内容在理解的基础上,对其中的词项、句子进行重组或替代来形成摘要。基于意义的理解文摘在过程中模仿了人工摘要的过程,应用了词、句、段及篇章的知识,因而使生成的文摘具有一定的连贯性和语句完整性,可读性高。但它需要较成熟的人工智能技术和大型的专家知识库,对文章进行深层的句法和语义分析,因而只能应用到某些特定题材的、文体和内容具有相当可预见性的文章中,文摘质量并不十分令人满意。

  3.3互联网用户情绪的倾向性分析

  由于网络的虚拟性和匿名性,使得网络文本内容在大多数情况下真实地表达出了民众的态度或情绪,通过倾向性分析可以明确网络传播者的意图和倾向。通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。舆情热点的倾向性分析是指对热点内的文档或回复信息进行倾向性分析,通过分析文本内的褒义词和贬义词并结合上下文进行语境分析,或者通过基于机器学习的倾向性分析算法,从而计算出文档或回复的倾向性因素。在得到倾向性因素的同时,可以加权给出每篇文档的倾向性因素度量值,再按时间统计出该热点的倾向性指标的总体变化以及某一段时间范围内的倾向性指标增量。当倾向性指标超出某一安全范围时可以给出提示信息,用于舆情信息的提前预警。
  近几年,基于文本的互联网用户情绪倾向性分析的研究逐渐成为国内外研究者的一个热点。互联网用户情绪倾向性分析指通过计算机技术自动分析文本信息所包含的情感因素,倾向性分析是一门交叉学科,涉及自然语言处理、机器学习、文本挖掘、人工智能、语言学等诸多领域。与以前传统的人工处理方式相比,通过计算机自动提取大众对某一问题的看法或舆论倾向是一个新的实时收集和分析信息的方法。它的优势如下:可以高效的处理信息,从而能够应对互联网上日益泛滥的海量数据;可以处理非结构化的文本数据,拓展了数据挖掘的处理对象。正是由于情感自动分析的这些优势,它有着众多的潜在应用领域。
  至今为止,国内外所从事的网络文本倾向性分析研究工作可归纳为以下几个方面:
  (1)客观性分类:从Web上获取的评论文档按照类型和风格的不同区分为主观和客观两类,这类工作以Finn等人为代表,其结论是基于词性标注的特征选择方法比词袋方法效果好。Wiebe等人对人工标注的语料从短语、句子和篇章层次进行研究,发现对于不同的标注者,其主观性的判别有较大差异。
  (2)词的极性判别:即通过分析带有语气渊的特征来判断词的极性。Hatzivassiloglou和McKeown使用关联词(如公平并合法,简单却受欢迎)来区分含义相近或相反的词。Turney和Littman提出了一种方法,他们使用AltaVista中的NEAR运算从Web上搜索得到两个词同时出现的次数,以此来决定两个词的相似程度,一个新词归属于正面语气还是负面语气,取决于它和手工选择的正面(或负面)种子词集合中所有词的关系,这类工作和常规的词聚类问题有一定的关联。Lin和Pereira等人使用语言学同位关系把用法和意义相似的词进行了归类。
  (3)语气分类:
  ①基于语气标注的方法:加拿大渥太华大学的Kennedy、加拿大国家研究委员会的Turney等提出语气词标注方法,对常用词汇进行语气标注,如(“好”标为正面,“坏”标为负面)。分类时直接统计一篇评论中的正面与负面语气词的个数,正面语气词多则判为正面,负面语气词多则判为负面,相等则判为客观。
  ②基于语义模式分析的方法:Tetsuya Nasukawa和Jeonghee Yi等通过识别特定主题词和语气表达式之间的语义关系进行倾向性分析。Jeonghee Yi等人采用自然语言处理技术分析特定主题和语气词之间的语义关联。
  ③基于机器学习的方法:其思想是直接利用传统的机器学习方法来训练语气分类器。康奈尔大学的Lillian Lee和Pang Bo等人以Usenet上的电影评论作为语料进行了研究,采用了不同的特征选择方法和机器学习方法。其实验结果显示,基于presence–based frequency模型选择UniGrams的方法,并采用Support Vector Machine(SVM)进行分类,能取得最好的分类结果,其准确率为82.9%。
  倾向性分析面临的主要问题是目前的大部分方法和技术都和领域或话题相关,局限在某个特定领域或者关联于某个话题下进行倾向性的分析,缺乏一般性的通用技术。基于语气词标注的方法严重依赖于标注专家且不利用训练样本,其分类精度往往不如基于机器学习的方法。而基于机器学习的倾向性分析方法又取决于训练集的大小与质量,同时具有很强的领域或主题依赖性,由于已有的标注语料库的规模都很小,因而这类有监督的语气分析方法的效果仍然难以保证。基于语义模式分析的方法则受限于自然语言处理技术的不够成熟而很难实用。中文倾向性分析方面的情况则更加突出,一些基本问题尚未得到圆满的解决:
  (1)各种有监督的机器学习方法在中文数据集上的语气分类效果孰优孰劣;
  (2)文本特征表示方法和特征选择机制等因素对中文语气分类的性能将产生什么影响;
  (3)文档集的哪些语气特征对语气分类的精度具有决定性影响等。
  因此,为解决上述问题,应着重研究倾向性主客观过滤技术和观点极性、强度、情感分析判别技术:研究网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建没一定规模的标准数据集,为中文倾向性分析的深入研究和公开评测提供支持。

  3.4舆情热点传播动态分析

  舆情热点传播动态分析的目标是利用新闻、论坛、博客等关联分析技术,实现对某个热点的传播趋势进行分析,用动态传播图的形式展现舆情传播的线索。舆情传播动态模块对同一热点的论坛帖文、博客文章、网站新闻进行基于时间的罚分策略计算关联程度分析,以传播网的形式给出同一主题在不同媒介之间的传播关系,结合关注程度分析得出热点的转移趋势,并以平面图、传播动画示意图展现给用户。

  3.5舆情热点的趋势分析和关联分析

  舆情热点的趋势分析和关联分析是通过三维图形下的信息挖掘模型,以波谱图的方式展现一定时间周期内的舆情变化以及舆情重点和相关关系等信息。该模块通过粗细、亮暗、分叉的方式来表达同一时期的报道信息数量、关注度、趋势等,为舆情变化判断提供一定的参考。

  第四章互联网用户情绪表达设计

  在网络时代,互联网不仅成为人们发布信息的重要媒介,而且也是人们表达观点、情绪情感的重要工具。对于相同的事物或事件,不同的人从不同视角出发,往往对其持有不同的观点和态度。例如,对于某件产品,一些用户可能因喜欢其某方面的功能或特点而对之做正面(即褒义)评价;与此同时,另一些用户也可能因为不喜欢其某方面的功能或特点而对之做负面(即贬义)评价。这些网上产品评价信息对于产品的潜在用户和商家来说,有着巨大的实用价值。一方面,用户可以通过阅读这些产品评价信息来指导自己的购物行为;另一方面,产品的商家也可以通过了解这些用户评价来改进自己的产品和服务。
  然而,用户想要全面了解互联网上对于某种事物或事件的评价无疑是一项艰难的任务。这些海量评价信息不仅在数量上难以逐一浏览,而且这些信息由于受到用户主观认识的影响,往往表现出复杂多样的特点。互联网用户情绪表达中的情感倾向分析技术正是通过让计算机自动识别海量文档集合中的主观褒贬态度,以使用户从繁重的网页浏览和信息融合工作中解脱出来。
  情感倾向分析技术使计算机通过对文本内容的处理,帮助区分文本内容是否为主观评价性内容,进而识别这种主观评价是褒义还是贬义。在近年来的情感倾向分析研究中,也开始关注如何识别情感评价的主体及评价对象。基于机器学习的文本分类、聚类等技术在情感倾向分析研究中得到了广泛的运用。

  4.1中文信息的特征抽取

  4.1.1文本信息的特征抽取和选择
  文本的表示及其特征项的选取是互联网用户情绪倾向分析的一个基本问题,它把从文本中抽取山的特征词进打造化来表示文本信息。将它们从—个无结构的原始文本转化为结构化的计算机可识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用来描述和替代文木,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息,就必须首先将文木转化为可处理的结构化形式。
  目前,人们通常采用向量空间模型来描述文本向量,但是如果直接用由分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本向量不仅给后续工作带来了巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果难以令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础广,找出对文本特征类别最且代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。
  有关文本表示的研究主要集中丁文本表不模型的选掸和特征词算法的选取上。用于表示文本的基本单位通常成为文本的特征或特征项。特征项必须具备以下几种一定的特征:
  ①特征项要能够准确标识文本内容;
  ②特征项具行将目标文本与其他文本相区分的能力
  ③特征项的个数不能太多。
  ④持征项分离要比较容易实现。
  在中文文本中可以采用宇、词或短语作为表示文本的特征项。相对而言,词比字具有更强的表达能力:而词和短语相比,词的区分难度比短语的区分难度小得多。因此,日前大多数中文文本分类系统都采用词作为特征项,称为特征词。
  特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,人们简化计算,提高文本处理的速度和效率。
  文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要,以及用户兴趣模式发现、知识发现等相关方而的研究有着非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取教干个评分值最高的作为特征词,这就是特征抽取。
  特征选取的方式有以下4种:
  ①映射或变换的方法把原始特征变换为较少的新特征。
  ②从原始特征中挑选出一些最具代表性的特征。
  ③根据专家的知识挑选最有影响的特征。
  ④用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,其受人为因素的干扰较少,尤其适合于文本自动分类挖掘系统。
  4.1.2中文的语义特征抽取
  (1)汉语分词
  汉语是一种孤立语,不同于印欧语系的很多具有曲折变化的语言,汉语的词汇只有一种形式而没有诸如复数等变化。另一方面,汉语不存在显式(类似空格)的词边界标志,因此需要研究中文(汉语和中文对应的概念不完全一致,在不引起混淆的情况下,文本未进行明确区分而依照常用习惯选择使用)文本自动切分为词序列的中文分词技术。中文分词方法最早采用了最大匹配法,即与词表中最长的词优先匹配的方法。根据扫描语句的方向,可以分为正向最大匹配以及双向最大匹配等多种形式。
  梁南元的研究结果表明,在词典完备、不借助其他知识的条件下,最大匹配法的错误切分率为169字/次~245字/次。该研究实现于1987年,以现在的条件来看当时的实验规模可能偏小,另外如何判定分词结果是否正确,也有较大的主观性。最大匹配法由于思路直观、实现简单、切分速度快等优点,所以应用较为广泛。采用最大匹配法进行分词遇到的基本问题是切分歧义的消除问题和未登录词(新词)的识别问题。
  为了消除歧义,研究人员尝试了多种人工智能领域的方法:如松弛法、扩充转移网络法、短语结构文法、专家系统法、神经网络法、有限状态机方法、隐马尔科夫模型、Brill式转换法。这些分词方法从不同角度总结歧义产生的可能原因,并尝试建立歧义消除模型,也达到了一定的准确程度。然而由于这些方法未能实现对中文词的真正理解,也没有找到一个可以妥善处理各种分词相关语言现象的机制,因此目前尚没有广泛认可的完善歧义消除方法。
  未登录词识别是中文分词时遇到的另一个难题,未登录词也称为新词,是指分词时所用词典中未包含的词,常见有人名、地名、机构名称等专有名词,以及相关领域的专业术语。这些词不包含在分词词典中又对分类有贡献,就需要考虑如何进行有效识别。
  未登录词识别可以从统计和专家系统两个角度进行:统计方法从大规模语料中获取高频连续汉字串,作为可能的新词;专家系统方法则是从各类专有名词库中总结相关类别新词的构建特征、上下文特点等规则。当前对未登录词的识别研究,相对于歧义消除来说更不成熟。
  (2)汉语亚词
  在亚词级别,汉语处理也与英语存在一些不同之处,一方面,汉语中比词级别更低的文字组成部分是字,与英文中单词含有的字母数量相比偏少,词长度以2~4个字为主。对搜狗输入法中34万条词表进行统计,不同长度词所占词表比例分别为两字词35.57%,三字词33.98%,四字词27.37%,其余长度共3.08%。
  另一方面,汉语包含的汉字数量远远多于英文字母数量,GB 2312一1980标准共收录6763个常用汉字(GB 2312—1980另有682个其他符号,GB 18030—2005标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字),该标准还是属于收录汉字较少的编码标准。在实际计算中,汉语的二元模型已超过了英文中5元模型的组合数量,即67632(45738169)>265(11881376)。
  因此,汉语采用n元模型就陷入了一个两难境地:n较小时(n=1),缺乏足够的语义表达能力;n较大时(n=2或3),则不仅计算困难,而且n的取值已经使得n元模型的长度达到甚至超过词的长度,又失去了英语中用于弥补错误拼写的功能。因此汉语的n元模型往往用于其他用途,在中文信息处理中,可以利用二元或三元汉字模型来进行词的统计识别,这种做法基于一个假使,即词内字串高频同现,但并不组止词的字串低频出现。
  在网络内容安全中,n元模型也有重要的应用,对于不可信来源的文本可以采用二元分词方法(即二元汉字模型),例如“一二三四”的二:元分词结果为“一二”、“二三”和“三四”。这种表示方法,可以在一定程度上消除信息发布者故意利用常用分词的切分结果来躲避过滤的情况。
  4.1.3特征子集选择
  特征子集选择从原有输入空间,即抽取出的所有特征项的集合,选择一个子集合组成新的输入空间。输入空间也称为特征集合。选择的标准是要求这个子集尽可能完整的保留文本类别区分能力,而舍弃那些对文本分类无贡献的特征项。
  机器学习领域存在多种特征选择方法,Guyon等人对特征子集选择进行了详尽讨论,分析比较了目前常用的3种特征选择方式:过滤(filter)、组合(wrappers)与嵌入(embedded)。文本分类问题由于训练样本多、特征维数高等特点,决定了在实际应用中以过滤方式为主,并且采用评级方式(Single Feature Ranking),即对每个特征项进行单独的判断,以决定该特征项是否会保留下来,而没有考虑其他更全面的搜索方式,以降低运算量。在对所有特征项进行单独评价后,可以选择给定评价函数大于某个阈值的子集组成新的特征集合,也可以评价函数值最大的特定数量特征项来组成特征集。
  特征子集选择涉及文本中的定量信息,一些相关参数定义如表4-1所示。
互联网用户的情绪表达方法研究
  4.1.4特征重构
  特征重构以特征项集合为输入,利用对特征项的组合或转换生成新的特征集合作为输出。一方面,特征重构要求输出的特/征数量要远远少于输入的数量,以达到降维目的;另一方面,转换后的特征集合应当尽可能的保留原有类别区分能力,以实现有效分类。与特征子集选择相比较,特征重构生成的新特征项不要求对应原有的特征项,新特征顶可以是内原米单个或多个特征项经某种映射关系转换而成的。这种转换规则需要保存下来,以便于对新的样本也进行同样的转换,以得到这样本所对应特征重构情况的表木形式。
  特征重构有基于语义的方法,如词干与知识库方法:也有基于统计等数学方法,如潜在语义索引。
  4.1.5向量生成
  向量生成将给文字特征项赋予合适的权重,与向量生成相关的一些参数定义:设共有m项特征,对给定样本d,有每一个特征出现的频率次数组成特征频率向量T,其中表示在样本d中出现的次数,向量生成环节在此基础上的权重向量T
  一个样本中某些特征项的权重由局部系数、全局系数和正规化系数3部分组成。

  4.2基于粒网络生成规则的文本情感识别

  基于粒计算的文本情感识别模型分为以下两个模块:
  4.2.1文本预处理模块
  用于对情感文本训练集进行预处理,包括提取情感候选词、特征词提取、文本向量表示。首先将260篇训练文本用中科院中文分词系统ICT—CLAS分词。
  (1)提取情感候选词。传统的基于主题的文本分类是以文本训练集作为输入,由于在文本情感分类中具有情感倾向的词具有主导作用,所以GRCSC模型加入了知网的HowNet正面情感词库、负面情感词库、正面评价词库、负面评价词库作为输入,提取情感文本训练集中的情感词和评价词作为特征选择的候选特征词。
  对比观点:例如,这款相机的画质比camera-x好。进行这类情感分析时,首先要确定观点的目标对象是谁。在这个例子中需要用到指代消解确定这款相机指哪款照相机。
  有时候,作者将情绪和事实一起来表达,如“3寸的液晶显示屏取景非常细致清晰”。用户的所表达的情绪和具体的特征是分不开的。
  除了这些经典的问题外,在针对社会媒体的情感分析中,我们面临更多的挑战。例如,并非所有的与主题相关的用户为中心的内容都是重要的,只有其中少部分引起关注和讨论,甚至进而影响其他用户的观念和行为。因此,评估它们的影响力和预测它们是否得到关注具有重要的应用价值。
  除此以外,不合理地利用社会媒体的影响力也值得我们关注。制造事端打击竞争对手,恶作剧心理造谣生事,收受商家好处为特定产品夸人宣传都是典型的误导公众行为。
  首先从文本中抽取描述对象的特征。例如,针对汽车的用户体验信息,关于操控性、舒适性、油耗、内饰、配置等方面的评价被分别抽取列出,因此可以收集到不同用户关于同一特征的描述并在不同品牌、不同时间段、不同用户群的范围内统计加以比较评估,这样的数据能直接地、准确地反映用户的消费情况和市场反应。再次,需要评估一个用户言论的内在价值和预测将来的关注度。从实务操作上来说,有些重要的言论和事件在几个小时内就会引起广泛的关注。相关的厂家可以及时发现和跟进这种对其产品销售和品牌形象具有重要影响的言论。
  为了获取标注好的文本倾向,可以从评论网站(比如豆瓣网、卓越、携程等)抓取所有的评论,这些评论用星级评价来代表褒贬度。
  常见的具有语义倾向词语的词性及示例如表5一10所示。
  事实上,对一篇文章而言,它表达的情感的正面或负面是通过主观语句体现出来的,如“产品质量好!”。但是像“它的售价刚好是¥50元!“这样的客观语句,虽然有“好”这一特征词,但并不表达任何情感。如果能区分一篇文章中的主观语句和客观语句,只对主观语句进行特征选择,会对分类的准确率有很大提高。
  互联网用户搜索系统使得用户能够查找关于一个对象的评价观点。典型的观点搜索查询包括以下两种类型:
  ①搜索关于一个特定对象或对象特征的观点。搜索用户只要简单给出对象和/或对象的特征即可。
  ②搜索一个人或组织关于一个特定对象或者对象特征的观点。用户需要给出观点拥有者的名字和对象的名字。
  判断用户的情绪取向是喜欢、不喜欢还是中性的。通过对大量用户的感情
  取向进行统计,我们可以了解用户对特定产品的好恶,甚至对具体的某个特征(如数码相机的镜头、电池寿命等)作出直接的判断和比较。
  开源项目LingPipe包含了情感识别的实现。LingPipe从主客观混合文本语料中抽取表示主观性的文本,可以把电影评论分成正面评论和负面评价。
  LingPipe主要实现了两种分类问题:
  ①主观(情感)句和客观句识别:
  ②正面(喜欢)或负面(不喜欢)评价。
  近年来,基于情感的文本分类逐渐被应用到更多的领域中。例如,微软公司开发的商业智能系统Pulse,它能够从人量的评论文本数据中,利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统Opinion Observer利用网络上丰富的顾客评论资源,对评论的主观内容进行分析处理,提取产品各个特征及消费者对其的评价,并给出一个可视化结果。

  5.1确定互联网用户用词的褒贬倾向

  在词汇的褒贬计算时,会遇到如下问题:如何发现以及判断潜在的褒贬新词。要不断地扩充我们的褒贬词库,这样才能够使后续的判断尽可能地准确。通常一个小的褒贬词库在词汇的覆盖程度上并不尽如人意,但如果要穷尽所有的褒贬词汇也非易事,如何去发掘潜在的褒贬词汇,是我们亟待解决的难题;对于一些同义词,它们的褒贬性可能相反(如“宽恕”和“姑息”),我们可以根据现有的褒贬词库和同义词库进行同义词拓展,确定这些极性相反、词义相同的词汇的褒贬。
  以下方法不仅能够分析出词的褒贬性,还能够给出该词的褒贬强度。而且,对于同义词的褒贬的扩展也具有一些效果。具体步骤说明如下。
  ①我们从网络以及现有的褒贬词典中收集出一定数量的褒贬词汇(数量≥1000)作为种子词库。
  ②对该词库进行词频统计,分别计算出每个单字在褒贬词库中的频率,根据公式计算出每个单字的褒贬性。
  ③根据公式计算出每个词汇的褒贬性。
  具体公式如下:
  其中,代表字ci在褒义词库中的词频,代表ci在贬义词库中的词频,和分别表示该字作为褒义词时的权重和贬义词时的权重。
  由于褒贬词库在数量上并不一定一致,我们对上述公式修正如下:
  其中,n和m分别代表褒贬词库中不同字符的个数。
  上式代表字ci的褒贬倾向。
  对于由p个字符c1,c2,L,cp构成的词语w,其褒贬倾向Sw定义如下:

  5.2实现语句的情感识别

  识别语句的极性与星级评分的流程说明如下。
  ①关键词匹配。
  ②模板提取。
  ③模板匹配。
  ④计算极性与星级评分。
  将词语分为以下5类:
  直接能表达出褒贬倾向的词汇,包括一些名词、形容词、副词和动词,例如:精彩、荒诞。
  表示程度的副词,例如:很、非常。
  否定词,例如:不、没有。
  表示转折的连词,例如:但是、却。
  某些合成词,即按分词的结果拆开单独看不带情感,但是整体带有情感倾向的词组。例如:创世纪,分词系统将它分成两个词,这两个词分别出现并不带有褒贬倾向,而当同时出现时,则带有一定的褒义倾向。这样的词还有“载入史册”等。
  设计标注格式为:用[a,c,d,n,v,p,i]表示词性;用[1,2,3,4,5]表示类别:用[+,-,#}表示极性(褒贬性)。用[1,2,3,4,5]表示程度。
  原始文本是:这部电影很精彩
  分词结果是:这/r部/q电影/n很/d2精彩/a1。/w
  标注结果是:这/r部/q电影/n很/d2#2精彩/a1+2。/w
  其中,很/d2#2表示程度副词,本身不具有褒贬性,对于褒贬性的影响因子为2。而精彩/a1+2则表示形容词,具有褒义情感,情感程度为2。
  匹配模板,得到关键词序列:很/d2#精彩/al+2。
  在模板匹配成功之后,需要根据一定的规则计算出整句文本的褒贬倾向。这个规则的设定需要在一定程度卜体现出语法规则,否则将很容易导致计算出的整个语句的情感倾向错误。例如,程度副词既.可能出现在其中心词的左侧,也可能出现在其中心词的右侧(“很好”、“好得很勺。木系统文木褒贬倾向计算规则设定如下:
  ①根据模板从文本中取出所有模板成分对应的词,去掉不相关的词,组成一个序列。
  ②第一遍扫描序列,找到所有程度副词(类别为2),将其程度值乘到模板中离其最近的一个1类词的程度值上(考虑到副词可能位于其中心词的前面或者后面,所以这里的“最近”是前后双向查找,同时由于副词在前的情况比较多,所以前向查找的优先级高)。具体的处理是标注程度为3的因子为1.5;程度为2的因子为1;程度为1的因子为0.5。
  ③第二遍扫描序列,找到所有否定词(类别为3),将其往后碰到的第一个1类词的褒贬性取反。
  ③第三遍扫描序列,以转折词为单位将序列分成几个小部分,对每个小部分累加其1类词的褒贬倾向值。然后按转折词类型的不同乘以转折词相应的权值口让步型如“虽然”,对应部分要减弱;转折型如“但是”,对应部分要加强。最后各部分相加得到文本的褒贬倾向位。计算“这部电影很精彩”得到的褒贬倾向值为2,即最终判定为褒义评论。

  5.3互联网用户情绪表达

  5.3.1极性情绪发现
  评论的情感强度反应了网民对参与话题的情感强度,对于那些包含强烈感情评论的话题,互联网用户情绪表达系统需要给予更多的关注。一般称这些强烈感情评论占有较大比例的话题为极性话题,相应地称正面的强烈感情评论占有较大比例的话题为正极性话题,负面的强烈感情评论占有较大比例的话题为负极性话题,并建立相应的发现模型。
  按照评论的情感因素把评论分为弱极性和强极性两种,用强极性评论在所有评论中占有的比例作为整个话题的极性,即
  相应地建立正负极性情绪的发现模型:
  在系统设定一个规模阈值日,就可以发现热点话题中的极性情绪。
  5.3.2对立情绪发现
  热点话题之间并不是完全类似的,在有的话题中评论者之间的关系是融洽的,他们发表的评论大多具有一致的倾向性,他们仅仅对于该主题比较感兴趣而参与讨论;而在另一些话题中,评论者之间往往体现出尖锐的对立性,双方各执一词,争论不休,一方对当前话题的内容表现出支持的态度,另一方对当前的话题内容表现出反对的态度。于是在评论中体现出了很强的对立性。为了表示这种对立性,引入了观点对立度的概念。
  定义:参与评论的网民之间评论倾向性的离散程度或者说两种极性观点对立的程度称为观点对立情绪度。
  观点对立情绪度具有以下几个特点:
  (1)与极性评论比例成正比,极性评论越多,对立度越高;
  (2)与中性(无关)评论比例成反比,中性(无关)评论越少,对立度越高;
  (3)与评论倾向程度相关,倾向性越明显,对立度越高。
  与对立评论双方数量规模相关,双方规模越接近,对立度情绪越高;规模越悬,对立情绪度越低。
  根据上述特点,建立如下数学模型:
  引入表示:
  (1)倾向性权重值,k后为模型中倾向性程度级别数目。是第k级倾向性权重值。
  (2)各级别评论数目其中帆表示负极性为第后级的评论的数目;表示正极性为第k级的评论的数目。
  其中,第一个除式的分子是加权倾向性和,分母是总的评论数目。第二个除式相当于一个修正因子,只有当正负极性加权值相等时,才达到最大值1,否则如果只有一方的评论数目大,另一方很小,则最后的观点对立情绪度数值就会比较小。

  第六章论文总结

  近年来,网络信息量和用户访问量都以前所未有的速度增长着。在这种形势T,网络舆论究竟会对现实社会产生什么样的影响,已经得到了人们的广泛关注。目前,互联网环境下的舆论研究已经成为系统科学、社会物理学等领域的研究热点。由于互联网的分散性、去中心性等复杂的性质,给传统的舆论研究方法带来了不小的挑战。因此,研究互联网信息的传播趋势、网络舆论的演化机制,分析用户的情绪表达规律及内在动机,具有重要理论和实际意义。
  本论文主要是征对网络舆情分析,研究互联网用户情绪分析。所作的工作如下:
  (1)通过文本表示,一篇文本可以转换为适合文本分类算法的输入形式。经过文本格式转换,确定特征项后,还需要确定用哪些特征项来表示文本,以及如何确定各对应特征的权重。
  文本特征抽取和选择的质量对随后的文本处理算法,得到理想的结果有重要的影响:良好的文本方式方法可以降低数据的存储需求,提高算法的运行速度;理论分析及后续实验也表明,去除对分类无关的噪声届性,可以提高分类准确率;降低维数也有助于以后对新到文本提取特征时,提高速度;降维后的数据,也更容易为人所直观理解分类依据及进行数据可视化展示。综合多方面,选择合适的文本表示方法能有效降低文本分类的难度。
  文本特征抽取和选样的各环节有着直观的意义,们如付妥善地结合在一起,仍然是个值得讨论的问题。每个环节对于后续环节来说,都是某种程度上的信息损失。这些损失的信息既包含对小影响分类的噪声信息,也包含厂部分对分类有影响的有用信息,因此需要考虑具体如何取舍,而且由于文本分类本身特征维数高,在训练样本多的情况下,一些适合低维情况下的机器学刘优化技术不再能直接使用,也进一岁加剧了这种选择的困难程度。
  (2)先研究了粒度计算在文本分类中的应用,在ID3算法的基础上进行扩充,将形式概念分析和粒运算结合,提出一种通过建立粒网络生成分类规则的方法进行分类。利用定义的语言集L描述概念的两个方面:内涵和外延,概念的内涵用一个语言公式来表示;概念的外延表示为符合这个公式的一个对象集合,既而构造一个粒。粒网络的建立是一个自顶向下的粒搜索过程,从最大的粒提取较小粒,直到产生属于同一个预定义类的粒,即最小粒。最小粒就是论域中可定义的合取粒。最小粒的族就形成了一个由可定义合取粒组成的覆盖。粒网络的建立得到分类规则,从而实现文本情感识别。

  参考文献

  [1]F.Fu,L.H.Liu,and L.Wang.Empirical analysis of online social networks in the age of Web2.0[J].Physica A,2008,387:675-684
  [2]A.Java,X.Song,T.Finin,and B.Tseng.Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis San Jose,California,2007 ACM 56.
  [3]H.Kwak,C.Lee,and H.Park.What is Twitter,a Social Network or a News Media?[C].International conference on World wide web(WWW),2010.
  [4]M.Cha,H.Haddadi,R Benevenuto,and K.P.Gummadi.Measuring user influence in Twitter:the million follower fallacy[C].Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media Washington DC,USA,2010,10-17.
  [5]B.Suh,L.Hong,P.Pirolli,and E.H.Chi.Want to be Retweeted?Laige Scale Analytics on Factors Impacting Retweet in Twitter Network[C]2010 IEEE Second International Conferenceon Social Computing(SocialCom),California,USA.
  [6]D.D.Han,J G Liu,and Y.G Ma.Fluctuation of the Download Network[J],Chinese Physics Letters,2008,25(2):765-768.
  [7]贺筱媛,胡晓峰.网络信息传播动力学建模研究[J].系统仿真学报,2010,11:2511-2514+2518.
  [8]Matsumura,N,et a1.The Dynamism of 2channel[J].Journal of AI&Society.Springer Ver—lag.2005,19(1):84—92.
  [9]吴彤.耗散结构理论的自组织方法论研究□.科学技术与辩证法,1998,15(6):19-24.
  [10]单晓云.耗散结构的特征[J].广西师范大学学报,2002,20(1):94-96.
  [11]张現明,冷冰.耗散结构及其在生物医学方面的应用[J].医学物理,1992,9(1):4648.
  [12]张铁男,程宝元,张亚娟.基于耗散结构的企业管理摘Bnisselator模型研究[J].管理工程
  [13]苏凤环,自组织临界性理论与元胞自动机模型的研究[D].四川,西南交通大学博士论文,2006.
下载提示:

1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。

2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

原创文章,作者:写文章小能手,如若转载,请注明出处:https://www.447766.cn/chachong/10350.html,

Like (0)
写文章小能手的头像写文章小能手游客
Previous 2021年1月31日
Next 2021年4月13日

相关推荐

My title page contents