绪论
1.1课题来源
自选课题
1.2课题的目的、意义
1.2.1背景
1.2.1中国大学生心理问题的现状
目前我国正处于快速发展时期,国内外文化不断冲击,社会竞争加剧,当代大学生,由于学业、爱情等压力的加大,有时会产生抑郁,焦虑等心理健康问题。若长时间得不到疏导,会引发身体疾病,甚至会走向极端。比如2016年初,南京邮电大学研三学生蒋华文跳楼身亡,2018年初武汉理工大学研三学生陶崇园跳楼自杀,北京邮电大学研三学生孙腾霄跳楼自杀等等,即毁掉了自己的一生,也给家人带来无尽的悲痛,给学校也会造成负面影响。假如平时心理健康教育到位,学校能经常了解他们的想法,安慰他们心理,及时沟通并能给予及时的解决,相信很多悲剧就不会上演。但是由于学生众多,人力有限,缺乏及时的关怀也是可以理解的。
大学生是祖国的未来和希望,自身的心理素质也处于一个不断发展的时期,他们思维活跃,头脑清晰,但有时情绪波动较大,缺乏自控力,面对挫折时有时难以自我调节。
虽然学校也有心理咨询中心,并投入了很多人力来加强学生心理健康教育,近些年了也取得了不少的进步,但由于很多同学并没有充分利用心里咨询的机会,有问题和想法还是通过其他渠道和形式得以排解,甚至有些人性格孤僻无处诉苦,乃至走向极端。由于高校缺乏大学生心理健康的准确数据,这给大学管理工作带来了挑战。
大学生对社交媒体的使用和进行的心理健康咨询是有限的。Elli-son等人在一个研究中发现,大学生使用Facebook与创造社会资本之间存在正相关。同样,Manago等人发现社交网站能持续地满足大学生社会心理需求。其他研究发现,社交媒体的使用可能会促进发展亲密关系,比如大学生之间友谊的维系。此外,与朋友交流可能会帮助解决一些大学阶段同学遇到的问题。我们通过分析心理健康数据,来检验大学生社交媒体与心理健康的关系。
我们的其他工作是,做了对社交媒体的内容分析,特别是通过语言线索和对话模式,采用了新的机制来规避心理健康的风险,包括抑郁症,药物滥用,孤独,进食障碍和其他心理健康障碍。我们通过开发一种自动化机器学习方法来对这一工作进行扩展,这种方法可以通过社交媒体对于大学生群体这一样本进行心理健康分析。
1.2.2心理咨询普遍的问题
当前国内高校大学生心理咨询工作与过去相比取得了长足的进步,但仍然不容乐观,主要表现在如下个方面
第一,虽然高校心理咨询逐渐受到重视,发展较快,但是起点低、面较窄、重复研究多,离实际需求还很远,仍难以满足大学生的心理需求。
第二,各地区、各高校对心理咨询的研宄不平衡。一般来说,沿海地区、
一线城市的院校及重点大学比较重视,而在部分偏远地区相对比较滞后。
第三,我国心理咨询起步较晚,心理咨询专业人员严重缺乏。心理咨询专家在我国刚刚出现,现有的高水平心理教师又偏少。如:浙江大学的调查中显示,在所高校心理咨询机构中,共有咨询员人,平均每校人。而事实上,这些咨询教师中极大多数为兼职人员,兼职人员又有一部分人只是挂名和偶尔参加咨询活动。
1.2.2目的
通过对互联网上社交内容的爬取和分析,进行大学生心理健康研究。
1.2.3意义
国内高校学生心理问题日益严重,而高校中专门从事学生心理健康教育的老师却很少。在不增加人力成本的条件下,通过计算机辅助我们做好校园内学生心理问题的筛查工作,并及时提出预警,十分重要。传统计算机心理研究以专家系统为基础,这需要参与者配合,对于不愿提及的内容会进行掩饰,或者躲避,得出的结果误差很大,不适合做预测用。
随着因特网的飞速发展,以微博为代表的社交媒体成为人们发泄情感的平台,可以作为我们研究的切入点。若采用人工识别的方法,在大量微博信息中寻找重点关注的对象,会耗费大量的人力,而且准确性也不高。
在这里我们可以利用社交媒体的数据,来量化大学生心理健康程度,以此作为评估大学生心理健康的“晴雨表”。如果仅仅用人工登录社交媒体把我学生动态,面对海量的数据,显然人手是不够的。在这里我们采用爬虫技术,能显著帮我们减少数据采集和挖掘的工作量,也使准确率也有较大的提升。而且本研究工作对于改善学校心理教育工作也有很大的意义,将会给很多大学生带来心灵上抚慰。
1.3国内外基本研究概况
1.3.1微博的影响
在微博出现以前,互联网只是搜索信息的地方,缺乏互动性。微博出现以后大大改善了这个局面,可以通过关注,评论,转发等表示对他人的态度,有较高的互动性。
微博兴起,从平民到精英,从白领到官员,人人争戴“围脖”。中国互联网络信息中心(CNNIC)的统计数据显示:2011年上半年,中国微博用户数量从6311万增长到1.95亿,半年增幅达208.9%,在网民中的使用率从13.8%提升到40.2%。作为一种社交工具,因其表达的便捷和沟通的方便,已经超越了其作为一种工具和平台的技术意义,而改变着中国的舆论传播生态和言论生态。转发影响时事,围观改变中国,评论推进改革,从曝光腐败到打拐慈善,微博在中国政治的发展、制度的推进、官民沟通和影响公共事件进程中扮演着越来越重要的角色。
自互联网革命以来,互联网的技术创新和形式革新此起彼伏,没有一天停止过对创新的追求。但似乎从论坛到博客,从Web1.0到Web2.0,没有哪一次网络技术革新像微博这样对社会产生了这么大的影响。微博到底有什么魅力,一出生就风华正茂,能够在短时间内吸引这么多用户、融入了社会交往体系中并对言论和传播生态产生这么大的影响?这源于微博作为一个新兴的社会交流、交往的技术平台,有着很鲜明的与以往传播工具、传播平台不同的特点,既在技术设置上契合了人性的需求,又在传播功能上契合了当下中国社会的需求,于是能够以狂飙突进的速度和无坚不摧的力度占领并主宰了中国的舆论场域。
微博限制不超过140字,随时随地发布动态,吸引了大连大哥粉丝参与。通过使用微博,学生们敢于将自己无处诉苦的情绪宣泄出来,因为面对的群体以陌生人居多,所以能敞开心扉,进行宣泄。
微博用户影响力是用户在微博平台的传播和影响能力,主要与用户被关注度、活跃度和微博影响力相关。其中用户被关注度从链接关系的角度展现了用户的潜在影响力,有效地降低了僵尸粉的影响,但并不能从根本上解决僵尸粉问题。本模型将用户的潜在影响力,即用户关注度分别融入微博用户活跃度和用户微博影响力,实现对用户实际影响力的考察,而没有使其作为用户影响力的直接影响因子;用户活跃度是用户影响力产生的动力,意在考察用户在微博平台的活跃状态,主要与用户被关注度、用户关注的增加频率和用户发布微博的频率相关;微博影响力是用户影响力的主要体现方式之一,旨在考察用户所发布微博的传播范围和影响能力,与用户被关注度、微博被转发和评论次数等相关。
目前微博平台使用用户粉丝数体现微博用户的受关注程度,用户粉丝作为用户主页的入链,可以体现用户的潜在影响力。但僵尸粉问题使得当前用户关注度并不真实。微博用户以个人主页形式存在,每位粉丝都是用户主页的一条入链,表示对用户的支持,用户自身的关注则是用户主页的出链。链接分析更多地体现了一种用户关系,使用户之间的关注关系体现用户的受关注程度,即微博用户的用户被关注度。模型中用户被关注度将取代用户粉丝数,作为微博用户活跃度与微博影响力的影响因子。
1.3.2国外研究现状
微博作为新兴形式,吸引了人们广泛关注,但是研究微博大多数停留在定性上,定量分析比较少。国外研究中,Facebook与其他公司合作,用户可以举报带有“自杀”的帖子预防自杀的发生。
大学生对社交媒体的使用和进行的心理健康咨询是有限的。Elli-son等人在一个研究中发现,大学生使用Facebook与创造社会资本之间存在正相关。同样,Manago等人发现社交网站能持续地满足大学生社会心理需求。其他研究发现,社交媒体的使用可能会促进发展亲密关系,比如大学生之间友谊的维系。
大学生心理健康评测活动需要使用社交媒体。研究人员试图建立大样本人群中,情感和心理健康的量化指标。Kramer在Facebook上发布了“国民幸福指数”,而Dodds等根据Twitter上分享的文本内容开发了一个“快乐指数”,一种立体感的指数。最近,Schwartz等人采用更为复杂的方法(如主题模型)来研究福利水平和生活满意度的关系。他们还利用Twitter数据来验证临床报告和抑郁症的信息。De Choudhury等。还开发了一个基于Twitter的国家级抑郁指数。
Gunjan和Snehlata提出了一种基于本体的互联网爬虫算法,该算法仅检索相关网站,并为抓取提供了最佳估计路径,有助于提高爬虫的性能。该算法的主要目的是处理信息路径和领域本体,根据用户需求找出最相关的网页内容和页面。用于过滤和构建信息存储库的本体概念。
Gunjan和Nikita提出了一种聚焦关键词网络爬虫的技术。作者用关键词驱动爬行,将领域工程概念与相关的决策方法结合起来,利用本体概念,这是能提高爬虫性能的好方法。这种方法引入了基于统一资源定位符(URL)或最佳搜索的关键字的提取。它提供了与传统网络爬虫的最佳比较,并更加准确有效地加强了搜索。我们根据用户需求搜索最重要的网页。
Meiyappan等人讨论了链接语义爬虫(LS Crawler)。LS Crawler系统通过文本链接和关键字推测数据文档的相关性来检索信息文档。文档相关性不仅是基于概率技术,而且基于语义学。由于链接使用关键字语义,该系统具有更好的召回性。
传统的网络爬虫技术主要应用于抓取静态Web网页,随着AJAX/Web2.0的流行,如何抓取AJAX等动态页面成了搜索引擎急需解决的问题,因为AJAX颠覆了传统的纯HTTP请求/响应协议机制,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。
AJAX采用了JavaScript驱动的异步请求/响应机制,以往的爬虫们缺乏JavaScript语义上的理解,基本上无法模拟触发JavaScript的异步调用并解析返回的异步回调逻辑和内容。
另外,在AJAX的应用中,JavaScript会对DOM结构进行大量变动,甚至页面所有内容都通过JavaScript直接从服务器端读取并动态绘制出来。这对习惯了DOM结构相对不变的静态页面简直是无法理解的。由此可以看出,以往的爬虫是基于协议驱动的,而对于AJAX这样的技术,所需要的爬虫引擎必须是基于事件驱动的。
1.3.2国内研究现状
我国爬虫技术发展落后于西方国家,很多开发者都是采用成熟的框架和结构进行开发操作。
浙江大学的罗兵设计了一个深层网络爬虫,其内置了一个javascript脚本,可以截获Ajax返回的数据。哈尔滨工业大学的姜凯通过表单的自动填写并构造URL抓取结果页,但由于只能通过构造URL抓取,也很局限。
国内研究在垂直搜索引擎上有很大的发展。垂直搜索主要针对高精尖的特定领域,作为专业查询的工具,他强调必须要专业,其搜索数据集只与某个专业知识有关,并没有扩展到整个网络。对于专业人士而言,用垂直搜索更加高效,因为能减少许多无关信息的摄入,保证爬取的质量,尽可能多地提供专业人士需要访问的网页。垂直搜索分为两个部分:信息采集和信息服务。信息采集是为信息服务提供数据准备的,采集功能纵向延伸,一步步深入。垂直搜索与众不同之处是主体判定,垂直搜索更关注与爬取页面的质量,其目标是过滤掉无关网页,提高服务质量。而通用搜索更关心爬取到的数量。
1.3.3爬虫引擎的发展
爬虫引擎是驱动爬虫进行爬取操作的关键,为爬虫在海量信息中实现精准定位,为解决问题提供强有力的保障。
(1)第一代引擎
第一个引擎是1990年Arehic,将最初的Robot程序命名为网络蜘蛛,即像蜘蛛结网一样在四处打探消息。这便是爬虫的始祖了。
(2)第二代引擎
1994年4月Web Craler是互联网上第一个支持全文检索的引擎。他的主要缺陷在于检测结果相关性差,检测数量远不能使用户满意,有时最相关结果并没有呈现出来。
(3)第三代引擎
第三代以1998年Google诞生为标志。他不以爬取到的页面数量为目标,而更重视爬取页面的质量。此外,还引入超链接算法进行分析和排序。
(4)第四代引擎
第四代引入信息特征等智能化方法,可以满足特定主体的搜索需求,将其称为垂直搜索引擎,可以进行全面检索,数据准确更新,体现出其爬虫引擎的智能化和个性化。
1.3.4发展趋势
随着网络信息技术的飞速发展,网络信息量也越来越大。对于机票销售网站,机票价格会越来越公开化和透明化。然而在国内机票监控系统发展还不成熟,因此还需要进行深层次上面向机票的网络爬虫研究。
1.3.5网络爬虫安全性问题
网络爬虫会占用网络带宽并增加Web服务器的处理开销,恶意用户甚至会利用爬虫程序对服务器发动Dos攻击。恶意用户还可能通过网络爬虫抓取各种敏感资料,主要表现在以下几个方面:
1)搜索目录列表:互联网中的许多Web服务器在客户端请求站点中某个没有默认页面的目录时,会返回一个目录列表。该目录列表通常包括一个描述当前目录的标题,可供用户点击的目录和文件链接,及一个脚注。因而通过抓取目录列表,恶意用户往往可获取大量有用的资料,包括站点的目录结构、敏感文件以及Web服务器配置信息等等。
2)搜索测试页面、联机手册与样本程序:大多数Web服务器软件附带了测试页面、联机手册与样本程序。这些文件往往会泄漏大量的系统信息,成为恶意用户剖析Web服务器的工具,而且这些文件的存在也往往暗示网站的安全管理有问题,网站中存在潜在的安全漏洞。
3)搜索管理员登录页面:许多网络产品提供了基于Web的管理接口,允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范,没有修改网络产品默认的管理员名及密码,一旦其管理员登录页面被恶意用户搜索到,网络安全将面临极大威胁。
4)搜索互联网用户的姓名、电话、通信地址等个人信息,以便于实施社交攻击。
5)搜集群发垃圾邮件所需的邮件地址。
6)查找一个站点中的各种敏感文件,包括各种程序使用的配置文件、日志文件、密码文件、数据库文件等等。
7)搜索Web站点中存在缺陷的程序。
8)获取互联网用户的信用卡密码,银行帐号等机密信息等等。
因此,采取适当的措施限制网络爬虫的访问权限,对于保持网站的正常运行、保护用户的隐私是极其重要的。
1.4微博情感理论研究
1.4.1情感计算
情感计算概念最初由MIT的Picard提出,她认为情感计算来源于情感或能对情感施加影响的计算,包括三个部分:情感识别,情感发生,情感表达。目前被计算机和心理学界广泛接受的是情感认知评价理论,即主体所拥有的不同的心理结构,成长环境,会对同样的外界刺激产生不同的评价,产生的情感也会有差别。
1.4.2常识库研究法
常识知识是人长期社会活动获取的知识,在文本分析中,可根据常识库知识判断人对待事物,他人的情感和态度。英文常识库Doung Lenat在1984年开始建设,中文的还在建设中。
1.5网页的抓取
我们要抓取微博的信息,而网页的来源就是通过爬虫的方法抓取,将为大家介绍爬虫抓取网页的相关内容。
1.5.1网络爬虫
首先我们需要抓取网站内的所有网页链接或是大部分网页链接。这就需要一个程序来实现——网络爬虫(也称之为网络蜘蛛)。网络爬虫又分为多种,这里只介绍其中的两种爬虫:通用网络爬虫,聚焦网络爬虫。通用网络爬虫是通过从某些URL种子扩展到整个网站,抓取整个网站上的网页链接。网络爬虫(网络蜘蛛)这个名词很是生动形象,他就像一个蜘蛛一样,将整个网站链接起来,相互沟通。
随着网络信息的爆炸性增长,使用自动化工具来查找所需的信息,跟踪分析其使用模式已经变得十分必要。例如,如果用户希望在网上找到信息,则必须知道文件的确切地址,或者耐心地从导航页面找到链接所需的目的地。信息检索(IR)是从信息资源获取信息的活动。搜索引擎能从互联网上提取有价值的信息。搜索引擎由两个基本部分组成——一部分是网络爬虫,它在万维网(WWW)中查找,下载和解析内容;另一部分是数据挖掘工具,它从页面中提取关键词,按重要性排列文档并应答用户的查询。网络爬虫是一个程序,它通过跟踪网页的链接,收集超文本标记语言(HTML)页面。这个过程被称为网络爬行。
集中式网页爬虫被用来收集网页,通过优先搜索爬虫边界和管理超链接探索过程来满足一些性能。我们可以将重点网络爬虫作为基础爬虫,涵盖了很多方法,比如基于关键词的方法,基于示例文档的方法,基于本体的方法,基于链接语义的方法,基于数据挖掘的方法等其他方法。
90年代初,当时Google搜索到的页面也仅是整体网页数量的60%。这之中,爬虫在获取页面资源中起到很大的作用。聚焦类爬虫,往往具有准确抓取性,它是按一定顺序收集与页面有关的内容,剔除与内容无关的资源。
对于垂直搜索引擎,快速过滤无关内容是决定所使用的爬虫准确性的关键。因此,选择合适的爬虫策略,是提高检索速度的关键。搜索算法的不断改进和成熟,使爬虫发展变得越来越智能化。尤其是1999年Rennic等人将机器学习方法引入到搜索策略中,大大提高了搜索的性能。
1.5.2爬虫抓取方法比较
网络爬虫抓取页面的方法总的来说分为两种,一种是广度为第一要素的抓取顺序,还有一种是深度为第一要素的抓取顺序。广度为第一要素的原理是网络爬虫将某一个页面中的其他网页网址全部抓取下来,接着在沿着其中一个网页地址,将这个页面中的所有其他页面网址都抓取出来,接着再选择其中的一个网页地址继续进行网页链接抓取。直到把网站的所有页面都抓取下来(如图2-5所示)。另一种深度为第一要素的抓取方式正好与之相对应,她是抓取网页中的某一个链接,然后打开这个链接,再抓取这个网页中的某一链接。这样直到抓到底,或者又抓到之前的网页链接为止(如图2-6所示)。这一条路径就算截至。然后再抓取首页的另一条网页链接,重复之前的操作,直到将整个网站的网页链接全部抓取完毕。
图1-5广度优先抓取图1-6深度优先抓取
两种遍历各有优缺点,根据实际需求选择最方便的遍历操作。但是殊荣同归,一般深度优先遍历能解决的问题,广度优先遍历也可以。
当然在网络爬虫中,广度优先遍历时爬虫使用最广泛的策略。原因如下:
(1)因为网页设计者想尽可能在几步之类给予用户最重要的信息,最相关的内容距离比较近,然而一步步深入探索会发现重要性逐渐降低。
(2)因为网页有很多出入口,而到达某网页往往可以通过最短路径达到,而不是去深入很多层。
(3)可以使用多爬虫合作爬取,这时广度优先抓取得更快。
网络爬虫也有许多局限还有危险性,如果不符合规则或协议可能会给服务器带来很重的负担,甚至导致服务器网站的瘫痪。所以很多网站会采取反爬虫措施,以防止网络资源被过度消耗,影响用户正常使用。
1.5.3相关度评价方法
由于需要抓取与心理词汇相关的数据,因此需要用相关性计算方法。
比较常用的有向量空间模型(VSM)、神经网络等。由于向量空间模型原理简单,对训练文档要求不高,本文采用VSM模型计算机票主题相关性。
一个文本由自然语言组成,其中是出现的项,是其对应的频率。项就是出现的字、词等语言单位,频率时为了统计出现的权重。
VSM核心假设是:词条构建文章是先后独立的,先后顺序没有影响。因此可以把机票的HTML文档拆解成大量无序词条集合。VSM把各个特征项看成坐标,用字词来表示向量的各个分量。
我们可以把词条在文档中的词频统计出来,由TF-IDF公式得:

是词条在文档中出现频度,即频率,表示文档集D中包含的词条的文档数,N表文档总数,表示第j个特征向量在文档中的权值。
相似度可以用向量的余弦夹角实现:
其中为两个文本的相似度。
计算流程为:
(1)首先进行预处理,在页面获取到的特征词,进行加权,得到所描述的特征项和权重。
(2)对页面进行分词操作,去掉非法的词,这样构造出了关键词集P,再按照计算方法算出每个集合P的TF-IDF值。
(3)然后根据公式2-2进行页面TF-IDF值得累加,获得主题相似度值
(4)最后将网页获取到的相似度值与预设的相似度阈值进行比较,如果网页获取到的相似度值大于或等于设定的阈值,则认为与之相关,可以下载页面并存储到数据库中,否则放弃此页面。
空间向量模型(VSM)的优点是,计算简单,而且经过无数人的检测,有深厚的理论基础,可行性较高。
1.6 Web信息提取
Web提取是网页分析中的核心内容。他支持的功能有:一是地址结构解析,主要提取URL,对所有的超链接进行过滤和提取,以及进行规范操作。如:相对路径转化成绝对路径,小写与大写字母的统一等等。
超链接分析是另一个重要的内容。需要我们对各种标签有详细的了解。超链接提取出的是相对当前页的URL,要将其转化为绝对链接,然后进行接下来的各种操作。规则就是,如果最后字符是“/”,则当前URL即为绝对URL。否则找“.”,其后与“/”之间的部分就是所求,若没有“/”,则检查是否有“http”,若有则URL为空,若无则检查是否有“../”,若有则截去URL,同时URL递归处理。
1.7去重检测
由于网络科技的迅猛发展,因特网中有大量的数据包,这些数据很多是重复,堆积的。如果不对重复的数据进行检查操作,那么进行爬取时,会对重复内容继续用分词和相关度对比等操作,耗费大量的时间和资源(如CPU,网络带宽等),影响爬虫的效果。由此,网络去重显得尤为重要。去重重点是记住已经爬取到的网页。只有爬虫通过调取其历史记录,发现正爬取的内容与历史上曾经爬取过的内容相一致,说明此内容已经检索过,是重复内容,不需要再次爬取。我们可以用一个哈希表来作为存储结构。若已经遍历过得网页,可以将其映射为1,没有遍历过,则将其置为0。但是这个方法,在实际应用中还有缺陷。因为计算机的内存有限,留给储存哈希值的空间并不多。在这里想到一个非常简便的办法,将一个URL分拆,映射到不同的哈希表中,这时每个表的大小将会被大大缩短,通过内存处理十分可行了。
1.8分析控制器
分析控制器由两方面组成:一是相关度评价,即将爬取到的页面计算页面关键词的相关度,如果小于一个给定的值,便认为爬取到的内容是无关的,这时丢弃这个页面即可,否则这条信息会被当成是冗余部分处理。另一个是超链接评价,他能指导聚焦爬虫的爬行。他将页面的URL解析出来后,通过估测算法估计该URL与主题的相关度,若相关性强则提高该链接的优先级。反之,若发现该URL与主题无关,则删除该URL及其分支URL,不断回溯达到剪枝的目的。当然,剪枝时未必那么准确,有时可能剪掉许多与主题有关的内容,这时需要改善评价算法,其优劣关乎到爬虫的质量。
1.9本章小结
本章介绍了研究目的意义和背景,国内外心理研究和爬虫研究概况,为以后的研究做铺垫。
下载提示:
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:写文章小能手,如若转载,请注明出处:https://www.447766.cn/chachong/13685.html,