摘要
随着互联网新技术的快速蓬勃发展,新闻网站和网络媒体平台成为新闻传播事业极其重要的组成部分,网络新闻已是人们最主要的讯息来源之一。为了满足大量网络新闻读者用户的需求,保证内容平台发布个性化推荐新闻的高效率,有效地管理和利用网络新闻数据成为了当今新闻平台的迫切需要。在此基础上,本文对网络新闻文本分类开展了算法的研究和系统的实现,目标是建立一个分类精度高的网络新闻文本分类模型。本文所做的工作主要包括以下几个部分:
(1)文本分类算法的所得结果很大程度上受到文本特征的表示方式的影响。word2vec词向量可用于表示文本,能够基于分布式表示将词语映射成为n维空间中稠密的实数向量,再通过计算矢量之间的余弦距离,即可测量词之间的意义相关性。本文采用词向量来代替深度学习网络模型输入层较为常见的one-hot向量。
(2)基于python语言,使用pytorch深度学习框架,在完成对词的特征表示后,分别构建RNN和CNN神经网络模型,并进行文本分类任务。在CNN中使用不同尺寸的卷积核来提取文本含义的深层特征。实验结果表明,本模型的精度、召回率、F1值分别达到96.4%、95.9%、96.2%。本文所应用的CNN、RNN模型可以通过特定的分层结构从文本的浅层意义特征中提取深层特征,可以构建起高效的新闻文本分类模型。
关键词:新闻文本分类;深度学习长短期记忆(LSTM)网络 卷积神经网络
第1章 绪论
1.1课题概况
在自然语言中的处理内容中,文本分类是其中极为关键的构成元素,文本分类的动机在于通过自动化处理的方式对若干文档进行分类,便于用户在海量信息中快速检索信息。文本分类在如今多个领域得到广泛应用,尤其在新媒体持续发展的时代背景下,文本分类能够在智能回复、舆情监测、网络检索、情感提炼和分析等领域发挥重要作用,伴随着我国信息科技呈现高速发展之势,互联网每天需要承载海量的文本信息,大部分文本内容并没有特定规律,甚至携带大量干扰信息,极大影响文本用户的体验感。基于此,持续挖掘文本数据信息并进行在精确分类在现代互联网普及的时代背景下具有重要的意义和价值。网上存在新浪新闻、今日头条新闻等大量的新闻语料,包含十几种候选分类。本项目主要研究新闻文本的分类模型以及具体应用,首先需要构建自己的新闻文本的语料库,并且定义好分类类别,基于新闻文本语料建立多维度神经网络分类模型,并通过精确率、召回率等数据进行评估和分类,且将最终的分类结果呈现出来。
1.2 项目背景和研究意义
近年来,IT业和互联网飞速发展,人类进入了第三次科学技术革命和大数据时代。互联网每天需要处理海量信息,尤其在新媒体高速发展的当下,文本数据信息呈指数型增加,并通过多种文本为载体并且对分类结果进行分析展示。同时,文本信息的产生和传播方式发生了深刻的变化。手机、平板电脑等移动终端进入人们的生活,杂志期刊逐渐退出历史舞台。各种网络媒体、新媒体平台也随之兴起并迅速成长。并在过去的几十年里逐渐取代传统媒体,渗透到人们生活的方方面面和社会的各个角落。目前,以文本、图像、音频、视频等为媒介的各种信息不断产生,其影响力越来越大,成为新闻传播的第一功劳者。在网络媒体中,文本信息是网民最容易获取、数量最多的信息,网络新闻也是现代人获取新闻资讯,了解国内外新闻事件的重要渠道之一。
在当前信息爆炸的环境下,我们在享受科学技术带来的生活品质的同时,同样受到资讯过量造成的困扰。在互联网不断普及的时代背景下,获取信息的方式多种多样,用户对于通过多种搜索引擎查询关键词的方法了然于心,高校学生可在图书馆和出版社通过关键词检索所需文献资料等也层出不穷,各尽所能,建立专属的丰富文本数据库,同时基于数据库的基础上为使用者提供多种类型的文本信息。
在当前海量数据信息不断生成的环境下,对文本信息的分析和管理具有必要性和重要性,文本分类技术必不可少。文本分类的研究始于20世纪50年代末,相关技术经过了多年的迭代更新,目前在各类搜索引擎中得以广泛应用,此外其在互联网论坛、信息过滤领域同样适用。最开始,文本分类是通过人工操作来实现的,对文本进行分类的文员需要通读文本并在理解其含义的基础上对其进行分类,效率较低。随着机器学习技术的出现和更迭,机器自动分类逐渐取代了在自然语言处理中文本分类的人工工作。随着计算科学技术在高性能大数据领域不断发展,深度学习理论应运而生,对一些传统的机器学习算法难以解决的课题做到了进一步的突破。通过高效的文本分类技术,媒体平台能够借此技术高效定位关键信息,同时,在整理复杂信息、优化搜索效率等方面发挥了不可替代的作用。
本文旨在基于对文本分类的各个阶段的技术和算法的研究,利用爬虫类技术收集因特网上的新闻文本来构建数据集,建立基于累积的神经网络CNN和循环神经网络RNN的文本分类模型。设计并实现了一个可以自动分类和贴标签的新闻文本分类系统,可以永久保存文本分类信息。
1.3 国内外研究现状
文本分类作为自然语言处理学科中至关重要的目标,如今受到国内外研究领域的高度关注。国外对文本分类相关技术的研究最早开始于上世纪50年代。早期,文本分类方法主要是基于知识工程的方法,通过人为定义的特征和规则对文本进行分类,比较耗时耗力。
1957 年,H.P.Luhn 首先对使用计算机进行文本分类的可行性进行了研究,提出通过词频的分布信息来估计每个词在文本中的权重,并针对关键词采取排序的理念,该理念不断发展和演变后在多个领域得到广泛应用。上世纪60年代,Maron围绕信息检索展开多维度、深层次的研究和分析中提出概率标引的概念,将标引词与贝叶斯方法进行有机融合,对多种类型的概率值进行分析和计算[17]。
在上世纪90年代,通过计算机技术处理文本信息,并对其进行自动分类技术开始诞生,逐渐发展成为文本分类的重要地位。这期间,工业和学术界涌现了解决文本分类问题的经典解决方案,主要思路是将特征工程和分类模型相结合。1992 年,Lewis在其发表的博士论文中创建了专门用于实验测试的数据集,并系统介绍了实现文本分类的方法 [19]。上世纪90年代中期,Vipink等人在研究中首次提出向量机的分类方法,该方法引入统计学科的理论,探究对文本进行分类的最佳方法。在此之后,Joachims的研究主要集中在SVM的优化和改进上,其主要通过线性核函数的方式对文本进行分类,该方法极大提升了文本分类的效率[21]。
本文表示通常通过向量空间模型的方式对其进行分析和研究,该模型中的任何一个文本都可作为向量的表现形式,而向量本身可以作为其中的关键特征。但是因为短文本的特性:特征稀疏、样本特征集维度高,文本表示和分类模型在处理短文本时分类效果较差。
为了全面解决该难题,在研究中提出可引入外部知识库的方式对关联规则进行拓展和分析,除此之外也可通过内部语义的方式对文本特征进行分析。不过上述的两种方法和那程度上受到知识库本身的架构和复杂程度的影响,很多时候无法进行完整语义的捕捉和分析。
1.3.1 传统的文本分类方法
上世纪90年初期,特殊工程与浅分类模式的有机融合逐渐受到学术领域的关注,这种分类方法具有明显的传统性,通常由文本表示、文本预处理、机器学习几种方法组成。文本预处理通常涵盖对标点符号、停用词进行全面删除的方法,当然也可头将大小写英文统一的方式展开。文本表达主要是通过文本转化的为系统能够兼容和了解的数字内容,并最大限度保留文本中的关键信息。最被广泛应用的文本表示方法是语袋模型(Bag of Word,简称BOW)N-gram模型是一种类似于BOW的文本表示方法,其主要将文本语序纳入考量范围,机器学习的方法可以理解为分类器,一般情况下其主要由支撑向量机、逻辑回归等设备构成,此外,还可通过文本特征作为过滤的方式进行处理。如通过基尼指数、立方体检查等方式向TF-IDF等特征分配不同的权重。
上述方法大部分都需要利用过于分散的词汇来表达文本特征,并通过其他线性模型对其展开分类处理,虽然在分类效果上有所提升,但不可否认存在一定缺陷和不足,有研究人员的对上述算法展开深入研究和分析,能够有效提升整体效果,不过传统的机器学习方法有局部优化、次元灾害、超适应、数据稀疏等界限,在处理词汇量大、变化丰富等复杂的分类任务时,分类的精度不高。
字嵌入(Word Embeding)是基于大量的无标记词汇学习的分布词表示,是词语的神经网络表示,能够捕捉词语的语法和意思信息。文献利用循环模型训练得到了语录,并利用卷积神经网络对文本的语录表示形式进行了文本分类。
1.3.2基于深度学习的文本分类方法
神经网络模型近年来受到国内外学者的高度关注,其在语音识别和计算机视觉方面的呈现出较为理想的研究进展,且学习模型在多种自然语音场景中得到广泛应用。已经证明了特征工程的难易度可以被有效地降低。深度学习是一种能够通过若干无标签文本获取NLP数据的方法,该方法能够有效解救NLP区域存在的常规问题,其主要利用若干层神经网络模型为基础形成多层组合的方式,通过抽象化的文本信息来表示,在学习和训练阶段,能够有效节省大量人工培训成本,此外该深度学习文本方法的优势还体现在以下两个方面:
(1)灵活度高:深度学习方法主要利用深层网络自动学习文本的方式对相应的结果和信息进行表达,在此过程中对人工设计规则和特征选择的要求不高,甚至不需要这部分成本的付出。
(2)精度高:近些年来,卷积神经网络、循环神经网络、注意力机制等模型和算法不断演进和应用。上述模型以及算法需要匹配性更高的容量和构造才能兼容,此外还能够对文本信息进行识别和归类,进而最大限度提升文本分类的时效性和精准性。
因此,基于深度学习的方法是文本分类研究的首选研究方法。最常见的是可捕捉到时间或空间结构的局部相关性的卷积神经网络和使用上下文信息来应对序列问题的高效循环神经网络。
卷神经网络(CNN)可以抓取固定区域内的文本特征。CNN中有能够良好地提炼出局部特征的卷层,这表明了CNN在CV领域获取了很棒的效果,并且近些年来在自然语言处理领域取得令人可喜的成绩,Kim在研究过程中通过训练文字向量的方式来对文本信息进行表示,其通常以CNN作为主要输入方法,当处于网络卷积层过程中,可通过文本矩形卷积层的方式进行计算和分析,通常其体积和移动方向,即从文本的开首漂移到文本的末尾。另外,Zhang等基于CNN实现了文字水平的文本分类模型。然而,碍于单层CNN只能取得固定窗口大小内的特征,因此为求更远的上下文数据,Conneeau等设计了(VDCNN),以通过增加卷积层和池化层的数目从而得到若干个窗口的具体数据资料,Kalchebrenner在研究提出关于CNN的概念,并以此为基础构建CNN模型,从而捕获本文中k个最主要的特征。javascript:;CNN模型在多个领域的自然语言处理中发挥重要的作用和价值,其中包括查找检索、句子建模等方面,但由于数据集规模大,需要建立多个卷积层来捕获长期依赖信息等问题,CNN在训练和测试时速度相比之下较慢。
不仅CNN,可以得到能够联系上下文信息的的循环网络,其在文本分类领域中发挥关键的作用和效果。RNN的主导理念是采用组合的上一时刻中存在的硬性单元信息和目前单元信息中产生关联性,并以此引出“递归”的作用,不过,如果采用该结构来处理篇幅较大的文本时,则梯度消失和梯度爆炸的问题很容易随着误差的反向传播而发生。Hochereiter等人在研究中首次提到关于对长短记忆网络的概念,并在此基础上引入“栅极”的概念,删除、追加了前一时刻的信息和当前时刻的输入,达到“忘却”和“记忆”的效果,解决了RNN的长期依赖问题。
1.4研究内容
本文的目标是实现针对中文新闻文本的分类系统,可以自动在文本上加上标签。利用Python编程技术抓取网页上的新闻文本数据,其中包含标题、正文、链接等内容。在此基础上,通过自然语言处理技术完成文本数据的特征构筑,采用深学习模型构建文本分类器。由此,能够完成新闻文本数据的自动分类。
目前新闻文本分类上的关键问题主要是,文本分类语料英语多,中文长文本少,专业语料库不足,传统的抓取方法无法保证提取的准确率和效率,提取过程中无法根据上下文信息产生关联性,文本信息提取过程缺乏完整性等。基于上述问题,本次研究主要从三个方面进行,主要分为数据采集、特征表示、深度学习等几种分类模型和新闻分类的可视化界面。
(1)数据预处理和特征表示。首先,针对缺少中文文本相关语料库的问题,设计网络爬虫爬取ChinaNews网站上时效性较高的新闻文本,并基于Jieba分词工具包对其进行中文分词,而后采用加权提取和频率统计的方法制作适合汉语长文本分类的词汇表。模型的原始输入通常以Word2Vec和One-hot两种词袋模型展开培养和训练,主要针对词向量特征的训练,在文本表示过程中,上述特征一般反映在文本特征的输入和提取方面。在此之后,从众多原始特征中选取适合用于训练分类器的特征。
(2)深度学习文本分类算法。深度学习网络模型通常指的是对文本进行分类时的先决条件,本文首先对深度学习分类模型RNN、LSTM、CNN进行了具体研究。接下来,基于文本分类任务内容构建CNN、RNN神经网络,优化和改进模型,并在此基础上对以上两种模型进行分层。分层双向LSTM模型通过正向和反向的双向信道和多层隐藏层信息传输,从而实现本次研究对于高效合理储存文本信息记忆的目的,有效提升文本信息分类的稳定性和可靠性。该模型可以通过分别池化和重组来进一步完善文本块的局部特征提取模块,进一步提高中文新闻文本分类的精确度,以便人们更有效地辨识和管理值得注意的新闻信息。
(3)新闻分类个性化推荐系统。将以上文本新闻分类与个性化推荐进行有机融合,设计和开发了可视化的新闻界面。
1.5论文组织结构
本文的组织结构主要分为五章:
第一章,绪论。本章节对文本分类的背景、意义、内容紧进行简要概述,在此基础上对国内外的研究现状和研究结果进行梳理和总结,此外阐述本次研究的整体脉络和研究思路。
第二章新闻文本分类技术的框架。本章主要围绕文本新闻分类的处理步骤和方法展开多维度、深层次的研究和分析,对爬虫技术、数据的采集以及预处理、文本的表示以及特征提取进行了详尽描述。
第三章,基于深入学习的新闻文本分类。首先,本章对循环神经网络分类算法涉及的底层逻辑和原理进行研究和阐述,提出并实现了分层双向LSTM和组合CNN分类算法。接下来,重点讨论了分层双向LSTM和组合CNN分类算法的模型结构和操作理论。最后,对深度学习算法模型训练方法的模型的使用展开全面分析和阐述。
第四章,实验结果和分析。首先,本章主要围绕新闻文本分类涉及的万内部与外部环境展开分析,在此基础上进一步探讨和研究相关参数的设置。接下来,介绍三个测量模型的评估指标,设计若干个实验室进行对比和分析,其中包含深度学习与常规学习的对比、层级双向-GRU和RNN及其变体模型的比较实验、组合-CNN和CNN及其变体模型的比较实验、失衡和均衡数据集合上模型的优化和改进之后的对比分析和实验。并在上述多组的对比和分析之后,验证优化模型之后的价值和作用,并在此基础上对各个模型的分类结果展开深入研究和分析。
第五章新闻分类个性化推荐系统。本本章节主要对新闻文本分类算法的应用展开多维度、深层次的研究和描述。首先,围绕新闻分类个性化推荐的功能进行简要概述,通过技术、系统架构、应用等层面对该系统展开深入研究。最后,对新闻分类个性化推荐系统的应用成效展开全面分析和探讨。
第 2 章 数据的采集与预处理
构建深度神经网络,首先需要构建自己的新闻文本语料库。这一过程主要涵盖文本表示、原文本特征、数据采集等流程。数据采集部分采用python编写爬虫,在China News新闻网上爬取新闻数据。数据预处理部分,采用数据可视化分析技术调整和配置文本序列,并利用该技术进行数据索引和中文分词的读取,进而达到文本数据的读取和处理,值得注意的是,其能满足批量处理的要求。本文特征的表示通常以词频统计的方式展开,也可以理解为数据索引的搭建,通过权重抽取的方式设计符合汉语长文本的词汇表并删除停用词。同时,对于将标准化的文本数据进行词向量的嵌入表示的工作,该部分使用One-hot和Word2Vec工具。
2.1 Python爬虫系统设计
要进行文本分类任务,首先必须构建数据集。本文选择基于python编写爬虫,在ChinaNews新闻网站上爬取带有标签的新闻文本数据。 本节将对所使用到的网络爬虫技术进行介绍。网络爬虫在通过每页的网站的网址获取并过滤相关内容后在用户面前呈现最终结果,不必采用人工浏览的方式获取相关信息,Python作为一种当前广泛应用的脚本语言,具有相关的爬虫基础库,例如request、bs4。
2.1.1 Python爬虫类系统的设计
在开发网络爬虫系统的过程中,首先需要全面解决系统中存在的基础性问题,并根据实际需求选取代码和功能进行系统设计,使开发结果符合系统的真正需要。对于整个系统来说,各组件为了以后实现系统整体的功能,必须按照网站的结构来制作。
Web下载模块是整个爬虫类系统中最关键的模块,在Web网页上显示的内容一般来说是HTML形式。目前Python可通过网络形式直接下载,分别以官方lib2模块和request第三方SDK两种方式,而request第三方库在功能性上有着非常突出的优势。
页面分析器的主要功用是对网站中的内容(文本、图片、链接等)和数据进行解析。基于Python的页面解析器主要分作两类,一种主要通过正则表达式的方式转化为可读取的字符,通过模糊匹配的方式进行数据提取。该方式的优点是比较直观,但是对于复杂性高的文档而言整体操作难度较高,任意一个正则匹配存在细小的失误,都会造成程序出现多种故障,主要表现为长时间的循环。第二,可以根据HTML页面创建DOM树,顺着树的结构查找每个节点,根据树的上下层级结构进行查找,更易找到每个元素的位置。
Python可实现数据导出功能,通常以CSV格式为主,其具备能与多种文件格式兼容的特征。在导出阶段需要重点关注数据编码的问题,最大限度规避乱码的风险。
2.1.2 Python爬虫类系统的实现
本文主要以ChinaNews为例,首先需要通过爬虫技术取得目标网页的谅解,并围绕网站的现有的内容对新闻资讯进行分析和解析,最后将解析出来的信息保存在相应的文件中,具体的系统实现过程如下。
要取得所有新闻的URL,首先必须找到与URL相关的入口。这篇文章所选择的新闻网站是中国新闻网,网站的URL是https://www.chinanews.com.cn/。进入页面后,滚动、直播、国内、社会、军事、政务等10多个栏都会显示出来。单击“滚动”栏,将显示按时间顺序的新闻列表。也可以显示指定日期的新闻。例如,2023年4月17日的滚动新闻地址如下:https://www.chinanews.com.cn/scroll-news/2023/0401/news.shtml。根据这个法则,只需更改网站的年和日期,就可以获得指定日期的滚动新闻列表。
图2-1 ChinaNews新闻网2023-04-01滚动新闻列表
如图所示,滚动新闻列表中的新闻标题可以跳转到相应的新闻内容页面。因此,若取得当天的新闻滚动列表url,则通过request分组访问链接,使用bs4分组解析网站的内容,取得html页的各节点可以获得存储具体新闻内容的网站和对应于各新闻的分类标签。分析页面html代码,可发现保存新闻标签及内容的结点类型均为div,且均有’class’:’dd_lm’属性,可以使用bs4的get函数获取相应结点。
将某一日滚动新闻列表中所有具体新闻的url保存到list中,并使用request包遍历访问这些url,即可获得当日所有新闻的文本内容。在具体新闻内容的网址中,类似地,使用bs4包解析网站内容,即可获得新闻文本。
2.2数据预处理
本文采用的数据集是2023年ChinaNews官网上所有的新闻文本,包含 200800 篇新闻文档(437Mb)。在中国新闻网新闻原分类的基础上,筛选了体育、华人、X、国内、国际、娱乐、文化、香港、澳门、社会、财经十种新闻,10个类别对应10个“.csv”文件,每个“.csv”文件包含该类别所有的新闻文本数据。图2-2示出了不同类别的新闻数据的数量。
图 2-2 不同类别的新闻数据数量
图2-3 新闻文本长度分布情况
为了便捷高效地建立数据索引,本次研究通过可视化的方式分析相关数据,通过该方法明确文本序列的长度,本身新闻文本数据字符之间存在较大差异,长新闻的字数多达数千字,短新闻的字数可能仅不足100字,因此,在读取数据时,必须考虑到大部分的新闻样本数据,设置合理的截取长度,以致既能够对网站中的关键数据进行读取和分类处理,且能够有效节省计算资源,所以确保文本序列兑读取的长度设置的匹配度是不可忽视的,这将成为稍后描述的模型实验中文本序列长度的截取和嵌入的重要参考。
据统计,大部分数据集平均为149个字符,此外,根据文本长度不同关键词出现的频率进行分析和统计得出2-3图,从中不难发现新闻文本长度的主要分布现状,大多数文本长度普遍少于500字符。统计图2-4统计了文本长度的累积分布情况,从中不难发现,和大部分分割点相匹配的文本长度普遍为256,同时数据集中大部分新闻文本长度的普遍低于256。因此根据分析的结果,将读取文本长度的值设为256。最终,根据不同的类别读取数据集,每条文本数据对应于一个标签,合计200800个数据索引。
文本分类的首要流程主要是文本预处理环节,其主要作用在于为文本表示、分类器、特征提取等环节提供基础性数据。现已经对中国新闻网的2023年所有新闻进行爬取,并且做好了预处理工作。本文预处理的关键环节在于去停用词和中文分词。
2.2.1 中文分词
通常可将汉语分词概念理解为紧扣延续下来的文本规则分割连续句子,使其成为单独成立的词和字。和中文分词文本不同的是,英文文本的分词通常可将单词之间的空格作为分割的主要参照物,不过这一点在中文文本的分词过程中,并没有表示停顿的标准规则或符号。中文语义上的分割也可通过标点符号实现,甚至仅作为情感表达上的转换和停顿。极易造成分词时出现不同程度的分歧,甚至对句子原本的表达造成扭曲。如今应用范围最广泛的分词技术,其核心原理主要通过字符串匹配技术运行,并充分融入语义理解、统计理论等技术。汉语分词作为文本预处理中极为关键的环节,是当前关于文本分类研究中不可忽视的重要基础。分词的主要作用在于将连续句子进行分割,形成独立成型的词与字,以此形成文本信息的基本单位。英语文本中同样存在词组划分上的问题,相对而言,由于中文涵盖的意思和语义更多,因此在划分难度上明显高于英文。
现在,中文的分词有PkuSeg分词、Jieba分词、THULAC分词等很多可以直接使用的分词辅助工具。基于分词区域的关键特征,Pkuseg分词通常可为文本数据预训练模型提供多元化区域。Jieba分词是十分广为人知的中文开放源分词包装,有着高性能、高准确度、扩展性等优点,如今居于主导地位的语言是Python语言,其具备THULAC分词功能,能够支持分词、词性、语法上的对比和分析功能,不过,需要中文语料库模型的支持,所以分词计算资源的负担很大。通过对比,本论文采用了具有处理迅速、实用性高、分词精度高等优点的Jieba分词工具。
分词之后的中文文本通常属于非结构化数据,不支持简单的计算机计算和输入。一般情况下,文本表示的内涵和机制主要是针对这部分非结构化数据转换成结构化数据,计算文本信息,实现文本分类。文本表示的整体效果将对文本分类的准确性和有效性产生重要影响,科学合理的文本表达不但可以保证语音信息的完整性,更便于通过训练的方式。在本次研究的新闻文本分类技术中围绕文本表示,设计了消除无效语和词向量的两个主要步骤。
2.2.2去停用词
删除停用词的目的是减少文本的冗余,进一步提高文本分类的精确性。根据词性的性质可分类为虚词与实词,通常情况下,实词本身含有实际意义,其是构成句子的重要部分,相对而言,虚词本身没有特定意义,对于句子的结构影响作用不大。javascript:;在文本分类中,虚词通常用来作为停用词,而停用词的作用可降低关键词的整体密度,极易导致最终的文本分类成效受到影响,所以在词汇表制作完成后,必须去掉停用词。
本文的停用词来自于因特网上的各种类型的停用词数据库,同时和停用词进行有机融合,一般情况下,去除停用词的流程如下:
(1)将文本信息内容中空字符以及半角字符进行多种方转换之后排除,确保文本格式的统一性,为后续的文本特征选择和矢量表示提供便利性。
(2)排除没有实际意义的虚词、特殊符号,例如:,?、。“”《》!,:;?”和“啊、阿、哎呀、不然、谁、似的、虽、不管、不拘、不论、不怕”之类,可以发现,这些标点或助词对文本含义的表达没有任何作用。
2.2.3 词向量表示
(1)One-hot编码
One-hot编码是一种词向量表示方式,其整体操作较为简单,主要原理是将向量的字与词进行分散,通常生成向量长度和类别数保持一致。当数据点属于第i个类别时,则该向量的第i个位置元素的值是1,向量的其余的元素的值都是0。以本文的数据为例,需要词向量的标签文本有10种:体育、华人、X、国内、国际、娱乐、文化、港澳、社会、财经,向量中的所有列都代表一个词。将其中任意一个标签表示全部变为0,只需要针对标签索引的元素进行配置,通常配置为1。由One-hot编码的词向量表示如下:
“体育”表示为[1,0,0,0,0,0,0,0,0,0,0,0,0]
“华人”表示为[0,1,0,0,0,0,0,0,0,0,0,0,0]
“X”表示为[0,0,0,0,0,0,0,0,0,0,0,1,0]
“国内”表示为[0,0,0,0,0,0,0,0,0,0,0,0,1]
根据以上例子可以看出,One-hot的表示方法主要是采用单个稀疏向量作为标签数据的代表,此类方法在储存过程中难度较低,通常适用于数量级标签数据的向量化。不过如果在数据集的所有数据中,如果新闻文本的内容具有数百个不同的单词,则当通过One-hot编码时,生成的词向量表示的维度会尤其之大,并且向量的大部分元素均为0,这种情况下使用One-hot编码将会弊大于利:过于稀疏的向量,会降低模型计算和存储的效率。另一方面,One-hot编码仅使用由0和1组成的向量来表示文本数据,不过采用此类方法表示的词向量往往独立成型,并不会产生任何联系关系,也就无法通过词向量的方法,更不能通过上下文进行比对与分析出关联作用。基于此,新闻内容文本与这种编码方式不匹配,更应通过可以对文本关联性进行测算的方式训练的词向量生成技术。
(2)Word2Vec
Word Embeding是一种词向量生成技术,其基本原理是基于机器学习算法将字和词映射到低维稠密空间。与One-hot编码相比,这项技术能够有效规避向量出现过分稀疏而导致整体维数太高的现象,不仅如此该技术还能够与模型训练输入的数据要求保持匹配性。Word2vec是目前可以达到上述需求的方法,其主要原理是通过神经网络模型得到相应的维度的词向量,在多种类型的词语间寻求相似度,并以此为基础进行对比和分析,用来表示不同词向量之间的距离。Word2Vec有CBOW和Skip-gram两种预测模型。
CBOW 模型根据上下文预测当前词的概率分布。设定 D 表示新闻文本,Cij表示当前词的上下文表示,为模型输入。当前词的表示为模型输出,计算公式如 (2-1) 所示公式中,Tj表示文本中的第 j 个句子,wij表示第j 个句子中的第i 个词,theta表示后验概率参数。
Skip-gram模型主要依据目前的词预测对文本信息进行分析,并根据分析得出的概率来分布。设定 D 表示新闻文本,Wij表示当前词的表示,为模型输入。当前词的上下文表示为模型输出,计算公式如 (2-2) 所示:
公式中,Cij表示当前词的上下文,c 表示上下文中某个字词的表示,theta表示后验概率参数。
本次研究将Word2Vec方法引入其中,可实现新闻文本的转换作用,从相关实验结果分析,此类词向量表示能够实现多种词语环境下的关联性和相似性。
首先,遍历词汇表的索引序列,并从中得到与之相匹配的词频率,通过字典的措施进行转换,转换过后的键值以及相应的格式可作为后续的文本转换使用,在通过列表以及函数导出,根据实际使用需求去除停用词后,将其权重频率采取映射处理,即将词语转换成词语所对应的id的向量数据。
图2-4 词表
接下来,如上所述,每个新闻文本的在使用前期和后期过程中,选取的长度的通常以n的标准数据来表示,并形成Word2Vec模型,本次研究中设置的实验数据取n为256。最后,使用批量(batch size)数据进行Word2Vec词嵌入操作,将标准化的数据嵌入到k维数的词向量(embedding size),经过多次实验,在本实验中统一设定batch size为128,设定词的嵌入维度embedding size为300。每个新闻文本数据获得256*300的词语向量表示。新闻文本被嵌入字向量矩阵形式中,矩阵M表示新闻文本的字向量表示,矩阵的每一行表示字或字的字向量表示,n表示序列长度的大小,k表示字嵌入维数的大小。
第3章深度神经网络模型原理
3.1 基于CNN的新闻文本分类模型
卷积神经网络作为具有深层神经网络的主要分析模型,其作用主要是运用多层非线性网络为载体开展很好地表征和建模文本数据。本章将详细介绍卷积神经网络模型的结构设计、分类步骤和训练过程。
3.1.1 算法流程
使用CNN模型处理文本分类任务简单、高效、同时还能获得比较高的准确率。本章提出了CNN新闻文本分类框架,在图3-1中示出分类模型的算法概略图。
图3-1 CNN分类模型算法概略
在本章中,在输入层完成词嵌入操作后,对词向量采取CNN独特的卷积和池化操作,采用多种尺寸和规模的卷积层进行设计,以此为基础进行文本信息的提取和分析,通过高等级的文本信息进行处理,通过最大池化技术完成采样工作,有效减少重复多次提取的繁琐工序,并通过池化层针对相关的特征进行输出,引入softmax分类器获取特定文本的的属性和类型。
3.1.2 CNN文本分类框架
卷积神经网络通过自身独特的运算框架和结构,利用多层非线性的方式对文本显性和隐性特征进行转换,从而能够在更高的层次上理解深层文本的含义特征,在对文本进行表征和建模的任务中表现得非常优秀,是传统学习算法不能触及的优势,尤其体现在自然语言的处理过程中,需要对文本进行相应的转换,确保其成为矢量形式之后,再通过该神经网络发挥连接作用,可对其中的数据进行批量处理,本章节侧重点集中在对CNN各层结构展开深入研究和分析。
CNN作为文本分类中的一种较为常见的分成模型,具体的模型结构如下图3-2所示。此类文本分类模型通常的涵盖池化层、全连接层、输入层等这五个部分。其中,CNN的池化层和卷积层是其所特有的,CNN的层级结构可以通过设置多层的卷层和池化层变得更为复杂。在这两层产生融合与交错中产生作用,能够加大优化和改善深度神经网络针对文本特征的提取和学习功能。
图3-2CNN模型结构
图3-2最左边的部分是CNN的输入层,即文本的特征向量矩阵。如上文所述,本文采用300维的分布式词矢量表示词语,一条文本的序列长度设置为256,故而特征向量矩阵的大小为256*300。
图3-2的第二部分是主要应用在更高级的文本信息提取上,其主要针对局部特征的卷积层。并采用卷积核的作用来滑动完成卷积,在窗口尺寸不同的时候,得到的特征向量存在差异,通常将特征向量列设为1,其卷积行为可通过(n-l)进行提取操作,并操作过程为使用不同大小的卷积核作用于中间的特征矩阵,然后得到左和右不同的特征向量。
图3-3卷积操作示意图
图3-2的第三部分是池化层,主要用于特征的二次提取,从而降低特征的维度、模型的过拟合并加强训练成效,针对池化层的特征提取通常以平均池化和最大池化两种方式开展,最大池化主要通过将区域范围中的特征向量中的MAX值视为其中的重要特征,而平均池化的方式通常将函数选择的特定区域作为提取特征向量的方式,其中的变量关系主要是池化窗口的不同的大小。
图3-4最大池化操作示意图
图3-4示出了选取的池化窗口和向量矩阵分别为2*2和7*7,当采样时,可选择该区域的最大特征向量采样,从而保证其中任意特征向量池化作用得到一维向量。池化层和卷积层的复合设计能够完成重复提取的功能,主要通过浅层次意义中对深层次意义进行提取,此举能够极大节省人工提取成本。不仅如此,也可以视为有效排除多余无效消息的做法,有效降低模型参数的整体数量。
最后,通过文本特征显示出最大池化操作、卷积操作之后,将神经元和前层网络的神经元形成连接状态,并采用分类器得到文本的所属类型的概率。
3.2基于RNN的新闻文本分类模型
循环神经网络(RNN)和传统的前馈神经网络不同的是,该方法不但能够利用多层连接的方式完成信息传输任务,也可融入环状结构的凡事都促成神经元的连接状态。这种环结构有效提升了前期节点储存中的记忆片段,同时对后续的网络输出产生不同程度的影响。循环神经网络的升级,是推进深度学习技术急速发展不可或缺的一环,现已应用于自然语言处理等多个领域,文本分类是其中一个非常重要的应用领域,不少学者围绕本文分类展开研究的落脚点主要基于循环神经网络,也可以将文本分类视为特定特征提取的全程。。
3.2.1 RNN循环神经网络
循环神经网络可视为一种特征提取的关键解决手段,并链式地连接任意一个节点。循环神经网络与卷积网络的输入数据相较,不仅输入数据X,而且将每个步骤的输入视为后续的输入,其中各个循环使用同一种参数和函数,目前应用较为广泛的神经网络模型结构图如下图4-5所示,其右侧主要是根据不同的时间序列运行的网络结构图。
图3-5 基础循环神经网络结构
3.2.2 LSTM长短期记忆网络
通过序列化方向演进的循环神经网络在运行过程中都需要基于参数的基础上启动传播任务,不过这种传输方式的输入量过大,往往导致序列化输入参数无法保证需求得到充分满足。短期内的网络储存技术被推到世人面前,该技术能够很好地应对和解决上述问题。LSTM作为一种应用较为广泛的门控算法,其通常涵盖输出、输入、遗忘三种门控算法。该机制能够根据实际需求的针对不同的门控提供相应的信息,也可以采取遗忘冗余的数据信息,LSTM是建立在RNN结构的优化与改善基础上运行的,与之相比,LSTM的隐层节点往往利用不同的门控单元构建闭环的单元,具体单元结构如下图3-6所示:
图3-6 长短期记忆网络单元结构
从实际操作来看,输入门主要用来明确内部单元中添加的内容,而遗忘门的作用在于选择排除何种不重要的内容,输出门则依据用户初始化设定的条件选择输出的内容。
输入门:输入门的主要作用在于对当前文本信息中的隐藏输入进行控制,最先控制的是当下文本信息的输入,在通过sigmoid 函数对当前阶段的文本信息进行处理,通常输出值在0-1之间。
输出门:输出门的主要作用体现在隐藏层中,通常用于控制该模型的输出,同样需要sigmoid 函数进行计算,在此基础上的明确何种信息需要的在下一个隐藏层中保留和传输。
遗忘门:遗忘门的主要作用在于针对上一时刻的文本信息内容的选择保留或删除的把控,通过sigmoid 涵盖对上一节点的内容进行计算,并根据最终的计算结果选择保留和删除。最终的计算值在0-1的区间。
LSTM单元的更新方式如下:
h(t)=g(t)0fh(S(t))(1)
S(t)=g(t)fS(t−1)+g(t)ifs(wh(t−1)+uX(t)+b)(2)
g(t)i=Sigmoid(wih(t−1)+uiX(t)+bi)(3)
g(t)f=Sigmoid(wfh(t−1)+u(t)f+bf)(4)
g(t)o=Sigmoid(woh(t−1)+uoX(t)+bo)(5)
式中fh,fs为系统与内部状态中的激励函数,一般其属于双曲正切函数,其中g表示持续更新的门控,从底层逻辑分析,该函数的与Sigmoid函数同属于前馈神经网络的范畴,而采用Sigmoid函数的动机在于输入值介于0-1的区间,可视为权重数据。
通常在文本分类领域中的优化和改进主要是基于LSTM基础上开展的,如双向长短极易神经网络,可以将其视为LSTM经过优化和改良后的双向通道,其中涵盖了输出门、输入门、遗忘门。这一模型侧重于文本信息的全局特征,同时拥有储存和记忆信息的功能,广泛应用于文本特征领域。作为一种双层对齐模型,双向长短记忆神经网络中的任意一层都属于LSTM结构,其中不同层的传播方式截然相反。这一模型将上下文信息的关联性纳入考量范围,从而最大限度规避关键信息丢失的风险。
3.3 性能评价指标
混淆矩阵也可以理解为一种误差矩阵,它可以用来反映函数的精准性,通常以n来表示行和列。通常采用混淆矩阵的列表示预测类型,将所有列相加最终得出类别的整体数据;用行作为归属类别的数据代表,其中每行的总量可作为数据类型总量的代表。比如需要对150个样本数据,预测为1,2,3类各为50个。分类结束后得到的混淆矩阵为:
表3-2 混淆矩阵示例表
预测 | ||||
类1 | 类2 | 类3 | ||
实际 | 类1 | 43 | 2 | 0 |
类2 | 5 | 45 | 1 | |
类3 | 2 | 3 | 49 |
每行的总量之和可代表的这种类别的实际样本总量,每列的总量之和可表示被预测类别的总量。首行反映出43个第一种类别的样本被正确预测,而属于错误预测的类别为2个。
在分类任务中,广泛应用的评价指标主要以召回率、准确率等,依据分类过程中不同类别与实际类别之间的差异对比,最终得出混淆矩阵如下图3-1所示。
表3-1 分类结果混淆矩阵表
预测类别为1 | 预测类别为0 | 合计 | |
真实类别为1 | TP(TruePositive) | FN(Fasle Negative) | TP+FN |
真实类别为0 | FP(FalsePositive) | TN(TrueNegative) | FP+TN |
TP+FP | FN+TN |
其中TP表示将真实正类预测为正类的数量,TN表示将真实负类预测为负类的数量,FN表示将真实正类预测为负类的数量,也可称为漏报率,FP表示将真实负类预测为正类的数量,也可称为误报率。那么,实际上的真实正类数量为TP+FN,实际上的真实负类数量为FP+TN,预测的正类数量为TP+FP,预测的负类数量为TN+FN,所有类别的样例总数为TP+FP+TN+FN。
准确率:正确预测的正类数量和反类数量之间的总数相加之和与所占比例,可通过以下公式计算得出:
Accuracy = (TP+TN)/(TP+TN+FP+FN)
精确率:说明最终的预测结果中属于正类样本的实际的样本数量,其中可分为两种可能,分别为正类为正类预测和负类预测为正类,具体公式如(2-12)所示:
Precision=TP/(TP+FP)
召回率:反映的是原始样本中有多少真实类别为正类的样本被预测正确,同样也有两种可能,一种是把真实的正类预测成正类(TP),另一种是把真实的正类预测为负类计算公式如(2-13)所示:
Recall=TP/(TP+FN)
H度量为精确率与召回率的调和平均值,精确率和召回率都高的情况下,F1度量也会相应提高,计算公式如(2-14)所示:
F1=2*precision*recall/(precision+recall)
此外,增加宏平均评估指标来分析实验。宏平均是指新闻文本每个类别的精准率(查准率)、召回率(查全率)、F1值三者求算术平均值,即是对类的平均。可以反映出分类器对不同文本类别的处理效果。
第 4章 实验与结果分析
4.1. 实验环境
新闻本文分类所需要的实验硬件环境如表1所示。
表4-1 硬件配置表导出到EXCEL
配置 | 参数 |
CPU | i7-7700HQ2.80GHZ |
内存 | 16GB |
GPU | NVIDIA GeForce GTX1050 Ti |
操作系统 | Windows 10 |
4.2 实验过程
4.2.1 实验参数设置
本文主要采用了RNN和新闻文本分类这两个训练模型来进行新闻文本分类的对比,这两个模型实验所用的共同参数如表4-1所示。
表4-2 两模型的相同参数
参数名称 | 参数含义 | 参数取值 | ||
Dropout | 随机dropout概率 | 0.5 | ||
num_classes | 分类类别数 | 10 | ||
vocab_size | 词表大小 | 10000 | ||
max_epochs | 最大迭代次数 | 10 | ||
batch_size | 批量处理大小 | 128 | ||
learning_rate | 学习率 | 1e-3 | ||
embedding | 词向量维度 | 300 | ||
pad_size | 文本含词个数 | 256 |
4.2.2 实验训练
本实验是在本机离线进行的,配置好cuda及pytorch-GPU环境后,下载所需数据集,分别定义RNN和CNN训练模型,再代入同一新闻文本数据集进行模型训练。
如图4-1、图4-2所示,通过CNN模型的数据集的训练,获得了训练集的准确度和验证集的准确度。随着网络的不断训练,训练集上网络的准确性不断提高,最终达到76.67%。训练集的准确度最终达到73.32%。
从图4-3、图4-4中可以获得CNN模型随着实验epoch 轮数增加,在训练集上和验证集上的损失率变化趋势。在训练了3.3k轮后,训练集最终损失值为0.764。验证集损失值最终达到0.699。
如图4-5、图4-6所示,通过RNN模型的数据集的训练,获得了训练集的准确度和验证集的准确度。随着网络的不断训练,训练集上网络的准确性不断提高,最终达到83.6%。训练集的准确度在训练3k次之后基本稳定在76%,最终达到76.9%。
从图4-7、图4-8中可以获得RNN模型随着实验epoch 轮数增加,在训练集上和验证集上的损失率变化趋势。在训练了5.3k轮后,训练集最终损失值为0.4846。验证集在训练了3k轮后,损失值稳定在0.652左右,最终达到0.6411。
4.3训练结果
CNN模型在不同类别上的分类效果如表4-3。实验结果以柱状图4-9的形式更加直观地展示不同类别在CNN模型上的分类情况。
表4-3 CNN网络模型在不同类别上的分类表现
类别 | 分类 | precision | recall | f1-score | support |
体育 | 0 | 86.9% | 80.8% | 83.8% | 782 |
华人 | 1 | 83.7% | 77.2% | 80.3% | 447 |
X | 2 | 87.5% | 83.6% | 85.5% | 353 |
国内 | 3 | 70.4% | 68.0% | 69.2% | 5354 |
国际 | 4 | 87.5% | 87.4% | 87.5% | 2973 |
娱乐 | 5 | 70.4% | 52.4% | 60.1% | 250 |
文化 | 6 | 56.5% | 57.5% | 57.0% | 776 |
港澳 | 7 | 93.8% | 89.7% | 91.7% | 786 |
社会 | 8 | 66.3% | 75.5% | 70.6% | 4850 |
财经 | 9 | 74.4% | 68.0% | 71.1% | 3507 |
图4-9 CNN网络模型在不同类别上的分类结果
RNN模型在不同类别上的分类效果如表4-4和图4-10。
表4-4 CNN网络模型在不同类别上的分类表现
类别 | 分类 | precision | recall | f1-score | support |
港澳 | 7 | 91.0% | 94.0% | 92.5% | 786 |
X | 2 | 81.8% | 92.9% | 87.0% | 353 |
体育 | 0 | 84.8% | 90.0% | 87.3% | 782 |
国际 | 4 | 89.9% | 88.2% | 89.0% | 2973 |
华人 | 1 | 81.5% | 81.9% | 81.7% | 447 |
财经 | 9 | 71.9% | 79.9% | 75.7% | 3507 |
社会 | 8 | 73.5% | 73.0% | 73.2% | 4850 |
娱乐 | 5 | 68.6% | 70.8% | 69.7% | 250 |
国内 | 3 | 75.7% | 69.6% | 72.5% | 5354 |
文化 | 6 | 64.0% | 63.5% | 63.8% | 776 |
图4-10 RNN网络模型在不同类别上的分类结果
从以上图表中可以看出,其精准率基本都达到70%以上。其中 6-文化、5-娱乐的精准率、召回率、F1值较低,可能是因为两者的数据集数量较少引起的,也有可能是因为两类新闻本身具有不易于辨识的特点。
4.3模型使用及可视化界面设计
4.2.1 web系统设计
在本文构建的新闻文本分类系统中,基于Pywebio框架编写的前端页面被用来与用户进行交互,捕获用户输入的网络新闻文本并传送给后台,然后等待后台返回分类结果并将结果展不给用户。后台首先需要对文本进行一系列的预处理,然后将文本映射成能够输入到分类模型中的词语ID序列,接着把文本的向量化表示输入到使用pytorch框架训练好的分类模型中,得到两个模型的分类结果,并将最终的分类结果反馈给前端。整体流程如图所示。
图4-11 文本分类可视化系统整体流程
4.2.2前端界面设计
前端界面是基于python前端开发的开源工具包Pywebio编写的,主要用以接受使用者的文本输入,当出现点击动作时可生成最终的输出标签,如下图5-2所示的前段初始界面。
界面中间为文本输入框,内含“请输入新闻文本”的提示,用户可以在此输入网络新闻文本,选择“预测文本类别”按键,可获得最终的文本的分类结果,如下图4-12和4-13所示,其主要反映网页初始页面和新闻文本分类结果。
4.2.3后台数据处理
后台数据处理部分具体步骤如下:
(1)后台得到的前段输入信息内容后,需要对其展开预处理,这其中涵盖的分词、特殊字符处理、排除停用词等。
(2)依据已经成型的词典将文本的词语映射至词典ID,从中获得向量化的ID序列。
(3)加载使用第四章中两个数据集的训练集训练得到的模型。在第四章训练好模型之后,通过pytorch将其保存为ckpt格式。在加载时,使用import_module包加载模型结构,使用torch.load函数加载模型参数,即可使用训练过并保存好的模型。
(4)将文本的向量化表示分别输入到相应的训练好的CNN或RNN模型中,获得最终的分类结果,并将其反馈给前端和用户。
第5 章 总结与展望
随着时代不断发展,互联网信息技术得到全面发展,当信息爆炸时代下为人们获取信息提供便利同时,同样存在诸多信息层面的困扰和问题,如在大量的新闻文本信息时,如何精准定位对用户有价值的内容是本次研究的主要研究侧重点。本次研究基于此论点的首先围绕传统机器学习文本分类的是发展情况展开多维度、深层次的研究和分析,并对其发展中的缺陷与不足进行深入探索。其次,对深度学习文本分类的发展情况展开深入分析和探索,并将新闻文本的特征纳入研究范围。围绕新闻文本的分类展开研究通常体现出以下两个方面的创新之处;一是目前深度学习的文本分类成效虽然受到业界认可,但在实际的新闻文本的分类中运用范围有待加强,更多研究并没有围绕新闻文本的特殊格式展开深入探索和剖析。二是针对文本分类模型的研究存在单一化现象,无形中对分类效果造成不同程度的影响。
5.1 主要工作
本文从0开始建设了基于ChinaNews的新闻文本分类系统。为完成该分类系统,总共进行了三个部分的工作:数据的爬取与处理、深度学习神经网络的构建、模型的保存载入与可视化页面的搭建。
在数据准备的阶段,首先,本文基于python的request、bs4库编写了爬虫,爬取了China News新闻网上2023年的新闻数据并保存到本地。其次,对保存的数据进行了去噪音、去停用词、中文文本分词的预处理,并分割出了训练集、验证集、测试集。
在构建深度学习神经网络的阶段,本文基于pytorch开源库,搭建了CNN、BiLSTM两种神经网络执行文本分类任务,并在构建成功后调试参数、优化网络结构,使最终的分类准确率达到了76%。发现LSTM、CNN等文本分类模型并非属于相同的兼容性,两者的优势存在差异,,其LSTM更多适用于文本长序列的表示方面。
在使用模型、构建可视化页面阶段,本文基于pywebio构建了简单的可视化界面,可即时输入新闻文本并将分类结果即时反馈给用户。
5.2 未来工作
本次研究主要建立在深度学习在新闻文本分类中发挥的作用和价值展开多维度、深层次的分析和探索,并以此为基础提出新闻文本的特点进行分类的有效应对措施和手段,当地当前的研究依然缺乏全面性和完整性,针对模型的研究存在诸多缺陷,具体反映在以下几点:
(1)针对CNN网络的研究和分析,在本次实验中耗时较长,采用的实验设备并不理想。希望在后续的研究中能够得以改善,从而得到更为精确和理想的实验结果。
(2)本次研究开展的实验主要是通过笔者自行抓取的新闻数据信息,在预处理上存在单一化的局限性,希望在或许的的研究中增加专业词组,便于对多种类型的新闻文本进行深入探索和分析。
上述论述是本次研究中总结的不足之处和后续改进和优化的方向。另外,笔者在研究中针对文本分类的研究和剖析,从中认识到随着互联网技术的持续发展和普及,新闻文本的规模和数量呈指数型上涨,相应的信息处理技术同样与时俱进,针对文本的分类研究具有充足的发展潜能和空间,未来关于该课题的研究趋势预测如下:
(1)持续优化和改进传统文本分类方法,可针对传统特征选取、深度学习、传统极其学习等方法的基础上优化和提炼,进而加强文本的分类的整体成效。
(2)持续学习和研究相关理论和知识,入融入胶囊网络、卷积神经网络等新型模型,拓展文本分类的渠道和方式。
(3)多任务联合学习方式:针对自然语言处理的研究时,可窥探出不少处理步骤间存在紧密关联性,而如果融入对抗学习和多任务联动的方法展开研究和分析,势必会得到更为多元化、精准化的研究结果,这也是未来关于该课题的研究发展趋势。
(4)随着各类新闻社交的平台的全面发展,文本数据呈现指数型增加,怎样高效合理处理海量数据受到多个领域学者和从业者的高度关注。在后续的研究中,可融入在线学习和离线学习的特点和优势的,对其展开多维度、深层次的分析和探索。
致谢
本次研究即将完成,回顾这段时间的辛勤努力,从课题选择时,无法理顺研究方向,到完成毕设后思路较为清晰地了解了nlp的技术框架,可以说是收益颇丰。过程虽然艰辛,但也充满了学习和探索的乐趣。能够顺利完成本次毕业设计,最感谢的就是指导教授***,温柔宽厚、尽职尽责,在毕设过程中始终关注着我们的项目进度,也给予了我充分的指导与自由探索的机会。
此外,在我的毕业设计过程中,在面临研究瓶颈和困难时,同学和家人给予我莫大的支持与帮助。室友曾与我于深夜共同在电脑前奋战,在我偷懒拖沓督促我;父母也一直在默默地支持我的毕设工作、关注我的毕设进度。正因有他们站在我身后,我才能顺利完成毕业设计。
另外,我是站在巨人的肩膀上才能有所拾遗,要感谢在本文领域开辟道路、孜孜深耕的科研前辈们,也感谢许多在此方向进行过探索的学长学姐,帮助我铺平了入门的研究道路,使入门的学习曲线格外平坦。也当今发达的互联网科技以及可以广泛传播的信息技术,让我能够轻松获得宝贵的学习资料。
整个四年的大学生活中,我格外幸运,结识了许多良师益友。苟日新,日日新,又日新,我感念在学校四年让我认识到大千世界、养成了良好的习惯、沉淀下坚实的知识基础。校园生活即将结束,步入社会后,我会感念在学校的美好时光与丰富收获。大学四年,我无怨无悔!
1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。
2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。
原创文章,作者:打字小能手,如若转载,请注明出处:https://www.447766.cn/chachong/67060.html,