上海论文网是一家老字号代写网站,专业提供代写硕士毕业论文服务。

基于文本序列和语义信息学习的计算机文本分类研究

发布时间:2018-09-16 20:06 论文编辑:lgg 所属栏目:计算机论文 关键词: 文本序列语义信息学习文本分类

本文是一篇计算机论文,计算机应用专业的特色是“厚基础,重方向”。本专业学生可以学到很扎实的计算机应用基础知识,就业面广;同时,在此基础上又强化专业方向,学生们有重点地掌握

本文是一篇计算机论文,计算机应用专业的特色是“厚基础,重方向”。本专业学生可以学到很扎实的计算机应用基础知识,就业面广;同时,在此基础上又强化专业方向,学生们有重点地掌握一个专门化的技能,以便从事专业性较强的计算机岗位工作。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
 
第一章 绪论
 
1.1 论文研究背景及意义
互联网技术发展使得各种信息大量充斥于网络世界,而信息的主要形式就是文本,新闻、小说、博客、聊天等包含了大量的文本内容,如何对文本数据进行自动分类、组织和管理,已成为一个重要的研究课题。对文本进行分类有着重要意义,一方面文本分类可以帮助人们高效、快捷地管理和使用文本数据,例如检索系统;另一方面,文本分类为人们对文本中的数据进一步挖掘提供了基础,例如问答系统、词性标注等。最初的文本分类是专业人士根据领域知识对少量文档进行的,花费高昂且无法大规模分类,不能满足互联网发展的需求[1],因此人们希望通过辅助工具来更快、更好和更准确的管理更多的信息。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一[1]。文本分类最早兴起于上世纪 60 年代,主要通过一些人工定义的规则手动分类,工作量大,效率低[1]。随着互联网的发展,低效的规则方法无法满足大数据量文本分类的需求,因此发展出了高效的自动文本分类模型。文本分类模型的关键在于学习好的特征,即文本表示学习,其属于表示学习的一部分,良好的文本表示可以极大地帮助提升文本分类的效果。目前主要的文本表示学习的方法和理论有向量空间模型(Vector Space Model,VSM)、主题模型(如 LDA,LSI)和基于神经网络的深度学习模型[2-11]。向量空间模型的基础为词,通过信息增益等特征选择方法选择特征,通过 TF_IDF 等方法计算特征值,最后以选择的特征和特征值构建文本表示;但其丢失了文本语义和序列信息,一般用于长文本的分类,不适用于短文本和句子级文本的分类。主题模型通过学习词和文本的主题分布来表示文本和词,虽然学习到了浅层语义,但是其所学习语义是粗粒度的、模糊的主题;另外主题模型计算复杂,需要并行化计算,且其不适用于短文本和句子级文本建模。基于神经网络的深度学习模型是目前研究最多和最广泛的方法,该类方法一般在词向量基础上通过深度学习模型(如 CNN、RNN、AutoCoder 等)利用文本的序列信息来学习文本表示;相较于前两种方法,深度学习模型最大的优势在于其可以自动学习文本特征和文本表示,但是其目前对于句子和短文本级的文本建模较多,而对于长文本建模较少,且在长文本分类上的表现不理想。
............
 
1.2 国内外研究现状
文本分类的任务包括分词、词表示、文本表示和文本分类模型。分词是其他任务的基础,中文分词需要用分词算法切割汉字,英文需要转换形态;词表示是文本表示和分类的基础,词表示有多种方法,包括 one-hot 表征,词向量和主题分布表征等;文本表示一般是在词表示的基础上通过表示学习算法得到;文本分类模型在文本表示基础上学习,包括经典统计机器学习模型、神经网络模型和深度学习模型等。本部分将重点阐述在词表示、文本表示和文本分类模型上的研究。
 
1.2.1 词表示
词表示是文本分类的基础,词表示旨在使算法(或计算机)理解词的意思,包括语义等词的语言特征信息。但是此处的理解词与人类理解词是不同的,前者只是将词表示于向量空间中,用某个位置代表某种语义,并不理解其所代表的事物或概念的特征、属性和用法等。最初的词表示采用独热(one-hot representation)模式,即将语料中的所有词编上序号,词所编序号的位置的值为 1,其余位置为 0,例如“机器”=[0,0,0,1,0]。这种方法表示太过稀疏,且词与词之间不存在关联,即使相同语义的词也无法度量,只是将词符号化或者数值化了,不包含任何语义等信息。为克服 one-hot 模式的缺点,人们提出来词的连续空间表示,其中分布式表示是目前应用最广泛的方法。分布式表征是基于分布式假说提出的[12],分布式假说认为上下文相似的词,它们的语义也相似;其核心思想可以概括为两点:选择一种方式描述上下文和选择一种模型建立词和其上下文之间的关系[13]。分布式表示先后有三种实现:基于矩阵的分布式表示、基于聚类的分布式表示和基于神经网络的分布式表示[14-17]。基于矩阵的分布式表示又被称为分布语义模型,基本思想是通过对“词-上下文”矩阵进行矩阵分解(如 SVD,奇异值分解)从而获得低维稠密的向量来表示词,主流方法有 LSA 等模型[3,6,7];基于聚类的分布式表示又被称为分布聚类,其基本思想是通过聚类来建立词和其上下文之间的关系;目前主流的表示方法是第三种,本文主要介绍基于神经网络的分布式表示。
.........
 
第二章 文本分类相关理论与技术
 
文本分类是自然语言处理的一项任务,其研究和实现需要依托于其他相关的基础技术和理论,本章将主要讨论论文依赖的技术和理论,包括:分布式假说、深度学习模型、语言模型、词向量学习模型、分词技术、经典分类算法和 TensorFlow技术。
 
2.1 分布式假说
Harris 于 1954 年提出了语言的分布式结构[36]。Harris 认为语言具有分布式结构,语言可以被多个独立的特征结构化表示,即分布式表示。语言中的元素的分布可以认为是其周围环境(上下文)的综合。针对语言的分布式结构,Harris 从四个方面进行了论证:(1)语言(文本)中的每个部分并非随机出现的,其出现一定是与其他部分相关联的,甚至于其出现的位置也与其他元素的位置息息相关。(2)语言中元素的分布并非自由多变的,而是相对固定和相对受限的,这种限制分布可能出于语义、句法等的需要,且一般适用于其出现的各种环境。例如:形容词一般会修饰名字,“蓝蓝的”一般修饰“大海”和“天空”。(3)语言的分布式表述可以涵盖语言的所有元素且无需其他类型信息的支持,可以表述一个词,一个短语,一句话,一段文本等。(4)语言中每个元素的相关元素对其的限制可以简单地通过一个相关性网络进行描述,甚至某些元素直接作为其他元素的部分而存在。总之,Harris 从各个方面论述语言存在分布式结构。同时,Harris 讨论了语言的分布式结构与语义上的关联,其认为语义是基于元素分布式结构的一个函数。随后,1957 年 Firth 进一步阐述将语言的分布式结构总结为分布式假说,即“词的语义由其上下文决定”[12]。这成为了词表示学习的基础理论,基于此理论,后人通过聚类、矩阵分解和机器学习等方法不断地尝试学习更准确的词表示。
........
 
2.2 深度学习模型
LSTM(Long Short-Term Memory)模型即长短词记忆模型,是循环神经网络模型(Recurrent Neural Network,RNN)的一个变种[37]。RNN 旨在利用历史信息帮助当前的学习,一般 RNN 模型只使用了前一个历史信息(比如一个词),可以帮助我们记忆短距离的信息,但在实际中由于梯度消失问题(激活函数的原因)导致 RNN 在许多情况下无法记忆历史信息(参数得不到训练),因此人们提出了LSTM 模型,该模型解决了梯度消失的问题,使得模型可以记忆一定长度的历史信息,其结构见图 2-1。从图 2-1 可以看出,RNN 是一个在时间上延展的深度学习模型,其每一个时间步都可以产生一个输出,对于这些输出我们可以取均值,取最大值和取最后一个输出等。LSTM 对 RNN 的改进主要是图中的 A,即隐藏层。LSTM 将隐藏层分层了三部分:输入门(input gate)、遗忘门(forget gate)和输出门(output gate),其结构见图 2-2。
........
 
第三章 基于文本语义和序列信息的通用文本表示模型............ 21
3.1 基于词向量的文本语义研究 .... 21
3.2 文本序列信息含义和学习方法研究............ 22
3.3 通用文本表示模型研究 ............ 24
3.3.1 文本表示方法分析 ........... 24
3.3.2 多粒度文本学习 ..... 25
3.3.3 通用文本表示模型 ........... 26
3.4 本章小结...... 27
第四章 基于通用文本表示模型的文本分类研究.... 28
4.1 句子分类模型 ........ 28
4.1.1 基于 LSTM and Word-Sum 的句子分类模型 ......... 28
4.1.2 基于 CNN and Word-Sum 的句子分类模型............ 32
相关阅读