论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>职称论文>范文阅读
快捷分类: 期刊论文的外部特征 图像边缘特征提取算法开题报告 特征提取开题报告 文献综述脑电信号特征提取 中国古典舞的审美特征论文提纲 文献综述基本特征 提取工艺开题报告

关于特征提取相关硕士论文范文 和文本特征提取现状分析和展望类在职毕业论文范文

分类:职称论文 原创主题:特征提取论文 发表时间: 2024-03-13

文本特征提取现状分析和展望,该文是特征提取相关硕士论文范文与展望和现状分析和文本有关论文范文素材.

摘 要:文本挖掘作为一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学等多个领域,近年来基于文本挖掘技术的商业应用开发已成为热点.文本特征表示与提取是文本挖掘的首要基本问题,得到了研究者的广泛重视.近年来,该领域已经有许多重要的研究成果.本文对近年来文本特征表示与提取的研究成果进行综述,展望未来文本特征表示与提取技术可能的研究热点.

关键词:文本挖掘;文本特征表示;特征提取;模式识别

文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务,一般处理的对象都是海量、异构、分布的文档.传统数据挖掘所处理的数据是结构化存储于数据库当中,而文档都是半结构或无结构的.所以,文本挖掘面临的首要问题是如何在计算机中表示文本,使之包含足够的信息反映文本的特征.目前的网络信息中80%是以文本的形式存放,Web文本挖掘是Web内容挖掘的重要内容.

文本的表示与特征提取是文本挖掘领域中的基本问题.目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据.但直接通过分词与词频统计得到的高维度文本向量作为文本表示,不仅给文本理解等后续任务,比如:文本分类、聚类等,带来巨大的计算开销,且精确也会受到影响.因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的.

目前有关文本表示的研究主要集中在文本表示模型方法与特征选择算法方面.用于表示文本的基本单位通常称为文本的特征或特征项.在中文文本中,采用字、词或短语作为表示文本的特征项.目前大多数中文文本分类系统都采用词作为特征项.(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项.)如果把所有的词都作为特征项,那么其特征向量的维数将非常高,要高性能地完成文本分类、聚类等文本理解任务将非常困难.特征提取与压缩主要是为了保持文本核心信息表达的同时,尽量降低特征向量的维度,从而提高文本处理的效率.

特征提取主要有如下四种思路:一是用映射或变换的方法把原始特征变换为较少的新特征;二是从原始特征中选取一些最具代表性的特征;三是根据专家知识选取最有影响的特征;四是用统计方法找出最具分类信息的特征,这种方法适合于文本分类任务.下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面,对文本表示与特征提取研究领域现有的研究成果进行综述,然后再展望未来文本特征表示与提取技术可能的研究热点.

1 主流基于统计的文本特征评估方法1.1 词频(TF: Term Frequency)、文档频度(DF:Document Frequency)与TFIDF

(1)词频(TF: Term Frequency):即一个词在文档中出现的次数.将词频小于某一阈值的词删除,从而降低特征空间的维数,完成特征选择.该方法是基于出现频率小的词对文本表达的贡献也小这一假设.但有时在信息检索方面,频率小的词可能含有更多信息.因此,不宜简单地根据词频来选择特征词.

(2)文档频度(DF: Document Frequency):即统计在整个数据集中有多少个文档包含该词.在训练文本集中对每个特征词计算其文档频度,并且根据预设阈值去除那些文档频度超高或超低的特征词.文档频度的计算复杂度较低,适用于任何语料,常用于语特征降维.

考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况,故而需要删除.DF 的缺陷是有些稀有词可能在某一类文本中并不稀有,即可能包含着重要的类别信息,如果舍弃将可能影响分类精度.

(3)TFIDF:它是由Salton在1988 年提出的.其中IDF称为反文档频率,用于计算该词区分文档的能力.TF*IDF 的基本假设是在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然;同时考虑单词含有的类别区分能力,即:认为一个单词出现的文档频率越小,其类别区分能力越大.

TFIDF算法用于特征词权值估计就是为了突出重要单词,抑制次要单词.但IDF的假设认为文本频数小的单词就越重要,文本频数大的单词就越无用,并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,导致TFIDF算法法的精度并不是很高.特别是,TFIDF算法中没有体现出单词的位置信息对其重要性的影响,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征.特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同.因此如何对于在网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果,成为了研究者关注的热点.

1.2 统计词与类别信息相关度的文本特征评估方法

互信息:互信息用于衡量某个词和某个类别之间的统计独立关系.

互信息作为计算语言学模型常用分析方法,原是信息论中的概念,用于表示信息之间的关系,即两个随机变量统计相关性测度.它被用于特征提取是基于如下假设:在某个特定类别出现频率高,但在其它类别出现频率比较低的词条与该类的互信息比较大.考虑到无需对特征词和类别之间关系的性质作任何假设,非常适合于文本分类的特征和类别匹配工作.

特征词和类别的互信息体现了特征词与类别的相关程度,被广泛用于建立词关联统计模型.它与期望交叉熵不同,它没有考虑特征词出现的频率,使得互信息评估函数更倾向于选择稀有词而非有效高频词作为文本的最佳特征.以互信息作为提取特征值的评估方法时,最终会选取互信息最大的若干特征词构成文本向量.互信息计算的时间复杂度平均值等同于信息增益,它不足之处在于权重受词条边缘概率影响较大.当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3 次)的词条,而较低的文档频率必然导致它们只属于少数类别.但是从实验数据中发现,这些抽取出来的特征词往往为生僻词,很少一部分带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.

二次信息熵:将二次熵函数取代互信息中的Shannon熵,形成基于二次熵的互信息评估函数.它克服了互信息的随机性.作为信息的整体测度,比互信息最大化的计算复杂度要小,可提高分类任务中特征选取的效率.

期望交叉熵:也称KL距离.反映的是文本某一类的概率分布与在某特征词的条件下该类的概率分布之间距离,特征词w的交叉熵越大,对文本类的分布影响也越大.它与信息增益不同,它没有考虑单词未发生的情况,只计算出现在文本中的特征项.如果特征项和类别强相关,即:P ( Ci | w )就大,而P( Ci) 又很小,则说明该特征词对分类的影响大.交叉熵的特征选择效果都要优于信息增益.

信息增益方法:用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度.信息增益是一种基于熵的评估方法,用于评估某特征词为整个分类所能提供的信息量,即:不考虑任何特征词的熵与考虑该特征后的熵的差值.根据训练数据,计算出各个特征词的信息增益,增益很小的,其余的按照信息增益从大到小排序.某个特征项的信息增益值越大,对分类也越重要.信息增益最大的问题是:它只能考察特征词对整个分类系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重).

其它的文本特征评估方法:比如卡方统计量方法、文本证据权、优势率等,这些方法也都是用于评估特征词与文本类别的相关性.其中,在卡方统计和互信息的不同在于, 卡方统计其评估权重只对在同类文本中的词是可比的, 另外,它对低频词评估实用性不高.

2 主流的文本特征选择方法

2.1 N-Gram算法

其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段,形成长度为N的字节片段序列.每个字节片段称为一个N-Gram单元,对全部N-Gram单元的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键N-Gram列表,作为该文本的特征向量空间.由于N-Gram算法可避免中文分词错误的影响,适用于中文文本处理.中文文本处理大多采用双字节进行分解,即:bigram.但是bigram切分方法在处理20%左右的中文多字词时,会产生语义和语序方面的偏差.而对于专业领域文本数据,多字词常常是文本的核心特征,处理错误将导致负面影响.于是有研究者提出改进的基于N-Gram文本特征提取算法,即:在进行big r am切分时,不仅统计bigram的出现频度,还统计某个bigram与其前邻bigram的共现情况.当共现频率大于预设阈值时,将其合并成为多字特征词.该算法,较好地弥补N-Gram算法在处理多字词方面的缺陷.

2.2主成分分析算法

该算法通过搜索最能代表原数据的正交向量,建立一个替换的、较小的特征集合,将原数据投影到这个较小的集合.主成分分析(PCA)按其处理方式的不同,又分为数据方法和矩阵方法.矩阵方法中,所有数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应.考虑到矩阵方法的计算复杂度随着数据维度n的增加,以n的次方增长,有研究者提出了使用Hebbian学习规则的PCA神经网络方法.

2.3遗传算法与模拟退火算法

(1)遗传算法(Genetic Algorithm, GA):是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果.如果将文本看作是由若干个特征词构成的多维空间,那么将文本特征提取问题就转化为了文本空间的寻优过程.有研究者已经将遗传算法应用于这个寻优过程中.首先对文本空间进行编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到文本的最优特征向量.

基于协同演化的遗传算法使用其它的个体来评价某一特定个体.个体优劣的标准是由在同一生存竞争环境中的其它个体决定.这种协同演化的思想与处理同类文本的特征提取问题相吻合.同一类别文本相互之间存在着相关性,各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争.因此,每个文本的特征向量(个体)在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到其它同类个体的指导.基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其它同类文本的共性,从而有效地解决同一类别的多个文本的集体特征向量的提取问题,获得反映整个文本集合最佳特征向量.

(2)模拟退火算法:将特征选取看作组合优化的问题,因而可以使用解决优化问题的方法来解决特征选取的问题.模拟退火算法(Simu l at i ngAnneal,SA)就是其中一种方法.将模拟退火算法运用到特征选取中,理论上可以找到全局最优解,但在初始温度的选取和邻域的选取时,需要找到有效的策略来综合考虑解的性能和算法的速度.

3 词向量(word embedding)

深度学习(D e e p L e a r n i n g)中一般用到的词向量是用词向量(Wo r d E m b e d d i n g)或分布式表达方法( D i s t r i b u t e d Representation)所表示的一种低维实数向量.维度以 50 维和 10 0维比较常见.这种向量的表示不是唯一的.词向量的提出,为的是将相关或者相似的词,在距离上更接近.向量的距离可以用最传统的欧氏距离来衡量,也可以用 co s 夹角来衡量.比如:用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”.可能理想情况下“麦克”和“话筒”的表示应该是完全一样的,但是由于有人会把英文名“迈克”也写成“麦克”,导致“麦克”一词带上了一些人名的语义,因此不会和“话筒”完全一致.该方法很好地解决了传统的文本特征向量用于文本挖掘任务时可能出现的维数灾难问题,因而被很多研究者广泛地用于各类文本挖掘的任务当中.

4 基于领域语义理解的文本特征提取方法

4.1基于语境框架的文本特征提取方法

有研究者发现,单单依靠统计无法完成语义分析.没有考虑句子的语义以及句子间的关系的情况下,无法提取准确的文本特征向量来表达文本语义.因此,研究者提出将语义分析与统计算法相结合的语境框架算法,并获得了丰富的研究成果.可以将语境框架看作是一个三维的语义描述框架,即:把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个模块.在语境框架的基础上,从语义分析入手,实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法.该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力.

4.2基于本体论的文本特征提取方法

有研究者提出了应用本体论(Ontology)模型,有效地解决特定领域知识的描述问题.比如:针对数字图像领域的文本特征提取问题,可以通过构建文本结构树,给出特征权值的计算公式.算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法, 能够更准确地进行特征词权值的计算和文本特征的提取.

4.3基于语义网络的概念特征提取方法

文本挖掘,特别是中文文本挖掘,处理的对象主要有字、词、短语等特征项.但字、词、短语更多体现的是文档的词汇信息,而非语义信息,因而无法准确表达文档的内容.目前的大多数关于文本特征提取的研究方法只注重考虑特征发生的概率和所处的位置,缺乏语义方面的分析.向量空间模型(V)最基本的假设是各个分量相互正交,但事实上,作为分量的特征词间存在很大的相关性,无法满足模型的假设.基于概念的特征提取方法是在V的基础上,对文本进行部分语义分析,利用英文的WordNet或中文的知网等语义网络获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类.用概念作为文档向量的特征项, 这样就能够比一般词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象,从而有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率.

5 总结与展望

本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述.随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:(1)文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究.(2)新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好.结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析.(3)改进分词算法.比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统.(4)改进特征评价函数.比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价.

责编/魏晓文

参考文献

[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003,3(6):1137-1155.

[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988,24(5):513-523.

[3] 刘健, 张维明. 基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用, 2008, 44(10):135-137.

[4] 成卫青, 唐旋. 一种基于改进互信息和信息熵的文本特征选择方法[J]. 南京邮电大学学报(自然科学版), 2013, 33(5):63-68.

[5] Cnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]//In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.

[6] 陈素芬, 曾雪强. 中心修正增量主成分分析及其在文本分类中的应用[J]. 中文信息学报, 2016, 30(1):108-114..

[7] 郝占刚, 王正欧. 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学, 2006, 24(1):104-107.

[8] 晋耀红, 苗传江. 一个基于语境框架的文本特征提取算法[J]. 计算机研究与发展, 2004, 41(4):582-586.

[9] 王万良, 潘蒙. 基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报, 2017, 45(1).

[10] 贺一帆, 江铭虎. 网络文本分类中基于信息瓶颈的特征提取[J].清华大学学报(自然科学版), 2010(1):45-48.

结束语,这是关于对不知道怎么写展望和现状分析和文本论文范文课题研究的大学硕士、特征提取本科毕业论文特征提取论文开题报告范文和文献综述及职称论文的作为参考文献资料.

参考文献:

1、 基于CiteSpace的我国知识产权质押融资现状分析和展望 摘 要文章运用CiteSpace可视化文献分析工具对2006年以来CNKI总库中文核心期刊和CSSCI来源期刊中关于知识产权质押融资研究的262篇文献进行分析,绘制出主要研究机构、核心作者群以及热点研.

2、 一种改进的人体行为特征提取算法 【摘要】 在视频理解中,人体行为识别非常重要,随着其他技术的发展,人体行为识别被广泛的应用在实际中,在异常事件监测、人机交互、视频搜索……方面都有着广泛运用 当前,各类不同的人体行为识别算法不断涌现,.

3、 人脸识别技术特征与未来的应用展望 【摘要】 当前,科学技术逐渐向智能化、科技化进步,人脸识别也逐渐受到了广泛重视 文章首先对人脸识别重要内容进行分析,然后对人脸识别的应用进行讨论,阐述了人脸识别技术的发展前景,方便用户的日常生活,而且.

4、 医疗信息交换平台(HIE)现状分析与展望 摘要医疗信息化的发展,已经从数据收集阶段进入到全面的数据共享阶段 医院内异构系统之间、远程医疗、分级诊疗……新模式,以及医院并购和集团化管理都迫切要求实现跨系统的数据共享 国内在解决数据共享方面,实际.

5、 基于改进SIFT和RANSAC的物体特征提取和匹配 摘 要使用基于RANSAC提纯的改进SIFT算子和SIFT算子分别在两张不同视角的图像中提取并匹配特征点对,通过实验结果验证了基于改进的SIFT算提取特征点的准确率和匹配的精度都要比SIFT算子和H.

6、 环棱螺相关产品加工业餐饮业市场现状与前景展望 环棱螺是一种高蛋白、低脂肪的天然保健水产品 随着螺肉相关食品加工业研究的深入,不断有各种方便即食的环棱螺食品推向市场,并广受消费者喜爱 本文作者通过对环棱螺食品加工业和餐饮业、市场前景……方面的梳理分.