论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类:

分析类有关本科论文范文 和篇章分析中的逗号分类和识别相关自考毕业论文范文

分类:毕业论文 原创主题:分析论文 发表时间: 2024-02-18

篇章分析中的逗号分类和识别,本文是关于分析相关自考毕业论文范文跟逗号和识别研究和篇章有关论文范例.

储琢佳

(南京艺术学院,江苏南京210013)

摘 要:标点符号分析对于篇章分析以及自然语言处理技术的发展有着重要作用.汉语中最常用的标点符号是逗号,研究其在句子中的作用、使用方法及自动分类等问题,可以有助于汉语篇章分析,促进中文信息处理的基础研究和应用研究的发展.

关键词:标点符号识别:逗号分类:篇章分析

中图分类号:H 515; TP391.1 文献标识码:A 文章编号:1673- 2596(2016) 03- 0225- 02

收稿日期:2015 -11一09

基金项目:江苏高校哲学社会科学研究基金指导项目“基于句法、语义和语用理念上计算机智能标注的语音标点符号识别研究”(2014SJD152)

一、逗号分类与识别的意义

随着信息化的发展,机器翻译、抽取式自动文摘等自然语言处理技术迎来了技术革命.针对自然语言处理系统的研究通常以句子为单位,分析其中的词法、句法和语义.然而,汉语中丰富的标点符号及其使用方法使得汉语句子较长并且句意复杂,降低了句法分析的正确率.

例如:在这条通往家乡的路上,翻山,越岭,渡江,离那里越近,我的心情越复杂,我越发觉得,生命在不同的地方和不同人的眼中真的是不同.

上面这个复杂的长句包含7个逗号,用途各有不同.第一个逗号是状语与中心语之间的停顿:第二、三个逗号是并列动宾短语之间的停顿:第七个逗号是谓语与宾语之间的停顿.在渡江”和复杂”之后的两个逗号相当于句子边界,这两个逗号前后的主语不同,在中译英时等同于3个句子.使用Goode翻译器的翻译如下?In this journe home onthe road, crosses, uphill, cross the river, from where thecloser,the mcre complicated my feelings,l feel mcre andmcre.life in the eyesadifferent places and different peo-ple redly ae different”

以上翻译明显存在语法和语义上的错误.Gcogle翻译只是将这7个逗号分隔成的子句独立进行翻译,没有考虑彼此之间的关系,并将各自的译文简单的堆砌,在句法结构与表达的连贯性方面都不符合英文的规范.由此可见,对文本中逗号的使用方法进行正确的分类、识别可以直接影响机器翻译对句意的正确判断,从而影响到译文的质量.

二、标点符号的研究现状

标点符号是篇章单位分割的重要标志,在自然语言处理系统中已有很多针对标点符号的研究.研究通过理论及实验证实,通过句内切分标点对长句子进行切分有助于辅助句法分析、机器翻译和篇章消歧等.

Mayerm最早从语言学的角度对英文中的标点符号进行了分类,并描述了其功能.Nunber提出了词汇语法和文本语法两个概念,将标点符号视为语言学中独立的系统,奠定了从句法分析的角度研究标点符号的理论基础.Jones制定了新的标点符号分类方法,将标点分为并列标点和依附标点两种,并将它们视为依附于临近句法成分的依附标点,而非句法上的独立个体. 在汉语方面,Jn等提出了利用逗号划分汉语长句.文章通过汉语句子的上下文识别逗号左右子句的关系,并通过并列和从属这两种关系对逗号进行分类,从而分割句子,对其进行有效的句法分析.黄河燕等利用标点符号将复杂长句进行切分,简化为多个独立的简草句进行翻译,提高了机器翻译的准确率.Li等用标点符号对长句子进行切分处理,形成完整的句法分析树,展示了基于标点符号进行层次化汉语长句结构分析的优越性.

三、逗号和子句识别的关系

标点符号是子句的重要形式标志,可分为点号和标号两大类.汉语中和子句边界有关的是点号,其中句号、问号、叹号和分号一定表示子句边界:而顿号所分隔的语言片段则不可能为子句:另外一些标点如逗号和冒号)所分隔的语言片段则有可能是子句.

表1基于汉语宾州树库(CTB6.0)的统计数据,给出了汉语中可以作为子句边界的标点符号的使用频率.从图中可见,肯定是子句边界的句末点号(句号、问号、感叹号)和句内点号(分号)占31.14%:有可能是子句边界的逗号占67.17%.因此子句识别的关键在于判断逗号是否为子句边界,可以结合逗号的具体用法和分类研究其作为子句边界的情况.

根据子句的定义,我们发现只有第一种情况中的逗号是子句边界标点,而后几种情况中的逗号都是子句内部的标点.综上可知,逗号对于子句分隔十分重要.判断逗号能否作为子句边界,实际就是判断逗号是否表示复句内部各分句之间的停顿.

(二)逗号的自动分类方法

目前的逗号自动分类方法较多是基于句法分析.如在加入逗号分类信息的情况下,使用句法分析器对句子进行句法分析得到逗号分类结果:或在句法分析器进行句法分析的基础上对句法分析过的句子提取特征建立最大熵逗号分类器.此外,仅利用句子的词语词性信息对逗号进行自动分类也取得了较好的效果.具体方法是在分词与词性标注的语料中提取上下文特征,包括子句主干特征、当前逗号序号及序号前的逗号分类类别特征、词汇特征,并采用分类器实现逗号的自动分类.

目前针对自动识别句子边界的逗号的研究较少.Jin等提出了一种基于逗号的汉语长句分割方法,利用标准句法树,根据分割原理抽取训练和测试样例,采用谓词和其他相关特征判断逗号是否可以进行句子分割.Xue等提出了判断逗号是否为句子边界的自动识别方法,利用CTB6.0语料,采用启发式规则,自动标注语料中不同功能的逗号类型并抽取特征进行试验,结果证实了这种方法的有效性.

目前,标点符号的分类与识别已经引起了众多研究者的关注.然而,虽然在汉语篇章分析中已有很多研究取得了较大的进展,利用标点符号辅助句子分析的研究仍比较缺乏,从自然语言处理角度对汉语逗号的自动分类研究开展的也很少,现有的大多数自动句法分析系统也都忽略了标点符号的特殊作用.本文从自然语言处理角度研究了逗号在句子中的作用、使用方法,总结了逗号的分类问题,希望可以有助于汉语篇章自动分析,丰富和发展语言学理论,促进中文信息处理基础研究和应用研究的发展.

(责任编辑赛汉)

本文汇总:此文为一篇关于逗号和识别研究和篇章方面的相关大学硕士和分析本科毕业论文以及相关分析论文开题报告范文和职称论文写作参考文献资料.

参考文献:

1、 卷积神经网络在语言识别中的应用以江苏省方言分类为例 李子煜 , 汪 鑫 , 张优优 , 姚 天东南大学电子科学与工程学院 , 江苏南京 210096摘 要 近年来 , 随着理论的发展与大数据的来临 , 人工智能、深度学习再度成为学术界研究的热点 本研究.

2、 识别陈世峰式的危险情人 因为闹分手,他屡屡跑到前女友和闺蜜的住处骚扰 最后一次争执后,他连捅闺蜜数刀,头部划出的伤口长达10厘米,惨不忍睹 一年后,这宗发生在日本留学生中的惨案震动网络 他的凶残,也令众多网友咋舌 他,就是&.

3、 人脸识别技术成神捕 人脸识别技术能够迅速处理超大规模的人像数据,在十亿级人像库中实现秒级返回比对,能进行基于视频流的动态人像识别比对,和基于图片的静态人脸比对,具备快速精准地确认被查询人员身份,人脸跟踪捕获和识别,实时布.

4、 FAST,早期识别脑卒中 脑卒中,又叫脑中风,是目前临床上死亡率、致残率相当高的疾病之一 而到了冬、春季节,脑卒中更是急诊科的常见病,可以说,冬、春季,每10个进入急诊科抢救室的病人,至少有5个都是脑卒中 为什么进入冬季,脑卒.

5、 基于关联标签的数字图书馆馆藏资源主题分类 摘要数字图书馆馆藏资源社会化标签是用户对图书馆期刊资源内容的意识反映,标签内容包含了多种价值信息 介绍了相关研究背景,阐述了研究思路与研究方法 从标签关联程度出发,通过对馆藏资源标签采集、预处理及期刊.