论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 关于拼音教学的参考文献有哪些 小学一年级拼音教学论文 拼音教学的论文 关于拼音教学的论文 拼音教学论文参考书 小学生拼音教学论文

拼音类有关毕业论文的格式范文 跟微软汉语拼音与自动字音转换问题初论有关毕业论文的格式范文

分类:毕业论文 原创主题:拼音论文 发表时间: 2024-02-22

微软汉语拼音与自动字音转换问题初论,该文是关于拼音类毕业论文范文与汉语拼音和微软汉语拼音和字音有关本科论文怎么写.

闫冰

(山东大学文化传播学院,山东 威海 264209)

[摘 要] 实际应用发现,Microsoft Office Word自动拼音标注系统存在不完善之处,如音节拼写错误、变调错误、轻声错误、多音字词标音错误、隔音符号遗漏等.调查多种在线和单机版字音转化工具,指出存在的问题.在真实文本语料支持下,基于规则和统计相结合的原则尝试解决汉语自动拼音标注系统的准确及高效问题.

[关键词] 汉语拼音;Word; 自动;标音系统

[中图分类号] H125.5

[文献标识码]A

[文章编号]1672-8610(2016)08-0001-03

[基金项目]教育部人文社科青年基金项目(13YIC740047),山东省社科基金项目(09DW205).

[作者简介]闫冰,女,山东大学(威海)文化传播学院讲师,吉林大学文学院语言学及应用语言学博士研究生,研究方向:对外汉语教学、现代汉语语法等.

当前,汉语作为第二语言教学的教材,以及我们在编写面向外国留学生学习汉语的资料时,为了让不熟悉汉字、不易把握汉字读音的汉语学习者更好地掌握汉语,需要给汉字依次注音.在进行汉字注音的过程中发现,汉语拼音标注的实践远比理沦复杂得多,在对其进行批量处理时,当前的of fice word 2003/2007等自动标音系统存在很多不尽完善之处.比如,汉语的轻声词很多,且存在轻声与不轻声两可的情况,还有变调等等,这些在计算机的自动处理中都存在不同程度的问题.本文基于大量实例对此试做论述.

一、有关汉语拼音的几个问题

关于汉语拼音的规范问题似乎已经十分明确,但在具体的实际操作中我们发现,汉语拼音仍有很多棘手的问题.先看看辞书中有关注音的几条原则:

1.条目中的轻声字,注音不标调号,而是在注音前加圆点,如:【衣服】y1.fu;【桌子】zhuo.zi.

2.一般轻读、间或重读的字,注音上标调号,注音前再加圆点,如:【因为】yin.wei,表示“因为”的“为”字一般轻读,有时也可以读去声.

3.插入其他成分时,语音上有轻重变化的词语,标上调号和圆点,再加斜的双短横,如【看见】注作kan//.jian,【起来】注作qi//.lai,表示在“看见”、“起来”中,“见”字“来”字轻渎,在“看得见、看不见”、“起得来、起不来”中,“见”字“来”字重读.

【起来】还有//qi//.lai的注法,表示用在动词、形容词后做补语时,如“举起来”、“好起来”等,“起来”两字都有轻重的变化.在“举起来”里,“起来”两字都轻读,插入“得、不”以后,如“举得起来、举不起来”,“起来”两字都重读.“起来”两字之间再加宾语,如“举得起手来”,“举不起手来”,“起”字重读,“来”字轻读.“上来”、“上去”、“下来”、“下去”、“出来”、“出去”等都可以有同样的变化,注音也用同样的方式.

4.辞书一般不注变调.如两个上声相连,在实际语流中第一个上声字变读阳平,但这种临时语流音变不在静态的词典中呈现.但是一部分重叠式词语,如“沉甸甸、热腾腾”,照实际读法注作chen diandian、re tengteng.

5.对于儿化音的注法,在基本形式后面加“r”,如【今儿】jinr,不标语音上的实际变化.

6.在多音节词的注音中,音节界限有混淆可能的,加隔音号(’).如【答案】da’an,【木偶】mu’ou.前一音节是鼻音n或ng,后一音节是元音开头,中间要加隔音号,如【恩爱】en’ai,【名额】ming’e.

以上是《现代汉语词典》及众多语文辞书中的注音原则.《现代汉语规范词典》在注音说明时比较简略,一般按《汉语拼音方案》的规定处理.这些原则是针对于辞书编纂领域的.实际上,汉语拼音看起来十分简单,具体处理起来并非如此,而对拼音的自动处理就更非易事.比如说,上面面向人的6条原则中,第2条就属于两可的情况,但对于计算机的自动处理和标音只能是唯一性的(二值逻辑),这就要求自动标音系统做出合适的选择.

另外,就面向人际系统的字词标音来说,具体而言,又可以分为面向母语者还是非母语者.众所周知,汉语学习的难点一是汉字,二是声调.出于外国人学习汉语准确把握声调的考虑,所有汉语学习用的教材及读物其标音都要考虑字词的实际读音.主要是“一”和“不”的变调、轻声、儿化音、叠音变调、隔音号等.上声及其他变读暂不予标注.如:

我 不认识那个人, 她叫 什么?

Wo bu renshi na ge ren,to jiao shenme?

我 来 中国

的时候 一句汉语也不会

Wo lai Zhongguo de shihou yi ju hanyu ye bu hui

说.

shuo

你看看, 这 几种 怎么样?

Ni kankan,zhe jizhong zenmeyang ?

以上三个例句中斜体部分就包含了“一”和“不”的变调、轻声、动词重叠等,当然在大规模文本中还会遇到更复杂的情况.不过,在讨论Microsoft Office Word自动标音系统之前我们必须明确,在动态文本中,除了轻声、动词重叠的尾字要像辞书那样必须处理以外,还必须处理“一”和“不”的变调、趋向补语的轻声变调以及隔音符号等问题.

关于隔音符号,“a、o、e”开头的音节连接在其他音节后面的时候,如果音节的界限发生混淆,就要用隔音符号(’)隔开,如:

Ku’ai(酷爱)-kuai(快)

shang’e(上腭)- shange(山歌)

Xi’an(西安)- xian(先)

dang’an(档案)-dangan(单干)

这是《现代汉语》教材中的说明,其实这项说明并没将汉语拼音隔音符号的使用阐释清楚,只是强调了“如果音节的界限发生混淆”才添加隔音符号.问题是,汉语中大量的多音节词中的零声母尾字跟前面的辅音并不构成实质的音节混淆,但辞书也已全部增添隔音符号.如“可能”,普通话中只有ke/neng,而不存在ken/eng,后者类似于自动分词领域的伪歧义字段.再如“答案”,普通话中只有“da/an”,而不存在其他形式,但辞书也都添加了隔音符号.所以,从目前辞书的处理来看,凡是尾字为零声母,前面音节的韵尾是n或ng以及前面的音节为元音韵母的都要添加隔音符号.

以上列举了汉语拼音标注规范的一些细节问题,我们认为,只有将面向人际系统的普通辞书的标音准则弄清楚了,才能进一步开展面向机器自动处理的标音问题.

二、微软自动标音系统的不足

通过对大规模真实文本加注拼音发现,Microsoft Office Word自动标音系统存在以下有待解决的问题.

1.Microsoft Office Word自动标音系统处理能力有限,尤其缺乏批量处理功能.通过对大量字词加注拼音的实验,发现word系统一次最多只能给50个左右的汉字标音,拼音的音节形式有的简单有的复杂,但字母的数量集中在140个左右.如果一次选中过多的汉字,后面的部分将不会被处理.试看下面的截图:

2.对变调、轻声等的处理不周遍,不彻底,随意性强.Word能给部分“一”“不”进行正确的变调,但或许因规则不强,造成大量错误,如“不去”标成“bu(bu分)qu(qu分)”.轻声也是如此,如“喜欢”和“部分”正确标为“xi huan”和“bufen”,但“糟践”、“消息”等则没有标为轻声.“辈子”正确标为“bei zi”,“半辈子”则标成了“ban bei zi”.汉语ABB中BB的变调较为特殊,普通语文性辞书多采用两种标注,如“黑洞洞”[hei dong dong](口语中也读hei dong dong).Word对此标准不严,有的ABB变调,有的不变,如将“汗淋淋”标成变调的“han lin lin”,“明晃晃”和“沉甸甸”则标原调.当然,这个问题不能完全归罪于标音系统,因为汉语在这方面本身的规则就不周遍,笔者查阅资料发现,曾有专文(尹海良2008)调查统计过ABB的变调情况,转录于此以观察其复杂性:

3.标音系统不能给具有歧义理解的词语加注隔音符.现代汉语双音节词中有大量后音节为零声母的情况,这时通常需要加注隔音符以便准确识读,但word不具有自动标注功能.如“局”标为

4.word文档文字加注拼音后不能单独查找替换某个汉字或汉字串,不能根据每行首字进行升序或降序排序,不能统一替换其中的某个汉语拼音.另外,word不能对加注汉语拼音的整个汉字文档进行一次性去除汉语拼音,在字号的编辑上较繁琐,汉字和拼音字号变化不同步,需分别改变,费时费力.

三、当前一些拼音自动标注软件调查

由于word在标音方面存在诸多的问题,因此一些公司或个人纷纷开发适合自己使用的相关软件,这些软件有些是可以下载安装使用的单机版,有些是在线自动进行字音转换.笔者通过调查发现,这些软件最大的特点是批量处理能力非常强,但距离使用者所追求的理想目标仍有相当的差距.

首先提供几个在线的汉字注音软件:

1.快典网多音字自动识别,http://py.kdd.cc/index.asp

2.中文全文注音器,http://www.zhuyinlibrary.com/tools-pinyln.html

3.桃源世界在线,http://www. toyow. com/tools/conver-sion/HanZi- PinYin.html

通过网络调查发现,“快典网多音字自动识别”使用度较高,据称该在线系统支持繁体中文和GBK汉字,对多音字的识别率已经达到98%,可以处理长篇文章,有几种注音方式可供选择.并且,快典网的标音基础是“词本位”,能够进行“一”和“不”的变调处理,对多音字的判定也较为准确.中文全文注音器是基于“字本位”,只是进行单个汉字和拼音的对应转换,对变调、多音字等的处理错误率相当高,如“进行综合处理”该系统输出的拼音形式为“jin hang zong he chu li”,多音词“行”和“处”判断标注有误.“桃源世界在线工具”的字音转换系统则只能输出没有声调的拼音形式,实用性较低.

关于下载安装的单机版汉语拼音标注软件,笔者经过多次搜索查询,已找到几款,现在分别予以介绍.

1.实用汉字转拼音V4.8.这款软件的功能比较多,具体可选项如下:

但该软件依然不能很好地处理“一”和“不”的变调,趋向补语、助词的轻声变调以及隔音符号等.如“吃不得”标为“chibu de”,应标为“chi bu de”.再如“棉袄”标为“mlan ao”,应标为“mian’ao”.更不能有效判定难度较大的多音字,如“忙得不得了”标成了“mang de bu de liao”,应标为“mang de bu deliao”.

2.一款作者为“大漠雪”的汉字注音软件,仅能为汉字输出拼音,汉字和拼音分列两栏,不匹配在一起,最大的问题是该软件不具有任何变调等智能功能.如“一般”标为“yi ban”,“椅子”标为“yi zi”,如果说对于国人词典无需变调而言前者的标注是规范的,那么后者无论对国人还是对外国人用的词典或学习材料而言都是错误的.

3.另有一个可以嵌入word系统内的小插件,名为“拼音居士”,安装后会在word工具栏中找到“拼音居士一>汉字拼音”.该插件能在word里对大规模的文本进行批量加注汉语拼音,但实践发现,拼音加注的错误率太高,多音字标注的错误率高达70%以上.如“系统”标成“ji tong”,“符号”标成“fuhao”.再如:

这个孩子很喜欢听故事.

[zhe ge hai zi hen xi huan ting gu shi.]

问题的答案过于简略,不好.

[wen ti de da an guo yu jian lue,bu hao.]

另外,该插件的处理速度偏低.但该插件具备多音字白检功能,也就是对全部的多音字都从头至尾以对话框的形式出现进行人机交互予以人工辅助做出选择.

综合来看,实用汉字转拼音V4.8是相对较为理想的,批量处理能力强,速度快,精确率也较高,但对word文字编辑和检索等用户需求来说,由于导向不同,该软件还存在不少需要改进的地方.在字音布局上,无论是在线还是单机软件,汉字和拼音都是各自占据一行,一般为上下配列,但是如果将其粘贴至word就会发现,这些配列对齐性不够,最大的问题在于,一旦用户对word中的文本进行增减编辑处理,那么字音就会出现严重的错位,也不能同时对某个汉字进行字音的同时替换,这些都是需要改进的.

四、完善拼音自动标注系统的策略

目前,信息处理领域一般倾向于采取“大词库、小规则”的处理策略,因为在计算机技术已十分成熟的今天,词典大小对于处理速度几乎没有什么影响,计算机可存储的信息量也几乎不会成为词典大小的制约.但是,由于规则的使用必须在词典之后,这样就大大降低了机器的处理速度,而且规则之间也难以保证没有冲突,一招不慎就可能导致整个系统的崩溃.也就是说,多音字正确识别的策略首先是尽量扩大机器多音词词表,其次才是给以规则.

如同今天非常成熟的汉字拼音输入法一样,自动标音系统必须采取“词本位”或“短语本位”以最大限度地识别多音字.如上文提到的“系统”“符号”如果采用“词本位”去处理,“系”和“号”就成了“伪多音”.一些较小的软件出于系统开支的考虑主要采用了“字本位”,即汉字数量有限且较为固定,词汇量则是巨大的,以字去统领词,但这样做的结果是导致大量多音字标注错误,实用性大大降低.

还可以采取统计的方法以降低“伪多音”的误标.如前文提到的“累得不得了”这个短语,尽管客观上其中的“得”和“不”有轻声和非轻声两种读音,但在具体的语境中似乎只有“……de bu de liao”.我们在2600余万字的现代汉语平衡语料库中统计到103个“……得不得了”结构,其读音全部为“……de bu de liao”.因此,我们可以基于大规模真实文本通过正向匹配和逆向匹配相结合的方式去发现“多音字段”,通过统计的手段消除“伪多音”.再如类词缀“率”,后附时一定为“lu”,“shuai”多体现在词汇层面.

关于轻声问题,如果是词汇级轻声就采用词库的办法予以解决,如果是短语级的轻声就采用规则的办法加以解决.短语级的轻声如“动十趋向补语(下去/上来/出去/过来…)”.如果一个多音字同时涉及词汇级和短语级(如“我的、打的”、“取得”、“冻得”),则词汇级优先,如没有匹配再调用短语规则.

关于隔音符号,将《现代汉语词典》等多部辞书中全部带有隔音符号的词语加入词表并予以标注即可实现.

最后,拼音自动标注最好能以插件的形式嵌入word,这样便于进行文本的编辑和其他如查找替换、排序等处理.

五、结语

本文从word运用实际出发查检了自动标音系统的诸多问题,从汉语拼音自身复杂性的角度分析了造成标音系统出现问题的客观因素.实际调查了多种在线和单机版字音转换软件,并对其特性进行介绍,指出存在的问题.最后从统计和规则的角度初步指出了未来自动标音系统进一步完善的策略.具体实现环节将是今后重要而艰巨的工作.

结束语:此文为一篇适合不知如何写汉语拼音和微软汉语拼音和字音方面的拼音专业大学硕士和本科毕业论文以及关于拼音论文开题报告范文和相关职称论文写作参考文献资料.

参考文献:

1、 煤改气:统筹兼顾,成效初显 2018 年4 月,采暖季结束之际,电器记者对京津冀“煤改气”项目实施地区居民燃气壁挂炉的使用情况进行了回访,通过对主流企业和行业协会专家的采访,梳理出“煤改气&r.

2、 王鹏杰不忘初心致力前行 侨联是党和政府联系归侨、侨眷和海外侨胞的桥梁,他把自己定位为这座桥上的一个部件 关注他们的生存状态,为他们排忧解难,他说自己责无旁贷王鹏杰,男,1965年8月生,汉族,山东郓城人 1985年7月参加工.

3、 张静初:小城姑娘的文艺之路 诉皇帝,他想试一试 大殿上,老臣仔细观察了三个金人后,胸有成竹地拿出三根稻草,分别插入三个金人的耳朵 第一个金人的稻草从另一边耳朵出来了,第二个金人的稻草从嘴巴里直接掉出来,而第三个金人的稻草掉进了肚.

4、 善良为何常常自动熄灭 让我们先置身一个小小的情境 在大理古城的一条街道上,一个身形佝偻的老太太和两个年轻男子发生了矛盾,其中一个男子一直在凶狠地呵斥她 我在一旁听,知道了原因 两个男子虽然没穿制服,但他们应该是景区维护秩序.

5、 那些古籍收藏的传统和即将湮没的知识初读辛德勇《那些书和那些人》 □ 周 琼一记忆中,厘正及考订古籍的成书情况、版本源流及相关问题,是当代古文献学家辛德勇先生的长项 除了在版本、目录学上有极高造诣并享誉学界外,他还以爱书、买书、藏书在圈内闻名,是一个“古.