简化字和繁体字的差异,是两岸文字中的主要歧异,也是两岸深化交流的障碍。因此,2009年在长沙召开的第五届两岸经贸文化论坛共同提出两岸开发简繁字智能转换系统的建议。大陆不少单位开展了此项转换系统的研制,取得了积极的成果。但转换正确率高的一般在97%左右,达不到完全应用的要求。由国家语委有关部门牵头,由厦门大学、教育部语用所和北师大三家联合研制的“汉字简繁文本智能转换系统”的成功,达到了在实际转换中放心使用的水平,其准确率经中国信息学会专家测试达到了99.9%,这是很难得的成绩。
以前转换准确率不能突破的瓶颈,在于简繁字间一对多和同音代替简化形成的少数字的对应上。前者如“团—團、糰”、“台—臺、檯、颱”;后者如:“里—里、裏”、“后—后、後”等。要准确对应,必须分清它们在不同语境中的不同含义。如“團”指事物聚合,而“糰”则是一种特别食品,在不同语境中要分别不同对应。同音代替的简繁字对应更增加了复杂性。除简繁对应关系外,它本身在传承字的繁体中也是一个独立的并未简化的字,这些字在两岸是一样的,如“里、后”。它们对应的除繁体字“裏、後”外,还与传承字“里、后”对应。这种情况一般就容易转换错误。
要解决上述问题,必须研究一个覆盖所有简繁对应出现语境的语料库,预设出不同语境中转换的对应关系。以前未能完全突破转换的瓶颈,主要就是这个语料库没有研制好,缺乏简繁字对应关系出现不同语境的全部语料。这是一件要下大力气才能完成的任务。这次研制的智能转换系统就因为有这个语料库作支撑,所以转换正确率就大大提高了。
这次研制成的转换系统,与过去不少转换系统相比还有一个鲜明的特点,即它明确是为海峡两岸交流转换服务的,也就是大陆用的是“规范字”,转换后与之对应的是台湾的“标准字”(也就是台湾当局法定的规范字,繁体字在台湾和香港之间就有差异)。这种简繁字的对应问题,过去主要靠手工操作,不仅费时费力,还常易出错。现在有了这个“汉字简繁文本智能转换系统”,基本上可以一键搞定,不仅方便,还极大地提高了正确率。
这次研制的智能转换系统,还有一个优于过去转换系统的地方,即它不仅可以正确转换简繁字,还可以转换两岸不同的标点符号和常用的科技术语。这可以使转换的文本达到相互直接认同的要求,无疑提高了转换工作的质量,拓展了转换的空间。
该系统已免费供各需要转换简繁字的领域使用,真正为两岸简繁字文本正确、快速转换搭建了一座金桥。(李行健 作者系语文出版社原社长、《两岸常用词典》主编)
《中国教育报》2015年2月26日第2版
[ 责任编辑:王怡然 ]
原稿件标题URL:
原稿件作者:
转载编辑:王怡然
原稿件来源:中国教育新闻网—中国教育报