微软拼音输入法的编码规则
1981年,武汉大学等人发表了《新华字典》词集内词根频率的统计结果。65438-0984年,国家文字改革委员会和武汉大学公布了《辞海》范围内汉字笔画、部件、结构动态统计分析结果。
1985年,国家文字改革委员会和山西大学公布了人类姓氏用字抽样统计分析结果。
1986北京航空航天学院和新华社利用计算机技术,发表了基于大型语料库的汉字使用频率和流通频率新统计。北京师范大学、上海交通大学、北京语言学院等。分别发表了基于大规模语料库的现代汉语词汇使用频率统计。北京大学计算机语言研究所还建立了以汉语语法为中心的全面、翔实、便捷的汉语语料库和词属性数据库,对汉字编码键盘输入技术的发展起到了重要的推动作用。
90年代以后公布的汉字键盘输入系统相关国家标准有GB13000.1《信息技术多八位编码字符(UCS)》、GB18030《信息技术信息交换用汉字编码字符集基本集扩展》和GB18031《信息技术数字键盘汉字输入通用》。GB15834《标点符号用法》和GB/T18220-2000《信息技术通用键盘汉字输入通用要求》即将出版。语委发布的规范有GF3001《信息处理GB13000.1汉字部件规范》、GF 3002《GB 13000.1字符集汉字笔顺规范》、GF3003《信息处理通用键盘》。
以下是从第一代输入法到微软输入法的一些介绍:
第一代汉字编码输入法
电子工业部第六院于1983年正式公布了第一个中文磁盘操作系统CC-DOS,在中文信息处理史上具有划时代的意义。CC-DOS是PC-DOS的扩展和修改。在广泛使用的CC-DOS 2.1版本中,有简拼、前缀后缀码、快速码、定位码输入法,已经覆盖了包括音码、形码、音码、数字码在内的主要输入法类型,为我国计算机应用的普及起到了开创性的作用。
当时使用最广泛的输入法是简拼和声母、韵母编码。简拼是一种纯音码,使用一种介于全拼和双拼之间的拼音方法,用三个或三个以上的字母压缩元音。前缀后缀码是纯形码,包含97个部分,分为52类。部件到键盘字母的映射没有太多规律可循,内存很大;编码时,前缀和后缀只取一个成分。对于未列出的变形组件,用户需要猜测它们所属的键位。这两种方法都不支持关联或短语,并且都有许多重复的代码。因此,在输入时,选择和翻页的操作非常频繁,眼睛需要不断地扫描提示行,才能在众多的重码中找到需要的单词,输入起来很累,速度很慢,更不可能实现盲打。
快码是通过压缩拼音加码实现的,一定程度上可以分散重码。因为快码的编码方式没有规律可循,所以一直没有真正应用。位置码需要通过记忆6763个汉字和符号的数字码才能完整输入,所以除了当时没有其他输入方式的标点符号外,基本不被任何人使用。
另一种早期的汉字编码输入法是电报码。电报码是4位等长码方案,使用的码字范围从0000到9999,可表示10000个字符(包括汉字、字母和符号)。电报代码没有重码,但是编码的规律性不强,很难记忆。所以完全是为了邮电部门已经熟悉电报码的人的需要而移植到电脑里的,对普通汉字输入者没有任何意义。
1986,联想集团与联想汉卡同时推出联想汉字环境。起初,人们用联想法来加快汉字的输入。当时还没有短语输入法,联想技术让人耳目一新。汉字输入过程由原来的编码改为->;翻页-& gt;选择-& gt;密码...变成代码-& gt;选择-& gt;选择...,所以后来很多输入法都采用了这种技术。但是,按照现代汉字编码输入技术的标准,联想技术还有两个致命弱点。一个缺点是,如果后面要输入的单词和之前已经输入的单词不能组成一个短语,那么关联就会失败。另一个软肋是联想选型中人机交互过于频繁。虽然平均码长缩短了,但实际输入速度会下降。
简而言之,第一代汉字编码输入法的特点是:在DOS环境下,以单字为单位进行输入,在屏幕下方提供专门的提示行,显示大量的重复字,导致频繁的翻页和选择操作;使用数字键选择重复单词,使用ALT+数字键重复选择提示行中出现的重复单词;即使是极其常用的标点符号的输入,也需要使用定位码,非常不方便;联想技术的采用提高了输入效率,但作用相当有限;通过复合功能键ALT+Fn(F1-F12)进行各种输入法之间的切换(包括切换到英文);支持全角和半角模式,但不支持中文标点;不支持短语输入,也不支持自定义短语。
第二代汉字编码输入法
1986年,四通公司与三井物产株式会社合作推出四通MS-2400中文电子打字机,宣告了中国专业电子打字时代的到来。随着四路打字机的广泛使用,捆绑在四路打字机上的五笔字型输入法首先传播开来,随后刘为民发明的捆绑在四路打字机上的双音输入法也在当时广泛使用。
吴彼字体是最典型的纯形码组件类方案。在吴彼字体中,部件通常被称为字根。吴彼字体采用130基本偏旁。基本偏旁按笔画分为五类,对应通用键盘上的五个区域。每个类别又分为五组,每组对应一个键盘字母。在一个汉字中,根与根之间的关系可以分为四种:单根、散根、连根和交叉根。拆分汉字时应遵循“以大为主,兼顾直觉,能接能不接,能散能不散”的原则。吴彼字库将汉字分为三种类型:键名汉字、词根汉字和非键名汉字,分别适用不同的编码规则。另外,单词编码有一、二、三级简码,取对应全码的前一、二、三个字母组成。吴彼字体将短语分为三种类型:二字、三字和多字。两个单词按顺序取每个单词的前两个根来编码。三个字按顺序取前两个字的第一个根和最后一个字的前两个根编码。多字按顺序取第一、第二、第三、最后一个字的第一个根进行编码。
吴彼字体具有非常复杂的编码规则,以换取GB2312-80字符集中较低的重复率。当采用强制简码时,可以进一步降低低重码率。将短语编码放入所有码字的剩余编码空间,实现混字编码。只要收录的词组数量不大,重复的可能性就比较小。一般的吴彼字体本身不具备造字功能。吴彼字体的这些特点恰好满足了专业打字的需求,也成为其在专业打字时代大受欢迎的重要原因之一。
尽管吴彼字体在市场上取得了巨大的成功,但其存在的问题也不容忽视。首先,吴彼字体很难学,也很容易忘记。除了复杂的编码规则,它还有许多需要记住的例外。五笔打字员打字时卡在一些常用字里是很常见的。这时候就需要临时切换到拼音输入法。其次,吴彼字体的扩展性差。当字符集从GB2312-80过渡到GBK和GB18030时,当词组数量增加时,码长为4的吴彼字体码位会出现大量重码,使其失去重码率低的优势。吴彼字体采用四码自动上屏策略,无重码。4码重码的增加迫使打字员将目光从手稿上移开以确认他们的输入,从而降低了输入速度。最后,吴彼字体最致命的弱点是其糟糕的标准化。张孝存等人对此提出了激烈的批评:“吴彼字体违背了语言文字的规范。在汉字的划分上有很大的随意性,对国民的基本文化素质有负面影响。它对规范汉字教育的影响与其应用范围的扩大成正比[20]。”
双音输入法是一个巧妙的纯音码[23][25]。双音输入法最大的特点是“以词定词,反向联想”,以缓解纯音码模式下单字重复过多的问题。因为两个字的数量比较多,一般总能找到一个两个字,它的第一个字就是你要输入的字。如果这两个字在提示行的第一个候选位置,可以省略选择键;否则,您需要使用数字键来选择。如果需要的是整个两个字,可以加一个空格键输入第二个字。也就是说,如果使用双拼,利用“以词定词”的技术,在常用词的输入中平均击键次数可以达到2.5次,基本避免了传统拼音+联想模式下扫描提示行、翻页、选择的问题。在双音输入法中,对于三个字和四个字,把每个字的声母作为代码输入,必要时加空格。对于不认识的字,可以输入“\”调用“手写模拟”。虽然您可以自定义该短语,但它不支持在线构词法。造词时,需要使用外部文本编辑器,按照定义的格式输入代码和相应的短语。
双音输入法是拼音汉字输入史上的一大进步,在当时受到很多非专业打字员的欢迎。但是,它也有一些严重的缺点,以至于几乎没有人再使用它了。首先,虽然相比传统拼音在输入效率上有了很大的提升,但相比后来的智能ABC等句子级拼音输入法还是有相当大的差距。另外,很多词在“以词定词”时可以由多个词来确定,而有些词却很难找到词来确定,用户往往会感到无所适从。虽然双音输入法提供了很多其他的方法来解决文字输入的问题。比如邓、郭、姚等姓氏的输入有六个辅助规则。记住这些方法并判断什么时候采用什么方法并不容易。因为单词只能离线制作,自定义短语不方便。
第三代汉字编码输入法
到了90年代末,随着微型计算机价格的进一步降低,存储和处理能力的进一步增强,Windows图形操作系统的普及和互联网的兴起,用户界面变得非常友好,微型计算机大规模进入我国普通百姓家庭,进入中小学教育,真正实现了微型计算机在我国的极大普及。
微机的普及使打字成为每个人的基本技能,就像写汉字一样;需要有人打字其实是文盲的表现,就像需要有人代笔一样。这造就了一个庞大的非专业打字员群体。打字员作为一种职业正在迅速消失。一般用户打字时的操作模式是“想打字”,与专业打字员的“瞎打字”模式完全不同。“盲打”要求操作者尽量少看屏幕,输入法提供的反馈信息只是在操作者不能“盲打”时偶尔派上用场;操作者要打字的时候总是看着屏幕,输入法提供反馈的方式和反馈信息的多少都会对操作者的输入活动产生很大的影响。Windows图形操作系统为丰富人机界面提供了前提条件,可以满足多样化反馈信息的需求。
现代微机强大的存储和处理能力,为新的存储密集型和处理密集型输入法的诞生提供了物质基础。输入法程序不再局限于DOS时代的64KB常驻内存。千兆计算速度使复杂的智能算法能够投入运行。硬盘的容量不仅从兆扩展到千兆,而且访问硬盘的速度也比DOS时代大大提高。把庞大的词库存储在硬盘上,快速查找,不再是问题。
中小学广泛开展计算机教育后,学生从小就开始学习打字。汉字编码与语言教育的关系被提了出来。最低要求是汉字编码不能和语言知识冲突。理想情况下,汉字的编码输入应该与语言知识的学习相结合,相互促进。
在上述背景下,第三代汉字编码输入法应运而生,其指导思想是:规范、易学、易用、尽量保持输入速度。在此期间,智能拼音输入法的研究高潮迭起,也出现了以笔画或笔对为输入单位的纯形码,以及基于声母和笔画(或笔对)的拼音形码[29]-[48]。
(1)智能拼音输入法
智能拼音输入法按其实现原理可分为基于理解、基于语用统计、基于模板匹配和基于上下文四种类型。
智能ABC是目前Windows操作系统上应用最广泛的准句子级拼音输入法,因为它转换的是词组和短语,而不是整句。智能ABC最大的特点就是自定义短语和调整重复单词的顺序非常方便。用户只需要按照自己的思路输入,输入时不需要手动分词。系统会自动从前到后逐个分词。当没有短语时,系统会自动以单字模式显示重复的单词供用户选择;一旦用户选择并形成一个新单词,系统就能记住它。当系统分词不正确或者系统提供的词不是用户需要的时候,用户也可以修改,系统也可以记住用户所做的修改。经过长时间的使用,如果用户没有改变,系统逐渐适应用户的使用习惯,使得用户的输入过程变得舒适。
智能ABC也有很多需要改进的地方。首先,输入时可以随意使用全拼、短拼、混合拼,导入器可以随时进行音词转换。有太多的方式让用户知道哪个是最好的。它看起来非常灵活,但实际上它给了用户优化输入的任务。但是大部分用户都不是这方面的专家,不可能很好的完成这个任务,导致走了很多弯路或者不良低效的输入习惯。其次,音字转换的准确率不高,句子变化频繁,导致输入速度不理想,即使使用双拼也不如自然码高效。
微软拼音是真正的句子级音字转换智能输入法,是微软自然语言处理技术多年科研成果的结晶。微软拼音采用拼音作为汉字的输入方式,用户不需要专门的学习和培训就可以轻松使用和掌握这种汉字输入技术。微软拼音采用基于句子的整句转换模式,用户可以连续输入整句拼音,无需人工分词和选择候选词,既保证了用户思维的流畅性,又大大提高了输入效率。微软拼音提供的人机界面很有特色。可以在正在输入的文本的插入光标处嵌入组词窗口,减少了用户在输入时视线的移动频率,大大提高了输入法的易用性。逐键转换并提示转换结果,这样用户就不必自己决定何时转换。用户可以输入的代码长度没有限制。当系统长度超过上限或遇到句号时,系统会自动转换,让用户可以不间断地继续输入。微软拼音因为语境广,可以达到很高的转换准确率。微软拼音默认拒绝用户输入短拼和混合拼,可以引导用户养成良好的输入习惯。
微软拼音也有一些问题。首先,在编码输入错误或者转换不正确的情况下,在句子中进行编辑是比较繁琐和低效的。其次,在一个一个的换键时,已经正确转换的内容往往会被错误的修改,用户还要随时监控输入内容的正确性,在转换内容多的情况下非常累。另外,微软拼音没有提供加快单词输入的方法,也没有提供输入未知单词的方法,是不完整的输入法。
基于笔画(或笔对)和/或首字母的输入法
利用笔画和声母这两个最简单的汉字特征信息,可以大大提高输入法的学习[12]。但是,汉字的笔画一般分为五种。笔画种类太少,必然增加编码长度,从而影响输入速度。因此,如何缩短码长,提高输入效率,成为这种输入法能否成功的关键问题。
福建双笔画码软件开发有限公司开发的双笔画码是一种基于笔画的纯形码。为了克服笔画类型太少的问题,在双笔画码中引入了一种新的笔画类型“十字”,使笔画类型扩展到六种。取码时,每两笔按顺序取一笔组成一支笔对,可组成36支不同的笔对,在键盘上相应的键位区选择键位输入。此外,双笔画规范还规定,病字旁的代码,“口”、“手侧”、“日”应作为一个整体。根据汉字不同结构的组合形状,汉字分为三种基本字体,即左右型、上下型和综合型。无论是哪种汉字,都是按照四码来编码的。双码短语的输入方法是:用两个字输入每个字的前两个码;三个字输入前两个字的首码和末码,四个字及以上输入第一、二、三、末字的首码。
二笔码的优点是:与传统的部件输入法相比,内存减少很多;使用笔对和36键编码后的平均码长也相当短;如果不按笔对,而是按单笔画,就可以非常轻松地把双笔代码移植到数字键盘上。但双笔画码的缺点也非常明显:作为一种笔画输入法,其取码和编码规则复杂,例外较多,学习起来还是很吃力的;上排数字键用于编码,不方便敲击,与常用数字输入冲突,影响实际输入速度。
陈劲松先生发明的二笔输入法是目前广泛使用的输入法之一。是基于声母和笔画的输入法,也可以简单的基于笔画输入。二笔输入法的30个编码字符分布在通用键盘上的6个区域,即5个双笔区和1个单笔区。根据双笔画或单笔画的第二笔画,按照横、竖、左、点、折的顺序定位区域。但是设置部首的10键需要记忆。二笔输入法根据字体结构将汉字分为单字和组合字。输入汉字时,第一码取汉语拼音的第一个字母,笔画取第二码,最多四码。如果少于四码,就应该全部拿下。如果不能双划,就应该单划。专著不需要拆分;第一码取拼音首字母,第二码按笔画顺序取笔画码,最多四码。组合的汉字被分成两半。按照汉字笔顺的规则,第一部分是前半部分,第二部分是后半部分。第一码取拼音首字母,第二码前半段取第一、二笔,第三码后半段取第一、二笔,第四码后半段取第三、四笔。二笔输入法词组的编码规则是:两个字取每个字的前两个码,三个字取第一个字的前两个码和后两个字的前两个码,四个及以上字取前三个码和后两个码。
二笔输入法的优点是:编码规则比二笔码简单,只用30个编码字符;采用声母和笔画两种汉字特征信息编码,增强了对同码词的识别能力,提高了输入效率。对于不认识的单词,也可以全形输入;如果不按笔对而是按单笔画,也可以非常轻松地移植到数字键盘上。但是,二笔输入法仍然存在一些问题:由于使用笔对和偏旁部首,需要区分单字和组合字进行不同的编码,学习和使用仍然很困难。
数字键盘编码输入法
到目前为止,我国手机保有量已超过3亿部,手机短信产值超过50亿元。手机用户数量已经超过PC用户,使用手机输入汉字的人数远远超过使用通用键盘输入汉字的人数。
目前,美国特杰公司的T9拼音和T9笔画输入法、加拿大紫源公司的词能笔画输入法、摩托罗拉公司的iTap输入法垄断了中国大陆及港台地区的手机输入法市场。然而国外的手机数字键盘输入法却差强人意。以笔画输入为例,iTap用9笔,字符可以用8笔,T9用5笔。同样的笔画,不同的手机可以放在不同的位置,输入速度不理想。
为了打破国外手机输入法垄断中国手机市场,手机输入法不规范的尴尬局面。由中国中文信息学会主办,金码出版社(香港)有限公司承办的首届中国手机中文输入大赛暨汉字数码输入技术应用高峰论坛于2004年6月5438+065438+10月21日在人民大会堂举行,为期三天。32支队伍中,23支队伍参加了模拟手机汉字数字码输入比赛,9支队伍参加了手机汉字输入比赛。除了已经参赛的数字编码方案外,还有王永民先生的五个数字笔画[49]和郑先生的左右数字笔画[50]更受关注。下面只介绍应用最广泛的T9拼音和T9笔画,以及在首届手机中文输入大赛中获得冠军的金码和流行数码。
本质上,T9拼音是一种早期的全拼全联想的通用键盘输入技术。其最重要的创新在于,可以根据手机键盘上的按键组合来判断是否可以组合成合法的普通话音节,从而避免了传统的多次按键输入一个拼音字母的弊端。但是,当组合键适用于多个合法的普通话音节,并且默认的普通话音节不是用户所需要的时,用户仍然必须手动选择它。此外,冗长的拼写、需要按1键才能进入选择状态以及联想导致的过多人机交互都使得T9拼音的输入效率非常低,对于普通话不太好的人来说非常困难。
T9笔画分为横、竖、撇、点、折五类,分别用1、2、3、4、5表示。记录汉字时,按笔顺输入,一个一个提示,每屏几个,高频优先。最长输入可达12笔,支持联想。因为用五个键分别代表五个笔画,所以不需要像T9拼音一样对组合进行智能判断,内部处理逻辑非常简单。T9笔画充分利用了不等长码丰富的笔画信息和较短的码位,可以直接选择重复码字,因此其实际输入效率高于T9拼音。
流行的数字码[51]用10个数字编码单词。除了用1,2,3,4,5分别表示五种笔画外,还用6,7,8,9,0来表示交,插,八,小,口五类部件。单字按笔画顺序取第一、二、三、四、后五码,不足时取实际码长,词组码长为6位。流行的数字码使用了相当多的笔画组合作为部件,但由于分类清晰,比很多同类输入法更容易记忆,而且细致的编码规则降低了重复率,使其在竞争中脱颖而出。但需要注意的是,它使用的组件很多,编码规则也不简单,学习难度还是挺大的。
金色代码用九个数字对单词进行编码。除了用1、2、3、4、5分别表示五笔外,还用6、7、8、9表示口、十、八、唰四类部件。编码时区分了前缀和后缀,也区分了单个字符和组合字符的区别。当提示行不为空时,0,*和#用作选择键。金码最大的特点是当用于编码的数字与输入码不能形成另一个字码时,可以用数字键选择同码的字,大大增加了输入法的选键能力,缩短了动态平均码长;结合高频率预见的不等长码使用,输入时基本不用翻页,进一步提高了输入效率。但没有区分前缀和后缀的标准,往往因人而异;动态使用剩余编码键选择重码单词,也造成选择键位置变化过大,增加了人机交互的负担。
以上是我从事计算机工作以来,接触到的一些比较熟悉的输入法。我想知道他们是否能帮助你。