一项由中国科研人员自主开发的编码技术,将使包括许多生僻字在内的所有汉字都能通过计算机处理。利用这项四字节编码核心技术,不仅可以解决古籍出版中的问题,还可以解决户籍、银行、海关、民航等行业遇到的姓名、地名生僻字问题。
这项技术由北京时代瀚堂科技有限公司自主开发,可录入、显示、编辑、检索、查询和管理71500多个汉字,而传统的二字节编码技术只能处理27500多个汉字。
过去,《说文解字》等传统文化典籍,只能依靠影印出版,不仅费时费力,而且不符合现代人的阅读习惯。古籍研究者在遇到生僻字与计算机有机结合时,叫苦连天,因为这不仅意味着工作量大大增加,还可能造成工作漏洞。如今,采用四字节编码技术,用计算机录入和处理方式出版的《说文解字》,极大地方便了出版者和读者。
基于四字节编码技术,北京时代瀚堂科技有限公司开发了“龙语瀚堂”典籍数据库,包括字书类数据库、殷周金文库、音韵库、中国简帛库、甲骨文库等13类子库的数百万条数据记录。应用这一数据库,社会科学文献出版社已出版了我国最早的字书《说文解字》,双方还将继续合作出版《康熙字典》。目前,“龙语瀚堂”典籍数据库已在清华、北大等百余所大学的中文系、历史系、考古系以及国内外一些汉学研究机构广泛试用。
(来源:人民日报;作者:武卫政、谭 超)