在Facebook上關注我們,隨時得到最新消息 在Twitter上關注我們,隨時得到最新消息 在新浪微博上關注我們,隨時得到最新消息 在豆瓣上關注我們,隨時得到最新消息
中国哲学书电子化计划
简体字版
讨论区 -> 中国哲学书电子化计划 -> 如何处理【远逺远】这类简繁一字多码?

2024-05-07 09:07:46如何处理【远逺远】这类简繁一字多码?
发言者:stonechi8 (Stone Chi)以[清】金鉷《广西通志》文本爲例:
庆远府 或 庆远府,有7个结果
庆逺府,多达120个结果
虽然这两个繁写,字义完全相同,而《康熙字典》作“远:俗作逺字”。
但在《古籍汉字字频统计》(书同文,2008年)一书里,
却有以下字频数据:
远 80411
逺 580489
远 10
但从字义来讲,前述的三个中文词汇,指向的是同一地方。
[清]道光《庆远府志》封面亦作“远”。
那么,整理ctext典籍文本时,以通用的"庆远府"统一更合理,还是分开更合理?
影响:
1.文本存贮仍以"庆远府"爲准,输入允许用“庆逺府”,但归一化后找同样内容。
2.文本遵从原文,检索输入分两次查询,同时合并结果显示。
回覆

2024-05-21 05:37:21如何处理【远逺远】这类简繁一字多码?
发言者:oscarsun72 (孙守真)菩萨贤友慈悲:末学以为:
1.图文对照须忠于原著,若不忠于原著,失真弥多,且不知电脑字型加入这般文字将用在何处;图文对照当是派得上用场的第一现场。
1.1 且图文一致,也便于校对工作,维基本为公共编辑者,唯有以图文一致为公共标准,才能避免各人意见之歧异。否则改过来又改回去,无穷回圈,恶性循环,伊于胡底?
2. 有其他需求,如检索、统计,当另作副本以与原书图对应(本站机制是一种书图可以对应多种文本,多种文本可几对应到一种书图。)
2.1 检索需求,须由后台资料库及程式设计机制管控。可参考迪志文化电子版《四库全书》《四部丛刊》、中研院《汉籍全文资料库》异体字关联机制,便利检索异文。
2.2 若为如楼主菩萨贤友之类的学术统计需求,则以副本、即多本对照一书图(多对一)的方式为妥,也便于日后文本之维护。

异体字本就是数位化时的大问题,这是末学经验所思所得。谨此献芹。末学亦以此为准的,行于本站云尔。感恩感恩 赞叹赞叹 南无阿弥陀佛
回覆

2024-05-24 04:12:22如何处理【远逺远】这类简繁一字多码?
发言者:stonechi8 (Stone Chi)遵从古籍原本字样固然重要,但从目前实际情况看,道路仍然漫长。
另一角度,古籍传抄错误已经不是什么新鲜事了,也有不少异体字也只是原作者的书写习惯而已。如:
https://ctext.org/wiki.pl?if=en&res=221005&searchu=%F0%A9%94%96
【𩔖】(扩展B)本是【类】(基本集),前者在多数手机上显示爲空白。

所以才有后代研究人员,对古籍进行各种校正和再版发行,如中华书局近年出的各种地方志版本,也可见于《中华经典古籍库》(ancientbooks.cn)。

从标准来讲。台湾教育部《异体字典》只有近3万个正体字,数据中【远】相关内容如下:
id is_zhengzi current_char Unicode
45625 TRUE 远 U+9060
45626 FALSE 𢕱 U+22571
45627 FALSE 逺 U+903A
45628 FALSE 𨖸 U+285B8
大陆也已有GB/Z 40637-2021《古籍印刷通用字规范字形表》,定义了1万多正体用字,本例的字只有正字【远】

使用文字之目的是用于信息交流和认知提升,所以遵从古籍原本字样仍需把握适当的尺度,避免在故纸堆做大量的重复工作,以下是一些具体的可能建议:
1.对于现代已整理、且已爲大众认同的异体字,用回与古籍最接近的正体字,如原题所述的【庆逺府】,统一用现在已是常识的地名【庆远府】,这样可以避免保留大量的异体字、但因为没有合理的异体认同数据,在检索时,丢失很多本该可找到的内容。这样处理也可避免在通识领域引入大量的异体认同数据,减少系统和文字使用者的负担。
2.字书类的异体辨识中的文本,继续使用原本的异体字。
3.有存疑的,使用原本的异体字,另作注释加以说明。
回覆

2024-05-26 04:41:11如何处理【远逺远】这类简繁一字多码?
发言者:oscarsun72 (孙守真)菩萨慈悲:大帖馀未详读,兹仅以「漫长」一义,一抒有感:
  盖当初以为…… 而今AI;当初软碟,而今固态。其速与大,如有所誉,其有所试,都非几年乃至十几年前可以想像。切莫以一「漫长」视诸。尤有进者,如「兼容字」之存在,于今不啻一赘、笑话、徒劳、增扰……?前车之鉴,后事之师。
  唯致远恐泥。当思长计,独具鹰眼,莫徒务近功。傥畏难却步时,当发虑宪:此难是当今之难,抑数年、十数年后之难耶?况异体字之关联、检索、对应、组织、重组(文本文脉排列组合,只消一觇本站相关文本对应功能即知。)、统计……,即使数至万亿,由今看来,根本不足挂齿、弹指可办,况来日耶?
  此事可视若解析度或像素史来看。当初或以为高清者,而今安在?已至不止于4k、8K、12K……、百万、千万画素而不慊然已……。此何故?岂不但在求真、逼真、写真、传真、存真……而已矣乎?愚尚惶恐于吾人今日沾沾自喜之数位典藏图文对照,其图象清析度及2D平面呈现,在子子孙孙看来,只是可笑之玩具而已,犹吾人今年看读当年之影视也;尚故步自封于畏多、畏详与精细哉?后生可畏,来者可追,人无远虑,必有近忧。茶馀饭后,一点愚见尔尔。见笑大方。见笑见笑。 佛弟子文献学者孙守真任真甫合十略白
回覆



若您想要参与讨论,请在下述的表格输入您的CTP账号及密码登录。若您尚未申请CTP账号,请免费注册

登入
帐号:
密码:
不要自动登出
忘记密码

喜欢我们的网站请支持我们的发展网站的设计与内容(c)版权2006-2024如果您想引用本网站上的内容,请同时加上至本站的链接:https://ctext.org/zhs。请注意:严禁使用自动下载软体下载本网站的大量网页,违者自动封锁,不另行通知。沪ICP备09015720号-3若有任何意见或建议,请在此提出