中国哲学书电子化计划 | |
简体字版 |
2024-05-07 09:07:46如何处理【远逺远】这类简繁一字多码? | |
---|---|
发言者:stonechi8 (Stone Chi) | 以[清】金鉷《广西通志》文本爲例:
庆远府 或 庆远府,有7个结果 庆逺府,多达120个结果 虽然这两个繁写,字义完全相同,而《康熙字典》作“远:俗作逺字”。 但在《古籍汉字字频统计》(书同文,2008年)一书里, 却有以下字频数据: 远 80411 逺 580489 远 10 但从字义来讲,前述的三个中文词汇,指向的是同一地方。 [清]道光《庆远府志》封面亦作“远”。 那么,整理ctext典籍文本时,以通用的"庆远府"统一更合理,还是分开更合理? 影响: 1.文本存贮仍以"庆远府"爲准,输入允许用“庆逺府”,但归一化后找同样内容。 2.文本遵从原文,检索输入分两次查询,同时合并结果显示。 |
回覆 |
2024-05-21 05:37:21如何处理【远逺远】这类简繁一字多码? | |
---|---|
发言者:oscarsun72 (孙守真) | 菩萨贤友慈悲:末学以为:
1.图文对照须忠于原著,若不忠于原著,失真弥多,且不知电脑字型加入这般文字将用在何处;图文对照当是派得上用场的第一现场。 1.1 且图文一致,也便于校对工作,维基本为公共编辑者,唯有以图文一致为公共标准,才能避免各人意见之歧异。否则改过来又改回去,无穷回圈,恶性循环,伊于胡底? 2. 有其他需求,如检索、统计,当另作副本以与原书图对应(本站机制是一种书图可以对应多种文本,多种文本可几对应到一种书图。) 2.1 检索需求,须由后台资料库及程式设计机制管控。可参考迪志文化电子版《四库全书》《四部丛刊》、中研院《汉籍全文资料库》异体字关联机制,便利检索异文。 2.2 若为如楼主菩萨贤友之类的学术统计需求,则以副本、即多本对照一书图(多对一)的方式为妥,也便于日后文本之维护。 异体字本就是数位化时的大问题,这是末学经验所思所得。谨此献芹。末学亦以此为准的,行于本站云尔。感恩感恩 赞叹赞叹 南无阿弥陀佛 |
回覆 |
2024-05-24 04:12:22如何处理【远逺远】这类简繁一字多码? | |
---|---|
发言者:stonechi8 (Stone Chi) | 遵从古籍原本字样固然重要,但从目前实际情况看,道路仍然漫长。
另一角度,古籍传抄错误已经不是什么新鲜事了,也有不少异体字也只是原作者的书写习惯而已。如: https://ctext.org/wiki.pl?if=en&res=221005&searchu=%F0%A9%94%96 【𩔖】(扩展B)本是【类】(基本集),前者在多数手机上显示爲空白。 所以才有后代研究人员,对古籍进行各种校正和再版发行,如中华书局近年出的各种地方志版本,也可见于《中华经典古籍库》(ancientbooks.cn)。 从标准来讲。台湾教育部《异体字典》只有近3万个正体字,数据中【远】相关内容如下: id is_zhengzi current_char Unicode 45625 TRUE 远 U+9060 45626 FALSE 𢕱 U+22571 45627 FALSE 逺 U+903A 45628 FALSE 𨖸 U+285B8 大陆也已有GB/Z 40637-2021《古籍印刷通用字规范字形表》,定义了1万多正体用字,本例的字只有正字【远】 使用文字之目的是用于信息交流和认知提升,所以遵从古籍原本字样仍需把握适当的尺度,避免在故纸堆做大量的重复工作,以下是一些具体的可能建议: 1.对于现代已整理、且已爲大众认同的异体字,用回与古籍最接近的正体字,如原题所述的【庆逺府】,统一用现在已是常识的地名【庆远府】,这样可以避免保留大量的异体字、但因为没有合理的异体认同数据,在检索时,丢失很多本该可找到的内容。这样处理也可避免在通识领域引入大量的异体认同数据,减少系统和文字使用者的负担。 2.字书类的异体辨识中的文本,继续使用原本的异体字。 3.有存疑的,使用原本的异体字,另作注释加以说明。 |
回覆 |
2024-05-26 04:41:11如何处理【远逺远】这类简繁一字多码? | |
---|---|
发言者:oscarsun72 (孙守真) | 菩萨慈悲:大帖馀未详读,兹仅以「漫长」一义,一抒有感:
盖当初以为…… 而今AI;当初软碟,而今固态。其速与大,如有所誉,其有所试,都非几年乃至十几年前可以想像。切莫以一「漫长」视诸。尤有进者,如「兼容字」之存在,于今不啻一赘、笑话、徒劳、增扰……?前车之鉴,后事之师。 唯致远恐泥。当思长计,独具鹰眼,莫徒务近功。傥畏难却步时,当发虑宪:此难是当今之难,抑数年、十数年后之难耶?况异体字之关联、检索、对应、组织、重组(文本文脉排列组合,只消一觇本站相关文本对应功能即知。)、统计……,即使数至万亿,由今看来,根本不足挂齿、弹指可办,况来日耶? 此事可视若解析度或像素史来看。当初或以为高清者,而今安在?已至不止于4k、8K、12K……、百万、千万画素而不慊然已……。此何故?岂不但在求真、逼真、写真、传真、存真……而已矣乎?愚尚惶恐于吾人今日沾沾自喜之数位典藏图文对照,其图象清析度及2D平面呈现,在子子孙孙看来,只是可笑之玩具而已,犹吾人今年看读当年之影视也;尚故步自封于畏多、畏详与精细哉?后生可畏,来者可追,人无远虑,必有近忧。茶馀饭后,一点愚见尔尔。见笑大方。见笑见笑。 佛弟子文献学者孙守真任真甫合十略白 |
回覆 |
若您想要参与讨论,请在下述的表格输入您的CTP账号及密码登录。若您尚未申请CTP账号,请免费注册。
登入 |
---|
喜欢我们的网站?请支持我们的发展。 | 网站的设计与内容(c)版权2006-2024。如果您想引用本网站上的内容,请同时加上至本站的链接:https://ctext.org/zhs。请注意:严禁使用自动下载软体下载本网站的大量网页,违者自动封锁,不另行通知。沪ICP备09015720号-3 | 若有任何意见或建议,请在此提出。 |