中國哲學書電子化計劃 : 如何處理【遠逺远】這類簡繁一字多碼？

中国哲学书电子化计划	中国哲学书电子化计划
	简体字版

讨论区 -> 中国哲学书电子化计划 -> 如何处理【远逺远】这类简繁一字多码？

2024-05-07 09:07:46如何处理【远逺远】这类简繁一字多码？
发言者：stonechi8 (Stone Chi)	以[清】金鉷《广西通志》文本爲例：庆远府或庆远府，有7个结果庆逺府，多达120个结果虽然这两个繁写，字义完全相同，而《康熙字典》作“远：俗作逺字”。但在《古籍汉字字频统计》（书同文,2008年）一书里, 却有以下字频数据：远 80411 逺 580489 远 10 但从字义来讲，前述的三个中文词汇，指向的是同一地方。 [清]道光《庆远府志》封面亦作“远”。那么，整理ctext典籍文本时，以通用的"庆远府"统一更合理，还是分开更合理？影响： 1.文本存贮仍以"庆远府"爲准，输入允许用“庆逺府”，但归一化后找同样内容。 2.文本遵从原文，检索输入分两次查询，同时合并结果显示。
回覆

2024-05-07 09:07:46如何处理【远逺远】这类简繁一字多码？

发言者：stonechi8 (Stone Chi)

以[清】金鉷《广西通志》文本爲例：
庆远府或庆远府，有7个结果
庆逺府，多达120个结果
虽然这两个繁写，字义完全相同，而《康熙字典》作“远：俗作逺字”。
但在《古籍汉字字频统计》（书同文,2008年）一书里,
却有以下字频数据：
远 80411
逺 580489
远 10
但从字义来讲，前述的三个中文词汇，指向的是同一地方。
[清]道光《庆远府志》封面亦作“远”。
那么，整理ctext典籍文本时，以通用的"庆远府"统一更合理，还是分开更合理？
影响：
1.文本存贮仍以"庆远府"爲准，输入允许用“庆逺府”，但归一化后找同样内容。
2.文本遵从原文，检索输入分两次查询，同时合并结果显示。

回覆

2024-05-21 05:37:21如何处理【远逺远】这类简繁一字多码？
发言者：oscarsun72 (孙守真)	菩萨贤友慈悲：末学以为： 1.图文对照须忠于原著，若不忠于原著，失真弥多，且不知电脑字型加入这般文字将用在何处；图文对照当是派得上用场的第一现场。 1.1 且图文一致，也便于校对工作，维基本为公共编辑者，唯有以图文一致为公共标准，才能避免各人意见之歧异。否则改过来又改回去，无穷回圈，恶性循环，伊于胡底？ 2. 有其他需求，如检索、统计，当另作副本以与原书图对应（本站机制是一种书图可以对应多种文本，多种文本可几对应到一种书图。） 2.1 检索需求，须由后台资料库及程式设计机制管控。可参考迪志文化电子版《四库全书》《四部丛刊》、中研院《汉籍全文资料库》异体字关联机制，便利检索异文。 2.2 若为如楼主菩萨贤友之类的学术统计需求，则以副本、即多本对照一书图（多对一）的方式为妥，也便于日后文本之维护。异体字本就是数位化时的大问题，这是末学经验所思所得。谨此献芹。末学亦以此为准的，行于本站云尔。感恩感恩　赞叹赞叹　南无阿弥陀佛
回覆

2024-05-21 05:37:21如何处理【远逺远】这类简繁一字多码？

发言者：oscarsun72 (孙守真)

菩萨贤友慈悲：末学以为：
1.图文对照须忠于原著，若不忠于原著，失真弥多，且不知电脑字型加入这般文字将用在何处；图文对照当是派得上用场的第一现场。
1.1 且图文一致，也便于校对工作，维基本为公共编辑者，唯有以图文一致为公共标准，才能避免各人意见之歧异。否则改过来又改回去，无穷回圈，恶性循环，伊于胡底？
2. 有其他需求，如检索、统计，当另作副本以与原书图对应（本站机制是一种书图可以对应多种文本，多种文本可几对应到一种书图。）
2.1 检索需求，须由后台资料库及程式设计机制管控。可参考迪志文化电子版《四库全书》《四部丛刊》、中研院《汉籍全文资料库》异体字关联机制，便利检索异文。
2.2 若为如楼主菩萨贤友之类的学术统计需求，则以副本、即多本对照一书图（多对一）的方式为妥，也便于日后文本之维护。

异体字本就是数位化时的大问题，这是末学经验所思所得。谨此献芹。末学亦以此为准的，行于本站云尔。感恩感恩　赞叹赞叹　南无阿弥陀佛

回覆

2024-05-24 04:12:22如何处理【远逺远】这类简繁一字多码？
发言者：stonechi8 (Stone Chi)	遵从古籍原本字样固然重要，但从目前实际情况看，道路仍然漫长。另一角度，古籍传抄错误已经不是什么新鲜事了，也有不少异体字也只是原作者的书写习惯而已。如： https://ctext.org/wiki.pl?if=en&res=221005&searchu=%F0%A9%94%96 【𩔖】(扩展B)本是【类】(基本集)，前者在多数手机上显示爲空白。所以才有后代研究人员，对古籍进行各种校正和再版发行，如中华书局近年出的各种地方志版本，也可见于《中华经典古籍库》(ancientbooks.cn)。从标准来讲。台湾教育部《异体字典》只有近3万个正体字，数据中【远】相关内容如下： id is_zhengzi current_char Unicode 45625 TRUE 远 U+9060 45626 FALSE 𢕱 U+22571 45627 FALSE 逺 U+903A 45628 FALSE 𨖸 U+285B8 大陆也已有GB/Z 40637-2021《古籍印刷通用字规范字形表》，定义了1万多正体用字，本例的字只有正字【远】使用文字之目的是用于信息交流和认知提升，所以遵从古籍原本字样仍需把握适当的尺度，避免在故纸堆做大量的重复工作，以下是一些具体的可能建议： 1.对于现代已整理、且已爲大众认同的异体字，用回与古籍最接近的正体字，如原题所述的【庆逺府】，统一用现在已是常识的地名【庆远府】，这样可以避免保留大量的异体字、但因为没有合理的异体认同数据，在检索时，丢失很多本该可找到的内容。这样处理也可避免在通识领域引入大量的异体认同数据，减少系统和文字使用者的负担。 2.字书类的异体辨识中的文本，继续使用原本的异体字。 3.有存疑的，使用原本的异体字，另作注释加以说明。
回覆

2024-05-24 04:12:22如何处理【远逺远】这类简繁一字多码？

发言者：stonechi8 (Stone Chi)

遵从古籍原本字样固然重要，但从目前实际情况看，道路仍然漫长。
另一角度，古籍传抄错误已经不是什么新鲜事了，也有不少异体字也只是原作者的书写习惯而已。如：
https://ctext.org/wiki.pl?if=en&res=221005&searchu=%F0%A9%94%96
【𩔖】(扩展B)本是【类】(基本集)，前者在多数手机上显示爲空白。

所以才有后代研究人员，对古籍进行各种校正和再版发行，如中华书局近年出的各种地方志版本，也可见于《中华经典古籍库》(ancientbooks.cn)。

从标准来讲。台湾教育部《异体字典》只有近3万个正体字，数据中【远】相关内容如下：
id is_zhengzi current_char Unicode
45625 TRUE 远 U+9060
45626 FALSE 𢕱 U+22571
45627 FALSE 逺 U+903A
45628 FALSE 𨖸 U+285B8
大陆也已有GB/Z 40637-2021《古籍印刷通用字规范字形表》，定义了1万多正体用字，本例的字只有正字【远】

使用文字之目的是用于信息交流和认知提升，所以遵从古籍原本字样仍需把握适当的尺度，避免在故纸堆做大量的重复工作，以下是一些具体的可能建议：
1.对于现代已整理、且已爲大众认同的异体字，用回与古籍最接近的正体字，如原题所述的【庆逺府】，统一用现在已是常识的地名【庆远府】，这样可以避免保留大量的异体字、但因为没有合理的异体认同数据，在检索时，丢失很多本该可找到的内容。这样处理也可避免在通识领域引入大量的异体认同数据，减少系统和文字使用者的负担。
2.字书类的异体辨识中的文本，继续使用原本的异体字。
3.有存疑的，使用原本的异体字，另作注释加以说明。

回覆

2024-05-26 04:41:11如何处理【远逺远】这类简繁一字多码？
发言者：oscarsun72 (孙守真)	菩萨慈悲：大帖馀未详读，兹仅以「漫长」一义，一抒有感：　　盖当初以为…… 而今AI；当初软碟，而今固态。其速与大，如有所誉，其有所试，都非几年乃至十几年前可以想像。切莫以一「漫长」视诸。尤有进者，如「兼容字」之存在，于今不啻一赘、笑话、徒劳、增扰……？前车之鉴，后事之师。　　唯致远恐泥。当思长计，独具鹰眼，莫徒务近功。傥畏难却步时，当发虑宪：此难是当今之难，抑数年、十数年后之难耶？况异体字之关联、检索、对应、组织、重组（文本文脉排列组合，只消一觇本站相关文本对应功能即知。）、统计……，即使数至万亿，由今看来，根本不足挂齿、弹指可办，况来日耶？　　此事可视若解析度或像素史来看。当初或以为高清者，而今安在？已至不止于4k、8K、12K……、百万、千万画素而不慊然已……。此何故？岂不但在求真、逼真、写真、传真、存真……而已矣乎？愚尚惶恐于吾人今日沾沾自喜之数位典藏图文对照，其图象清析度及2D平面呈现，在子子孙孙看来，只是可笑之玩具而已，犹吾人今年看读当年之影视也；尚故步自封于畏多、畏详与精细哉？后生可畏，来者可追，人无远虑，必有近忧。茶馀饭后，一点愚见尔尔。见笑大方。见笑见笑。佛弟子文献学者孙守真任真甫合十略白
回覆

2024-05-26 04:41:11如何处理【远逺远】这类简繁一字多码？

发言者：oscarsun72 (孙守真)

菩萨慈悲：大帖馀未详读，兹仅以「漫长」一义，一抒有感：
　　盖当初以为…… 而今AI；当初软碟，而今固态。其速与大，如有所誉，其有所试，都非几年乃至十几年前可以想像。切莫以一「漫长」视诸。尤有进者，如「兼容字」之存在，于今不啻一赘、笑话、徒劳、增扰……？前车之鉴，后事之师。
　　唯致远恐泥。当思长计，独具鹰眼，莫徒务近功。傥畏难却步时，当发虑宪：此难是当今之难，抑数年、十数年后之难耶？况异体字之关联、检索、对应、组织、重组（文本文脉排列组合，只消一觇本站相关文本对应功能即知。）、统计……，即使数至万亿，由今看来，根本不足挂齿、弹指可办，况来日耶？
　　此事可视若解析度或像素史来看。当初或以为高清者，而今安在？已至不止于4k、8K、12K……、百万、千万画素而不慊然已……。此何故？岂不但在求真、逼真、写真、传真、存真……而已矣乎？愚尚惶恐于吾人今日沾沾自喜之数位典藏图文对照，其图象清析度及2D平面呈现，在子子孙孙看来，只是可笑之玩具而已，犹吾人今年看读当年之影视也；尚故步自封于畏多、畏详与精细哉？后生可畏，来者可追，人无远虑，必有近忧。茶馀饭后，一点愚见尔尔。见笑大方。见笑见笑。佛弟子文献学者孙守真任真甫合十略白

回覆

若您想要参与讨论，请在下述的表格输入您的CTP账号及密码登录。若您尚未申请CTP账号，请免费注册。

登入

喜欢我们的网站？请支持我们的发展。

网站的设计与内容(c)版权2006-2024。如果您想引用本网站上的内容，请同时加上至本站的链接：https://ctext.org/zhs。请注意：严禁使用自动下载软体下载本网站的大量网页，违者自动封锁，不另行通知。沪ICP备09015720号-3

若有任何意见或建议，请在此提出。