金枪鱼之夜:ICU Done Wrong: 如何构建多文种的文本索引

13 views
Skip to first unread message

Xiaoyi Liu

unread,
Apr 22, 2026, 1:05:16 PM (yesterday) Apr 22
to TUNA 主邮件列表
Dear Tunars,

时隔一个月的摸鱼时间,本周将进行本学期第二次 Tunight 活动。我们邀请到了国际化及 Typesetting 专家 Sharzy 为我们分享与 i18n 搏斗的美妙体验。

---

为了解决 Telegram 对汉文搜索的问题,几年前 Sharzy 开发了 Python + Whoosh 的消息记录的搜索工具。近日在将其用 Rust + Tantivy 重写的过程中,他发现基于 jieba 的 analyzer 在处理日文时会有显著的问题,于是转向了更加通用的 CJK bigram 方案。但他很快意识到和 Unicode 搏斗并不是一件美妙的事情。Unicode 联盟开发的 ICU (International Components for Unicode) 是一套处理 Unicode 的库集合,但是不同文字之间的差异并不能直接用 ICU 抹平,从拉丁字母、汉字、日文假名、谚文,到阿拉伯字母、希伯来字母、婆罗米系文字,再到越南语拉丁字……试图为这些文字/书写系统构建统一的方案的问题远比看起来要多。

本次 Tunight 上 Sharzy 将会介绍如何在㋿Ξ㍾㍿的 ICU 世界中构建出一套似乎能用的系统——目前仍在锐意开发中。

---

活动信息:
* 主讲人:@SharzyL
* 时间:2026/04/24(校历第九周周五) 19:00 UTC +08:00
* 活动形式:线下 + 线上会议 + 直播
  * 地点:三教 1206,我们又回到了三教
  * 线上会议:腾讯会议 544-278-322 密码 260424 (https://meeting.tencent.com/dm/1Q70SjAX7MRs)

欢迎大家一起来玩! 

喵喵

Justin Wong

unread,
Apr 22, 2026, 11:24:48 PM (21 hours ago) Apr 22
to noreply-spamdigest via TUNA 主邮件列表
周五?

--
Justin Wong

--
您收到此邮件是因为您订阅了Google群组上的“TUNA 主邮件列表”群组。
要退订此群组并停止接收此群组的电子邮件,请发送电子邮件到tuna-general...@googlegroups.com

Xiaoyi Liu

unread,
Apr 22, 2026, 11:58:03 PM (20 hours ago) Apr 22
to TUNA 主邮件列表
是的,这次活动在周五晚上

喵喵
Reply all
Reply to author
Forward
0 new messages