googlegroups 和 twitter 中文检索问题 作为存档设施的缺陷

3 views
Skip to first unread message

wanghx

unread,
Dec 2, 2008, 12:17:24 PM12/2/08
to lih...@googlegroups.com
twitter 中文检索也有问题,比如这个搜索 http://search.twitter.com/search?q=%E7%BB%B4%E6%B1%89 找不到这条 http://twitter.com/shizhao/status/1034232054 沃维汉的研究工作?

twitter 很难整理成讨论合集。对话 conversation 可以在 search 功能中检索得到,但是无法检索到 twitter 内容不公开的朋友的消息。

http://twitter.com/isaac/status/1034141046
下次看到NYT的文章一定要先Soup下来,过了半天就没有全文了
about 4 hours

http://twitter.com/lihlii/status/1034149790
@isaac 推荐你用 zotero 收藏文献。

http://twitter.com/free37/status/1034155957
@lihlii @isaac 还有https://www.iterasi.net/ 配了https

lihlii: @free37 确实不错的提示。感谢。;) 我告诉 @issac 的是保存在本机的,但是很容易同步到其他计算机。用于论文搜集资料非常便利。记者应该也喜欢。

lihlii: @free37 @issac zotero 保存网页的好处是,自动保存了网页的 URL。而 firefox save as full html 比 msie 最大的缺陷是,不保存来源 URL。msie 保存网页会添加 HTML 注释包括来源 URL,文件名默认是网页标题,更便利。

lihlii: @free37 zotero 是个文献管理工具,最大的方便是可以转换导出为各种不同的论文引用格式。自动提取网页文献信息,网页存档,PDF 自动保存,tag, notes。我用它保存网页存档是大材小用。

lihlii: @free37 zotero 也在做 web service,估计以后会更方便网络存贮,也许会收费吧。不过,有一个完整保存网页,形同截屏的网站,包括 flash 之类动态信息都保存的话,作为第三方 archive,具有公证效力,对于网络上的证据保全,存档参考,确实是有价值的。

lihlii: @free37 这事情最好是 google 来做,因为它的 web search spider 反正天天做这类事情,让用户对其 cache 归归类,举手之劳,变废为宝。  

http://twitter.com/free37/status/1034184799
free37 @lihlii 但存档了后不去catalogue,有点不生效;对于事前信息抢救策略来讲,也许目前为止单用google groups做back-up已经够了。你觉得呢?
about 3 hours ago

lihlii: @free37 googlegroups 不是自动保存网页,需要你手动保存或者截屏然后作为附件发送。也有尺寸限制。而 zotero 的优点是,针对学术研究,自动提取页面信息。检索也方便。但是中文检索似乎不完善,把每个汉字都单独作为一个词来检索的。所以汉字词的检索必须加双引号。

lihlii: @free37 googlegroups 中文检索不全,有时候显示乱码,不能直接显示原样的 HTML,内嵌图片不能显示在原位,不如 gmail。gmail 中文检索也有些问题,但是比 googlegroups 好。

googlegroups 中文乱码问题的一个例子:比如这个帖子,源码正常[2],但是显示为乱码[3],但是中文 Subject 一般显示正常。

[1] googlegroups 中文疯狂错乱 http://groups.google.com/group/lihlii/browse_thread/thread/358175a448b6f8cc/bc81a0c41bca8d6d?#bc81a0c41bca8d6d
[2] http://groups.google.com/group/lihlii/msg/3d542928170fc690?dmode=source&output=gplain
[3] 荷兰红灯区要变时尚之都 http://groups.google.com/group/lihlii/msg/3d542928170fc690
[4] 如何处理邮件乱码 http://groups.google.com/group/lihlii/browse_thread/thread/7eb9d7ad05fc32ef
    http://groups.google.com/group/lihlii/msg/0c39db5bcd259a9f
[5] Microsoft live space 的优点 http://groups.google.com/group/lihlii/browse_thread/thread/62530aeb331ae51c
    googlegroups 也无法直接显示 HTML 邮件,显示的是文本版本 + 图片附件,这样内嵌图片无法在原位置显示。
[6] 乱码问题 http://groups.google.com/group/lihlii/browse_thread/thread/ca528af090859638
[7] social network websites, blog search engine, knowledge collection, blog book writing
    http://groups.google.com/group/lihlii/browse_thread/thread/e4a7f1d9181a64f7/699ce2ef98a155a6?lnk=gst&q=%E4%B9%B1%E7%A0%81#699ce2ef98a155a6
[8] gmail的新设置
    http://groups.google.com/group/lihlii/browse_thread/thread/358175a448b6f8cc/9494abf8447b5533?lnk=gst&q=%E4%B9%B1%E7%A0%81#9494abf8447b5533
    经常发生中文邮件在 googlegroups 显示为乱码
[9] 乱码问题
http://groups.google.com/group/salon-friends/browse_thread/thread/cd7038cf9e737dcd/9273959609cf8f95?lnk=gst&q=%E4%B9%B1%E7%A0%81%E9%97%AE%E9%A2%98%E8%AF%B7%E5%8F%82%E8%80%83#9273959609cf8f95

From: w
Date: Sat, 29 Mar 2008 21:23:27 +0100
Subject: 乱码问题

我用 GB2312 8bit 编码方式就会被 googlegroups 处理异常,虽然在 googlegroups web 网页看帖子源码正常,但是在贴子浏览模式,以及转发到
email 信箱之后,编码都被弄错。

From: w
Date: Sat, 29 Mar 2008 21:31:16 +0100
Subject: Re: 乱码问题

看起来是 googlegroups 发生的随机错误。有的邮件编码一样是 GB2312 8bit plain text,但在 googlegroups 网页显示正常,而有些则不正常。

[10] gmail 中文搜索 http://groups.google.com/group/salon-friends/browse_thread/thread/b5069f3dbcc0b62
From: Y
Date: Mon, 9 Oct 2006 17:31:52 +0800
Subject: gmail 中文搜索

有没有人遇到过gamil中文搜索的问题?我搜索结果老是no messages matched.
昨天在gmail里面搜索"陈良宇",发现一封邮件都没有,[...]里面有好几封的,开始以为有什么关键字屏蔽,但是后来发现"购物"可以正常搜索," 购书"却不能,我的mail里面确实是有的(不是trash),搜索不到,奇怪,是不是什么使用方法不对????

From: w
Date: Mon, 9 Oct 2006 11:47:55 +0200
Subject: Re: gmail 中文搜索

确实是很重要的问题。至少我知道 groups.google.com 中文检索有问题,有些信件内容检索不到,在信件列表中,摘要显示部分是 Base64 乱码。
所以如果 google 在 gmail 采用同样的技术,可能会有同样的问题,虽然以前我们没有注意到。

以前曾经怀疑和字符集编码有关。经过测试发现,和中文字符集是 UTF-8 还是 GB2312
无关。groups-beta.google.com 也没有解决这一问题。我发信报告问题给 google
了,但是他们回信教我怎么用 google search 的各种操作符功能,而言不及义。

[11] google groups 中文检索问题
http://groups.google.com/group/salon-friends/browse_thread/thread/a291d4c522eebc06/20f705c93f755360?lnk=gst&q=%E4%B8%AD%E6%96%87&rnum=1#20f705c93f755360

From: w
Date: Sun, 3 Sep 2006 11:59:20 +0200
Subject: google groups 中文检索问题

我又检查了一下,已经做过的测试结果有:

Outlook Express 发送,文本 + HTML 内容,UTF-8 编码, 可以检索:
http://groups.google.com/group/salon-friends/msg/8a2dcf66d84790c6
http://groups.google.com/group/salon-friends/search?group=salon-friends&q=%E7%BB%BF%E8%89%B2%E7%BD%91%E8%B7%AF&qt_g=1&searchnow=Search+this+group

Outlook Express 发送,文本 + HTML 内容,UTF-8 编码, 不能检索:
http://groups.google.com/group/salon-friends/msg/e7485a2e5701b557
http://groups.google.com/group/salon-friends/search?group=salon-friends&q=%E7%83%AD%E9%97%A8%E8%AF%9D%E9%A2%98&qt_g=1&searchnow=Search+this+group

Outlook Express 发送,文本 + HTML 内容,GB2312 编码, 可以检索:
http://groups.google.com/group/salon-friends/msg/492e4324a5f582fa
http://groups.google.com/group/salon-friends/search?group=salon-friends&q=%E5%AD%A6%E6%9C%AF%E6%B0%B4%E5%B9%B3&qt_g=1&searchnow=Search+this+group

Outlook Express 发送,文本 + HTML 内容,GB2312 编码, 标题可以检索,信件内容不能检索:
http://groups.google.com/group/lihlii/msg/35abed574c35bfab
http://groups.google.com/group/lihlii/search?group=lihlii&q=%E5%8A%A0%E6%8B%BF%E5%A4%A7&qt_g=1&searchnow=Search+this+group
http://groups.google.com/group/lihlii/search?group=lihlii&q=%E9%80%92%E8%A1%A8&qt_g=1&searchnow=Search+this+group

Google Groups web 发送,纯文本内容,UTF-8 编码,可以检索:
http://groups.google.com/group/salon-friends/msg/1bb3f8430060949e
http://groups.google.com/group/salon-friends/search?group=salon-friends&q=%E7%BC%BA%E9%99%B7&qt_g=1&searchnow=Search+this+group

Gmail web 发送,文本 + HTML 内容,GB2312 编码, 可以检索:
http://groups.google.com/group/salon-friends/msg/d040297d8cb47008
http://groups.google.com/group/salon-friends/search?group=salon-friends&q=%E7%9C%81%E4%BA%8B&qt_g=1&searchnow=Search+this+group

经过如上比较,并检查邮件组配置的差异,怀疑可能因为邮件组的默认语言设置,会影响检索是否成功。能够检索的中文信件,也许都是把邮件组Primary Language设置成中文以后的,不能检索的中文信件,也 许是把邮件组 Primary Language设置成英文的时候发出的。

另外发现,当日发出的信件,也许索引还没有建立,无法检索到。

From: w
Date: Mon, 4 Sep 2006 07:08:49 +0200
Subject: Re: google groups 中文检索问题

Outlook Express 发送,文本 + HTML 内容,GB2312 编码, 标题可以检索,信件内容不能检索,并且是在设置邮件组语言为中文以后的信件:
http://groups.google.com/group/lihlii/search?group=lihlii&q=%E4%B8%89%E5%B3%A1%E5%BA%93%E5%8C%BA&qt_g=1&searchnow=Search+this+group

可以看到,在检索结果中,信件体为 Base64 编码,一堆乱码。这种情况下就无法检索信件体。原因不明。

From: w
Date: Fri, 1 Sep 2006 10:54:25 +0200
Subject: Re: what is the main topic of this group?

groups.yahoo.com 有些缺点:
    a. 中文无法检索。无法检索的数据库是很糟糕的。
    b. 中文编码 GB2312 (GB 18030) 和 UTF-8 不能自动转换。
    c. 不支持 Unicode (UTF-8),使得多国语言文本无法方便表示。多次把我发的 UTF-8 中文邮件当作 spam 暂扣。
    d. 信尾附加的内容太杂乱。
    e. 信件内图片内容不存档。

groups.yahoo.com 有些相对于 googlegroups.com 的优点,是有一些花哨功能:

    * Files 文件柜
    * Photos 相册
    * Links 网页连接
    * Database 数据库,可以存放一些表格,比如通信录之类
    * Polls 投票
    * Calendar 日历
    * 和 Yahoo 360 blog 集成

googlegroups.com 的优点:
   a. 如果有 gmail,则比 yahoo mail 好:容量大,可以用 Outlook Express, Thunderbird 等通过 POP3/SMTP SSL 加密连接收发邮件,安全方便。
   b. 对中文和国际字符集的混合文本支持比较好,但是似乎还有问题。因为编码的多样,可能有些文字无法检索到。
   c. 支持中文检索。
   d. 支持下载信件原本数据。其中的内嵌图片可以在 web 界面浏览。
   e. 和 Netnews 无缝集成。
   f. google 政治品德比 yahoo 好一些,因此更适合严肃话题,以及隐私保障的信任度高一些。
 
邮件 + 即时通信 + 语音 + 视频,还是较高信任度的网络社交的自然方式。登录网络论坛费时间而且缺乏私密感,适合更公众化的内容。所以如果有公司在做社交网络方面的开拓,那么还是要 在这个方面下资本,并把它通过有效的技术支持手段集成起来,比如基于 OpenPGP, S/MIME, PKI 等安全协议标准,提供朋友网络引荐的信任传递模式,并简化其复杂的操作,使得非专业用户可轻松使用。Simplite 对即时通信工具 MSN messenger, Yahoo messenger, ICQ/AIM, Gtalk/Jabber 等的安全支持,就做得很方便了,但是它还缺乏信任度评价和传播这一社交支持功能。不过如果这样的话,也带来反面的问题,就是网络服务公司将掌握太多的个人 隐私,连你的朋友亲疏关系都掌握了。中共网特,当然是求之不得了。尽管如此,只要掌握了网络服务公司的数据库,他们还是可以很容易地分析出一个人的社交 圈,所以这个信任传递模型的增加,并不使这一问题恶化,而是不清楚网络隐私和通信安全问题细节的用户盲目信任的虚假安全感可能带来的反面效果。

From: w
Date: Mon, 9 Oct 2006 12:13:05 +0200
Subject: Re: gmail 中文搜索

Google Group 的中文搜索支援性
http://groups.google.com/group/FirefoxChina/browse_thread/thread/3b0bf4f45bf831b4/841267954efc568e?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=4#841267954efc568e

王鹏越专栏:Google的4大致命问题
http://www.donews.com/Content/200604/13e68ff2b03f4758ba4af6d70d0222f7.shtm

Google的四大致命问题
http://groups.google.com/group/fans/browse_thread/thread/30afa629377f74f7/2d93bc3e2104cf90?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=6#2d93bc3e2104cf90

google中文搜索服务器的确坏了
http://groups.google.com/group/fans/browse_thread/thread/4c00f8262ce55953/0c5f017cd96deac8?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=10#0c5f017cd96deac8

Google Group Beta 的中文搜索
http://groups.google.com/group/FirefoxChina/browse_thread/thread/40702c4f04c48f4f/a2985942583d3684?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=12#a2985942583d3684

13. Gmail 的搜索支持中文吗?
答:Gmail的搜索从前只支持英文,但是现在已经支持中文了。由于翻译志愿者的努力,界面的汉化也越来越好,你可以比从前更方便地使用了。 (2005年4月1-0日后开始支持多国语言的服务,包括简体中文和繁体中文。你可以加入"让Google说你的语言"活动,促进界面和服务的汉化。)
http://groups.google.com/group/Fugu-Public/browse_thread/thread/4c8fb4c390d579bb/5e58840b5445666a?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=22#5e58840b5445666a

gmail chat记录不能完全搜索
http://groups.google.com/group/FirefoxChina/browse_thread/thread/4c27064fe13a3a5b/631710eca330f98b?lnk=st&q=gmail+%E4%B8%AD%E6%96%87+%E6%90%9C%E7%B4%A2&rnum=28#631710eca330f98b
      
From: j
Date: Tue, 10 Oct 2006 09:15:16 +0800
Subject: Re: gmail 中文搜索

昨天我也第一次遇到这个问题,中文搜索很奇怪,比如说,这封邮件,如果你搜"中文",是搜索不出来的,但是如果搜索"中文搜索"
就能搜到.也就是说gmail支持完全匹配的中文搜索,但是不支持模糊搜索……

[12] 邮件太多 日后检索 乱码问题 http://groups.google.com/group/salon-friends/browse_thread/thread/64ba16adb6bbf3c8

From: w
Date: Wed, 7 Mar 2007 18:17:58 +0100
Subject: 邮件太多 日后检索 乱码问题

更糟糕的是,msn space, google groups 中文检索都有问题,不全。一定要有个好的可以检索的服务收藏资料才好。
有人问,你怎么每天贴那么多文章,怎么来得及看啊。我也来不及看,为了方便要看的时 候找到,所以才发文共享。用 delicious.com
书签反而不如发信快捷。

另有若干家伙说我发送的是“垃圾邮件”。唉。其实我最喜欢别人去看网站然后搜集有价 值有趣的文章发给我,那样可以偷懒不用
去慢慢浏览网页,最舒服了。以前订阅 soim 索易电子杂志的[1]。后来这家公司关门了[2]。唉。另一个风云一时的邮件组服务公司,博大网络 bodachina.com
曾经1200万收购 Foxmail,现在也不知所终。只有稍微后来的希网 cn99.com 还在继续提供服务。http://www.cn99.com/
 
这家伙说,你真阴险,把一大堆自己都没看的文章发给别人,看到有人评论了,就知道有 意思,再去看。哈哈。但我无论如何,先做了一个粗筛选工作啊。
 
如果看到有价值的文章不发给邮件组,又觉得只有自己看到,浪费了。电子杂志 ezine 编辑选择比较单一,而 newsletter,
email group 的方式,汇集一群朋友可能感兴趣的内容,交流信息,选择可以通过发文者的不同而多样化。相当于朋友们虽然
远隔万里,也可以天天见面闲聊些道听途说,仿佛我们还可以天天在成贤街吃饭聊天 呢。:)
 
本来还希望通过邮件组可以使朋友之间相互认识,现在看来大部分保持忙碌和沉默。有问 题可以到邮件组询问,虽然未必会得到回答,等于类似
遇到熟人就问一声的效果。优先选择在开放的网络空间查询,更容易找到答案。朋友之间 可以提供一些网络上无法,难于检索到的信息提示:heuristic
information retrieval。
 
用 email 软件或者 webmail 的邮件过滤分类功能,很方便整理大量邮件,或者按照 To: 地址排序。如果不会用自动
分类方法,又觉得妨害阅读其他重要的邮件,那么可以放心搜索或者排序
后将邮件批 量删除,因为 googlegroups 网站上都有存档。
 
关于收到邮件是乱码的问题,有两种可能:
 
 
[4] Foxmail编写者张小龙成为博大公司副总裁 http://tech.sina.com.cn/news/it/2000-04-18/23063.shtml
[6] 中国网络电子杂志发展的问题和对策思考 http://www.networkland.com.cn/article.asp?id=1692
[7] 中国邮件列表服务商之比较 http://www.marketingman.net/wmtips/z102.htm

From: w
Date: Wed, 7 Mar 2007 14:34:29 -0500
Subject: Re: 邮件太多 日后检索 乱码问题

我都是归类加标签,跳过inbox,所以也不提示新邮件,很清净,想看了进去看看,目前有1000多封未读邮件。
建议:标题尽可能反映主要内容。

[13] 为什么我现在每天收到的摘要文字都是乱码呢? http://groups.google.com/group/salon-friends/browse_thread/thread/989bc0102eb3e381

From: g
Date: Sat, 10 Feb 2007 11:52:11 -0000
Subject: [Q]为什么我现在每天收到的摘要文字都是乱码呢?

是发到gmail的,语言设置是中文,可收到的摘要都是乱码:(

From: w
Date: Sat, 10 Feb 2007 13:15:10 +0100
Subject: Re: [Q]为什么我现在每天收到的摘要文字都是乱码呢?

google groups 的老问题。如果你在 web
界面浏览主题列表包括内容提要的时候,有些邮件也是乱码。凡是乱码邮件,都检索不到。但是点击连接打开看就是好的。

所以建议你选用 digest email 文集订阅方式,而不要用 abridged email 摘要订阅模式。我都是即时接收每封邮件因此没有问题。

[14] gmail web 界面阅读大量salon-friends组邮件的技巧
     http://groups.google.com/group/salon-friends/browse_thread/thread/db27f7e699bdb7b6

From: w
Date: Mon, 11 Sep 2006 00:17:25 +0200
Subject: gmail web 界面阅读大量salon-friends组邮件的技巧

1. 先新建一个叫salon-friends的标签;
2. 再新建一个过滤规则,在过滤的条件为收信人地址 To: salon-...@googlegroups.com,再点一下预搜索看是不是这个列表的邮件都出来的;如果是,就点下一步。
3. 在过滤后的动作中,先选中自动贴标签,标签选择为叫salon-friends的标签;再选择动作"自动归档"。归档的意思就是把邮件自动从Inbox 转移到 All Mail文件夹去。这样,你在Inbox文件夹中就看不到这个列表的邮件了,不会和其它的邮件混在一起,避免干扰你的日常工作。你再看salon- friends邮件组中的邮件的时候,你点 web 页面左边的salon-friends的标签就可以显示出来了。

参考:
[1] gmail help: How do I set up filters? http://mail.google.com/support/bin/answer.py?answer=6579&query=filter&topic=&type=f&ctx=search
[2] 过滤的艺术:Gmail Filter http://www.pconline.com.cn/pcedu/soft/wl/email/0607/821969.html

From: g
Date: Sun, 10 Sep 2006 19:11:25 -0500
Subject: Re: gmail web 界面阅读大量salon-friends组邮件的技巧

This is the way I sort all mailing list mails. Inbox is supposed to be empty after processing all new mails. ;)

From: w
Date: Mon, 11 Sep 2006 16:23:23 +0200
Subject: 修改订阅方式和退订方法

1. 如果你用 gmail 订阅 googlegroups,那么可以用 gmail 账户登录
http://groups.google.com/group/salon-friends/subscribe 选择订阅方式,或者退订。

2. 如果你要用非 gmail 信箱订阅 googlegroups,或者目前在非 gmail 信箱收到讨论组邮件,希望更改订阅方式,或者希望退订,则需要用你收到讨论组邮件的 email 地址 到这个网页注册一个 google account http://www.google.com/accounts/NewAccount

然后,访问这个网址更改订阅方式者退订
http://groups.google.com/group/salon-friends/subscribe

3. 还有一种简单的方法退订,每封信后面都有用法提示。只要从你收到信的地址发送一封空白信给 salon-friend...@googlegroups.com ,就可以收到一封信,点击其中的URL 确认一下,或者简单回复这封信,就可以退订。

4. 如果想在一个email 信箱订阅 salon-friends,访问
http://groups.google.com/group/salon-friends/subscribe 可以完成订阅。

5. 不同的订阅方式请参考:http://groups.google.com/group/salon- friends/browse_thread/thread/ac03656a660dc03e

[15] 信太多怎么办? http://groups.google.com/group/salon-friends/browse_thread/thread/ac03656a660dc03e

From: w
Date: Sun, 10 Sep 2006 16:47:24 +0200
Subject: 天啊几天时间塞了这么多东西进来

信太多怎么办?用 googlegroups 订阅设置

每封邮件的末尾都有提示,点击:http://groups.google.com/group/salon-friends/subscribe,选择 一种订阅方式:

How do you want to read this group?
     No Email 不收信,自己到网页 http://groups.google.com/group/salon-friends 上去读邮件组的信。
     I will read this group on the web

     Abridged Email (No more than 1 email per day) 每天1封信,包括当天邮件组内容的摘要。
     Get a summary of new activity each day

     Digest Email (Approximately 1 email per day) 把 25 封信集中在一封里面发给你,减少邮件数量。
     Get up to 25 full new messages bundled into a single email

     Email (Approximately 11 emails per day) 每封信及时发送。
     Send each message to me as it arrives

要做这个设置,必须用 google id 注册过这个邮件组。

如果你在一个非 gmail 的 email 地址收到这个邮件组的信,现在不想在那个地址收信,只要从那个邮件地址
发一封空白信给 salon-friend...@googlegroups.com,就可以了。

若要给管理员发信,请发送给:salon-fri...@googlegroups.com

Reply all
Reply to author
Forward
0 new messages