可以运行 curl http://autoproxy-gfwlist.googlecode.com/svn/trunk/gfwlist.txt
| base64 -d | grep "*" > starlist 保存到starlist。
我把starlist贴到了小组page里(
https://groups.google.com/group/scholarzhang-dev/web/starlist
),任何人可以编辑,大家就直接在那里修改吧,谢谢大家。
packages.debian.org*zh-cn*lenny*gpass
这种也应该恢复为 http://packages.debian.org/zh-cn/lenny/gpass
|http:*.google.com*%E5%89%8D%E4%B8%96%E4%BB%8A%E7%94%9F
这个就写成 .google.com*%E5%89%8D%E4%B8%96%E4%BB%8A%E7%94%9F
好了。因为很明显是这样。没有歧义。当然想写成.google.com/search?q=...... 也可以。
|http:*google.com*search*q*%E5%A4%A9%E5%AE%89%E9%97%A8
这个就必须还原为.google.com/search?q=%E5%A4%A9%E5%AE%89%E9%97%A8,因为不知道关键字到底是.google.com
&& xxx还是search && xxx还是q=xxxx
--
You received this message because you are subscribed to "scholarzhang-dev".
To post to this group, send email to scholarz...@googlegroups.com
To unsubscribe from this group, send email to
scholarzhang-d...@googlegroups.com
To unsubscribe from this group, send email to scholarzhang-dev+unsubscribegooglegroups.com or reply to this email with the words "REMOVE ME" as the subject.
总的目的是把一个并不一定是真正关键字的匹配模板转换成确实*可能是*关键字的字符串。
在 2010年3月22日 下午7:15,Darasion! <dara...@gmail.com> 写道:
> 是要挨个试验吗?
不用验证它是关键字,只是尽可能将这些奇怪的匹配模板试图对应的url都猜出来。
--
--
You received this message because you are subscribed to "scholarzhang-dev".
To post to this group, send email to scholarz...@googlegroups.com
To unsubscribe from this group, send email to
scholarzhang-d...@googlegroups.com
To unsubscribe from this group, send email to scholarzhang-dev+unsubscribegooglegroups.com or reply to this email with the words "REMOVE ME" as the subject.
--
You received this message because you are subscribed to "scholarzhang-dev".
To post to this group, send email to scholarz...@googlegroups.com
To unsubscribe from this group, send email to
scholarzhang-d...@googlegroups.com
To unsubscribe from this group, send email to scholarzhang-dev+unsubscribegooglegroups.com or reply to this email with the words "REMOVE ME" as the subject.
zhwiki 的 URL 有以下几种形式:
# http://zh.wikipedia.org/wiki/Foobar
# http://zh.wikipedia.org/zh-cn/Foobar
# http://zh.wikipedia.org/zh-tw/Foobar
# http://zh.wikipedia.org/zh-hk/Foobar
# http://zh.wikipedia.org/zh-sg/Foobar
# http://zh.wikipedia.org/zh-hans/Foobar (deprecated)
# http://zh.wikipedia.org/zh-hant/Foobar (deprecated)
# http://zh.wikipedia.org/index.php?title=Foobar
# http://zh.wikipedia.org/index.php?title=Foobar&variant=zh-*
列表中写 * 的目的主要是为了应付深度包检测。而 URL 关键词则很少有覆盖得这么全的,一般也就是会搞掉前五种地址中的一到两个。
FYI.
--
Jimmy Xu
另注,列表中的很多 * 其实只是遗留问题,比如上面的例子,比如 Google Docs 的那些,都是还没有修改而已。
--
Jimmy Xu
On Mar 22, 3:13 pm, 崔莺莺 <yingyingcui.scholarzh...@gmail.com> wrote:
> http://autoproxy-gfwlist.googlecode.com/svn/trunk/gfwlist.txt
> 上面是autoproxy-gfwlist的GFW关键词列表。需要base64 -d解码。
> 其中有一些有星号的关键词,希望把这些网址还原为它原始的样子,想请大家帮忙做做这种苦力活。(中文也还原为中文)其中星号没有任何意义的例如http://*blogger.com可以忽略。
>
> 可以运行 curlhttp://autoproxy-gfwlist.googlecode.com/svn/trunk/gfwlist.txt
> | base64 -d | grep "*" > starlist 保存到starlist。
> 我把starlist贴到了小组page里(https://groups.google.com/group/scholarzhang-dev/web/starlist
> ),任何人可以编辑,大家就直接在那里修改吧,谢谢大家。
2010/3/22 崔莺莺 <yingyingcui....@gmail.com>:
On Mar 22, 3:13 pm, 崔莺莺 <yingyingcui.scholarzh...@gmail.com> wrote:
> http://autoproxy-gfwlist.googlecode.com/svn/trunk/gfwlist.txt
> 上面是autoproxy-gfwlist的GFW关键词列表。需要base64 -d解码。
> 其中有一些有星号的关键词,希望把这些网址还原为它原始的样子,想请大家帮忙做做这种苦力活。(中文也还原为中文)其中星号没有任何意义的例如http://*blogger.com可以忽略。
>
> 可以运行 curlhttp://autoproxy-gfwlist.googlecode.com/svn/trunk/gfwlist.txt
> | base64 -d | grep "*" > starlist 保存到starlist。
> 我把starlist贴到了小组page里(https://groups.google.com/group/scholarzhang-dev/web/starlist
> ),任何人可以编辑,大家就直接在那里修改吧,谢谢大家。
在 2010年3月23日 下午12:02,WindyWinter <wi...@briefdream.com> 写道:
> |http:*falun
> |http:*freenet
> |http:*q=freedom
> |http:*search*safeweb
> 它们的意思应该是阻止任何对这些关键词的搜索,而很显然我们都知道这些是GFW深度包检测的关键词……
你想当然了。falun是url关键字
q=freedom也是
另外两个我不知情。
在 2010年3月23日 下午2:28,ZhangJieJing <kzj...@gmail.com> 写道:
> 试验结果是,
> http://www.python.org///////////download/
> 也不能访问。
但是它不是关键字。被触发是因为被重定向了。
在 2010年3月23日 下午2:35,Chunlin Zhang <zhangc...@gmail.com> 写道:
> 想问一下这样做的目的是?
目的就是,autoproxy上有些关键词匹配模板可以匹配一些关键词,但是实际上并不一定所有匹配了这个模板的字符串都是关键词。
举个极端的例子就是q=triangle是关键词,但是q*triangle不一定是。autoproxy上也许会出现q*triangle,那我们要做的事情就是根据一些了解把q*triangle还原成q=triangle
比如说已经知道了".google.com &&
阅后即焚"是关键字,autoproxy中可能写的是".google.com*阅后即焚",就不需要把它还原成
www.google.com/search?q=阅后即焚&hl=zh-CN,就可以不管了。
在比如如果autoproxy中有一个".google.com*罢课",其实"罢课“就是关键词,这个时候也可以不管,因为".google.com*罢课"所匹配的所有字符串都可以触发GFW。