{技术}{OT}让所有内容审查去死的思路 - 由BT被封杀想到的

176 views
Skip to first unread message

est

unread,
Dec 15, 2009, 1:16:40 AM12/15/09
to pon...@googlegroups.com
恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。

这个帖子最先发在TLF的tid=1411039,早年也在我的blog上(/641683)提到过

我们说网络内容审查,我想了下,大概有三种模式

一,传输过程中的关键词触发和过滤
二,已知存储位置和空间提供商位置,直接捣毁空间提供商
三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。

其实互联网体系架构是非常容易对抗这三种模式的。这就是下面要讨论的,让所有内容审核手段都很无语,让所有版权组织都哑口无言的数据分发手段,我把它命名为:contentless data transferring 去内容的数据传输

下面举1个非常简单容易理解例子说明我这个方法的思路

把一个电影文件的的所有字节,奇数位提取成一个单独文件 a.bin 放在rayfile,偶数位提取出 b.bin 放在rapidshare。这里的rayfile和 rapidshare都是知名网盘。用户同时从rayfile和rapidshare下载,下载完毕之后合并文件得到完整原始电影。但是从rayfile和rapidshare的角度来看这两个文件都是未知的二进制流而没有任何意义的。这里只是划分成2块,我们还可以划分成4块、8块的。

就好比,我们说贩卖武器是非法的,但是贩卖可以用于制造武器的原料铁矿石,和冶炼、金工制造、组装技术是分别合法的。而且审查机制又不可能为了禁止武器而捣毁所有冶炼厂和金工厂。

为什么可以对抗上面提到的三种内容审核?我们逐个分析:

1. 除非是上传者终端和下载着终端,传输过程中的任意peer是不可能得到所有数据块的。即使得到所有数据块,要研究出如何组装还原也是相当麻烦复杂的。这里就需要对所有捕获到的数据包进行排列组合和矩阵变换验证匹配。大家可以想像一下这里的计算量是相当大的。更不要说,万一我对每一个数据包都有不同程度的加密和混淆
2. 这里空间提供商和永久存储服务提供商是免责的。因为保存在单个位置的数据是不完整也是不可知的。所以空间提供商不不可能提前扫描探测内容性质而作出预先屏蔽。所以最多就是事后删除文件。
3. 这里的分发所有保存位置和如何下载的帖子做到传统小众、隐蔽和低调即可。最重要的就是索引贴不要被google等搜索引擎爬虫了。而且文件上传起名也要模糊。

可能大家会问这个方法和传统文件分块有什么不同,其关键就在于,还是拿电影文件做例子,传统文件分割,假如电影版被分为上下两端,每一段修复文件头了之后,虽然是部分,但是仍然可以作为盗版的直接证据。因为审核手段最小单位是 byte ,你的分割最小单位也是byte。但是如果分割的最小单位是 bit,那么审核就没有办法了。

普通文本数据关键字审核也是同理的。从 bit 开始分割就破坏了组成内容的基本原子单位,而把数据纯流量化了。

这里涉及到的算法叫 Information Dispersal Algorithms (IDA)。IDA最典型的用途就是硬盘组建raid5。最简单的IDA就是上面提到奇偶分块,复杂的IDA可以涉及到矩阵变换

总结下这个方法的好处:

1. 空间提供商和永久存储服务提供商是免责的,也是可以抵赖的。
2. 上传/下载/分发速度大大提高。上传下载都是并发的,分2快就最高可以提速2倍了。(除非带宽限制)
3. 数据可以做类似raid5那样的容错校验。例如上传到8个点,其中任意2个点的数据被删除,仍然可以还原得到完整文件。

后续开发:

1. 还是拿电影作为例子,还是假设我们把文件分成两块。其实我们下载得到的 a.bin 和 b.bin 没有必要在硬盘上合并再播放了,播放器应该直接提供这样的机制:同时从两个文件读取buffer然后playback。做到这一点也不难。播放效率和普通音视频文件也没有太大差别。如果两个文件保存位置不一样,例如一个在网上邻居一个在本地硬盘,那么播放速度还可以最多提高2倍。

2. 单文件,不用事先分割,而由程序直接上传直接得到多个下载点。和上面播放器的例子相反,从一个单一文件读取buffer,直接在内存里分离成多块然后上传到不同地点。

3. 安全的云存储。现在云计算最大的一个关心就是隐私问题。很多中小企业把商业文档都保存在Google Docs(国外),那么对于Google角度来说这个内容是完全掌握可以分析的。假如只需要在云里保存数据,而不是计算的话,我们完全可以把一份文档分割成3块,一块放Google,一块放Amazon S3,一块放Dropbox,因为三家空间提供商不是互通的,所以我的内容是绝对安全的。

其实这个思路的起源就是一个简单的思想:把内容和流量分离开来。流量是内容无关的。这也是contentless data transferring里contentless的精髓。现在互联网最严重的审查机制都是因为内容引起的,特别是早期互联网协议,都是明文的,谁都可以来拦截篡改一下。如果最后协议也做到去内容化,甚至连握手都去内容化,那么互联网就是不可审查的了。或者说审查的成本非常高,你需要强制手段接管所有接入互联网的国家,并且直接控制每一个互联网使用者。

高级应用:
由于Information Dispersal Algorithms并没有说所有文件块必须是等长的,所以这里可以做一个优化。还是拿分享电影为例,香港的服务器很快,乌克兰的服务器很慢,我们把电影文件分割的 80% 保存在香港的服务器上,把20%保存在乌克兰的服务器上,那么即使受网速影响我们仍然可以保证两块文件几乎同时下载完毕。

问题:TL各位对本人的想法有什么观点?最好能找到一个不足或者漏洞,大家讨论下有没有什么补救增强措施。呵呵。。。

jadedrip

unread,
Dec 15, 2009, 1:32:31 AM12/15/09
to TopLanguage
问题是你要传播给广大人民群众,必须公开你的密匙或者存放方法。
如果是2人文件互传,随便加个密也就可以了。
另外:政府之下达处罚,不听辩解

On 12月15日, 下午2时16分, est <electronix...@gmail.com> wrote:
> 恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。

est

unread,
Dec 15, 2009, 1:38:50 AM12/15/09
to pon...@googlegroups.com
> 问题是你要传播给广大人民群众,必须公开你的密匙或者存放方法。

这个不是问题。任何传播都是先小众后大众的。

况且我发这个贴的目的又不是为了解决大规模公开传播问题的。我解决的是一个安全性和可靠性问题。

翔李

unread,
Dec 15, 2009, 1:21:07 AM12/15/09
to pon...@googlegroups.com
 有点脱离P2P思想,如果是放在服务器的话,服务器不知情,当然么关系,但是这样就不能规模化。规模化,必须是别人知情,但是没法办你。

est

unread,
Dec 15, 2009, 2:34:55 AM12/15/09
to pon...@googlegroups.com
恩。我这个思路是反p2p的。

现有p2p的思路是512k一个数据块然后hash然后DHT。我这套方法,由于每个人切分离散规格和方法不一样,导致每个人的数据快都不一样,导致不可索引。也就没法p2p了。

除非每个人内存合并512k的数据块再切割再p2p,呵呵,麻烦了。

2009/12/15 翔李 <3qfr...@gmail.com>:

i...@mofun.cc

unread,
Dec 15, 2009, 2:36:17 AM12/15/09
to pon...@googlegroups.com
好想法,赞一个,有兴趣的同学赶快写个工具出来!

现在上海大面积断网,政府在吓搞,一周了还没回复,良民都被搞得没脾气!

2009/12/15 翔李 <3qfr...@gmail.com>

raymond

unread,
Dec 15, 2009, 7:23:57 AM12/15/09
to TopLanguage
你的问题是什么?
如果仅仅是做到不可审查,现在已经有太多的办法。当然,你这种不失为一种很有效的,简单的办法。这种办法有种社会化的味道在里面,每个人各自构建自己的
数据分割策略,然后自己合并,就像社会上的犯罪团伙,每个都有每个的特色,用机器去检查犯罪绝不可能。
不过这个对审查没用,
1. 封你没商量
2. 谁写这个工具就干掉谁
3. 除了自己去写个工具自己用,普通网民再也无法使用了。

另外,审核的根本原因在于大众都开始获得信息,如果某个信息限制在小众里面,XX是不会审核的,而如果大规模使用的话,又会很快被发现的

张鹏程

unread,
Dec 15, 2009, 8:51:33 AM12/15/09
to pon...@googlegroups.com
我觉得尊重版权是很重要的。所以不要用好技术干坏事啊!

2009/12/15 raymond <shiq...@gmail.com>

ribao wei

unread,
Dec 15, 2009, 9:17:33 AM12/15/09
to pon...@googlegroups.com
楼主的问题很有意思,但是我也没有怎么看明白。到底是想在什么样的条件下达成什么样的目标?

如果是小众互传,随便加个密就行了,甚至winrar压缩加个密码,密码再另外告知就行了。

2009/12/15 jadedrip <jade...@gmail.com>:

ribao wei

unread,
Dec 15, 2009, 9:18:54 AM12/15/09
to pon...@googlegroups.com
再者,这类问题,我觉得技术上能够做的是很有限的。好像tor项目的负责人说过,突破网络审查是一个社会性的问题,不是技术问题。

2009/12/15 ribao wei <wrb...@gmail.com>:

est

unread,
Dec 15, 2009, 11:59:52 AM12/15/09
to pon...@googlegroups.com
> 我觉得尊重版权是很重要的。所以不要用好技术干坏事啊!

数据和传输手段是中立的好不好。因为酸雨中也有H2O,每个人使用H2O都必须备案登记吗?

> 另外,审核的根本原因在于大众都开始获得信息,如果某个信息限制在小众里面,XX是不会审核的,而如果大规模使用的话,又会很快被发现的

请问怎么发现?

> 如果是小众互传,随便加个密就行了,甚至winrar压缩加个密码,密码再另外告知就行了。

这个加密码就好比一个明确攻击目标,只是盔甲比较厚而已。我这个方法就好比对付幽灵兵,物理攻击是无效的。

> 再者,这类问题,我觉得技术上能够做的是很有限的。好像tor项目的负责人说过,突破网络审查是一个社会性的问题,不是技术问题。

觉得党又出现了。

Fuzhou Chen

unread,
Dec 15, 2009, 2:24:27 PM12/15/09
to pon...@googlegroups.com
要发现并不困难,但需要流量大到一定程度。如果从流量分析记录
发现当前无法分析的数据包比率有明显上升的趋势,我相信任何一
个敏感的网管都会注意到这个问题。而且实际上它也不需要分析,
封就是了,对他们而言不过就是黑名单里加一条记录,轻松愉快。

我现在的感觉是,这一次别低估上头构建世界上最大的局域网的决心。

2009/12/15 est <electr...@gmail.com>:
>
> 请问怎么发现?
>


--
《采莲》·江南

为卿采莲兮涉水,为卿夺旗兮长战。为卿遥望兮辞宫阙,为卿白发兮缓缓歌。

另抄自蒜头的评论:http://www.douban.com/review/1573456/

  且祭一束紫琳秋,为一段落花流水的传说
  且饮一杯青花酒,为一场几多擦肩的错过
  且焚一卷旖旎念,为一腔抛付虚无的惜怜
  且歌一曲罢箜篌,为一刻良辰春宵的寂寞

ribao wei

unread,
Dec 15, 2009, 2:42:22 PM12/15/09
to pon...@googlegroups.com
……我用“觉得”是因为不想将你的方案完全否定,因为我也没非常仔细看你的方案。

>> 如果是小众互传,随便加个密就行了,甚至winrar压缩加个密码,密码再另外告知就行了。
>
> 这个加密码就好比一个明确攻击目标,只是盔甲比较厚而已。我这个方法就好比对付幽灵兵,物理攻击是无效的。

从你这个论断来说我可以说你对密码学不是很了解。
设计一个密码方案,就是要在公开加密机制,只保密密钥的情况下保证密文的安全性。
实际上你设计的也可以说是一种加密方案(实际上是相当简单的一种),相当于是取一个与明文等长的随机密钥,将密钥与明文异或得到密文。密文在于密钥异或就恢复得到明文。

让网络流无法被自动过滤,技术上太容易了。

突破网络审查,关键还是一个社会问题。


2009/12/15 est <electr...@gmail.com>:

est

unread,
Dec 15, 2009, 3:51:19 PM12/15/09
to pon...@googlegroups.com
> 从你这个论断来说我可以说你对密码学不是很了解。设计一个密码方案,就是要在公开加密机制,只保密密钥的情况下保证密文的安全性。

lol,理论上密码学是多么多么安全,但是实际上,有2个问题你明显没有考虑到

1. 现有被证明的加密算法就那么几种,自己实现的的加密算法没有得到大多数人验证的情况下可以被认为是不安全的
2. 正如上一条所述,其实被加密的内容是一个很明显的target。相关破解的 research 也太多了。

最后,凭什么就不能在我所说这个分割之后对每一块数据再进行加密呢?

让网络流无法被自动过滤,技术上太容易了。这个的确,但是如果你的永久存储点被raid了之后,你加密的东西会让你强制交出密码,但是我这个方法处理之后的数据是可以抵赖的。


> 如果从流量分析记录发现当前无法分析的数据包比率有明显上升的趋势,我相信任何一个敏感的网管都会注意到这个问题。而且实际上它也不需要分析,封就是了,对他们而言不过就是黑名单里加一条记录,轻松愉快。

1. 大多数流量的数据包是无法分析的。否则世界上不会有这么多种类的过滤设备和安全公司了。
2.传统手段也可以被封吧。我这个方法只可能比传统方法更难发觉而不是跟容易被封。

况且我这个方法不是用来对抗gov的,是一种让互联网更加中立的手段

ribao wei

unread,
Dec 15, 2009, 4:44:17 PM12/15/09
to pon...@googlegroups.com
……最后一次回复你。

你的方案,实际上是一次一密,是信息论意义下绝对安全的加密方案。问题是效率问题。

说实话, with respect,跟你讨论这个问题有点跟以前大学门口那个拿了两页稿纸说自己证明了哥德巴赫猜想的“民间科学家”大叔讨论的感觉。

2009/12/15 est <electr...@gmail.com>:

est

unread,
Dec 15, 2009, 5:06:50 PM12/15/09
to pon...@googlegroups.com
> 你的方案,实际上是一次一密,是信息论意义下绝对安全的加密方案。问题是效率问题。

理论上解释本来就是这个意思。我立了一个鸡蛋,你知道方法了之后当然觉得很弱智。

> 说实话, with respect,跟你讨论这个问题有点跟以前大学门口那个拿了两页稿纸说自己证明了哥德巴赫猜想的“民间科学家”大叔讨论的感觉。

再次向有理论高度的科班出生感觉党问好。

Fuzhou Chen

unread,
Dec 15, 2009, 7:01:53 PM12/15/09
to pon...@googlegroups.com
2009/12/15 est <electr...@gmail.com>:

>
>> 如果从流量分析记录发现当前无法分析的数据包比率有明显上升的趋势,我相信任何一个敏感的网管都会注意到这个问题。而且实际上它也不需要分析,封就是了,对他们而言不过就是黑名单里加一条记录,轻松愉快。
>
> 1. 大多数流量的数据包是无法分析的。否则世界上不会有这么多种类的过滤设备和安全公司了。
> 2.传统手段也可以被封吧。我这个方法只可能比传统方法更难发觉而不是跟容易被封。

我想我没表达好我的意思。我不是说网管会试图从你的数据包
得到里面的信息。他只要确认最近有一段时间无法分析的包在增
加,就可以直接把你的站点加入黑名单,从而让你的一切努力毁
于一旦。从最近国内站点的整顿力度看,这么干并不是不可能的。

我也不是试图指出你打算对抗什么人,只是觉着你这方案最可能被
什么人注意而已,呵呵,就当是个建议吧。

Jeff Chen

unread,
Dec 15, 2009, 7:15:16 PM12/15/09
to pon...@googlegroups.com
金盾公司在全国给地开了研发中心,正在增招人手,各位感兴趣的可以去应聘,待遇很赞的。
 


 
2009/12/16 Fuzhou Chen <cppo...@gmail.com>



--
My Blog:http://jeffchen.cn

Mikster.Z

unread,
Dec 15, 2009, 8:05:32 PM12/15/09
to pon...@googlegroups.com
在你的主张里没看到任何新意:
1:内容加密,现在很多东西都可以了
2:增加速度,也许香港服务器对你来说是快,对于另外的人来说可能要从慢的服务器来下80%。而且数据的拆分和组装,只会比原始数据来得更庞大。
3:你很喜欢给人家扣帽子,但是就是不承认自己的想法没有什么新意。比如“我又看到了党”之类的
4:大众可以使用,难道警察先生上班或者下班的时候就不是大众了吗?
5:Napster都被关,在中国您不会被关?

2009/12/16 est <electr...@gmail.com>



--
EX - EMBEDDED SYSTEM DEVELOPER
SOFTWARE ENGINEER
Name : Mikster  

Yang Chi

unread,
Dec 15, 2009, 9:21:58 PM12/15/09
to TopLanguage
这不是一次一密吧,连随机都没引入,比一次一密真的弱太多了。这里就只是个拆分,明文跟密文是相等的,随便那两段明文和其中一段的生成的密文出来,谁都
能看出来这个密文是哪端明文生成的。所以这个完全不是一次一密。

没仔细想,但是显然LZ这个方案里,要分享文件,拆分数N必须是公开信息。所以:

(假设某人要分享一个长度m的文件,审查者,或者版权提供商手里有总长度为n的一堆文件是他们不愿意网民传播的)

(1)不加密的情况下,不需要全部下载N个文件就足够轻易审查你了
(2)且审查的复杂度貌似只有O(nm)?没时间仔细想,不确定是这个,不过我觉得只要你愿意想,真的能做出复杂的向当低的方法。因为我不需要知道你到
底是在分享蜗居还是奋斗,我只需要知道你分享了我不想你分享的东西。
(3)你当然可以先拆分再加密,但是因为N个块之间各自独立生成密文,且N依然是个公开信息,这样没有提高任何安全程度。
(4)先加密再拆分。这其实就是使得得到每个小段密文都可能源自N段明文,那不需要LZ劳神了,有更好的AES和DES了。
(5)关键是,反正你分享文件的时候要公开这个N出来,至少我个人永远不会用这个方案,而是会选择成熟的公钥加密算法。毕竟虽然慢点,但反正每个文件我
只计算一次,而且个人分享的东西嘛,其实就那么一点点。

ribao wei

unread,
Dec 15, 2009, 10:20:27 PM12/15/09
to pon...@googlegroups.com
Sorry I didn't read lz's post carefully enough and thank you for
pointing out my mistake.

Still I think this is more a social problem than a technical one.

2009/12/15 Yang Chi <neilyo...@gmail.com>:

ribao wei

unread,
Dec 15, 2009, 10:26:43 PM12/15/09
to pon...@googlegroups.com
There are a lot of research on anonymous network. However, except Tor,
all of them fail to gain enough popularity.

Even Tor is too slow for most people. There is a paper explain why Tor
is so slow from an economic perspective.

2009/12/15 ribao wei <wrb...@gmail.com>:

est

unread,
Dec 15, 2009, 11:21:34 PM12/15/09
to pon...@googlegroups.com
好吧,看了大家这么多理论性的回复,我倒是有几个问题了:

1. 突破审查手段,必须用密码学吗?

2. 如果不用密码学,那么什么理论体系可以有效对抗审查?(我不想讨论对抗审查有多困难,动机之类的,只想知道how和其中原理)

3. 基于现有互联网架构,用什么方法最好?

Mikster.Z

unread,
Dec 15, 2009, 11:48:15 PM12/15/09
to pon...@googlegroups.com
审查者同时可以是内容的受众。

以前说把地下党一网打尽要找叛徒,那是封闭体系。互联网是开放式的,所以,没有办法。

你的问题都是没有答案的。

2009/12/16 est <electr...@gmail.com>

est

unread,
Dec 16, 2009, 12:02:46 AM12/16/09
to pon...@googlegroups.com
那就不要讨论最初如何分发这个环节了好吧。。。。难道大家对其余分发环节的改进不报任何兴趣和乐观态度了吗?

2009/12/16 Mikster.Z <china...@gmail.com>:

zippo.tan

unread,
Dec 15, 2009, 2:14:43 AM12/15/09
to pon...@googlegroups.com
这个实在麻烦,而且做了吃力不讨好,谁来提供片源呢
说起来,翻墙是件简单的事,但现在也懒得去翻了。
更何况你说的下载合并,操作性很困难,除非真的给逼的没其他方法了才可能流行。。。

Sent from 杭州市, 浙江省, 中国
Stephen Leacock  - "I detest life-insurance agents: they always argue that I shall some day die, which is not so."

2009/12/15 est <electr...@gmail.com>

猛禽

unread,
Dec 15, 2009, 8:40:28 AM12/15/09
to TopLanguage
没看出来你这个想法跟BT被封有什么关系。
首先只要是传播了侵权内容,不管用什么方法,都无法规避法律问题。
至于服务器的问题,像emule之类的普遍使用KAD网络的P2P已经不需要服务器了,也就不存在服务商的免不免责问题。
当然,对于需要私下安全传播的大容量数据,这个方法倒是不错。
不过小范围传播则无法享受到P2P的好处,只能依赖服务器的存储和流量了。

AntiGameZ

unread,
Dec 15, 2009, 3:11:01 AM12/15/09
to TopLanguage
你的算法别人知道了,能还原的出来,一样可以指正你。

政策面的复杂性就不说了

On Dec 15, 2:16 pm, est <electronix...@gmail.com> wrote:
> 恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。
>

> 这个帖子最先发在TLF的tid=1411039,早年也在我的blog上(/641683)提到过
>
> 我们说网络内容审查,我想了下,大概有三种模式
>
> 一,传输过程中的关键词触发和过滤
> 二,已知存储位置和空间提供商位置,直接捣毁空间提供商
> 三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。
>
> 其实互联网体系架构是非常容易对抗这三种模式的。这就是下面要讨论的,让所有内容审核手段都很无语,让所有版权组织都哑口无言的数据分发手段,我把它命名为:c ontentless
> data transferring 去内容的数据传输
>
> 下面举1个非常简单容易理解例子说明我这个方法的思路
>
> 把一个电影文件的的所有字节,奇数位提取成一个单独文件 a.bin 放在rayfile,偶数位提取出 b.bin
> 放在rapidshare。这里的rayfile和

> rapidshare都是知名网盘。用户同时从rayfile和rapidshare下载,下载完毕之后合并文件得到完整原始电影。但是从rayfile和ra pidshare的角度来看这两个文件都是未知的二进制流而没有任何意义的。这里只是划分成2块,我们还可以划分成4块、8块的。


>
> 就好比,我们说贩卖武器是非法的,但是贩卖可以用于制造武器的原料铁矿石,和冶炼、金工制造、组装技术是分别合法的。而且审查机制又不可能为了禁止武器而捣毁所 有冶炼厂和金工厂。
>
> 为什么可以对抗上面提到的三种内容审核?我们逐个分析:
>
> 1.

> 除非是上传者终端和下载着终端,传输过程中的任意peer是不可能得到所有数据块的。即使得到所有数据块,要研究出如何组装还原也是相当麻烦复杂的。这里就需要 对所有捕获到的数据包进行排列组合和矩阵变换验证匹配。大家可以想像一下这里的计算量是相当大的。更不要说,万一我对每一个数据包都有不同程度的加密和混淆


> 2.
> 这里空间提供商和永久存储服务提供商是免责的。因为保存在单个位置的数据是不完整也是不可知的。所以空间提供商不不可能提前扫描探测内容性质而作出预先屏蔽。所 以最多就是事后删除文件。
> 3.
> 这里的分发所有保存位置和如何下载的帖子做到传统小众、隐蔽和低调即可。最重要的就是索引贴不要被google等搜索引擎爬虫了。而且文件上传起名也要模糊。
>

> 可能大家会问这个方法和传统文件分块有什么不同,其关键就在于,还是拿电影文件做例子,传统文件分割,假如电影版被分为上下两端,每一段修复文件头了之后,虽然 是部分,但是仍然可以作为盗版的直接证据。因为审核手段最小单位是


> byte ,你的分割最小单位也是byte。但是如果分割的最小单位是 bit,那么审核就没有办法了。
>
> 普通文本数据关键字审核也是同理的。从 bit 开始分割就破坏了组成内容的基本原子单位,而把数据纯流量化了。
>
> 这里涉及到的算法叫 Information Dispersal Algorithms
> (IDA)。IDA最典型的用途就是硬盘组建raid5。最简单的IDA就是上面提到奇偶分块,复杂的IDA可以涉及到矩阵变换
>
> 总结下这个方法的好处:
>
> 1. 空间提供商和永久存储服务提供商是免责的,也是可以抵赖的。
> 2. 上传/下载/分发速度大大提高。上传下载都是并发的,分2快就最高可以提速2倍了。(除非带宽限制)
> 3. 数据可以做类似raid5那样的容错校验。例如上传到8个点,其中任意2个点的数据被删除,仍然可以还原得到完整文件。
>
> 后续开发:
>
> 1. 还是拿电影作为例子,还是假设我们把文件分成两块。其实我们下载得到的 a.bin 和 b.bin

> 没有必要在硬盘上合并再播放了,播放器应该直接提供这样的机制:同时从两个文件读取buffer然后playback。做到这一点也不难。播放效率和普通音视频 文件也没有太大差别。如果两个文件保存位置不一样,例如一个在网上邻居一个在本地硬盘,那么播放速度还可以最多提高2倍。


>
> 2.
> 单文件,不用事先分割,而由程序直接上传直接得到多个下载点。和上面播放器的例子相反,从一个单一文件读取buffer,直接在内存里分离成多块然后上传到不同 地点。
>
> 3. 安全的云存储。现在云计算最大的一个关心就是隐私问题。很多中小企业把商业文档都保存在Google
> Docs(国外),那么对于Google角度来说这个内容是完全掌握可以分析的。假如只需要在云里保存数据,而不是计算的话,我们完全可以把一份文档分割成3块 ,一块放Google,一块放Amazon
> S3,一块放Dropbox,因为三家空间提供商不是互通的,所以我的内容是绝对安全的。
>
> 其实这个思路的起源就是一个简单的思想:把内容和流量分离开来。流量是内容无关的。这也是contentless

> data transferring里contentless的精髓。现在互联网最严重的审查机制都是因为内容引起的,特别是早期互联网协议,都是明文的,谁都可以来拦截 篡改一下。如果最后协议也做到去内容化,甚至连握手都去内容化,那么互联网就是不可审查的了。或者说审查的成本非常高,你需要强制手段接管所有接入互联网的国家 ,并且直接控制每一个互联网使用者。

Ben

unread,
Dec 15, 2009, 3:54:35 AM12/15/09
to TopLanguage
理论上是可行的,但现实会有很大困难。要想信息被大面积传播,这个信息存储方必须要有相当规模的软硬件资源。而这样的存储方必定不会有太多。那么问题就
很简单了,直接封掉这几个存储方即可。

On Dec 15, 2:16 pm, est <electronix...@gmail.com> wrote:
> 恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。
>
> 这个帖子最先发在TLF的tid=1411039,早年也在我的blog上(/641683)提到过
>
> 我们说网络内容审查,我想了下,大概有三种模式
>
> 一,传输过程中的关键词触发和过滤
> 二,已知存储位置和空间提供商位置,直接捣毁空间提供商
> 三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。
>
> 其实互联网体系架构是非常容易对抗这三种模式的。这就是下面要讨论的,让所有内容审核手段都很无语,让所有版权组织都哑口无言的数据分发手段,我把它命名为:contentless
> data transferring 去内容的数据传输
>
> 下面举1个非常简单容易理解例子说明我这个方法的思路
>
> 把一个电影文件的的所有字节,奇数位提取成一个单独文件 a.bin 放在rayfile,偶数位提取出 b.bin
> 放在rapidshare。这里的rayfile和

> rapidshare都是知名网盘。用户同时从rayfile和rapidshare下载,下载完毕之后合并文件得到完整原始电影。但是从rayfile和rapidshare的角度来看这两个文件都是未知的二进制流而没有任何意义的。这里只是划分成2块,我们还可以划分成4块、8块的。


>
> 就好比,我们说贩卖武器是非法的,但是贩卖可以用于制造武器的原料铁矿石,和冶炼、金工制造、组装技术是分别合法的。而且审查机制又不可能为了禁止武器而捣毁所有冶炼厂和金工厂。
>
> 为什么可以对抗上面提到的三种内容审核?我们逐个分析:
>
> 1.

> 除非是上传者终端和下载着终端,传输过程中的任意peer是不可能得到所有数据块的。即使得到所有数据块,要研究出如何组装还原也是相当麻烦复杂的。这里就需要对所有捕获到的数据包进行排列组合和矩阵变换验证匹配。大家可以想像一下这里的计算量是相当大的。更不要说,万一我对每一个数据包都有不同程度的加密和混淆


> 2.
> 这里空间提供商和永久存储服务提供商是免责的。因为保存在单个位置的数据是不完整也是不可知的。所以空间提供商不不可能提前扫描探测内容性质而作出预先屏蔽。所以最多就是事后删除文件。
> 3.
> 这里的分发所有保存位置和如何下载的帖子做到传统小众、隐蔽和低调即可。最重要的就是索引贴不要被google等搜索引擎爬虫了。而且文件上传起名也要模糊。
>

> 可能大家会问这个方法和传统文件分块有什么不同,其关键就在于,还是拿电影文件做例子,传统文件分割,假如电影版被分为上下两端,每一段修复文件头了之后,虽然是部分,但是仍然可以作为盗版的直接证据。因为审核手段最小单位是


> byte ,你的分割最小单位也是byte。但是如果分割的最小单位是 bit,那么审核就没有办法了。
>
> 普通文本数据关键字审核也是同理的。从 bit 开始分割就破坏了组成内容的基本原子单位,而把数据纯流量化了。
>
> 这里涉及到的算法叫 Information Dispersal Algorithms
> (IDA)。IDA最典型的用途就是硬盘组建raid5。最简单的IDA就是上面提到奇偶分块,复杂的IDA可以涉及到矩阵变换
>
> 总结下这个方法的好处:
>
> 1. 空间提供商和永久存储服务提供商是免责的,也是可以抵赖的。
> 2. 上传/下载/分发速度大大提高。上传下载都是并发的,分2快就最高可以提速2倍了。(除非带宽限制)
> 3. 数据可以做类似raid5那样的容错校验。例如上传到8个点,其中任意2个点的数据被删除,仍然可以还原得到完整文件。
>
> 后续开发:
>
> 1. 还是拿电影作为例子,还是假设我们把文件分成两块。其实我们下载得到的 a.bin 和 b.bin

> 没有必要在硬盘上合并再播放了,播放器应该直接提供这样的机制:同时从两个文件读取buffer然后playback。做到这一点也不难。播放效率和普通音视频文件也没有太大差别。如果两个文件保存位置不一样,例如一个在网上邻居一个在本地硬盘,那么播放速度还可以最多提高2倍。


>
> 2.
> 单文件,不用事先分割,而由程序直接上传直接得到多个下载点。和上面播放器的例子相反,从一个单一文件读取buffer,直接在内存里分离成多块然后上传到不同地点。
>
> 3. 安全的云存储。现在云计算最大的一个关心就是隐私问题。很多中小企业把商业文档都保存在Google
> Docs(国外),那么对于Google角度来说这个内容是完全掌握可以分析的。假如只需要在云里保存数据,而不是计算的话,我们完全可以把一份文档分割成3块,一块放Google,一块放Amazon
> S3,一块放Dropbox,因为三家空间提供商不是互通的,所以我的内容是绝对安全的。
>
> 其实这个思路的起源就是一个简单的思想:把内容和流量分离开来。流量是内容无关的。这也是contentless

> data transferring里contentless的精髓。现在互联网最严重的审查机制都是因为内容引起的,特别是早期互联网协议,都是明文的,谁都可以来拦截篡改一下。如果最后协议也做到去内容化,甚至连握手都去内容化,那么互联网就是不可审查的了。或者说审查的成本非常高,你需要强制手段接管所有接入互联网的国家,并且直接控制每一个互联网使用者。

Harry Huang

unread,
Dec 15, 2009, 5:19:38 AM12/15/09
to TopLanguage
你好
我个人觉得不可行。
例如,所有以rar加密分包的文件理论上就能“模拟”出楼主希望的效果。(不知我的理解有没有偏差)

这的确从技术的角度上来说能达到传输文件内容的不可知性。但是,从我们现实的屏蔽方法来说,这样破解我国的屏蔽是不可行的。因为现实的屏蔽很大程度上是
非“技术性”屏蔽。
在我国,很多的内容审查并非纯技术的上的审查,我想大多数应该是基于技术+人工的审查方式。也就是说,无数的小众长尾可以通过技术手段屏蔽,但一旦玩大
了玩出名了即使技术屏蔽不了,通过人工审查依旧可以人工屏蔽掉。这才是无解的地方。

举例说,可以在海外建一个小网站,通过技术手段逃过屏蔽,没问题。但是有一天访问量达到某个高度,即使你只踏入过一步雷池,也会给墙掉。
也就是说,我个人认为,所有的技术手段只能针对小众,一旦普及开来,审查是肯定的。比如楼主提到的空间提供商免责,我想,再怎么免责,一旦这个渠道普及
化,要墙你也是分分钟的事。

至于审查成本的问题,我不知道具体怎么操作的,但是我想审查成本的高低取决于使用者获取信息过程成本的高低。假如所有网民都是程序员,大家都有强悍的数
据获取能力,那审查的成本将同比例上升。可是现实是,审查面向你,但不针对你,而是针对大众。

On 12月15日, 下午2时16分, est <electronix...@gmail.com> wrote:
> 恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。
>
> 这个帖子最先发在TLF的tid=1411039,早年也在我的blog上(/641683)提到过
>
> 我们说网络内容审查,我想了下,大概有三种模式
>
> 一,传输过程中的关键词触发和过滤
> 二,已知存储位置和空间提供商位置,直接捣毁空间提供商
> 三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。
>
> 其实互联网体系架构是非常容易对抗这三种模式的。这就是下面要讨论的,让所有内容审核手段都很无语,让所有版权组织都哑口无言的数据分发手段,我把它命名为:c ontentless
> data transferring 去内容的数据传输
>
> 下面举1个非常简单容易理解例子说明我这个方法的思路
>
> 把一个电影文件的的所有字节,奇数位提取成一个单独文件 a.bin 放在rayfile,偶数位提取出 b.bin
> 放在rapidshare。这里的rayfile和

> rapidshare都是知名网盘。用户同时从rayfile和rapidshare下载,下载完毕之后合并文件得到完整原始电影。但是从rayfile和ra pidshare的角度来看这两个文件都是未知的二进制流而没有任何意义的。这里只是划分成2块,我们还可以划分成4块、8块的。


>
> 就好比,我们说贩卖武器是非法的,但是贩卖可以用于制造武器的原料铁矿石,和冶炼、金工制造、组装技术是分别合法的。而且审查机制又不可能为了禁止武器而捣毁所 有冶炼厂和金工厂。
>
> 为什么可以对抗上面提到的三种内容审核?我们逐个分析:
>
> 1.

> 除非是上传者终端和下载着终端,传输过程中的任意peer是不可能得到所有数据块的。即使得到所有数据块,要研究出如何组装还原也是相当麻烦复杂的。这里就需要 对所有捕获到的数据包进行排列组合和矩阵变换验证匹配。大家可以想像一下这里的计算量是相当大的。更不要说,万一我对每一个数据包都有不同程度的加密和混淆


> 2.
> 这里空间提供商和永久存储服务提供商是免责的。因为保存在单个位置的数据是不完整也是不可知的。所以空间提供商不不可能提前扫描探测内容性质而作出预先屏蔽。所 以最多就是事后删除文件。
> 3.
> 这里的分发所有保存位置和如何下载的帖子做到传统小众、隐蔽和低调即可。最重要的就是索引贴不要被google等搜索引擎爬虫了。而且文件上传起名也要模糊。
>

> 可能大家会问这个方法和传统文件分块有什么不同,其关键就在于,还是拿电影文件做例子,传统文件分割,假如电影版被分为上下两端,每一段修复文件头了之后,虽然 是部分,但是仍然可以作为盗版的直接证据。因为审核手段最小单位是


> byte ,你的分割最小单位也是byte。但是如果分割的最小单位是 bit,那么审核就没有办法了。
>
> 普通文本数据关键字审核也是同理的。从 bit 开始分割就破坏了组成内容的基本原子单位,而把数据纯流量化了。
>
> 这里涉及到的算法叫 Information Dispersal Algorithms
> (IDA)。IDA最典型的用途就是硬盘组建raid5。最简单的IDA就是上面提到奇偶分块,复杂的IDA可以涉及到矩阵变换
>
> 总结下这个方法的好处:
>
> 1. 空间提供商和永久存储服务提供商是免责的,也是可以抵赖的。
> 2. 上传/下载/分发速度大大提高。上传下载都是并发的,分2快就最高可以提速2倍了。(除非带宽限制)
> 3. 数据可以做类似raid5那样的容错校验。例如上传到8个点,其中任意2个点的数据被删除,仍然可以还原得到完整文件。
>
> 后续开发:
>
> 1. 还是拿电影作为例子,还是假设我们把文件分成两块。其实我们下载得到的 a.bin 和 b.bin

> 没有必要在硬盘上合并再播放了,播放器应该直接提供这样的机制:同时从两个文件读取buffer然后playback。做到这一点也不难。播放效率和普通音视频 文件也没有太大差别。如果两个文件保存位置不一样,例如一个在网上邻居一个在本地硬盘,那么播放速度还可以最多提高2倍。


>
> 2.
> 单文件,不用事先分割,而由程序直接上传直接得到多个下载点。和上面播放器的例子相反,从一个单一文件读取buffer,直接在内存里分离成多块然后上传到不同 地点。
>
> 3. 安全的云存储。现在云计算最大的一个关心就是隐私问题。很多中小企业把商业文档都保存在Google
> Docs(国外),那么对于Google角度来说这个内容是完全掌握可以分析的。假如只需要在云里保存数据,而不是计算的话,我们完全可以把一份文档分割成3块 ,一块放Google,一块放Amazon
> S3,一块放Dropbox,因为三家空间提供商不是互通的,所以我的内容是绝对安全的。
>
> 其实这个思路的起源就是一个简单的思想:把内容和流量分离开来。流量是内容无关的。这也是contentless

> data transferring里contentless的精髓。现在互联网最严重的审查机制都是因为内容引起的,特别是早期互联网协议,都是明文的,谁都可以来拦截 篡改一下。如果最后协议也做到去内容化,甚至连握手都去内容化,那么互联网就是不可审查的了。或者说审查的成本非常高,你需要强制手段接管所有接入互联网的国家 ,并且直接控制每一个互联网使用者。

Harry Huang

unread,
Dec 15, 2009, 8:02:35 PM12/15/09
to TopLanguage
你说的一切都行的通,理想状态下
现实却是,无论抵赖不抵赖也好,都封你,你怎么解决?
只要大众,绝对逃不过审查。审查是纯粹形而上的范畴,技术只是其手段之一而已。

On 12月16日, 上午4时51分, est <electronix...@gmail.com> wrote:
> > 从你这个论断来说我可以说你对密码学不是很了解。设计一个密码方案,就是要在公开加密机制,只保密密钥的情况下保证密文的安全性。
>
> lol,理论上密码学是多么多么安全,但是实际上,有2个问题你明显没有考虑到
>
> 1. 现有被证明的加密算法就那么几种,自己实现的的加密算法没有得到大多数人验证的情况下可以被认为是不安全的
> 2. 正如上一条所述,其实被加密的内容是一个很明显的target。相关破解的 research 也太多了。
>
> 最后,凭什么就不能在我所说这个分割之后对每一块数据再进行加密呢?
>
> 让网络流无法被自动过滤,技术上太容易了。这个的确,但是如果你的永久存储点被raid了之后,你加密的东西会让你强制交出密码,但是我这个方法处理之后的数据 是可以抵赖的。
>

> > 如果从流量分析记录发现当前无法分析的数据包比率有明显上升的趋势,我相信任何一个敏感的网管都会注意到这个问题。而且实际上它也不需要分析,封就是了,对他们 而言不过就是黑名单里加一条记录,轻松愉快。

zizon

unread,
Dec 15, 2009, 9:28:16 PM12/15/09
to TopLanguage
把p2p的分割方式改一下不就得了?

On Dec 15, 3:34 pm, est <electronix...@gmail.com> wrote:
> 恩。我这个思路是反p2p的。
>
> 现有p2p的思路是512k一个数据块然后hash然后DHT。我这套方法,由于每个人切分离散规格和方法不一样,导致每个人的数据快都不一样,导致不可索引。-也就没法p2p了。
>
> 除非每个人内存合并512k的数据块再切割再p2p,呵呵,麻烦了。
>
> 2009/12/15 翔李 <3qfri...@gmail.com>:
>
>
>
> > 有点脱离P2P思想,如果是放在服务器的话,服务器不知情,当然么关系,但是这样就不能规模化。规模化,必须是别人知情,但是没法办你。- Hide quoted text -
>
> - Show quoted text -

Kevin xue

unread,
Dec 15, 2009, 9:50:56 PM12/15/09
to pon...@googlegroups.com
个人意见,勿拍
 * 对于个人使用的目的,lz的方案显然成立,因为只有一个人知道的情况下外人获得的信息量不足以获取所有内容
 * 但是应该是没有办法进行扩展使用,如果你想让ABCDEFG等人使用,就必须把足够获取该内容的信息量传递给
    他人,这一过程是危险的。如果审查部门通样能获得这些信息量的话,你的内容就不安全,因为封一台服务器和
    封10台100台来说没有什么区别。所以很大的问题在于存储信息的保密特性上,有点像传统密码学了里面密钥的
    传递问题。
 * 当然,对于关键字触发的过滤器工作模式的G。F。W是有效的,不过简简单单加密也可以达到同样的效果
 * 关于分发保存位置做到低调和小众。。我想如果这个可以做到的话,直接做保密论坛随便下,爬虫也爬不到不是
    更加方便?
 * 关于免责和事后删除。。。现在基本都是事后删除吧?不太了解,而且加密后的数据内容空间提供商也无法读取

最后,关于“抵赖”的说法,我想真要出了什么事情,一般人是没有这个选项可以选择的。小心和你玩躲猫猫什么的哇
其实我觉得像SSH这样的东西是不错的,直到最近出现了SSH中间人的相关文章,,,杯具哇


--
BR
Kevin

pengfei yu

unread,
Dec 16, 2009, 1:28:14 AM12/16/09
to pon...@googlegroups.com
对于封锁。只要你有一定的知名度肯定是要被封的,ZF又不管你是什么加密方式,你说你可以抵赖,但在zf面前你抵赖又有何用?用过无界浏览器,它有一段时间封了,而他所谓的突墙也就是采用不断的跟换ip,不断地升级版本,这样才能够免于封锁,然后又采用一系列的获得ip的方法,比如gtalk等,才能够让用户获得新版本的软件,对于你说的感觉只适合小众传播。封锁是社会范畴的问题。

2009/12/16 est <electr...@gmail.com>:

dachuan lin

unread,
Dec 16, 2009, 3:20:39 AM12/16/09
to pon...@googlegroups.com
楼主,我想上面已经有朋友说得很清楚了,你的问题主要是几点:
1、你的加密方案是有限公开的吗?比如说邀请制、注册制等?还是只要是人都可以用?
2、你加密后的网页可以使得访问的人看到下载的内容吗?比如电影下载,那么上了你的网页可以看到是什么电影吗?

如果这些都是OK得,那么很简单,只要用类似google的工具查询热门电影关键字并统计流量(这个监管部门很容易做到)就好了,然后就会去查你又没有这些电影的授权,如果没有就封了。

如果是封闭的又如何?比如小众之间互通有无,直接用P2p传输,不过我想这样的话用qq或skype的群传输就可以了吧,也不需要再发明一次。如果信不过商业公司,那么多开源的的软件,自己编译一个也可以吧,只不过要大家都用就比较复杂。

2009/12/16 est <electr...@gmail.com>:

Yun Zheng

unread,
Dec 17, 2009, 10:04:20 AM12/17/09
to TopLanguage
无他。
我是来拜高人est的。
留名。

jyf1987

unread,
Dec 18, 2009, 12:48:42 AM12/18/09
to TopLanguage
我的方法是改进base64
每段数据分为
keys|content

keys是下次解码用的base64的key排列
每发送一段数据 随机生成一次key排列
这样一段通讯内 它没法中途截获你

张鹏程

unread,
Dec 18, 2009, 3:07:26 AM12/18/09
to pon...@googlegroups.com
内容审察做为受众的一部分,无论技术怎么革新,只要受众不是确定的个体,那就没有用。因为你不能确定正在使用你的技术分享文件的是什么人。

2009/12/18 jyf1987 <jyf...@gmail.com>

est

unread,
Dec 18, 2009, 8:19:55 AM12/18/09
to pon...@googlegroups.com
哎。。。我前面已经声明了无穷多次了哎。。。这个要靠分层组织化+人海战术。这个传统手段就可以让审查手段去死了。

大家考虑问题都考虑那么弱 or 那么学术化么?

2009/12/18 张鹏程 <holme...@gmail.com>:

viru...@gmail.com

unread,
Dec 25, 2009, 10:03:29 PM12/25/09
to pon...@googlegroups.com
我觉得est的思路挺靠谱的。对抗审查主要依靠的应该是社会学办法。对抗审查是消耗战,一方人多,一方人少。只要持续增加对方成本就可以有效果。

On Dec 18, 2009, at 9:19 PM, est wrote:

哎。。。我前面已经声明了无穷多次了哎。。。这个要靠分层组织化+人海战术。这个传统手段就可以让审查手段去死了。

大家考虑问题都考虑那么弱 or 那么学术化么?


------------------------------------------------------------------------------------------------
霍炬
北京银杏科高信息技术有限公司    http://www.ginkgotek.com
tel:13911041484      010-63105844

万变的互联网,不变的搜索
Regards,
huoju




Yi Lee

unread,
Dec 26, 2009, 6:02:53 AM12/26/09
to pon...@googlegroups.com
楼主的思路有点像以前有个电视剧《三个侦探》里一集故事,要送一个文件,就找了三个人记忆专家,分别记住X、X+1、X+2的单词,到目的地就合并。。。
我觉得有点新意,但是本质上我认为跟BT其实没有太大差别。只不过一个是合并块,一个是合并字节。当然,有可能我压根没有理解楼主的意思

Mikster.Z

unread,
Dec 27, 2009, 8:15:34 PM12/27/09
to pon...@googlegroups.com
如果是平等的消耗那没问题,小米加步枪也赢过。
有一些消耗是不对等的。

Simon Liu

unread,
Dec 27, 2009, 11:03:21 PM12/27/09
to pon...@googlegroups.com
>> 我们说网络内容审查,我想了下,大概有三种模式
>>
>> 一,传输过程中的关键词触发和过滤
>> 二,已知存储位置和空间提供商位置,直接捣毁空间提供商
>> 三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。

文章的方案最终的目的,应该是“突破封锁和内容审查”。内容审查大致没有什么,但是如果说是“封锁”的话,那我想可能不止这三种模式。
先只考虑一种情况:现在的运营商是如何封BT和emule的?
事实上运营商其实并不关心传输的具体内容是什么,只要识别出是BT或emule或者lz的这种数据传输方式的数据包,就可以实现封锁。事实上,目前BT或eMule这种P2P的传输方式,基本上已经可以算是楼主所说的“去内容化”的传输方式了。

也就是说,其实封锁并不一定是根据内容来封锁的,例如针对IP的墙其实就与内容无关。因此从这个角度来说,lz的思路并没有能够解决这个问题。至于内容的分解或者加密方式都是次要的。

审查者也可以是用户,因此只要用户能够得到最终版本的数据,那么审查者也可以得到,整个过程(或使用的客户端工具)对于用户和审查者也都是可见的。因此我也支持楼上几位的观点:突破封锁和审查,并不是一个技术问题,也不是仅仅用技术手段就能解决的。

--
Simon Liu
Email/MSN/GTalk: yuntao.liu#gmail.com

zhaoren liu

unread,
Dec 28, 2009, 1:59:46 AM12/28/09
to pon...@googlegroups.com

这个是清华大学网络所对功夫网以及反功夫网的相关技术的一篇论文,很多技术都介绍得到位,用于学习研究不错。

http://course.ccert.edu.cn/wiki/index.php/Talk:Group8

2009/12/28 Simon Liu <yunta...@gmail.com>

est

unread,
Dec 28, 2009, 2:32:56 AM12/28/09
to pon...@googlegroups.com
这个也叫分析到位?囧。

2009/12/28 zhaoren liu <php...@gmail.com>:

四不象

unread,
Dec 28, 2009, 2:37:24 AM12/28/09
to pon...@googlegroups.com
fucking功夫网的技术很多人都懂,主要是实施成本太高.
防止GFW内容审核最简单的方式是,C/S双方都丢弃RST包。

est

unread,
Jan 8, 2010, 4:13:07 PM1/8/10
to pon...@googlegroups.com
今天老外也谈到这个话题了,他们说的是用XOR逃避版权问题。L和TL各位分享几个有意思的UR吧。

http://en.wikipedia.org/wiki/Monolith_(computer_program)

http://lawmeme.research.yale.edu/modules.php?name=News&file=article&sid=1487

http://ansuz.sooke.bc.ca/lawpoli/colour/2004061001.php

其中plausible deniability和liability是这套方法的初衷。大家都想得太远了,呵呵。

2009/12/15 est <electr...@gmail.com>:


> 恩。我知道这个东西可能一开始不会很技术,但是后面可以涉及到一个技术细节。
> 这个帖子最先发在TLF的tid=1411039,早年也在我的blog上(/641683)提到过

> 我们说网络内容审查,我想了下,大概有三种模式
> 一,传输过程中的关键词触发和过滤
> 二,已知存储位置和空间提供商位置,直接捣毁空间提供商
> 三,在大规模搜索引擎和索引服务提供商里,找到目标后迭代摧毁。

> 其实互联网体系架构是非常容易对抗这三种模式的。这就是下面要讨论的,让所有内容审核手段都很无语,让所有版权组织都哑口无言的数据分发手段,我把它命名为:contentless
> data transferring 去内容的数据传输
> 下面举1个非常简单容易理解例子说明我这个方法的思路
> 把一个电影文件的的所有字节,奇数位提取成一个单独文件 a.bin 放在rayfile,偶数位提取出 b.bin
> 放在rapidshare。这里的rayfile和

> rapidshare都是知名网盘。用户同时从rayfile和rapidshare下载,下载完毕之后合并文件得到完整原始电影。但是从rayfile和rapidshare的角度来看这两个文件都是未知的二进制流而没有任何意义的。这里只是划分成2块,我们还可以划分成4块、8块的。


> 就好比,我们说贩卖武器是非法的,但是贩卖可以用于制造武器的原料铁矿石,和冶炼、金工制造、组装技术是分别合法的。而且审查机制又不可能为了禁止武器而捣毁所有冶炼厂和金工厂。
> 为什么可以对抗上面提到的三种内容审核?我们逐个分析:
> 1.

> 除非是上传者终端和下载着终端,传输过程中的任意peer是不可能得到所有数据块的。即使得到所有数据块,要研究出如何组装还原也是相当麻烦复杂的。这里就需要对所有捕获到的数据包进行排列组合和矩阵变换验证匹配。大家可以想像一下这里的计算量是相当大的。更不要说,万一我对每一个数据包都有不同程度的加密和混淆


> 2.
> 这里空间提供商和永久存储服务提供商是免责的。因为保存在单个位置的数据是不完整也是不可知的。所以空间提供商不不可能提前扫描探测内容性质而作出预先屏蔽。所以最多就是事后删除文件。
> 3.
> 这里的分发所有保存位置和如何下载的帖子做到传统小众、隐蔽和低调即可。最重要的就是索引贴不要被google等搜索引擎爬虫了。而且文件上传起名也要模糊。

> 可能大家会问这个方法和传统文件分块有什么不同,其关键就在于,还是拿电影文件做例子,传统文件分割,假如电影版被分为上下两端,每一段修复文件头了之后,虽然是部分,但是仍然可以作为盗版的直接证据。因为审核手段最小单位是


> byte ,你的分割最小单位也是byte。但是如果分割的最小单位是 bit,那么审核就没有办法了。
> 普通文本数据关键字审核也是同理的。从 bit 开始分割就破坏了组成内容的基本原子单位,而把数据纯流量化了。
> 这里涉及到的算法叫 Information Dispersal Algorithms
> (IDA)。IDA最典型的用途就是硬盘组建raid5。最简单的IDA就是上面提到奇偶分块,复杂的IDA可以涉及到矩阵变换
> 总结下这个方法的好处:
> 1. 空间提供商和永久存储服务提供商是免责的,也是可以抵赖的。
> 2. 上传/下载/分发速度大大提高。上传下载都是并发的,分2快就最高可以提速2倍了。(除非带宽限制)
> 3. 数据可以做类似raid5那样的容错校验。例如上传到8个点,其中任意2个点的数据被删除,仍然可以还原得到完整文件。
> 后续开发:
> 1. 还是拿电影作为例子,还是假设我们把文件分成两块。其实我们下载得到的 a.bin 和 b.bin

> 没有必要在硬盘上合并再播放了,播放器应该直接提供这样的机制:同时从两个文件读取buffer然后playback。做到这一点也不难。播放效率和普通音视频文件也没有太大差别。如果两个文件保存位置不一样,例如一个在网上邻居一个在本地硬盘,那么播放速度还可以最多提高2倍。


> 2.
> 单文件,不用事先分割,而由程序直接上传直接得到多个下载点。和上面播放器的例子相反,从一个单一文件读取buffer,直接在内存里分离成多块然后上传到不同地点。
> 3. 安全的云存储。现在云计算最大的一个关心就是隐私问题。很多中小企业把商业文档都保存在Google
> Docs(国外),那么对于Google角度来说这个内容是完全掌握可以分析的。假如只需要在云里保存数据,而不是计算的话,我们完全可以把一份文档分割成3块,一块放Google,一块放Amazon
> S3,一块放Dropbox,因为三家空间提供商不是互通的,所以我的内容是绝对安全的。
> 其实这个思路的起源就是一个简单的思想:把内容和流量分离开来。流量是内容无关的。这也是contentless

> data transferring里contentless的精髓。现在互联网最严重的审查机制都是因为内容引起的,特别是早期互联网协议,都是明文的,谁都可以来拦截篡改一下。如果最后协议也做到去内容化,甚至连握手都去内容化,那么互联网就是不可审查的了。或者说审查的成本非常高,你需要强制手段接管所有接入互联网的国家,并且直接控制每一个互联网使用者。

est

unread,
Jan 8, 2010, 5:42:25 PM1/8/10
to pon...@googlegroups.com
找到一篇paper

Tangler: A Censorship-Resistant Publishing System Based On Document
Entanglements

http://www.scs.stanford.edu/~dm/home/papers/waldman:tangler-large.pdf

看来哲学上,censorship主要和publicity有关 :)

2010/1/9 est <electr...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages