这里有人在镜像verycd全站吗?

464 views
Skip to first unread message

TanCee

unread,
Dec 11, 2009, 12:35:07 AM12/11/09
to fa...@googlegroups.com

狗尾草

unread,
Dec 11, 2009, 12:57:51 AM12/11/09
to fa...@googlegroups.com
从电驴上下了个。
ed2k://|file|verycd.zip|72010046|33DC293268E2BA4EE878BAA7D198C1EB|h=36NAU53CIBDZTOA2LXLZYC7IW7N25XZX|/
不是最新版。
-------------------------------------------------------
Hunk
http://twitter.com/hunkguo



2009/12/11 TanCee <tan...@tancee.com>

TanCee

unread,
Dec 11, 2009, 1:32:43 AM12/11/09
to fa...@googlegroups.com
这个下过,就几个页面~

全站(不包括图片,纯文字)估计得几百GB
就是光把 标题和ed2k地址采集下来最少也得3GB

2009/12/11 狗尾草 <guo...@gmail.com>:

wzyboy

unread,
Dec 11, 2009, 2:01:33 AM12/11/09
to fa...@googlegroups.com
我对网站大小没概念…不过我知道中文维基百科的文字版大概7G左右,用7-Zip压缩的


--
-----
wzyboy
Blog: http://wzyboy.tk (Blogger)
Twitter: @wzyboy
GV: 1(734)931-0***

四野

unread,
Dec 11, 2009, 3:07:07 AM12/11/09
to fa...@googlegroups.com
你在说笑话???
我看中文维基百科 一个完整的中文数据库不过400m  verycd会纯文字就3g?
--------------------------------------------------------------------------------------------------------------------------------
很少唠叨 | http://twitter.com/siyet | 常看电影 | http://www.douban.com/movie/list/ttist/collect
--------------------------------------------------------------------------------------------------------------------------------
  


2009/12/11 TanCee <tan...@tancee.com>

TanCee

unread,
Dec 11, 2009, 3:12:12 AM12/11/09
to fa...@googlegroups.com
维基百科中文版的词条数目是286,136 十万级别
verycd资源页是百万级别的~

2009/12/11 四野 <siy...@gmail.com>:

TanCee

unread,
Dec 11, 2009, 3:14:32 AM12/11/09
to fa...@googlegroups.com
另外 verycd页面复杂,代码多
单篇资源介绍总体上也比维基百科单个词条文字多。

2009/12/11 TanCee <tan...@tancee.com>:

藏乐

unread,
Dec 11, 2009, 3:15:14 AM12/11/09
to fa...@googlegroups.com
条目数不等于页面数

2009/12/11 TanCee <tan...@tancee.com>

TanCee

unread,
Dec 11, 2009, 3:18:59 AM12/11/09
to fa...@googlegroups.com
http://zh.wikipedia.org/zh-cn/Special:%E7%BB%9F%E8%AE%A1%E4%BF%A1%E6%81%AF
内容页面 286,139
页面
(在wiki上的所有页面,包括对话页面、重新定向等) 917,233
已经上传的文件 27,785

比较的是所需要采集的页面,维基的内容页面,verycd的资源页面

verycd评论还有分页,这个不大会去不采集
维基百科也有分页,这个也不大会去采集

2009/12/11 藏乐 <yanq...@gmail.com>:

Y.H Xue

unread,
Dec 11, 2009, 4:09:49 AM12/11/09
to fa...@googlegroups.com


2009/12/11 TanCee <tan...@tancee.com>
也想镜像一个VC,大家都用什么工具啊? 

雪深

unread,
Dec 11, 2009, 9:42:36 AM12/11/09
to fa...@googlegroups.com
不会超过 1g吧

就几百万的链接吧 算500万链接地址吧 呵呵

每个算地址有150个字符 这样算对不http://www.google.cn/search?hl=zh-CN&rlz=1R2GGLL_zh-CNCN349&newwindow=1&q=5000000*150%2F1024%2F1024&aq=f&oq=

不到1gb

在 09-12-11,Y.H Xue<happy...@gmail.com> 写道:


--
雪深
欢迎光临我的博客
http://xueshen.net
中秋节祝福短信:http://2009zhongqiujie.xueshen.net/

alex.vu

unread,
Dec 11, 2009, 9:46:28 AM12/11/09
to fa...@googlegroups.com
大家感觉到了吗,verycd恢复之后速度比之前慢了好多。

2009/12/11 雪深 <ad...@xueshen.net>

Shakie Stone

unread,
Dec 11, 2009, 11:42:06 AM12/11/09
to fa...@googlegroups.com
是的,慢地不是一点半点

在 09-12-11,alex.vu<ffuq...@gmail.com> 写道:

--
从我的移动设备发送

夜の猫さま

unread,
Dec 11, 2009, 11:44:28 AM12/11/09
to fa...@googlegroups.com
应该是还有一部分服务器没有恢复。。。

==== 近道あればそれが王道。 ====
〖猫宅〗: http://www.newchen.com
===========================



2009/12/11 alex.vu <ffuq...@gmail.com>

livelazily

unread,
Dec 11, 2009, 9:25:43 PM12/11/09
to fa...@googlegroups.com
看Cnbeta说是太多人在做镜像备份VeryCD了,服务器有点受不了才慢的...

2009/12/12 夜の猫さま <boy...@gmail.com>:

David Daemon

unread,
Dec 11, 2009, 9:30:59 PM12/11/09
to fa...@googlegroups.com
cnBeta从哪里来的消息?有些消息不一定准确

2009/12/12 livelazily <livel...@gmail.com>

TanCee

unread,
Dec 12, 2009, 1:15:45 AM12/12/09
to fa...@googlegroups.com
ed2k地址比http长,且中文不少~
而且一个资源一般有2个以上ed2k地址
有的资源都上百个ed2k地址
还有标题呢,最少也得采集个标题,当然分类也得采集。

2009/12/11 雪深 <ad...@xueshen.net>:

alex.vu

unread,
Dec 12, 2009, 1:30:00 AM12/12/09
to fa...@googlegroups.com
按照verycd自己首页的统计一共是16w多个页面,如果包括图片和js等全部下载的话平均每个页面大概是1.5m左右算下来就是  (161 147 * 1.5) / 1 024 = 236.055176g;如果只下载html页面的话每个页面平均大概是100k算下来就是  ((161 147 * 100) / 1 024) / 1 024 = 15.3681755g。这还不包括论坛里面没有加精不在首页显示的资源。

2009/12/12 TanCee <tan...@tancee.com>

TanCee

unread,
Dec 12, 2009, 1:49:07 AM12/12/09
to fa...@googlegroups.com
http://www.verycd.com/topics/2786367/
单html就367 KB了 编码:UTF-8

摸奶摸屄

2009/12/12 alex.vu <ffuq...@gmail.com>:

alex.vu

unread,
Dec 12, 2009, 2:15:09 AM12/12/09
to fa...@googlegroups.com
只是粗略的算一下啦,不保证准确的。 O(∩_∩)O哈哈~  html的话两位数g级别应该完全够了。如果哪天真的verycd彻底完了,叫dash老大把整个服务器打包放到emule上。比现在大家备份造成verycd服务器拥堵好的多。

2009/12/12 TanCee <tan...@tancee.com>

狗尾草

unread,
Dec 12, 2009, 5:03:07 AM12/12/09
to fa...@googlegroups.com
推特上dash大大发推提到过这事。
-------------------------------------------------------
Hunk
http://twitter.com/hunkguo



2009/12/12 David Daemon <ifn...@gmail.com>
Reply all
Reply to author
Forward
0 new messages