关于抓取豆瓣图书信息[紧急]

119 views
Skip to first unread message

madawei

unread,
Oct 8, 2012, 7:07:53 AM10/8/12
to qun...@googlegroups.com
由于豆瓣API现在处于测试阶段,我们可以直接通过URL来获取到电子书信息,所以我请求大家通过执行以下脚本来抓取豆瓣图书。谢谢!

在Linux里:
执行前请修改 for ((i=1000001;i<=9000000;i++))
我抓取遮盖范围的,其他人请回复自己的抓取范围,这样也不重复,请记住,这很重要,请大家积极参与!谢谢!
xxx:~$ sh catch_douban_ebook_new.sh > log.log &
catch_douban_ebook_new.sh

madawei

unread,
Oct 8, 2012, 7:36:29 AM10/8/12
to qun...@googlegroups.com
请各位不用使用这个脚本抓取了,我刚在本地发现抓取特别慢,这样不方便,我在我的服务器上把这个脚本做了10份,每份负责抓取100万条记录,10个进程同时开始抓取,这样可能会快点,总共成功的话可以抓取不到1000万本图书的信息与图片。谢谢各位!

在 2012年10月8日星期一UTC+8下午7时07分53秒,madawei写道:
Message has been deleted
Message has been deleted
Message has been deleted
Message has been deleted

sillyou su

unread,
Oct 9, 2012, 12:12:04 AM10/9/12
to qun...@googlegroups.com
领取第一区间中的[1200001-1300000]

在 2012年10月9日 上午11:15,书记的马甲 <b...@qq.com>写道:
领取第一区间中的[1100000-1200000] 

--
感谢您为群品,为简体中文电子书作出的每一分贡献!
---
您收到此邮件是因为您订阅了 Google 网上论坛的“群品「群英荟萃,品书真味」”论坛。
要向此网上论坛发帖,请发送电子邮件至 qun...@googlegroups.com
要取消订阅此网上论坛,请发送电子邮件至 qunpin+un...@googlegroups.com
通过以下网址访问此论坛:http://groups.google.com/group/qunpin?hl=zh-CN。
 
 



--
苏沛
Message has been deleted
Message has been deleted
Message has been deleted

书记的马甲

unread,
Oct 9, 2012, 10:27:57 AM10/9/12
to qun...@googlegroups.com
领取任务后请跟帖写明自己的抓取区间范围,以免重复抓取。
mysql用户名以及密码请自行在脚本中设定。然后修改脚本中的start_id和end_id为你领取的区间范围(范围是int的请不要加引号之类的将其转换为字符串),程序会自动生成一个douban_book的数据库,里面会生成一张book_XXX_YYY表(XXX为起始id,YYY为结束id),表里面有一个int的id字段,一个text的json字段,如果中途出现错误或者中途你要关闭电脑,也没事,下次打开电脑不用改任何代码,程序会自动从上次关掉的地方开始抓取。

运行脚本:python main.py就可以了,开了6个线程,你可以视情况增加或者减少。
抓完了可以再到这个页面领取抓取任务,并写好自己的抓取区间。

现在的区间范围是(分成9个区间):
1100000-1999999
2100000-2999999
3100000-3999999
4100000-4999999
5100000-5999999
6100000-6999999
7100000-7999999
8100000-8999999
9100000-9999999
请每次领取10万个数据。
如我现在领取1100000-1999999区间中的10万个即区间[1100000-1200000],那么下一个同学如果也领取这个区间,他的范围应该是[1200001-1300000],再下一个是[1300001-1400000],依此类推,……,直到[1900001-1999999]那么第一区间就抓取完了,下面的同学开始从第二区间[2100001-2999999]开始[2100001-2200000],直到最后。
请注意,总共分了9个区间,在上一个区间还没有抓取完成时,请不要抓取下一个区间,以免乱套,谢谢合作,以下是跟帖范文:
领取第一区间中的[1100001-1200000]
douban_book.py

书记的马甲

unread,
Oct 9, 2012, 10:30:49 AM10/9/12
to qun...@googlegroups.com
领取第一区间中的[1100001-1200000]  [1200001-1300000]  

书记的马甲

unread,
Oct 9, 2012, 8:41:39 PM10/9/12
to qun...@googlegroups.com
领取第一区间中的[1300001-1400000] 

书记的马甲

unread,
Oct 9, 2012, 8:45:42 PM10/9/12
to qun...@googlegroups.com
领取第一区间中的[1400001-1500000] 

书记的马甲

unread,
Oct 10, 2012, 3:22:46 AM10/10/12
to qun...@googlegroups.com
领取第一区间中的[1500001-1600000] 

madawei

unread,
Oct 10, 2012, 9:01:15 PM10/10/12
to qun...@googlegroups.com
领取第2-9区间的第20-30万(共80万ID)。

在 2012年10月10日星期三UTC+8下午3时22分46秒,书记的马甲写道:
领取第一区间中的[1500001-1600000] 

书记的马甲

unread,
Oct 11, 2012, 9:23:55 AM10/11/12
to qun...@googlegroups.com
领取第一区间中的[1600001-1700000] 

书记的马甲

unread,
Oct 11, 2012, 11:24:29 AM10/11/12
to qun...@googlegroups.com
领取第一区间中的[1700001-1800000] 

madaw...@gmail.com

unread,
Oct 11, 2012, 8:15:14 PM10/11/12
to qun...@googlegroups.com
领取第2-9区间的第30万-40万ID。

发件人:"书记的马甲"<b...@qq.com>
发送时间:2012-10-11 23:24
主题:Re: 关于抓取豆瓣图书信息[紧急]
收件人:<qun...@googlegroups.com>

领取第一区间中的[1700001-1800000]
--
感谢...

--From NetEase PushMail--

书记的马甲

unread,
Oct 12, 2012, 10:08:47 AM10/12/12
to qun...@googlegroups.com
领取第一区间中的[1800001-1900000] 

madawei

unread,
Oct 12, 2012, 10:43:14 PM10/12/12
to qun...@googlegroups.com
领取第2-9区间的第40-60万ID。共160万ID。

在 2012年10月12日星期五UTC+8下午10时08分48秒,书记的马甲写道:
领取第一区间中的[1800001-1900000] 

马甲书记

unread,
Oct 13, 2012, 8:31:55 AM10/13/12
to 群品「群英荟萃,品书真味」
领取第一区间中的[1900001-1999999] ,第一区间已经领取完毕
Reply all
Reply to author
Forward
0 new messages