ptt爬蟲出現"遠端主機已強制關閉一個現存的連線"

8,214 views
Skip to first unread message

J

unread,
Sep 3, 2015, 12:11:27 AM9/3/15
to python.tw
大家好,

我最近在寫ptt版的爬蟲,
可是當爬的頁數超過20頁以後,

他就會中斷, 並且出現以下錯誤,

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '遠端主機已強制關閉一個現存的連線。', None, 10054, None))

即使我加上time.sleep(1)延遲還是一樣,
我想請問一下這個會是什麼問題呢,
該怎麼解決比較合適?!

謝謝

CHEN POLO

unread,
Sep 3, 2015, 12:25:33 AM9/3/15
to pyth...@googlegroups.com
尋找免費proxy,然後掛proxy
不然你可以用tor

--
這是 Google 網上論壇針對「python.tw」群組發送的訂閱通知郵件。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 pythontw+u...@googlegroups.com
如要在這個群組張貼留言,請傳送電子郵件到 pyth...@googlegroups.com
請前往以下網址造訪這個群組:http://groups.google.com/group/pythontw
如需更多選項,請前往:https://groups.google.com/d/optout

He-chien Tsai

unread,
Sep 4, 2015, 10:34:48 AM9/4/15
to python.tw
講白話就是被人家踢掉, 因為一次爬20頁遠超過正常人閱讀速度
要是我的話會另外寫個程式, 每次快達標時程式就會連到家裡路由器的設定頁面, 關閉再重啟路由器對外網際網路的連線, IP就自動換掉拉
但還是不要這樣爬比較好

J於 2015年9月3日星期四 UTC+8下午12時11分27秒寫道:

J

unread,
Sep 4, 2015, 10:17:15 PM9/4/15
to python.tw
非常感謝兩位的回覆,
不過我比較沒有這塊經驗,
可以麻煩您講詳細一點應該怎麼設定嗎?!


謝謝

He-chien Tsai於 2015年9月4日星期五 UTC+8下午10時34分48秒寫道:

He-chien Tsai

unread,
Sep 9, 2015, 12:27:56 PM9/9/15
to python.tw
現在路由器的設定平台不都是一個網頁或網站?像我的路由器在192.168.1.1有一個能用瀏覽器開的設定頁面, 用爬網站的技巧去爬設定就好了

J於 2015年9月5日星期六 UTC+8上午10時17分15秒寫道:

游湘濃

unread,
Sep 9, 2015, 12:36:26 PM9/9/15
to pyth...@googlegroups.com
from time import sleep
在每個request後
sleep(5)

--
這是 Google 網上論壇針對「python.tw」群組發送的主題訂閱通知郵件。
如要取消訂閱這個主題,請前往 https://groups.google.com/d/topic/pythontw/_I1ls0MY8Zw/unsubscribe
如要取消訂閱這個群組和所有主題,請傳送電子郵件到 pythontw+u...@googlegroups.com

如要在這個群組張貼留言,請傳送電子郵件到 pyth...@googlegroups.com
請前往以下網址造訪這個群組:http://groups.google.com/group/pythontw
如需更多選項,請前往:https://groups.google.com/d/optout



--

游湘濃
行動電話:0937-114-088
物件網站:www.yu-house.com
電子郵件:ji...@yu-house.com
21世紀不動產仁愛光復店
台北市光復南路447號

游湘濃

unread,
Sep 9, 2015, 12:36:26 PM9/9/15
to python.tw
爬蟲最重要的就是只爬新的以及更新過後的文章
如果你重複爬當然會被firewall限制



J於 2015年9月3日星期四 UTC+8下午12時11分27秒寫道:

游湘濃

unread,
Sep 9, 2015, 12:36:27 PM9/9/15
to python.tw
哈囉 

歡迎你加入我們的爬蟲團隊
現在急需用headless browser的人才
以及呼叫API的人才


J於 2015年9月3日星期四 UTC+8下午12時11分27秒寫道:

He-chien Tsai

unread,
Sep 9, 2015, 11:11:31 PM9/9/15
to python.tw
順便講一下, tor爬網站不太好用, 因為tor出口節點老是被當成自動發大量請求的機器人鎖住

CHEN POLO於 2015年9月3日星期四 UTC+8下午12時25分33秒寫道:
Reply all
Reply to author
Forward
0 new messages