各位版友好 我是高科大的teddy,我正在用python撰寫一隻程式,並且以cc py為練習目標人,想爬蟲抓取他的follower以利後續的挖掘,可是這網站有做反爬蟲的處理,抓下來都是圖片,不知該怎麼辦?
網頁原始碼如下,想抓他的第一個人Fabien Cadet人名
……………………………………………………………………………………………………………………………..
<div id="column"> |
|
<div id="leftColumn"> |
|
<div id="followItems"> |
|
<table> |
|
<tr> |
|
<td> |
|
<div class="icon"> |
|
<a class="avatarPopup" title="Fabien Cadet" href="/profile/fabicxx" ><img alt="Fabien Cadet" src="https://resources.diigo.com/images/avatar/user/fabicxx_96.jpg"/></a><!--avatar--> |
|
</div> |
|
<div class="desc"><a href="/profile/fabicxx">Fabien Cadet</a></div> |
|
</td> |
…………………………………………………………………………………………………………………
我的程式碼是
…………………………………………………………………………………………………………………
import requests
import re
from BeautifulSoup import BeautifulSoup
import HTMLParser
user1 = 'U9824722'
res = requests.get("https://www.diigo.com/friends/follower/"+user1)
soup = BeautifulSoup(res.text.encode("utf=8"))
tid_table = soup.findAll('div',{'class':'column'})
for each2 in tid_table:
print(each2)
………………………………………………………………………………………….
結果執行後沒反應,請各位給些意見,幫幫我,謝謝。
--
這是 Google 網上論壇針對「python.tw」群組發送的訂閱通知郵件。
如要取消訂閱這個群組並停止接收來自這個群組的郵件,請傳送電子郵件到 pythontw+u...@googlegroups.com。
如要在這個群組張貼留言,請傳送電子郵件到 pyth...@googlegroups.com。
請前往以下網址造訪這個群組:http://groups.google.com/group/pythontw。
如需更多選項,請前往:https://groups.google.com/d/optout。
--
pip = register( )['proxy'] #proxy address
url = register( )['url']
timeout = self.timeout
if self.use_proxy:
proxy_handler = urllib2.ProxyHandler( { 'http': pip } )
opener = urllib2.build_opener( proxy_handler )
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
urllib2.install_opener( opener )
req = urllib2.Request( url )