中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

Python:常見反爬策略及應(yīng)對方案匯總

2019常見反爬策略及應(yīng)對方案大匯總了。如果你對反爬蟲的策略和手段還掌握的不很全面,進(jìn)來學(xué)就對了!一切都是剛剛好,一切都不晚!

創(chuàng)新互聯(lián)于2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都網(wǎng)站制作、網(wǎng)站設(shè)計(jì)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢想脫穎而出為使命,1280元陜州做網(wǎng)站,已為上家服務(wù),為陜州各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:028-86922220

Python:常見反爬策略及應(yīng)對方案匯總

1 . 構(gòu)造合理的HTTP請求頭。

  • Accept
  • User-Agent - 三方庫fake-useragent
from fake_useragent import UserAgent
ua = UserAgent()
ua.ie
# Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US);
ua.msie
# Mozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; Trident/6.0)'
ua['Internet Explorer']
# Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; GTB7.4; InfoPath.2; SV1; .NET CLR 3.3.69573; WOW64; en-US)
ua.opera
# Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11
ua.chrome
# Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2'
ua.google
# Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1290.1 Safari/537.13
ua['google chrome']
# Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11
ua.firefox
# Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0.1) Gecko/20121011 Firefox/16.0.1
ua.ff
# Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1
ua.safari
# Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5355d Safari/8536.25
# and the best one, random via real world browser usage statistic
ua.random
  • Referer
  • Accept-Encoding
  • Accept-Language

2 . 檢查網(wǎng)站生成的Cookie。

  • 有用的插件:EditThisCookie
  • 如何處理腳本動(dòng)態(tài)生成的Cookie

3 . 抓取動(dòng)態(tài)內(nèi)容。

  • Selenium + WebDriver
  • Chrome / Firefox - Driver

4 . 限制爬取的速度。

5 . 處理表單中的隱藏域。

  • 在讀取到隱藏域之前不要提交表單
  • 用RoboBrowser這樣的工具輔助提交表單

6 . 處理表單中的驗(yàn)證碼。

  • OCR(Tesseract) - 商業(yè)項(xiàng)目一般不考慮
  • 專業(yè)識別平臺 - 超級鷹 / 云打碼
from hashlib import md5
class ChaoClient(object):
 def __init__(self, username, password, soft_id):
 self.username = username
 password = password.encode('utf-8')
 self.password = md5(password).hexdigest()
 self.soft_id = soft_id
 self.base_params = {
 'user': self.username,
 'pass2': self.password,
 'softid': self.soft_id,
 }
 self.headers = {
 'Connection': 'Keep-Alive',
 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
 }
 def post_pic(self, im, codetype):
 params = {
 'codetype': codetype,
 }
 params.update(self.base_params)
 files = {'userfile': ('captcha.jpg', im)}
 r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
 return r.json()
if __name__ == '__main__':
 client = ChaoClient('用戶名', '密碼', '軟件ID')
 with open('captcha.jpg', 'rb') as file: 
 print(client.post_pic(file, 1902))

7 . 繞開“陷阱”。

  • 網(wǎng)頁上有誘使爬蟲爬取的爬取的隱藏鏈接(陷阱或蜜罐)
  • 通過Selenium+WebDriver+Chrome判斷鏈接是否可見或在可視區(qū)域

8 . 隱藏身份。

  • 代理服務(wù) - 快代理 / 訊代理 / 芝麻代理 / 蘑菇代理 / 云代理
  • 洋蔥路由 - 國內(nèi)需要 fan qiang才能使用
yum -y install tor
useradd admin -d /home/admin
passwd admin
chown -R admin:admin /home/admin
chown -R admin:admin /var/run/tor
tor

本文名稱:Python:常見反爬策略及應(yīng)對方案匯總
URL地址:http://m.rwnh.cn/article20/pdidjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、響應(yīng)式網(wǎng)站、標(biāo)簽優(yōu)化網(wǎng)站設(shè)計(jì)、電子商務(wù)網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計(jì)
长寿区| 吴堡县| 巴南区| 中阳县| 常熟市| 沂源县| 虞城县| 江达县| 安宁市| 绥化市| 吴堡县| 太湖县| 哈巴河县| 六枝特区| 南昌县| 白山市| 临西县| 松阳县| 叙永县| 景东| 远安县| 平南县| 扎兰屯市| 长沙市| 武汉市| 天峻县| 阳江市| 凤翔县| 浙江省| 青冈县| 江北区| 湟源县| 裕民县| 伊金霍洛旗| 太湖县| 墨竹工卡县| 元江| 桂平市| 衡南县| 德钦县| 玉屏|