網站首頁 編程語言 正文
下載中間件
在每一個scrapy工程中都有一個名為 middlewares.py 的文件,這個就是中間件文件
其中下載中間件的類為 XxxDownloaderMiddleware
其中有這么幾個方法
def process_request(self, request, spider): return None
def process_response(self, request, response, spider): return response
def process_exception(self, request, exception, spider): pass
process_request
這個方法是用來攔截請求的,我們可以將UA偽裝寫在這個方法中。
UA池這個屬性需要自己編寫
def process_request(self, request, spider): # UA偽裝,從UA池隨機一個 request.headers['User-Agent'] = random.choice(self.user_agent_list) return None
process_response
這個方法是用來攔截響應的,我們可以在這里篡改響應數據。
如果我們將selenium和scrapy結合就可以請求那些動態加載的數據了。
def process_response(self, request, response, spider): # 瀏覽器對象 bro = spider.bro # 參數spider是爬蟲對象 # 挑選出指定響應對象進行篡改url->request->response bro.get(request.url) page_text = bro.page_source # 包含了動態加載的數據 # 針對定位到的response篡改 # 實例化新的響應對象(包含動態加載的數據) response = HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request) return response
在爬蟲文件中需要預先創建selenium的瀏覽器對象
import scrapy from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver import ChromeOptions class XxxSpider(scrapy.Spider): name = 'xxx' # allowed_domains = ['www.xxx.com'] start_urls = ['……'] def __init__(self): service = Service('/Users/soutsukyou/PyCharm_Workspace/網絡爬蟲/study_selenium/chromedriver') chrome_options = ChromeOptions() # 規避檢測 chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) # 實例化瀏覽器 self.bro = webdriver.Chrome(service=service, options=chrome_options)
process_exception
這是用來攔截發生異常的請求對象,一般我們可以在這里寫代理ip。
兩個代理ip池屬性需要自己編寫
def process_exception(self, request, exception, spider): # 可以設置代理ip if request.url.split(':')[0] == 'http': request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http) if request.url.split(':')[0] == 'https': request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https) # 重新請求發送 return request
其它
我們需要在settings.py中開啟下載中間件才能使其生效
# Enable or disable downloader middlewares # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { 'xxx.middlewares.XxxDownloaderMiddleware': 543, }
原文鏈接:https://www.cnblogs.com/S2Jgogo/p/16052157.html
相關推薦
- 2022-04-20 C語言數據結構與算法之時間空間復雜度入門_C 語言
- 2021-12-10 時間戳處理的幾種方式
- 2022-12-05 C語言實現順序表的基本操作的示例詳解_C 語言
- 2022-12-24 C++中的函數返回值與拷貝用法_C 語言
- 2022-11-17 Go語言學習教程之goroutine和通道的示例詳解_Golang
- 2022-09-20 Python?flask使用ajax上傳文件的示例代碼_python
- 2022-03-19 詳解C語言結構體的定義和使用_C 語言
- 2023-07-06 golang文件路徑判定是否存在以及創建路徑創建文件
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支