網(wǎng)站首頁 編程語言 正文
有時候需要根據(jù)項目的實際需求向spider傳遞參數(shù)來控制spider的運行方式。
比如說,1.根據(jù)用戶提交的url來控制spider爬取的網(wǎng)站。2.根據(jù)需求增量爬取數(shù)據(jù)。
今天就寫一個增量(augmenter)的方式:
Spider參數(shù)通過?crawl?命令的 -a 選項來傳遞,比如:
scrapy crawl xxx -a augmenter=xxxxxx
注:augmenter=不為空
1.首先在spider里添加
注:在網(wǎng)上也看了不少的博客,最后發(fā)現(xiàn)*args, **kwargs這兩個必須加上,要不然會出現(xiàn)bug,不信的話可以試試哦!
如果想減少代碼量的話,可以寫到類里面去繼承!那這樣的話,spider里面就不要在寫了!!!要不然就不起作用了!!!
還有
super(eval(self.__class__.__name__), self).__init__(*args, **kwargs)
這里的eval()獲取的是類名,這樣寫必須是最后一個是你要的類名,中間有繼承什么的,就會出錯!或者直接把類名粘過來!
2.spider實現(xiàn)方式:
這樣就實現(xiàn)了簡單的增量!增量的方式有很多,常見的:時間、計數(shù)、爬取特定的幾頁!
選擇自己需要的增量方式寫在這個parse_augmenter()里面,
這樣需要從頭開始run和增量run就不受影響!
原文鏈接:https://blog.csdn.net/qq_24760381/article/details/80361400
相關推薦
- 2022-09-22 ansible-playbook 可用參數(shù)
- 2023-03-20 解讀C#中ReadString的一些小疑惑_C#教程
- 2022-09-02 selenium動態(tài)數(shù)據(jù)獲取的方法實現(xiàn)_python
- 2022-03-08 C語言設計前中后隊列實例代碼_C 語言
- 2022-11-09 PostgreSQL?HOT與PHOT有哪些區(qū)別_PostgreSQL
- 2023-10-09 element-ui,tree樹形控件,通過接口返回數(shù)據(jù)判斷是否繼續(xù)拿子節(jié)點
- 2022-12-07 C++?基本數(shù)據(jù)類型中int、long等整數(shù)類型取值范圍及原理分析_C 語言
- 2022-09-29 python繪制直方圖的方法_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細win安裝深度學習環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結構-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支