網站首頁 編程語言 正文
一)安裝scrapy:
1、打開cmd命令窗口,輸入:pip install Scrapy。
2、安裝成功之后會顯示下面字符,表示未將scrapy設置到環境變量。
3、配置環境變量:右鍵我的電腦-->屬性-->高級設置--->環境變量---->系統變量中的Path--->編輯--->添加--->將上文中黃色的路徑添加到環境變量即可。
4、scrapy安裝完畢。
二)創建一個scrapy爬蟲項目:
1、創建一個普通的Pycharm項目,然后找到下面的terminal
?2、輸入命令scrapy startproject 模塊名稱(可以自己隨便起,我以名為mine為例),成功之后你會發現自己的項目中多了一個mine的包文件。
?3、上述操作成功后終端會顯示下圖文字:此時我們輸入cd那條命令。進入目標文件。
?4、這時就可以創建爬蟲目標文件啦,
????????輸入scrapy genspider 爬取名 網站域名
1、爬取名是自己隨便起的,比如我要爬百度那么我就可以起名為baidu
2、網站域名就是去掉? https:www.? 剩下的部分,以博客園的為例:
網址為:https://www.cnblogs.com/
域名為?cnblogs.com
?2和3操作截圖:?
5、此時我們會在目錄里看見一個新的py文件:里自動生成如下代碼:
三)開啟pycharm對scrapy框架的調試功能:
由于pycharm沒有創建scrapy框架的模塊,所以我們想調試scrapy程序時要自己寫一個小腳本來開啟pycharm對scrapy的調試功能。
?1、在與mine包同級條件下創建一個main.py文件:
?2、mine文件將一下代碼賦值進去:
import os
import sys
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "cnblog"]) # 第三個參數為自己創建的那個爬取的名稱
?這樣就大功告成啦!
總結
原文鏈接:https://blog.csdn.net/weixin_60414376/article/details/124023917
相關推薦
- 2022-08-14 Selenium定位瀏覽器彈窗方法實例總結_python
- 2022-10-24 Android?Flutter實現上拉加載組件的示例代碼_Android
- 2021-12-05 密碼學之apache部署https介紹_Linux
- 2023-04-24 numpy?產生隨機數的幾種方法_python
- 2022-04-19 C語言庫函數qsort及bsearch快速排序算法使用解析_C 語言
- 2022-05-11 spring cloud alibaba nacos搭建最小可運行微服務
- 2022-05-12 正則判斷只能輸入大于0的正整數
- 2022-10-31 .Net中的Http請求調用詳解(Post與Get)_實用技巧
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支