16Python爬虫---Scrapy小结
1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的4、爬虫的测试比较麻烦,所以在在 Scra...
·
1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。
2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。
3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的
4、爬虫的测试比较麻烦,所以在在 Scrap中使用合同( contract)的方式对爬虫进行测试。
5、通过 parse命令,我们可以实现获取指定的的URL网址,并使用对应的爬虫文件进行处理和分析。
6、使用 Scrap中的tem对象可以保存爬取到的数据,相当于存储爬取到的数据的容器
7、在 Scrap中,经常会使用 Xpath表达式进行数据的筛选和提取。
8、我们经常使用 Xmlfeedspider去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效、便捷。同样,RSS是基于XML标准的。
9、在 Scrap项目中,我们主要可以通过以下方法来避免被禁止:禁止 Cookie、设置下载延时、使用用P池、使用用户代理池或其他方法。
更多推荐


所有评论(0)