python爬虫怎么获取伪元素(::after、::before)中的文本_Python 爬虫“学前班”！学会免踩坑...

weixin_39782500

3167人浏览 · 2020-12-04 11:41:44

weixin_39782500 · 2020-12-04 11:41:44 发布

作者 | 喵叔

责编 | 胡巍巍

出品 | CSDN(ID：CSDNnews)

爬虫应用的广泛，例如搜索引擎、采集数据、广告过滤、数据分析等。当我们对少数网站内容进行爬取时写多个爬虫还是有可能的，但是对于需要爬取多个网站内容的项目来说是不可能编写多个爬虫的，这个时候我们就需要智能爬虫。

智能爬虫目前有三种：

1. 基于网页内容的爬虫

当网页含有大量需要提取的信息时，我们就需要用到基于网页内容的爬虫。该爬虫会将 HTML 视为文本并利用 NLP 技术进行处理。

虽然说这种基于网页内容的爬虫可以减少爬虫的数量，但是需要人工参与进行训练 NLP 模型，没有 AI 开发经验或 AI 开发经验很少的程序员很难写出这类爬虫，并且爬虫爬取时间很长效率还很低。

2. 基于DOM结构的爬虫

基于DOM结构的爬虫相对来说比较简单，就是将 HTML 解析为 DOM 树，然后根据语法结构进行提取信息，这种方法效率和准确性都比前一种方法高。

3. 基于视觉的爬虫

基于视觉的爬虫的开发难度同样很高，它是通过浏览器接口或者浏览器内核对目标页面进行袁燃，然后基于网页的视觉规律提取网页数据。这种爬虫需要利用神经网络中的 CNN 卷积神经网络获取页面特定区域的内容。

目前比较常用的只能爬虫框架是 Readability 和 Newspaper 。下面我们就来看一下这两个框架的讲解。

Newspaper

Newspaper 是一个利用 NLP 的智能爬虫框架，可以从页面中提取出很多内容。安装这个爬虫框架需要首先安装依赖：

shell

sudo apt-get install libxml2-dev libxslt-dev

sudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev

在上述安装中如果出现 libpng12-dev 出现错误，就需要安装 libpng-dev 。

接下来就需要安装 NLP 语料库：

shell

curl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | python3

最后我们安装 Newspaper 爬虫框架：

shell

pip install newspaper3k

下面我们就通过一个例子来看一下 newspaper 框架怎么使用：

python

from newspaper import Article

url = 'https://www.ithome.com/0/445/071.htm'

article = Article(url, language='zh')

article.download

article.parse

print('作者', article.authors)

print('标题', article.title)

print('发布日期', article.publish_date)

print('正文', article.text)

article.nlp

print('关键词', article.keywords)

print('摘要', article.summary)

上述代码中 language='zh' 告诉 newspaper 我们抓取的是中文网页。newspaper 会首先下载页面，然后利用 parse 方法解析页面。页面解析后就可以获取到作者、标题、发布日期等内容，如果要提取关键字和摘要，就可以使用 nlp 方法。

我利用多个不同网站的 URL 进行测试发现，部分内容的作者和发布日期会解析不出来，有些内容甚至获取的不正确，但是对于英文内容还是识别率很高的。如果要提高对中文的识别率，可以更换 newspaper 中的使用的分词库(目前 newspaper 使用的分词库是结巴分词)，或者改变所使用的内容识别模型。

Readability

Readability 是一个爬虫算法，它在 python 中的名称叫 readability-lxml 同样我们也可以通过 pip 命令来安装：

shell

pip install readability-lxml

安装完之后我们只需导入 readability 即可，我们来看一下例子：

python

import requests

from readability import Document

url = "https://www.ithome.com/0/444/503.htm"

html = requests.get(url).content

doc = Document(html)

print("title:

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

AI 量化实战：布林带均值回归策略，回测收益 17.26%

量化交易与投资社区

AI 量化交易：量价突破策略完整实现与优化（附回测）

摘要：本文介绍了一种基于量价分析的突破交易策略，该策略通过价格突破关键位配合成交量放大来识别趋势信号。策略核心包括：收盘价突破20日高点且成交量达到5日均量1.5倍时买入，跌破10日均线时卖出。通过量化回测显示，该策略在上海电力股票上两年获得53.94%收益。进一步优化加入3%止损后收益提升至56.92%，AI建议增加趋势过滤器和突破确认条件后收益继续提升。文章指出该策略在趋势行情中表现良好，但需

量化交易与投资社区

Deepseek 和豆包，哪个做量化策略更好？

本文对比测试了DeepSeek和豆包两款AI在量化交易策略开发中的表现。通过双均线策略和量价突破策略两个案例，在相同文档和提示词条件下进行测试。结果显示：DeepSeek能严格遵守规范文档要求，策略逻辑准确，格式规范，复杂策略也能成功回测；豆包在简单策略上表现尚可，但格式不规范，面对复杂策略时会产生文档中不存在的指标导致回测失败。测试表明，在量化策略开发这种需要严格遵循技术规范的场景下，DeepS