爬虫小白入门-3

爬虫

qq^^614136809

509人浏览 · 2023-01-31 10:05:56

qq^^614136809 · 2023-01-31 10:05:56 发布

我的运行环境如下：

系统版本
Windows10。

Python版本
Python3.5，推荐使用Anaconda 这个科学计算版本，主要是因为它自带一个包管理工具，可以解决有些包安装错误的问题。去Anaconda官网，选择Python3.5版本，然后下载安装。
一、模块安装
BeautifulSoup 有多个版本，我们使用BeautifulSoup4。详细使用看BeautifuSoup4官方文档。
使用管理员权限打开cmd命令窗口，在窗口中输入下面的命令即可安装：
conda install beautifulsoup4
直接使用Python3.5 没有使用Anaconda版本的童鞋使用下面命令安装：
pip install beautifulsoup4

然后我们安装lxml，这是一个解析器，BeautifulSoup可以使用它来解析HTML，然后提取内容。

Anaconda 使用下面命令安装lxml：
conda install lxml
使用Python3.5 的童鞋们直接使用pip安装会报错（所以才推荐使用Anaconda版本），安装教程看这里。

如果不安装lxml，则BeautifulSoup会使用Python内置的解析器对文档进行解析。之所以使用lxml，是因为它速度快。

文档解析器对照表如下：

解析器使用方法优势劣势
Python标准库 BeautifulSoup(markup,“html.parser”) 1. Python的内置标准库
2. 执行速度适
3. 中文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup,“lxml”) 1. 速度快
2. 文档容错能力强需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup,[“lxml-xml”])
BeautifulSoup(markup,“xml”) 1. 速度快
2. 唯一支持XML的解析器需要安装C语言库
html5lib BeautifulSoup(markup,“html5lib”) 1. 最好的容错性
2. 以浏览器的方式解析文档
3. 生成HTML5格式的文档速度慢，不依赖外部扩展
四、BeautifulSoup 库的使用
网上找到的几个官方文档：BeautifulSoup4.4.0中文官方文档，BeautifulSoup4.2.0中文官方文档。不同版本的用法差不多，几个常用的语法都一样。

首先来看BeautifulSoup的对象种类，在使用的过程中就会了解你获取到的东西接下来应该如何操作。

2.1 BeautifulSoup对象的类型
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象。所有对象可以归纳为4种类型: Tag , NavigableString , BeautifulSoup , Comment 。下面我们分别看看这四种类型都是什么东西。

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

python爬虫入门案例day05:Pexels

量化交易与投资社区

终极指南：如何避免RateLimitExceededException的Laravel API安全防护

在构建RESTful API时，避免RateLimitExceededException是每个开发者必须掌握的关键技能。Dingo API作为Laravel和Lumen框架的强大RESTful API包，提供了完整的速率限制机制来保护你的应用程序免受恶意请求和过量访问。本文将为你详细介绍如何配置和使用这些安全功能。## 🛡️ 什么是速率限制及其重要性速率限制是API安全的第一道防线，它能

量化交易与投资社区

终极指南：5步复现Spring Boot安全风险CVE-2016-1000027

Spring Boot安全风险CVE-2016-1000027是一个严重的Java反序列化问题，允许攻击者通过恶意序列化数据执行任意代码。本文将详细解析这一问题的原理、复现方法和修复方案。## 🔍 问题背景与原理剖析CVE-2016-1000027问题源于Spring Framework中的`HttpInvokerServiceExporter`和`RemoteInvocationSer