爬虫（8）—— 爬取动漫信息

网址：电影港爬取内容：爬取电影港网站中的动漫信息import requestsimport refrom bs4 import BeautifulSouphd = h = {'user-agent': 'Mozilla/5.0'}url = 'http://www.dygangs.com/dmq/'try:# 初始化def init(url, hd):r = requests.get(url, h

@我不认识你

914人浏览 · 2020-05-16 15:44:48

@我不认识你 · 2020-05-16 15:44:48 发布

网址：电影港
爬取内容：爬取电影港网站中的动漫信息

import requests
import re
from bs4 import BeautifulSoup

hd = h = {'user-agent': 'Mozilla/5.0'}
url = 'http://www.dygangs.com/dmq/'

try:
    # 初始化
    def init(url, hd):
        r = requests.get(url, headers=hd)
        r.raise_for_status
        r.encoding = r.apparent_encoding
        demo = r.text
        soup = BeautifulSoup(demo, 'html.parser')
        return soup

    # 获取动漫信息
    def getInfo(soup):
        table = soup.find_all('table')[5]
        list = table.find_all('a', {'class': 'classlinkclass'})  # 名称
        img = table.find_all('img')       # 图片链接
        for i in range(len(list)):
            print("动漫名称：", list[i].string)
            print("动漫封面：", img[i]['src'])
            print("播放页面：", list[i]['href'])
            print("-*-"*20)

    # 动漫的总页数
    soup = init(url, hd)
    page_num = int(int(soup.find('a', {'title': 'Total record'}).text)/10)

    # 用户输入
    num = (int(input("输入你要爬取那一页的信息：")))
    if num == 1:
        getInfo(soup)
    elif num > 1 and num <= page_num:
        p_url = url+"index_"+str(num)+".htm"
        p_soup = init(p_url, hd)
        getInfo(p_soup)
    else:
        print("输入的页码数不正确")

except:
    print("爬取失败")

在这里插入图片描述
爬取的第二页所在的网页

爬虫 —— 爬取网络小说，详细分析及代码
传送门

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

python爬虫入门案例day05:Pexels

量化交易与投资社区

终极指南：如何避免RateLimitExceededException的Laravel API安全防护

在构建RESTful API时，避免RateLimitExceededException是每个开发者必须掌握的关键技能。Dingo API作为Laravel和Lumen框架的强大RESTful API包，提供了完整的速率限制机制来保护你的应用程序免受恶意请求和过量访问。本文将为你详细介绍如何配置和使用这些安全功能。## 🛡️ 什么是速率限制及其重要性速率限制是API安全的第一道防线，它能

量化交易与投资社区

xxHash算法的学术研究：引用分析与相关改进论文综述

xxHash作为当前最快的非加密哈希算法，在学术界和工业界都引起了广泛关注。其极致的速度和优秀的质量特性使其成为哈希算法研究的重要对象。本文将深入分析xxHash在学术研究中的引用情况，并综述相关的改进论文和研究进展。## 📊 xxHash算法概述与技术特点xxHash是由Yann Collet开发的一种极速非加密哈希算法，主要包含三个版本：XXH32（32位哈希）、XXH64（64位哈