自然基金项目爬虫测试（已失效）

一年前写的小爬虫，用的自动化测试。还是可以自动登录，但网站现在好像不向普通用户提供查询服务了。写了一次不容易，代码还是保存在这里。#coding='utf-8'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by i

灵海之森

804人浏览 · 2022-01-01 21:11:59

灵海之森 · 2022-01-01 21:11:59 发布

一年前写的小爬虫，用的自动化测试。还是可以自动登录，但网站现在好像不向普通用户提供查询服务了。
写了一次不容易，代码还是保存在这里。

#coding='utf-8'
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support.select import Select
from selenium.webdriver.common.alert import Alert
from selenium.webdriver.common.action_chains import ActionChains
import time as t
import re
from bs4 import BeautifulSoup
import xlrd
import xlwt
import os
import random
#先进入科学基金网
driver = webdriver.Firefox()
driver.maximize_window()
driver.get('http://fund.sciencenet.cn/')


def analyse_most(html):
    """进行网页解析"""
    soup = BeautifulSoup(html,'html.parser')    #解析器：html.parser
    #items=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item')#一页的项目
    #print(items)
    titles=[]
    authors=[]
    inses=[]
    sorts=[]
    nums=[]
    years=[]
    mons=[]
    keys=[]
    #使用路径
    title=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item p.t a')#项目名
    author=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item div.d p.ico span.author i')#负责人
    #使用选择器
    ins=[]
    sort=[]
    num=[]
    year=[]
    mon=[]
    key=[]
    for i in range(1,11):
        ins_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > span:nth-child(2) > i:nth-child(1)')#机构
        sort_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > i:nth-child(3)')#类型
        num_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > b:nth-child(4)')#批准号
        year_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > span:nth-child(5) > b:nth-child(1)')#立项年份
        mon_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(2) > span:nth-child(1) > b:nth-child(1)')#资助金额
        key_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(2) > span:nth-child(2) > i:nth-child(1)')#关键词
        ins.append(ins_1)
        sort.append(sort_1)
        num.append(num_1)
        year.append(year_1)
        mon.append(mon_1)
        key.append(key_1)
    clear(title,titles)
    clear(author,authors)
    clear_l(ins,inses)
    clear_l(sort,sorts)
    clear_l(num,nums)
    clear_l(year,years)
    clear_l(mon,mons)
    clear_l(key,keys)

    page=[]#本页的所有信息
    for i in range(len(titles)):
        page.append(titles[i:i+1]+authors[i:i+1]+inses[i:i+1]+sorts[i:i+1]+nums[i:i+1]+years[i:i+1]+mons[i:i+1]+keys[i:i+1])
    return page
def analyse_end(html):
    """进行最后一页的网页解析"""
    soup = BeautifulSoup(html,'html.parser')    #解析器：html.parser
    #items=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item')#一页的项目
    #print(items)
    titles=[]
    authors=[]
    inses=[]
    sorts=[]
    nums=[]
    years=[]
    mons=[]
    keys=[]
    #使用路径
    title=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item p.t a')#项目名
    author=soup.select('html body div.hom div#wrapper_body div#main.wp div#mainCt div#resultLst.resultLst div.item div.d p.ico span.author i')#负责人
    #使用选择器
    ins=[]
    sort=[]
    num=[]
    year=[]
    mon=[]
    key=[]
    for i in range(1,3):
        ins_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > span:nth-child(2) > i:nth-child(1)')#机构
        sort_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > i:nth-child(3)')#类型
        num_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > b:nth-child(4)')#批准号
        year_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(1) > span:nth-child(5) > b:nth-child(1)')#立项年份
        mon_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(2) > span:nth-child(1) > b:nth-child(1)')#资助金额
        key_1=soup.select('div.item:nth-child('+str(i)+') > div:nth-child(2) > p:nth-child(2) > span:nth-child(2) > i:nth-child(1)')#关键词
        ins.append(ins_1)
        sort.append(sort_1)
        num.append(num_1)
        year.append(year_1)
        mon.append(mon_1)
        key.append(key_1)
    clear(title,titles)
    clear(author,authors)
    clear_l(ins,inses)
    clear_l(sort,sorts)
    clear_l(num,nums)
    clear_l(year,years)
    clear_l(mon,mons)
    clear_l(key,keys)

    page=[]#本页的所有信息
    for i in range(len(titles)):
        page.append(titles[i:i+1]+authors[i:i+1]+inses[i:i+1]+sorts[i:i+1]+nums[i:i+1]+years[i:i+1]+mons[i:i+1]+keys[i:i+1])
    return page
def get_one():
    """返回搜索第一页源码"""
    u_1='15691604654'
    k_1='9g8496suDFwqRfg'
    u_2='15881650047'
    k_2='zqlwx123'
    
    driver.find_element_by_xpath('/html/body/div[2]/div[1]/div/div[2]/a').click()#随便点击以转到登录页
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div/form/div/div[1]/input').send_keys(u_1)#键入用户名
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div/form/div/div[2]/input').send_keys(k_1)#键入密码
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div/form/div/div[4]/button').click()#进入
    t.sleep(2)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[1]/div[2]/div[2]/span[2]/span[1]/span/span[1]').click()#直接点击
    t.sleep(2)
    driver.find_element_by_xpath('/html/body/dialog/bd/div[1]/div[1]/ul/li[8]').click()#选中管理科学部
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/dialog/bd/div[1]/div[1]/div/ul/li[2]/label').click()#选中工商管理
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/dialog/bd/div[1]/div[1]/div/div/ul/li[6]/label').click()#选中会计
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/dialog/bd/div[2]/button').click()#确定
    t.sleep(3)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[1]/div[1]/div[3]/select[1]').click()#点击起始年份
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[1]/div[1]/div[3]/select[1]/option[24]').click()#选中2000年
    t.sleep(3)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[1]/div[1]/div[3]/select[2]')#点击截止年份
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[1]/div[1]/div[3]/select[2]/option[4]').click()#选中2020年
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[2]/div[4]/div/div[1]/div/div[2]/div[1]/form/div[2]/button').click()#点击搜索
    #成功进入搜索结果页面
    html= driver.page_source#页面源码
    return html
def get_one_mian():
    #面上项目
    get_one()#搜索首页
    driver.find_element_by_xpath('//*[@id="category"]').click()#进入类型
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="面上项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[2]/button').click()#点击筛选
    html=driver.page_source
    return html
def get_one_qing():
    #青年科学基金项目，共24页
    get_one()#搜索首页
    driver.find_element_by_xpath('//*[@id="category"]').click()#进入类型
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="青年科学基金项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[2]/button').click()#点击筛选
    html=driver.page_source
    return html
def get_one_others():
    #杂项，共9页
    get_one()#搜索首页
    driver.find_element_by_xpath('//*[@id="category"]').click()#进入类型
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="地区科学基金项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="专项基金项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="国际(地区)合作与交流项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="重点项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="应急管理项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="优秀青年科学基金项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="海外及港澳学者合作研究基金"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="重大项目"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="国家杰出青年科学基金"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('//*[@id="重大研究计划"]').click()#选定面上项目
    t.sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[2]/button').click()#点击筛选
    html=driver.page_source
    return html
def get_fore():
    """前6页的翻页，并返回源码"""
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[13]/a').click()#点击下一页
    html=driver.page_source
    return html
def get_fore_others():
    """前6页的翻页，并返回源码"""
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()#点击下一页
    html=driver.page_source
    return html

def get_mid():
    """中间的翻页，并返回源码"""
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[15]/a ').click()#点击下一页
    html=driver.page_source
    return html
def get_after():
    """最后的翻页，并返回源码"""
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[14]/a ').click()#点击下一页
    html=driver.page_source
    return html
def clear(old_list,new_list):
        """用于清洗出纯文本"""
        for i in old_list:
            n=(i.text).strip()
            n=n.replace('\n',' ')
            new_list.append(n)
        return new_list 
def clear_l(old_list,new_list):
        """用于清洗出resultset的纯文本"""
        for i in old_list:
            i=i[0]
            n=(i.text).strip()
            n=n.replace('\n',' ')
            new_list.append(n)
        return new_list 
def save_afile(alls,count):
    os.chdir(r'F:\会计学基金项目数据代码\杂项基金')
    """将一页的基金数据保存在一个excle"""
    f=xlwt.Workbook()
    sheet1=f.add_sheet(u'sheet1',cell_overwrite_ok=True)
    sheet1.write(0,0,'项目名称')
    sheet1.write(0,1,'负责人')
    sheet1.write(0,2,'申请单位')
    sheet1.write(0,3,'研究类型')
    sheet1.write(0,4,'项目批准号')
    sheet1.write(0,5,'批准年度')
    sheet1.write(0,6,'资助金额')
    sheet1.write(0,7,'关键词')
    i=1
    for data in alls:#遍历每一行
        for j in range(len(data)):#取每一单元格
            sheet1.write(i,j,data[j])#写入单元格
        i=i+1#往下一行
    f.save(str(count)+'.xls')
    print(str(count)+'保存成功！')
def wait():
    """返回随机等待时间"""
    s=t.sleep(random.randint(2,9))
    return s
def wait_l():
    s=t.sleep(random.randint(1,5))
    return s
def goto_10_mian():
    #跳转到10页
    get_one_mian()
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[9]/a').click()#转到第八页
    #for i in range(5):#转到第23页
    wait_l()
        #driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[10]/a').click()#转到第10页
def goto_13_qing():
    #转到第13页
    get_one_qing()
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[9]/a').click()#转到第八页
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()#十一页
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[10]/a').click()#十三页
def goto_20_mian():
    #转到第20页
    get_one_mian()
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[9]/a').click()#转到第八页
    for i in range(4):#转到第20页
        wait_l()
        driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()
def goto_22_qing():
    #转到第22页
    get_one_qing()
    wait_l()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[9]/a').click()#转到第八页
    for i in range(4):#转到第20页
        wait_l()
        driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()
    driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[11]/a').click()#22
if __name__ == '__main__':
    #进入面上项目第10页，因为已经爬到了该页数据
    #进入面上项目第20页，因为已经爬到了该页数据
    #进入青年基金第13页，因为已经爬到了该页数据
    for i in range(1,10):#循环24次
        if i==1:
            save_afile(analyse_most(get_one_others()),i)
        elif 1<i<=8:
            save_afile(analyse_most(get_fore_others()),i)
        else:
            save_afile(analyse_end(get_fore_others()),i)

    



"""
        if i==1:
            save_afile(analyse_most(get_one_mian()),i)
        elif 1<i<=7:
            wait()
            save_afile(analyse_most(get_fore()),i)
            """
#driver.find_element_by_xpath('/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[13]/a').click()#点击下一页
#/html/body/div[3]/div[4]/div/div[3]/div[2]/p/span[15]/a   7之后（最多一次弄七个，需要等待五分钟）

加入社区！打开量化的大门，首批课程上线啦！

更多推荐

python爬虫入门案例day05:Pexels

量化交易与投资社区

终极指南：如何避免RateLimitExceededException的Laravel API安全防护

在构建RESTful API时，避免RateLimitExceededException是每个开发者必须掌握的关键技能。Dingo API作为Laravel和Lumen框架的强大RESTful API包，提供了完整的速率限制机制来保护你的应用程序免受恶意请求和过量访问。本文将为你详细介绍如何配置和使用这些安全功能。## 🛡️ 什么是速率限制及其重要性速率限制是API安全的第一道防线，它能

量化交易与投资社区

终极指南：5步复现Spring Boot安全风险CVE-2016-1000027

Spring Boot安全风险CVE-2016-1000027是一个严重的Java反序列化问题，允许攻击者通过恶意序列化数据执行任意代码。本文将详细解析这一问题的原理、复现方法和修复方案。## 🔍 问题背景与原理剖析CVE-2016-1000027问题源于Spring Framework中的`HttpInvokerServiceExporter`和`RemoteInvocationSer