python学习实验报告(第十周)

一、实验目的

1. 了解常用的HTML标签

2. 了解在网页中使用JavaScript代码的几种方式

3. 掌握Python标准库urllib的用法

4. 掌握Python扩展库scrapy的用法

5. 掌握Python扩展库BeautifulSoup4的用法

6. 掌握Python扩展库request的用法

7. 掌握Python扩展库selenium的用法

二、实验内容及结果

编写爬虫程序实现下述各题。

1. 批量爬取中国工程院院士信息,把每位院士的文字介绍保存到该院士名字为名的记事本文件中,照片保存到该院士名字为名的jpg文件中。

2. 根据院士名单,爬取该院士性别,族别信息;根据院士简介提取该院士就读本科学校,入选院士年份;将院士姓名,性别,族别信息,本科学校,入选院士年份信息写入excel文件。

import time
import requests
import re
from multiprocessing import Pool
import os
import pandas as pd

def to_exel(result_list, columns, file):
    writer = pd.ExcelWriter(file)
    df = pd.DataFrame(result_list, columns=columns)
    # logging.info("df = pd.DataFrame(result_list, columns=columns)")
    df.to_excel(writer, startrow=0, startcol=0, sheet_name='院士信息', index=False)
    writer.save()
    writer.close()

def run(a_url, headers):
    print("子进程ID号:%d\n" % (os.getpid()))  # os.getpid()进程ID
    # 获取院士详细资料的页面
    new_url = "https://ysg.ckcest.cn" + a_url
    r = requests.get(new_url, headers)
    # print(r.text)
    try:
        # 获取院士姓名
        name = re.findall('
姓名:

(.*?)

'
, r.text)[0] # 性别 sex = re.findall('
性别:

(.*?)

'
, r.text)[0] # 族别 nation = re.findall('
民族:

(.*?)

'
, r.text)[0] # 本科院校 college = re.findall('(.*?) .*?\s*?学士学位\s*?', r.text)[0] # 入选院士年份 year = re.findall('

当选年份

:\s*?

\s*?中国工程院院士 \s*(.*?)
\s*.*?

\s*?
'
, r.text, re.S)[0] # 为每个院士创建文件夹 os.makedirs("./院士/%s" % name) picture_url = re.findall('', r.text) picture = requests.get("http:" + picture_url[0], headers) with open("./院士/%s/%s.jpg" % (name, name), 'wb') as f: f.write(picture.content) introduce_num = re.findall('html/details/(.*?)/index.html', a_url)[0] # print(introduce_num) introduce_url = "https://ysg.ckcest.cn/html/details/subnav/content/" + introduce_num + "/detail_grxx_grjj" introduce_page = requests.get(introduce_url, headers) introduce = re.findall('

(.*?)

', introduce_page.text)[0] with open("./院士/%s/%s.txt" % (name, name), 'w', encoding='utf-8') as f: f.write(introduce) print(name, sex, nation, college, year) print("%s院士保存成功!"%name) return [name, sex, nation, college, year] except (FileExistsError, IndexError) as e: print(str(e)) if __name__ == "__main__": # 计算耗时 end1 = time.time() print("父进程启动:%d" % os.getpid()) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36' } results = [] for i in range(1, 12): print("第{}轮".format(i)) url = "https://ysg.ckcest.cn/ysgList/api/index?pageSize=113&pageNum="+str(i)+"&_=1655211977545" req = requests.get(url, headers) # 原本re正在表达式中'\\'匹配'\',但是python中反斜杠本身就用于转义,故使用'\\\\'匹配'\' url_lists = re.findall('', req.text, re.S) # 去重 url_lists = list(set(url_lists)) processes = [] pool = Pool(10) # 设置最大进程数设置为10 for a_url in url_lists: # 创建子进程 try: p = pool.apply_async(func=run, args=(a_url, headers)) # func进程执行的任务, args传参数(元组) processes.append(p) except: print("进程启动失败!") pool.close() pool.join() for p in processes: if p.get() is not None: results.append(p.get()) # 等待一段时间,防止被网站认为认为是攻击而强制关闭连接 time.sleep(1) # 写入Exel to_exel(results, ['姓名', '性别', '族别', '本科学校', '入选院士年份'], "院士信息汇总.xlsx") end2 = time.time() print("耗时:%.2f秒" % (end2 - end1))

python学习实验报告(第十周)_第1张图片
python学习实验报告(第十周)_第2张图片

三、实验小结

由于对本人本次实验中的爬虫的学习深度不够,对爬虫相关代码的理解也比较粗浅,所以代码中可能还有很多的地方都能优化。

遇到TimeoutError时,可尝试设置设置自己电脑的防火墙:windows->设置->windows安全中心->防火墙和网络保护->允许应用通过防火墙->更改设置,将pycharm和python都勾选上。

你可能感兴趣的:(Python学习实验报告,python,学习,开发语言)