python进行爬虫+数据处理+导入Mysql

最近有个需求,爬取文章数据供大屏端使用。

菜鸡落泪,记录一下学习过程与踩过的坑

一、爬虫

我选择爬取的网站是云南省应急管理厅的数据url为:云南省应急管理厅 (yn.gov.cn),选取里安全生产的综合监管标题栏下的文章爬取如下:

python进行爬虫+数据处理+导入Mysql_第1张图片

 

导入所需要的函数库 后从创建列表用于存放数据如下:

'''导入相关库'''
from lxml import etree     #解析文档
import bs4
import requests            #获取网页
import pandas as pd        #保存文件
'''构造循环爬取网页'''
all_content = []          #内容
all_title = []             #爬取的标题存储在列表中
all_time = []              #爬取的时间存储在列表中
url = []                   #研究报告网页链接
href = []

然后设置用户代理,获取该目录页面的html超文本标记语言,定位到每篇文章标题

python进行爬虫+数据处理+导入Mysql_第2张图片

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }#构造头文件,这是模拟真人登录(ps:有缺失,请自己动手)
url1 = f'http://yjglt.yn.gov.cn/html/anquanshengchan/zonghejianguan/'#目标网页链接
res1 = requests.get(url1,headers=headers)#获取网页
soup = bs4.BeautifulSoup(res1.text,"html.parser")#解析
targets1 = soup.find_all("li",class_="list-group-item")#获取目标字段(ps:暂时叫它字段吧),见下面第一张图(图1,依次类推)
#print(len(targets1))
#print(targets1)

 

 接下来就是仔细观察到每篇文章的链接不同,有的以http开头,有的以html开头,用一个if条件判断将其区分开:

 python进行爬虫+数据处理+导入Mysql_第3张图片

python进行爬虫+数据处理+导入Mysql_第4张图片

 

然后就是进入每篇文章的链接,爬取文章的标题、发布时间、文章内容保存于列表,xpath定位相关内容,值得一提的是下面只要时间不要出处,可将xpth中的span改为span[1]。

python进行爬虫+数据处理+导入Mysql_第5张图片

 

还有就是html开头的链接无效,需要将url补充完整如下:

如此便成功爬取到了数据,将时间列表规范一下,搭建DataFrame对象保存数据为csv文件,代码和文件截图如下:

#爬取的时间列表为双列表,此处用此操作转换为单列表
all_time = [item for sublist in all_time for item in sublist]
#创建DataFrame对象存放数据
data_raw = pd.DataFrame()
data_raw["puth_time"] = all_time
data_raw["title"] = all_title
data_raw["content"] = all_content
#生成CSV文件
data_raw.to_excel("安全生产.xls",index=False,encoding='gbk')#这里我就不放保存路径了,每个人的都不一样
print("安全生产保存成功!")

python进行爬虫+数据处理+导入Mysql_第6张图片

二、数据处理

爬取得到的数据不是很规范,前面的中括号和换行符特别影响心情,需要把它简单处理,后面的在页面端一般看不到,不做处理,这里我使用python列表切片法,爬取下来的列表切片后为空,查看字符串长度为2,这么多字这么长怎么可能为2?在保存为csv文件后再读取,发现字符串长度变正常了,比title字段,长度大概在90多,直接对字段title和content前面内容切片

#读取文件并将字段类型设置为字符型,如果不保存为CSV文件,许多中文内容字符串长度为2,不方便切片处理,保存之后字符串长度变长,蛮方便处理
data = pd.read_excel('安全生产.xls',dtype = 'str') 
#data.head()
#切片处理标题字段和内容字段,将前面的杂乱字符剔除,后面的和中间的多余字符没咋管
title_extra = []
content_extra = []
for i in data["title"]:
    #print(i[5:])
    title_extra.append(i[7:70])
for i in data["content"]:
    #print(i[8:])
    content_extra.append(i[8:])

切片后保存为新的csv文件。 

三、插入数据库

因为是小白,之前只接触过一次(抄室友代码),现在自己来入库也是比较曲折,在成功连接自己数据库的基础上,用游标自己写SQL插入多行数据,for循环+execute函数,失败!,直接用executemany函数一次插入多行,也是失败,报错大概意思是字符串占位符不太匹配,要么就是SQL有语法错误。卡了半天没解决,插入部分代码如下:

# 3). *********************插入多条数据****************************
try:
    info_1 =  all_date_and_resouce
    info_2 =  all_title
    info_3 =  all_content
    
    for i in all_title:
        print(i)
        insert_sqli = "insert into 舆情(title) values(i);"
        cur.execute(insert_sqli)
    
       insert_sqli_1 = "insert into 舆情(`time`) values(%s);"
       insert_sqli_2 = "insert into 舆情(title) values(%s);"
       insert_sqli_3 = "insert into 舆情('content') values(%s);"
       cur.executemany(insert_sqli_1, info_1)
       cur.executemany(insert_sqli_1, info_1)
       cur.executemany(insert_sqli_3, info_3)
except Exception as e:
    print("插入多条数据失败:", e)
else:
    # 如果是插入数据, 一定要提交数据, 不然数据库中找不到要插入的数据;
    conn.commit()
    print("插入多条数据成功;")

后来在博客看到一个方法,不用连上数据库手动写SQL,直接将DataFrame数据插入数据库,两行代码完全解决问题!!!

#读取处理后的数据,为导入mqsql做准备
data_final = pd.read_excel('安全生产_final.xls',dtype = 'str') 
data_final.head()
#导入相关库
from sqlalchemy import create_engine
#配置mqsql
engine = create_engine("mysql+pymysql://root:123@localhost:3306/db1?charset=utf8mb4")
#导入mysql数据库
data_final.to_sql(name="舆情1",con=engine,if_exists='replace',index=False,index_label=False)
print('插入数据库成功!')

看一下数据库

python进行爬虫+数据处理+导入Mysql_第7张图片

OK,插入成功!

四、一些思考 

1.爬取数据还得精准定位url,不然数据都找不到。

2.爬虫定位具体数据,re、bs4、xpath三种方式很灵活,用法也很多,处理得当更容易获取规范的数据

3.爬虫还得懂一部分前端知识,

4.python的数据类型,python的双重列表和列表数据提取也挺灵活,有时可以转换为DataFrame用pandas来处理。

5.python中的连接数据库写SQL类似Java的传统JDBC操作,有什么游标啥的,而后面python采用sqlalchemy函数库(第一次见这个东东)一句代码就将DataFrame数据直接插入,感觉比Java的Mybatis框架还NB,只能说我还是个弟弟。

五、存一下源码

'''导入相关库'''
from lxml import etree     #解析文档
import bs4
import requests            #获取网页
import pandas as pd        #保存文件
'''构造循环爬取网页'''
all_content = []          #内容
all_title = []             #爬取的标题存储在列表中
all_time = []              #爬取的时间存储在列表中
url = []                   #研究报告网页链接
href = []

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }#构造头文件,这是模拟真人登录(ps:有缺失,请自己动手)
url1 = f'http://yjglt.yn.gov.cn/html/anquanshengchan/zonghejianguan/'#目标网页链接
res1 = requests.get(url1,headers=headers)#获取网页
soup = bs4.BeautifulSoup(res1.text,"html.parser")#解析
targets1 = soup.find_all("li",class_="list-group-item")#获取目标字段(ps:暂时叫它字段吧),见下面第一张图(图1,依次类推)
#print(len(targets1))
#print(targets1)

#判断文章的URL是以html开头还是http开头,如果是以html开头则需要下文进行处理变为标准的URL,才能准确定位到文章
targets_html =[]
targets_http = []
for x in targets1:
    y = x.a["href"].startswith("/html")
    if y == True:
        targets_html.append(x)
    else:
        targets_http.append(x)
print("html为前缀的文章为:***********************************************************")
print(targets_html)
print("http为前缀的文章为:***********************************************************")
print(targets_http)

#解析文章的内容,通过xpath方法定位到文章的标题、发布时间、文章内容,从而进行爬取
for e in targets_http:
    h2=e.a["href"]#获取href里的内容
    res3 = requests.get(h2,headers=headers)#解析href的网页链接(即文本链接)
    root2 = etree.HTML(res3.text)#再次解析href链接里的内容
    '''接下来就是在里面获取内容,后面的步骤与上一篇文章的方法差不多,就不过多赘述啦'''     
    title1 = root2.xpath("/html/body/div[2]/div[2]/div[2]/div/div[1]/text()")
    #print(title)
    #提取span[1]就仅仅提取到时间,而没有提取到来源和出处
    date_and_resouce1= root2.xpath("//div[contains(@class,'info-container')]//div[contains(@class,'info-title')]//div[contains(@class,'report-subtitle detail-subtitle')]//span[1]//text()")     
    #source = root.xpath("//div[contains(@class,'content')]//div[@class='creab']//span//a//text()")
    #print(company)
    content3 = root2.xpath("//div[contains(@class,'info-container')]//div[contains(@class,'info-content')]//p//text()")
    #文章内容存在着分割,图片或者表格分割,他在HTML语言中分段存放,所以要将文章内容合并
    content4 = "".join(content3)
    #print(content2)
    #在定义好的总列表添加爬取到的的相关内容
    all_title.append(title1)
    all_time.append(date_and_resouce1)
    all_content.append(content3)
print("第一部分数据爬取完成!")
#html语言开头的URL不规范,此处在其前面添加'http://yjglt.yn.gov.cn/'方能精准定位,其余操作与http开头的url一样
for each in targets_html:
    hl=each.a["href"]#获取href里的内容
    res2 = requests.get('http://yjglt.yn.gov.cn/'+hl,headers=headers)#解析href的网页链接(即文本链接)见图2
    root = etree.HTML(res2.text)#再次解析href链接里的内容
    '''接下来就是在里面获取内容,后面的步骤与上一篇文章的方法差不多,就不过多赘述啦'''     
    title = root.xpath("/html/body/div[2]/div[2]/div[2]/div/div[1]/text()")
    #/html/body/div[2]/div[2]/div[2]/div/div[1]/text()
    #print(title)
    date_and_resouce= root.xpath("//div[contains(@class,'info-container')]//div[contains(@class,'info-title')]//div[contains(@class,'report-subtitle detail-subtitle')]//span[1]//text()")     
    #source = root.xpath("//div[contains(@class,'content')]//div[@class='creab']//span//a//text()")
    #print(company)
    content1 = root.xpath("//div[contains(@class,'info-container')]//div[contains(@class,'info-content')]//p//text()")
    content2 = "".join(content1)
    #print(content2)     
    all_title.append(title)
    all_time.append(date_and_resouce)
    all_content.append(content2)
#print(all_title)
#print(all_company)
print("第二部分数据爬取完成!")

#爬取的时间列表为双列表,此处用此操作转换为单列表
all_time = [item for sublist in all_time for item in sublist]
#创建DataFrame对象存放数据
data_raw = pd.DataFrame()
data_raw["puth_time"] = all_time
data_raw["title"] = all_title
data_raw["content"] = all_content
#生成CSV文件
data_raw.to_excel("安全生产.xls",index=False,encoding='gbk')#这里我就不放保存路径了,每个人的都不一样
print("安全生产保存成功!")

#读取文件并将字段类型设置为字符型,如果不保存为CSV文件,许多中文内容字符串长度为2,不方便切片处理,保存之后字符串长度变长,蛮方便处理
data = pd.read_excel('安全生产.xls',dtype = 'str') 
#data.head()
#切片处理标题字段和内容字段,将前面的杂乱字符剔除,后面的和中间的多余字符没咋管
title_extra = []
content_extra = []
for i in data["title"]:
    #print(i[5:])
    title_extra.append(i[7:70])
for i in data["content"]:
    #print(i[8:])
    content_extra.append(i[8:])
#content_extra
#将处理后的数据保存为CSV文件
data_raw["puth_time"] = all_time
data_raw["title"] = title_extra
data_raw["content"] = content_extra
data_raw.to_excel("安全生产_final.xls",index=False,encoding='gbk')#这里我就不放保存路径了,每个人的都不一样
print("安全生产_final保存成功!")

#读取处理后的数据,为导入mqsql做准备
data_final = pd.read_excel('安全生产_final.xls',dtype = 'str') 
data_final.head()
#导入相关库
from sqlalchemy import create_engine
#配置mqsql
engine = create_engine("mysql+pymysql://root:123@localhost:3306/db1?charset=utf8mb4")
#导入mysql数据库
data_final.to_sql(name="舆情1",con=engine,if_exists='replace',index=False,index_label=False)
print('插入数据库成功!')

你可能感兴趣的:(爬虫,爬虫,数据库,python)