Pyhton如何爬取网站数据并导入到excel

一、环境

1.pycharm

2.python3.7

二、功能

通过获取Redmine(管理系统软件) XXX项目列表来获取对应项目的名称,并输出到Excel

三、开发步骤

好,正式开始:

第一步:

导入需要应用的资源包,具体含义大家可以百度,这部分内容相对比较基础。

from urllib import request
import requests
import re
from lxml import html
import xlwt
etree = html.etree

第二步:

(1)导入url,也就是你需要访问的网站;

(2)导入headers,其中包含agent和coolie,主要记录网站访问标识和用户登录信息(关于cookie,一定是需要去查看登录网页的cookie,查看方法可以看我上篇)

url = 'https://rm.qkmtech.com/projects/qkmp923/roadmap/'
headers ={
        'user-Agent': 'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML, likeGecko)Chrome/78.0.3904.108Safari/537.36',
        'Cookie':''
         }

第三步:

获取网页

req = request.Request(url,headers = headers)

respose = request.urlopen(req)
html = respose.read().decode()

第四步:

通过正则表达式进行解析并匹配

res1 = r'(.*?)' #正则表达式  获取需要解析的数据!这部分主要解析项目名称
idlist = re.findall(res1,html)

第五步:

写入

savepath ="RE.xls"

book = xlwt.Workbook(encoding="utf-8",style_compression=0)

sheet = book.add_sheet('Redmine',cell_overwrite_ok=True)
sheet.write(0,0,"售前评估中的项目")
for i in range(0,len(idlist)):
        print("第%d条" %(i+1))                    #写入第一行数据
        data = idlist[i].strip(':')
        for j in range(0,1):
            sheet.write(i+1,j,idlist[i].strip(':'))

book.save(savepath) #数据保存

总结:

以上就是通过爬虫的方式去爬取一个网页的基本数据,后期我还会分享其他网页的爬取。欢迎关注和交流~

你可能感兴趣的:(爬虫)