爬虫三

小小总结一下,今天学了网页爬虫的第三种方法!
BeautifulSoup库爬虫
本人喜欢看虎牙直播,所以就爬取了虎牙网站的一些信息:网站仅供参考(https://www.huya.com/g/2793)
今天的内容就比较简单了!下面的代码都是不用动的!除了headers中的数据,每个电脑是不一样,如果不知道怎么获取的话《爬虫秘籍第二式》中有怎么获取。

import requests
from bs4 import BeautifulSoup
import time

url = 'https://www.huya.com/g/2793'

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
def get_info(url):
    res = requests.get(url,headers = headers )
    soup = BeautifulSoup (res.text,'html.parser')

紧接着上面的代码,进入主要步骤!
找到你想要的信息,右键—检查,在右侧会有相应的代码段,继续右键—copy—copy selector你会得到与下图基本相同的代码段:(# js-live-list > li:nth-child(1) > a.title.new-clickstat)(:nth-child(1))删掉就是我们需要的!!!

titles = soup.select('#js-live-list > li > a.title.new-clickstat')
    names = soup.select('#js-live-list > li > span > span.avatar.fl > i')
    numbers = soup.select('#js-live-list > li > span > span.num > i.js-num')
    for title,name,number in zip(titles,names,numbers) :
    print(title.get_text(),name.get_text(),number.get_text())
    time.sleep(5)

就这样,就没了,简单吧!!!
另外就是mysql的安装了,真是太复杂,想不起来了。罗老师的(@罗罗攀)中可以找到,想用的时候就去看!
还有就是关系型数据库概念:
关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。也就是说,数据属性与其他数据是有关联的。例如,A学生在学校B上学,这里学生A在数据库的学生用户表中,而学校B在数据库的学校表中,这二个表存在着很大的关系。
上面一堆东西,没看懂吧!好巧我也是!!!
接下来就是...咳咳咳...mysql的使用:
在mysql中输入下面字段:

Use mydb
CREATE TABLE students (
 name char(5),
 sex char(1),
 grade int
)ENGINE INNODB DEFAULT CHARSET=utf8 ;#创建数据表
insert into students (name,sex,grade) values ("小明","男",92);

在python中 安装第三方库


爬虫三_第1张图片
image.png

插入数据代码:

import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mydb', port=3306, charset='utf8')            #连接数据库
cursor = conn.cursor()          #光标对象
cursor.execute("insert into students (name,sex,grade) values(%s,%s,%s)",
               ('张三','女',87))   #插入数据
conn.commit()

你以为这就完了???
怎么可能!!!再安装一个Navicat Premium_11.2.7简体中文版。这个安装很简单,简单到不用说。
然后你就发现你在mysql和python中输入的信息,跑到了Navicat Premium中,神奇不神奇!!!
刚开始学,这个东西还有待继续学习!然后试着将python爬到的信息,连接到Navicat Premium中,运用前面的三种方法,我都试过了,都可以,就是有点麻烦,今天就不说了!什么时候我融会贯通了,再将代码写下来!!!
微博:( https://weibo.com/6806576679/profile?topnav=1&wvr=6 )
分享:

爬虫三_第2张图片
image

爬虫三_第3张图片
image

你可能感兴趣的:(爬虫三)