7天的打卡训练营,时间紧张而又内容饱满,第一天主要针对小白们进行python基础知识的讲解,主要学习python的基础语法及各类常见用法;第二天讲解了爬虫的相关概念和基础知识;第三天重点讲解了python的数据分析与处理库;第四天讲解了paddleHub的用法及相关内容;第五天主要是EasyDL的讲解;第六及七天主要是作业及课程答疑时间。
个人觉得还是要掌握python的基础知识,注重个人的编码风格和编码习惯,python是一种对格式要求相对比较严格的语言,所以,格式的掌握很重要,有助于养成良好的编码习惯。另外就是对各类数据类型的使用,切片分割技巧的掌握和了解,能在很大程度上帮你更好的进行数据的分析与处理。作业也相对比较简单,主要是循环的使用和OS库的使用。牢记切片原则:左闭右开
def table():
#在这里写下您的乘法口诀表代码吧!
for i in range(1,10):
for j in range(1,i+1): #编写双层循环
print('{}*{}={}'.format(j,i,j*i),end='\t') #进行计算,样式输出
print()
if __name__ == '__main__':
table()
1*1=1
1*2=2 2*2=4
1*3=3 2*3=6 3*3=9
1*4=4 2*4=8 3*4=12 4*4=16
1*5=5 2*5=10 3*5=15 4*5=20 5*5=25
1*6=6 2*6=12 3*6=18 4*6=24 5*6=30 6*6=36
1*7=7 2*7=14 3*7=21 4*7=28 5*7=35 6*7=42 7*7=49
1*8=8 2*8=16 3*8=24 4*8=32 5*8=40 6*8=48 7*8=56 8*8=64
1*9=9 2*9=18 3*9=27 4*9=36 5*9=45 6*9=54 7*9=63 8*9=72 9*9=81
主要学习和掌握requests模块、BeautifulSoup库。爬虫的主要原理就是通过模拟浏览器向目标站点发送相关请求,从而获取到目标站点的响应数据, 对数据进行加工处理后本地存储。本人一直觉得这块一定得遵守爬虫协议,严守法律底线。另外 就是感兴趣的话 还可以自学下Xpath等库,还有为了避免IP被封锁,可以使用动态IP代理。数据的爬取相对来说比较简单,重点主要在于对爬取后的响应数据的相关处理,为了方便起见,可以学习和了解下re等模块,有助于数据快速简单有效处理。
requests是python实现的简单易用的HTTP库,官网地址:http://cn.python-requests.org/zh_CN/latest/
网页请求的过程分为两个环节:requests(请求)、response(相应)。
网页请求的方式也分为两种:
(1)GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。
(2)POST:相比 GET 方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
requests.get(url)发送http get请求,返回内容response为URL对象,表示整个网页。
Beautiful Soup 是解析HTML和XML的工具,并提取的数据。包含html.parser、lxml等多种解析器,注意find_all()用于搜索当前节点下所有的符合条件的节点,没有指点节点则是全文;find()返回查询到的第一个元素节点,与find_all()略有不同
作业是对https://baike.baidu.com/item/青春有你第二季 中各个选手照片的批量爬取:
伪装浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
初步数据解析
try:
response = requests.get(url,headers=headers)
print(response.status_code)
#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
soup = BeautifulSoup(response.text,'lxml')
#返回的是class为table-view log-set-param的