在学校老师的推荐下,了解到百度的这个平台。因为想着尝试做这个领域的东西,就参加了这门适合小白的课程7天的打卡训练营,时间紧张而又内容充实。第一天主要针对小白们进行python基础知识的讲解,主要学习python的基础语法及各类常见用法;第二天讲解了网络爬虫的相关概念和基础知识;第三天讲解了python的数据分析与四个常用的库;第四天讲解了paddleHub飞浆的用法及相关内容;第五天主要是EasyDL的讲解;第六及七天主要是最后的大作业和课程答疑时间。
第一天的作业是输出一个99乘法表,和遍历文件夹并且输出文件路径,还是算比较简单的。主要就是各种库的使用以及代码格式的规范。对于新手的小白也是友好的,毕竟这是我这个小白也能很容易的做出来的吧。
import os
#待搜索的目录路径
path = "Day1-homework"
#待搜索的名称
filename = "2020"
#定义保存结果的数组
result = []
number=0
def findfiles(path):
li=os.listdir(path)
for p in li:
tempPathName=p
pathname=os.path.join(path,p)
if os.path.isdir(pathname):
findfiles(pathname)
elif os.path.isfile(pathname)
if(tempPathName.find(filename)!=-1):
global number
number=number+1
result=[]
result.append(number)
result.append(pathname)
if(len(result)>0):
print(result)
if __name__ == '__main__':
findfiles(path)
爬虫的过程,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。
Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库。数据的爬取相对来说比较简单,重点主要在于对爬取后的响应数据的相关处理,这里推荐学习和了解下re等模块,有助于数据快速简单有效处理。
爬取百度百科中《青春有你2》中所有参赛选手信息,返回页面数据
def crawl_wiki_data():
"""
爬取百度百科中《青春有你2》中参赛选手信息,返回html
"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
url='https://baike.baidu.com/item/青春有你第二季'
try:
response = requests.get(url,headers=headers)
print(response.status_code)
#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
soup = BeautifulSoup(response.text,'lxml'
#返回的是class为table-view log-set-param的所有标签
tables = soup.find_all('table',{'class':'table-view log-set-param'})
crawl_table_title = "参赛学员"
for table in tables:
#对当前节点前面的标签和字符串进行查找
table_titles = table.find_previous('div').find_all('h3')
for title in table_titles:
if(crawl_table_title in title):
return table
except Exception as e:
print(e)
对爬取的页面数据进行解析,并保存为JSON文件
def parse_wiki_data(table_html):
'''
从百度百科返回的html中解析得到选手信息,以当前日期作为文件名,存JSON文件,保存到work目录下
'''
bs = BeautifulSoup(str(table_html),'lxml')
all_trs = bs.find_all('tr')
error_list = ['\'','\"']
stars = []
for tr in all_trs[1:]:
all_tds = tr.find_all('td')
star = {}
#姓名
star["name"]=all_tds[0].text
#个人百度百科链接
star["link"]= 'https://baike.baidu.com' + all_tds[0].find('a').get('href')
#籍贯
star["zone"]=all_tds[1].text
#星座
star["constellation"]=all_tds[2].text
#身高
star["height"]=all_tds[3].text
#体重
star["weight"]= all_tds[4].tex
#花语,去除掉花语中的单引号或双引号
flower_word = all_tds[5].text
for c in flower_word:
if c in error_list:
flower_word=flower_word.replace(c,'')
star["flower_word"]=flower_word
if not all_tds[6].find('a') is None:
star["company"]= all_tds[6].find('a').text
else:
star["company"]= all_tds[6].text
stars.append(star)
json_data = json.loads(str(stars).replace("\'","\""))
with open('work/' + today + '.json', 'w', encoding='UTF-8') as f:
json.dump(json_data, f, ensure_ascii=False)
爬取每个选手的百度百科图片,并进行保存
def crawl_pic_urls():
'''
爬取每个选手的百度百科图片,并保存
'''
with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:
json_array = json.loads(file.read())
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
for star in json_array:
name = star['name']
link = star['link']
response = requests.get(link,headers=headers)
bs=BeautifulSoup(response.text,'lxml')
pic_list_url=bs.select('.summary-pic a')[0].get('href')
pic_list_url='http://baike.baidu.com'+pic_list_url
pic_list_response = requests.get(pic_list_url,headers=headers)
bs=BeautifulSoup(pic_list_response.text,'lxml')
pic_list_html=bs.select('.pic-list img ')
pic_urls = []
for pic_html in pic_list_html:
pic_url=pic_html.get('src')
pic_urls.append(pic_url)
day3 python进阶语法和常用库的用法
主要是在于学习和掌握Numpy、pandas、Matplotlib、PIL等的使用。当天的作业是青春有你选手的体重统计图,内容上是很简单的,爬取一下选手的体重,再通过判断条件进行分组,最后画图。其中不好处理的可能就是matplotlib的中文显示功能了。首先需要确保有中文字体,是否字体存放在对应的位置。关于中文显示,要注意经常使用的俩句用来显示中文和负数的声明。
# 下载中文字体
!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf
# 将字体文件复制到matplotlib字体路径
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/
# 一般只需要将字体文件复制到系统字体目录下即可,但是在aistudio上该路径没有写权限,所以此方法不能用
# !cp simhei.ttf /usr/share/fonts/
# 创建系统字体文件路径
!mkdir .fonts
# 复制文件到该路径
!cp simhei.ttf .fonts/
!rm -rf .cache/matplotlib
day4 选手的识别
直播内容是介绍paddleHub以及如何使用。PaddleHub是一个深度学习模型开发工具。它基于飞桨领先的核心框架,精选效果优秀的算法,提供了百亿级大数据训练的预训练模型,方便用户不用花费大量精力从头开始训练一个模型。PaddleHub可以便捷地获取这些预训练模型,完成模型的管理和一键预测。配合使用Fine-tune API,可以基于大规模预训练模型快速完成迁移学习,让预训练模型能更好地服务于用户特定场景的应用。
代码框架老师都给出了,我们要做的比较简单,就是先从网上爬取要识别的选手的照片,然后建立测试集,验证集,训练集。当然照片越多质量越好,识别率会越高。当然也不是完全绝对的,如果训练轮数太多,也可能产生过拟合的情况。所以,这个时候,调参也显得和外重要了。
关于模型的使用
module = hub.Module(name="resnet_v2_50_imagenet")
数据集的处理
rom paddlehub.dataset.base_cv_dataset import BaseCVDataset
class DemoDataset(BaseCVDataset):
def __init__(self):
# 数据集存放位置
self.dataset_dir = "dataset"
super(DemoDataset, self).__init__(
base_path=self.dataset_dir,
train_list_file="train_list.txt",
validate_list_file="validate_list.txt",
test_list_file="test_list.txt",
label_list_file="label_list.txt",
)
dataset = DemoDataset()
day5 课程最后的大作业
首先不得不先说一句,这个课程真的是设计的环环相扣,每天学习的内容,在作业中都会得到体现。尤其是大作业,将前几天的课程内容都串联了起来,所有学习过的相关技术都得用到,requests,json,re,time ,jieba,wordcloud,numpy ,matplotlib,PIL ,paddlehub 等等。大作业要求取爬取任意一期青春有你正片的弹幕评论,然后进行分词,统计词频绘图,绘制词云,以及对弹幕进行情感分析。这次的大作业听起来挺简单,但是做的时候,就觉得里面的门道还不少。比如,爬取弹幕,里面设计到一个lastid的处置,有了这个的设计,才能爬取所有弹幕,否则只能爬取某一页的弹幕。,对爬取下来的弹幕还需要进行正则的处理。其次对于分词,还需自己预备一个常用词的文档,毕竟机器处理分词,并不会像人一样的智能,再加上有时候有的人的错别字,或者口头语,昵称是机器所不知道的,另外还有一些停用词的设计等等。
其中关于lastID的获取
def saveMovieInfoToFile(lastId,arr):
'''
解析json数据,获取评论
参数 lastId:最后一条评论ID arr:存放文本的list
:return: 新的lastId
'''
url ="https://sns-comment.iqiyi.com/v3/comment/get_comments.action?agent_type=118&agent_version=9.11.5&business_type=17&content_id=15068699100&page=&page_size=10&types=time&last_id="
url += str(lastId)
responesTxt = getMovieinfo(url)
responesJson = json.loads(responesTxt)
comments = responesJson['data']['comments']
for val in comments:
if 'content' in val.keys():
print(val['content'])
arr.append(val['content'])
lastId = str(val['id'])
return lastId
使用正则进行特殊字符过滤
s = re.sub(r"?(.+?)>| |\t|\r","",content)
s = re.sub(r"\n","",s)
s = re.sub(r"\*","\\*",s)
s = re.sub("[^\u4e00-\u9fa5^a-z^A-Z^0-9]","",s)
s = re.sub("[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+","", s)
s = re.sub("[a-zA-Z]","",s)
s = re.sub("^d+(\.\d+)?$","",s)
最后想说的话
首先作为一个接触人工智能ai方面的小白来说,这门课程难度不大,对基础没什么特别打得要求(除了从来没有学过代码语法),课程设计的环环相扣,每天学到的新知识,都能在当天的作业里面得到体现,进行巩固和练习。尤其是做完这个大作业后,熟悉了一整套功能的设计实现,对我今后的学习会有一个好的铺垫。最后,感谢百度提供的这个宝贵的学习平台和机会。希望有机会在下次的打卡营相遇!
你可能感兴趣的:(百度飞桨PaddlePaddle7日打卡营学习心得)