说明:提交做题时的录屏视频。
1、爬虫类(选1题)
(1)爬深交所2019-03-26这一天上市公司公告,结果保存为dataframe格式。地址:http://www.szse.cn/disclosure/listed/notice/index.html
(2)爬中国货币网机构信息,结果保存为dataframe格式。地址: http://www.chinamoney.com.cn/chinese/qwjsn/?searchValue=
2、抓取豆瓣新片榜的前10个电影,要求利用lxml抓取html页面、xpath定位电影,并且按顺序排成一个list。
3、利用re抽取以下数据,并利用json库解析成dict数据。
a_str = ' jsonpCallback92685{"areaName":"","csrcCode":"","downloadFileName":null,"execlStream":null,"jsonCallBack":"jsonpCallback92685","pageHelp":{"beginPage":1,"cacheSize":1,"data":1,"stockCode":"","stockType":"1"}}'
4、
aa1 = [['高速1',56656],['高速2(备注)',5662],['高速3[1]',545],['高速4',775],['高速6',78]]
aa2 = [['高速1',78798],['高速2',6524445],['高速3',343],['高速4',21215],['高速5',21215]]
将上面两个列表转为dataframe格式,
将aa2的转为2016的日均收入。
并且按照外联结的方式合并成一个dataframe
5、
df_list = [['','干扰列1','营业收入','干扰列2'],['高速1',23434,45454,5454],['高速2',6756,24,5465454],['高速3',3435,45454,5656],['其他项目',3435,45454,8989]]
将该列表转化为dataframe格式后,从中抽取出营业收入列和高速x所在的行数据,并保存为excel格式(显示列表头,但不显示行表头)。