第一次参加DateWhale组织的组队学习,加入了数据分析的任务。本月的赛题是“学术前沿趋势分析”。
插一句:发现石墨文档的表单功能很不错。
Task1:论文数据统计。
- 学习主题:论文数量统计,统计2019年全年,计算机各个方向的论文数量。
- 涉及到的知识点:jupyter notebook中安装库;json文件的读取;列表推导式;爬虫;正则表达式
1、在jupyter notebook 中直接安装第三方库
在使用jupyter notebook的过程中,有时候会遇到需要安装第三方库的情况,可以直接在notebook中进行pip install,只需要前面加一个感叹号就行。
! pip install bs4
2、json文件的读取
首先导入json库
import json
使用with语句打开json文件,然后使用for循环读取数据。
data=[]
#使用with语句打开文件,有两个有点:1、自动关闭文件句柄。2、自动显示(处理)文件读取数据异常
with open('arxiv-metadata-oai-2019.json','r') as f:
for idx,line in enumerate(f):
#读取前100行,如果读取所有数据需要8GB内存
if idx >=100:
break
data.append(json.loads(line))
data = pd.DataFrame(data) #将list变为dataframe格式,方便使用的pandas分析
json文件的格式如:
{"id":value, "name":value, "score":value}
{"id":value, "name":value, "score":value}
{"id":value, "name":value, "score":value}
将其转换为DataFrame格式之后,更便于使用Pandas进行分析。
可以定义一个专门用来读取json文件的函数。使用此函数进行读取时,可以指定读取的列,以及读取的行数。
def readArxivFile(path,columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
'report-no', 'categories', 'license', 'abstract', 'versions',
'update_date', 'authors_parsed'],count=None):
'''
定义读取文件的函数
path:文件路径
columns:需要选择的列
count:读取行数
'''
data = []
with open(path,'r') as f:
for idx, line in enumerate(f):
if idx==count:
break
d = json.loads(line)
d = {col:d[col] for col in columns}
data.append(d)
data = pd.DataFrame(data)
return data
data = readArxivFile('arxiv-metadata-oai-2019.json',['id','categories','update_date'])
代码解析:
- json.loads(str)的作用,就是把json的字符串转换成字典。效果如下,虽然转换前后看起来一样,本质上却不同。一个是字符串,一个是字典。
- 在字典中筛选出指定的key,也可以使用字典推导式,用for语句,一句话完成:
d = {col:d[col] for col in columns}
- json读取的基本的流程是:
1、创建空列表data;
2、循环data.append(字典),形成 [字典,字典,字典....];
3、使用 pd.DataFrame(data),转化为DataFrame格式。
3、列表推导式
(字典也有推导式,如上文所述。)
列表推导式的执行是C语言的速度,比使用for循环更快。
对于复杂的双层循环,其执行逻辑如图:
这条语句的使用场景:
我有苹果+橘子,他有橘子+梨+香蕉。。。统计全班一共有几种水果。
4、提取年份
pd.to_datetime() :直接把字符串转换为datetime格式
.dt.year :提取出“年”
data["year"] = pd.to_datetime(data["update_date"]).dt.year
#将update_date从例如2019-02-20的str变为datetime格式,并提取出year
类似的还有:
df['purchase_date'] = pd.to_datetime(df['purchase_date'])
df['year'] = df['purchase_date'].dt.year
df['weekofyear'] = df['purchase_date'].dt.weekofyear
df['month'] = df['purchase_date'].dt.month
df['dayofweek'] = df['purchase_date'].dt.dayofweek
df['weekend'] = (df.purchase_date.dt.weekday >=5).astype(int)
df['hour'] = df['purchase_date'].dt.hour
5、删除一列
del data["update_date"]
6、重新编号
data.reset_index(drop=True, inplace=True) #重新编号
7、爬虫
from bs4 import BeautifulSoup
import requests
#爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text #获取网页的文本数据
soup = BeautifulSoup(website_url,'lxml') #爬取数据,这里使用lxml的解析器,加速
root = soup.find('div',{'id':'category_taxonomy_list'}) #找出 BeautifulSoup 对应的标签入口
tags = root.find_all(["h2","h3","h4","p"], recursive=True) #读取 tags
website_url = requests.get('网址').text
返回网页的html文本
soup = BeautifulSoup(website_url,'lxml')
把html文本解析为soup对象
root = soup.find('div',{'id':'category_taxonomy_list'})
找出对应的标签入口。我们想要的数据,都在id为'category_taxonomy_list'的div标签中。
tags = root.find_all(["h2","h3","h4","p"], recursive=True)
读取 tags,把root中["h2","h3","h4","p"]标签都找出来。
8、正则表达式
re.sub(pattern,repl,string,count=0,flag=0)
用来 替换 或 提取 字符串
pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。
其中pattern、repl、string为必选参数
例如(替换):
a = re.sub(r'hello', 'i love the', 'hello world')
print(a)
输出'i love the world'
hello world里面的hello被 i love the替换
例如(提取):
a = re.sub('(\d{4})-(\d{2})-(\d{2})', r'\2-\3-\1', '2018-06-07')
>>> a
'06-07-2018'
这里,\2 指代的是前面的第二个分组。
通过这种方式,使用re.sub就可以从字符串中提取出想要的数据。
比如,原始字符串 raw="张三(警察)",要从中提取出“警察”,就可以使用如下代码:
raw="张三(警察)"
job = re.sub(r"(.*)\((.*)\)",r"\2",raw)
>>> job
'警察'
这里,( )代表一个分组,里面写 (.*),代表对这个分组里的内容不做要求。
"\(" 和 "\)"就是转义符,表示这就是括号符号,没有特殊意义。
9、分组聚合 .agg
.groupby( ).agg( )
使用agg函数,可以对同一列数据做两次聚合。
例如1:单列单种聚合
df.groupby(['key1'])['data1'].min() ==
df.groupby(['key1'])['data1'].agg({'min'}) ==
df.groupby(['key1']).agg({'data1':'min'})
对data1列,取各组的最小值,名字还是data1(推荐使用)
例如2:单列多种聚合
df.groupby(['key1'])['data1'].agg({'min','max'})==
df.groupby(['key1']).agg({'data1':['min','max']})
(推荐使用)
例如3:多列多种聚合
grouped = df1.groupby(['sex','smoker'])
# sex有 F M 二值,smoker有 Y N 二值,故分成四组。
grouped.agg({'age':['sum','mean'],'weight':['min','max']})
例如4:自定义聚合函数
def Max_cut_Min(group):
return group.max()-group.min()
grouped.agg(Max_cut_Min)
另外,group by之后,可以直接describe()
grouped = df1.groupby(['sex','smoker'])
grouped.describe()
10、饼图爆炸
使用不同的爆炸程度,可以将占比较小的份额更加清除地展现。
fig = plt.figure(figsize=(15,12))
explode = (0, 0, 0, 0.2, 0.3, 0.3, 0.2, 0.1)
plt.pie(_df["id"], labels=_df["group_name"], autopct='%1.2f%%', startangle=160, explode=explode)
plt.tight_layout()
plt.show()
11、DataFrame筛选——query函数更简洁
[参考文章]https://www.cnblogs.com/traditional/p/11111327.html
比如以下的df
"""
name age height where
0 mashiro 17 161 樱花庄
1 satori 17 155 地灵殿
2 koishi 16 154 地灵殿
3 kurisu 18 172 石头门
4 nagsia 21 158 clannad
"""
- 筛选age > 17的
print(df.query("age > 17")) # 等价于df[df["age"] > 17] - 筛选where == '地灵殿'的
print(df.query("where == '地灵殿'")) # 等价于df[df["where"] > "地灵殿"] - 筛选where == '地灵殿' 并且 age == 17的,# 等价于df[(df["where"] > "地灵殿") & (df["age"] == 17)]
print(df.query("where == '地灵殿' and age == 17")) - 筛选出身高大于年龄的,当然这个肯定都满足,只是演示一下query支持的功能
print(df.query("height > age")) # 等价于df[df["height"] >df["age"]] - 另外如果字段名含有空格怎么办?我们将name变成na me
df = df.rename(columns={"name": "na me"})
这个时候应该将na me使用``包起来,告诉pandas,``里面的内容是一个整体。否则的话,是不会正确解析的
print(df.query("`na me` == 'satori'")) - 查找age位于[17, 21]当中、并且where位于["樱花庄", "clannad]大当中的记录
print(df.query("age in [17, 21] and where in ['樱花庄', 'clannad']")) - 问题来了,如果我们外面有一个变量,我们怎么在query里面使用呢? 如果使用的话,那么应该使用@作为前缀,来标识这是一个外面存在的变量
place="地灵殿"
print(df.query("where == @place"))
12、pandas中的透视表——pivot函数
df.groupby(["year","category_name"]).count().reset_index().pivot(index="category_name", columns="year",values="id")
按照种类和年份分组,然后使用count()聚合,然后使用reset_index()重新索引,最后使用pivot函数,搞成透视表的格式。
.pivot( )函数三个变量:index是行,columns是列,values是值。
.pivot( )函数一般 用在groupby分组聚合之后,index和columns是用来groupby的特征。
而且分组聚合之后,还要重新reset_index(),变成正常的数字index。