本次任务主要是一个数据准备的工作,通过爬虫获取arxiv上面的数据,然后对论文进行一个分类,查看一下所有类别论文的数量,以及计算机领域里面论文的分布情况。
1、列表推导式嵌套循环理解。
unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])
等价于以下的代码:
list1 = []
for l in [x.split(' ') for x in data['categories']]:
for i in l:
list1.append(i)
list1
2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)
:
.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句,(.)为括号前所有的str,((.))为后面括号的str
例如:
原始的str为:Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics
正则表达式图解析:https://regexper.com/ 或者这个:https://regexr.com/
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt
data = []
with open("arxiv-metadata-oai-snapshot.json",'r') as f:
for line in f:
data.append(json.loads(line))
data = pd.DataFrame(data)
data.shape # 1796911是数据总量,14表示特征数
data['categories'].describe() # top 一列数据中出现频率最高的元素
## 由于一些论文的类别不止一种,先判断下在本数据集中共出现了多少种独立的数据集。
unique_categories = set([i for l in [x.split(' ') for x in data['categories']] for i in l])
len(unique_categories)
## 处理时间
data['year'] = pd.to_datetime(data['update_date']).dt.year
del data['update_date']
data = data[data['year'] >= 2019] # 找出2019年以后的数据,并将其他数据删除
data
data.reset_index(drop=True, inplace=True) # 重新编号
data
## 爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text # 获取网页的文本数据
soup = BeautifulSoup(website_url, 'lxml') # 爬取数据,这里使用lxml的解析器
root = soup.find('div',{
'id':'category_taxonomy_list'}) # 找出 BeautifulSoup 对应的标签入口
tags = root.find_all(['h2','h3','h4','p'], recursive = True) # 读取tags
## 初始化str 和list 变量
level_1_name = ''
level_2_name = ''
level_2_code = ''
level_1_names = []
level_2_codes = []
level_2_names = []
level_3_codes = []
level_3_names = []
level_3_notes = []
for t in tags:
if t.name == 'h2':
level_1_name = t.text # 选出计算机科学的文章
level_2_code = t.text
level_2_name = t.text
# print(level_1_name,level_2_code,level_2_name)
elif t.name == 'h3':
raw = t.text # 取的是h3的文本内容,包含176种论文种类。例如:Astrophysics(astro-ph),Condensed Matter(cond-mat)等这种格式
# print('**',raw)
## 以下的正则表达式代表,匹配括号前的内容和括号内的内容
level_2_code = re.sub(r'(.*)\((.*)\)', r'\2',raw) # 被替换字符串'\2',被处理字符串:raw #结果为:astro-ph,cond-mat
# print('###',level_2_code)
level_2_name = re.sub(r'(.*)\((.*)\)', r'\1',raw) # re.sub 用于替换字符串中的匹配项
elif t.name == 'h4':
raw = t.text
# print('**',raw) # cs.AI (Artificial Intelligence), cs.AR (Hardware Architecture)
level_3_code = re.sub(r'(.*)\((.*)\)', r'\1',raw)
level_3_name = re.sub(r'(.*)\((.*)\)', r'\2',raw)
elif t.name == 'p':
notes = t.text
# print('@@',notes) # Covers systems organization and hardware architecture. Roughly includes material in ACM Subject Classes C.0, C.1, and C.5.
# Roughly includes material in ACM Subject Classes I.3.5 and F.2.2.
level_1_names.append(level_1_name) # 学科名称 Computer Science
level_2_codes.append(level_2_code) # Computer Science, astro-ph
level_2_names.append(level_2_name) # Computer Science
level_3_codes.append(level_3_code) # cs.AI, cs.AR
level_3_names.append(level_3_name) # Artificial Intelligence
level_3_notes.append(notes) # p里面的文字描述
# print(level_3_notes)
df_taxonomy = pd.DataFrame({
'group_name': level_1_names,
'archive_name': level_2_names,
'archive_id': level_2_codes,
'category_name': level_3_names,
'categories': level_3_codes,
'category_description': level_3_notes
})
## 按照'group_name'进行分组,在组内使用'archive_name进行排序
df_taxonomy.groupby(['group_name', 'archive_name'])
df_taxonomy