数据挖掘实战-前沿分析-Task01

内容介绍:

本次任务主要是一个数据准备的工作,通过爬虫获取arxiv上面的数据,然后对论文进行一个分类,查看一下所有类别论文的数量,以及计算机领域里面论文的分布情况。

问题整理:

1、列表推导式嵌套循环理解。

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])

等价于以下的代码:

list1 = []
for l in [x.split(' ') for x in data['categories']]:
    for i in l:
       list1.append(i) 
list1

2、正则表达式的理解。
re.sub(r"(.*) \((.*)\)",r"\1",raw)

.表示匹配任意1个字符
*表示匹配前一个字符出现0次多次或者无限次
(表示匹配“(”
具体的这个语句,(.)为括号前所有的str,((.))为后面括号的str

例如:
原始的str为:Astrophysics(astro-ph)
经过 re.sub(r"(.)((.))",r"\2",raw)后的str为 astro-ph
经过 re.sub(r"(.)((.))",r"\1",raw)后的str为 Astrophysics

正则表达式图解析:https://regexper.com/ 或者这个:https://regexr.com/

完整代码:

import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests
import json
import pandas as pd
import matplotlib.pyplot as plt

data = []
with open("arxiv-metadata-oai-snapshot.json",'r') as f:
    for line in f:
        data.append(json.loads(line))
data = pd.DataFrame(data)
data.shape  # 1796911是数据总量,14表示特征数

data['categories'].describe()  # top 一列数据中出现频率最高的元素

## 由于一些论文的类别不止一种,先判断下在本数据集中共出现了多少种独立的数据集。
unique_categories = set([i for l in [x.split(' ') for x in data['categories']] for i in l])
len(unique_categories)

## 处理时间
data['year'] = pd.to_datetime(data['update_date']).dt.year
del data['update_date']

data = data[data['year'] >= 2019]  # 找出2019年以后的数据,并将其他数据删除
data

data.reset_index(drop=True, inplace=True)  # 重新编号
data
## 爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text   # 获取网页的文本数据
soup = BeautifulSoup(website_url, 'lxml')  # 爬取数据,这里使用lxml的解析器
root = soup.find('div',{
     'id':'category_taxonomy_list'})  # 找出 BeautifulSoup 对应的标签入口
tags = root.find_all(['h2','h3','h4','p'], recursive = True)  # 读取tags

## 初始化str 和list 变量
level_1_name = ''
level_2_name = ''
level_2_code = ''
level_1_names = []
level_2_codes = []
level_2_names = []
level_3_codes = []
level_3_names = []
level_3_notes = []

for t in tags:
    if t.name == 'h2':
        level_1_name = t.text  # 选出计算机科学的文章
        level_2_code = t.text
        level_2_name = t.text
        # print(level_1_name,level_2_code,level_2_name)
    elif t.name == 'h3':
        raw = t.text   # 取的是h3的文本内容,包含176种论文种类。例如:Astrophysics(astro-ph),Condensed Matter(cond-mat)等这种格式
        # print('**',raw)
        ## 以下的正则表达式代表,匹配括号前的内容和括号内的内容
        level_2_code = re.sub(r'(.*)\((.*)\)', r'\2',raw) # 被替换字符串'\2',被处理字符串:raw  #结果为:astro-ph,cond-mat
        # print('###',level_2_code)
        level_2_name = re.sub(r'(.*)\((.*)\)', r'\1',raw)  # re.sub 用于替换字符串中的匹配项
    elif t.name == 'h4':
        raw = t.text
        # print('**',raw)  # cs.AI (Artificial Intelligence), cs.AR (Hardware Architecture)
        level_3_code = re.sub(r'(.*)\((.*)\)', r'\1',raw)
        level_3_name = re.sub(r'(.*)\((.*)\)', r'\2',raw)
    elif t.name == 'p':
        notes = t.text
        # print('@@',notes)  # Covers systems organization and hardware architecture. Roughly includes material in ACM Subject Classes C.0, C.1, and C.5.
        # Roughly includes material in ACM Subject Classes I.3.5 and F.2.2.
        level_1_names.append(level_1_name)  # 学科名称  Computer Science
        level_2_codes.append(level_2_code) # Computer Science, astro-ph
        level_2_names.append(level_2_name)  # Computer Science
        level_3_codes.append(level_3_code)  # cs.AI, cs.AR 
        level_3_names.append(level_3_name)  # Artificial Intelligence
        level_3_notes.append(notes)  # p里面的文字描述
# print(level_3_notes)
df_taxonomy = pd.DataFrame({
     
    'group_name': level_1_names,
    'archive_name': level_2_names,
    'archive_id': level_2_codes,
    'category_name': level_3_names,
    'categories': level_3_codes,
    'category_description': level_3_notes
})
        
## 按照'group_name'进行分组,在组内使用'archive_name进行排序 
df_taxonomy.groupby(['group_name', 'archive_name'])
df_taxonomy

你可能感兴趣的:(数据挖掘)