Tinali_127

Task1 论文数据统计

任务说明

任务主题：论文数量统计，即统计2019年全年计算机各个方向论文数量；
任务内容：赛题的理解、使用 Pandas 读取数据并进行统计；
任务成果：学习 Pandas 的基础操作；
可参考的学习资料：开源组织Datawhale joyful-pandas项目

数据集介绍

数据集来源：数据集链接；
或者使用2019年的数据：2019数据集
数据集的格式如下：
- id：arXiv ID，可用于访问论文；
- submitter：论文提交者；
- authors：论文作者；
- title：论文标题；
- comments：论文页数和图表等其他信息；
- journal-ref：论文发表的期刊的信息；
- doi：数字对象标识符，https://www.doi.org；
- report-no：报告编号；
- categories：论文在 arXiv 系统的所属类别或标签；
- license：文章的许可证；
- abstract：论文摘要；
- versions：论文版本；
- authors_parsed：作者的信息。

"root":{
		"id":string"0704.0001"
		"submitter":string"Pavel Nadolsky"
		"authors":string"C. Bal\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan"
		"title":string"Calculation of prompt diphoton production cross sections at Tevatron and LHC energies"
		"comments":string"37 pages, 15 figures; published version"
		"journal-ref":string"Phys.Rev.D76:013009,2007"
		"doi":string"10.1103/PhysRevD.76.013009"
		"report-no":string"ANL-HEP-PR-07-12"
		"categories":string"hep-ph"
		"license":NULL
		"abstract":string"  A fully differential calculation in perturbative quantum chromodynamics is presented for the production of massive photon pairs at hadron colliders. All next-to-leading order perturbative contributions from quark-antiquark, gluon-(anti)quark, and gluon-gluon subprocesses are included, as well as all-orders resummation of initial-state gluon radiation valid at next-to-next-to leading logarithmic accuracy. The region of phase space is specified in which the calculation is most reliable. Good agreement is demonstrated with data from the Fermilab Tevatron, and predictions are made for more detailed tests with CDF and DO data. Predictions are shown for distributions of diphoton pairs produced at the energy of the Large Hadron Collider (LHC). Distributions of the diphoton pairs from the decay of a Higgs boson are contrasted with those produced from QCD processes at the LHC, showing that enhanced sensitivity to the signal can be obtained with judicious selection of events."
		"versions":[
				0:{
						"version":string"v1"
						"created":string"Mon, 2 Apr 2007 19:18:42 GMT"
					}
				1:{
						"version":string"v2"
						"created":string"Tue, 24 Jul 2007 20:10:27 GMT"
					}]
		"update_date":string"2008-11-26"
		"authors_parsed":[
				0:[
						0:string"Balázs"
						1:string"C."
						2:string""]
				1:[
						0:string"Berger"
						1:string"E. L."
						2:string""]
				2:[
						0:string"Nadolsky"
						1:string"P. M."
						2:string""]
				3:[
						0:string"Yuan"
						1:string"C. -P."
						2:string""]]
}

arxiv论文类别介绍

我们从arxiv官网，查询到论文的类别名称以及其解释如下。

链接：https://arxiv.org/help/api/user-manual 的 5.3 小节的 Subject Classifications 的部分，或 https://arxiv.org/category_taxonomy，具体的153种paper的类别部分如下：

'astro-ph': 'Astrophysics',
'astro-ph.CO': 'Cosmology and Nongalactic Astrophysics',
'astro-ph.EP': 'Earth and Planetary Astrophysics',
'astro-ph.GA': 'Astrophysics of Galaxies',
'cs.AI': 'Artificial Intelligence',
'cs.AR': 'Hardware Architecture',
'cs.CC': 'Computational Complexity',
'cs.CE': 'Computational Engineering, Finance, and Science',
'cs.CV': 'Computer Vision and Pattern Recognition',
'cs.CY': 'Computers and Society',
'cs.DB': 'Databases',
'cs.DC': 'Distributed, Parallel, and Cluster Computing',
'cs.DL': 'Digital Libraries',
'cs.NA': 'Numerical Analysis',
'cs.NE': 'Neural and Evolutionary Computing',
'cs.NI': 'Networking and Internet Architecture',
'cs.OH': 'Other Computer Science',
'cs.OS': 'Operating Systems',

具体代码实现以及讲解

导入package并读取原始数据

# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import numpy as np # 数据处理
import matplotlib.pyplot as plt #画图工具

这里使用的package的版本如下（至少python 3.7.4）：

seaborn：0.9.0
BeautifulSoup：4.8.0
requests：2.22.0
json：0.8.5
pandas：0.25.1
matplotlib：3.1.1

import os
os.getcwd() # get当前路径

'D:\\jupyter_notebook\\Github\\datawhale数据分析_学术前沿趋势分析\\AcademicTrends'

# 读入数据
data  = []

#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常
with open("./data/arxiv-metadata-oai-2019.json", 'r') as f: 
    for idx, line in enumerate(f): 
        
        # 读取前100行，如果读取所有数据需要8G内存
        if idx >= 100: # 如果idx=100 说明是第101行
            break # 跳出循环
        
        data.append(json.loads(line)) # line是每一条样本信息 字典格式，json.loads读取每一条样本信息，结果是字典
        # data：列表中每条样本是个字典形式
        
data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析
data.shape #显示数据大小

(100, 14)

data.head() #显示数据的前五行

	id	submitter	authors	title	comments	journal-ref	doi	report-no	categories	license	abstract	versions	update_date	authors_parsed
0	0704.0297	Sung-Chul Yoon	Sung-Chul Yoon, Philipp Podsiadlowski and Step...	Remnant evolution after a carbon-oxygen white ...	15 pages, 15 figures, 3 tables, submitted to M...	None	10.1111/j.1365-2966.2007.12161.x	None	astro-ph	None	We systematically explore the evolution of t...	[{'version': 'v1', 'created': 'Tue, 3 Apr 2007...	2019-08-19	[[Yoon, Sung-Chul, ], [Podsiadlowski, Philipp,...
1	0704.0342	Patrice Ntumba Pungu	B. Dugmore and PP. Ntumba	Cofibrations in the Category of Frolicher Spac...	27 pages	None	None	None	math.AT	None	Cofibrations are defined in the category of ...	[{'version': 'v1', 'created': 'Tue, 3 Apr 2007...	2019-08-19	[[Dugmore, B., ], [Ntumba, PP., ]]
2	0704.0360	Zaqarashvili	T.V. Zaqarashvili and K Murawski	Torsional oscillations of longitudinally inhom...	6 pages, 3 figures, accepted in A&A	None	10.1051/0004-6361:20077246	None	astro-ph	None	We explore the effect of an inhomogeneous ma...	[{'version': 'v1', 'created': 'Tue, 3 Apr 2007...	2019-08-19	[[Zaqarashvili, T. V., ], [Murawski, K, ]]
3	0704.0525	Sezgin Ayg\"un	Sezgin Aygun, Ismail Tarhan, Husnu Baysal	On the Energy-Momentum Problem in Static Einst...	This submission has been withdrawn by arXiv ad...	Chin.Phys.Lett.24:355-358,2007	10.1088/0256-307X/24/2/015	None	gr-qc	None	This paper has been removed by arXiv adminis...	[{'version': 'v1', 'created': 'Wed, 4 Apr 2007...	2019-10-21	[[Aygun, Sezgin, ], [Tarhan, Ismail, ], [Baysa...
4	0704.0535	Antonio Pipino	Antonio Pipino (1,3), Thomas H. Puzia (2,4), a...	The Formation of Globular Cluster Systems in M...	32 pages (referee format), 9 figures, ApJ acce...	Astrophys.J.665:295-305,2007	10.1086/519546	None	astro-ph	None	The most massive elliptical galaxies show a ...	[{'version': 'v1', 'created': 'Wed, 4 Apr 2007...	2019-08-19	[[Pipino, Antonio, ], [Puzia, Thomas H., ], [M...

data.columns # 所有列名

Index(['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'],
      dtype='object')

读取原始数据的封装函数

def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件相对路径
        columns: 需要选择的列（不一定需要所有的列）
        count: 读取行数(原数据有17万+行)
    '''
    
    data  = []
    with open(path, 'r') as f: 
        for idx, line in enumerate(f): 
            if idx == count: # 索引从0开始，所以idx=count-->已经是第count+1条数据
                break
                
            # 读取每一行数据
            d = json.loads(line) # **关心所有列**--原始的样本：包含所有列的字典形式
            d = {
     col : d[col] for col in columns} # **关心其中某几列**--用字典生成式，key=列名，value=每条样本中对应列名的值 # 如果需要所有列，直接json.loads就行
            #print(d)
            data.append(d)

    data = pd.DataFrame(data)
    return data

readArxivFile('./data/arxiv-metadata-oai-2019.json',count=100).shape

(100, 14)

# 只提取全数据的其中三列
data = readArxivFile('./data/arxiv-metadata-oai-2019.json',['id', 'categories', 'update_date'])

data.shape

(170618, 3)

data

	id	categories	update_date
0	0704.0297	astro-ph	2019-08-19
1	0704.0342	math.AT	2019-08-19
2	0704.0360	astro-ph	2019-08-19
3	0704.0525	gr-qc	2019-10-21
4	0704.0535	astro-ph	2019-08-19
...	...	...	...
170613	quant-ph/9904032	quant-ph	2019-08-17
170614	solv-int/9511005	solv-int nlin.SI	2019-08-15
170615	solv-int/9809008	solv-int nlin.SI	2019-08-17
170616	solv-int/9909010	solv-int adap-org hep-th nlin.AO nlin.SI	2019-08-17
170617	solv-int/9909014	solv-int nlin.SI	2019-08-21

170618 rows × 3 columns

统计论文类别出现的次数

直接用value_counts

pd.DataFrame(data.categories.value_counts()) 
# 直接用value_counts不对，因为有的论文属于好几个类别--value counts只会把整体看成一个新的类别，但实际上应该分开

	categories
cs.CV	5559
quant-ph	3470
cs.LG stat.ML	3247
math.AP	3025
math.CO	2601
...	...
cs.LG cs.AR cs.DC cs.NE	1
nucl-th cs.LG	1
q-bio.PE cs.CE	1
cs.CV cs.LG eess.AS stat.ML	1
cond-mat.mes-hall math.RA quant-ph	1

15592 rows × 1 columns

用正则表达式进行categories字段的拆解

re.split(r"\s+",string)

data.categories.values # 单独取一列：Series；用.values得到array

array(['astro-ph', 'math.AT', 'astro-ph', ..., 'solv-int nlin.SI',
       'solv-int adap-org hep-th nlin.AO nlin.SI', 'solv-int nlin.SI'],
      dtype=object)

data.categories.values[170616] # 只能用实际index进行索引，不能用-1

'solv-int adap-org hep-th nlin.AO nlin.SI'

re.split(r"\s+",data.categories.values[170616]) # 用空格（1+个）进行分割

['solv-int', 'adap-org', 'hep-th', 'nlin.AO', 'nlin.SI']

# 把每条样本的类别从用空格分隔的string变成list中的每个元素--所有样本的类别再都放在一个list中
# 形如：[[样本1的类别1，样本1的类别2],[样本2的类别]...]
categories_result = []
for i in data.categories.values: # 本身是series，用.values得到array
    categories_result.append(re.split(r"\s+",i)) # re.split的结果是个list--list套list的嵌套形式

categories_result # 列表的嵌套

[['astro-ph'],
 ['math.AT'],
 ['astro-ph'],
 ['gr-qc'],
 ['astro-ph'],...]

categories_result[12]

['cond-mat.str-el', 'cond-mat.mes-hall']

让list的2D嵌套形式，变成1D的单个list

[s for l in categories_result for s in l]

['astro-ph',
 'math.AT',
 'astro-ph',
 'gr-qc',
 'astro-ph',
 'nucl-ex',
 'quant-ph',
 'math.DG',
 'hep-ex',
 'astro-ph',
 'hep-ex',
 'astro-ph',
 'cond-mat.str-el',
 'cond-mat.mes-hall',
 'astro-ph',...]

# 2019所有论文的类别数量-
unique_category = set([i for l in categories_result for i in l]) 
# l是每篇论文的类别list--可能包含多个类别；i是list l中的每个元素--string 论文类别
# 列表生成式：把所有的i放在一个list中-->一维的list
# 用set集合去重--取出所有论文中unique的类别

len(unique_category) #172个unique类别 VS 官网上有153个类别

数据预处理

首先我们先来粗略统计论文的种类信息：

count：一列数据的元素个数；
unique：一列数据中元素的种类；
top：一列数据中出现频率最高的元素；
freq：一列数据中出现频率最高的元素的个数；

data["categories"].describe()

count     170618
unique     15592
top        cs.CV
freq        5559
Name: categories, dtype: object

以上的结果表明：共有170618个数据，有15592个子类（因为有论文的类别是多个，例如一篇paper的类别是CS.AI & CS.MM和一篇paper的类别是CS.AI & CS.OS属于不同的子类别，这里仅仅是粗略统计），其中最多的种类是cs.CV，即Computer Vision and Pattern Recognition（计算机视觉），共出现了 5559次。

cs.CV在arxiv上的定义：Covers image processing, computer vision, pattern recognition, and scene understanding. Roughly includes material in ACM Subject Classes I.2.10, I.4, and I.5

由于部分论文的类别不止一种，所以下面我们判断在本数据集中共出现了多少种独立的数据集。

string.split(" ")

不保险：因为不能保证同一篇论文的不同类别之间只有一个空格分隔–如果格式不确定：用re.split

unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])
unique_categories # 和之前的unique_category一样

len(unique_categories)

这里使用了 split 函数将多类别使用 “ ”（空格）分开，组成list，并使用 for 循环将独立出现的类别找出来，并使用 set 类别，将重复项去除得到最终所有的独立paper种类。

从以上结果发现，共有172种论文种类，比我们直接从 https://arxiv.org/help/api/user-manual 的 5.3 小节的 Subject Classifications 的部分或 https://arxiv.org/category_taxonomy中的到的类别多（153个）

我们的任务要求对于2019年以后的paper进行分析（但这里为了内存和运行速度，只用了2019年的数据），所以首先对于时间特征进行预处理，从而得到2019年以后的所有种类的论文：

data["year"] = pd.to_datetime(data["update_date"]).dt.year #将update_date从例如2019-02-20的str变为datetime格式，并提取出year
del data["update_date"] #删除 update_date特征，其使命已完成
data = data[data["year"] >= 2019] #找出 year 中2019年以后的数据，并将其他数据删除--我们这里只用了2019的数据 所以全部数据的year>=2019的，仍然取出所有数据170618行

# data.groupby(['categories','year']) #以 categories 进行排序，如果同一个categories 相同则使用 year 特征进行排序
data.reset_index(drop=True, inplace=True) #重新编号--这里不用重置索引 因为没有数据增加/减少
data #查看结果

	id	categories	year
0	0704.0297	astro-ph	2019
1	0704.0342	math.AT	2019
2	0704.0360	astro-ph	2019
3	0704.0525	gr-qc	2019
4	0704.0535	astro-ph	2019
...	...	...	...
170613	quant-ph/9904032	quant-ph	2019
170614	solv-int/9511005	solv-int nlin.SI	2019
170615	solv-int/9809008	solv-int nlin.SI	2019
170616	solv-int/9909010	solv-int adap-org hep-th nlin.AO nlin.SI	2019
170617	solv-int/9909014	solv-int nlin.SI	2019

170618 rows × 3 columns

这里我们就已经得到了所有2019年以后的论文，下面我们挑选出计算机领域内的所有文章：

#爬取所有的类别
website_url = requests.get('https://arxiv.org/category_taxonomy').text #获取网页的文本数据
soup = BeautifulSoup(website_url,'lxml') #爬取数据，这里使用lxml的解析器，加速
root = soup.find('div',{
     'id':'category_taxonomy_list'}) #找出 BeautifulSoup 对应的标签入口
tags = root.find_all(["h2","h3","h4","p"], recursive=True) #读取 tags

#初始化 str 和 list 变量
level_1_name = ""
level_2_name = ""
level_2_code = ""
level_1_names = []
level_2_codes = []
level_2_names = []
level_3_codes = []
level_3_names = []
level_3_notes = []

#进行
for t in tags:
    if t.name == "h2":
        level_1_name = t.text    
        level_2_code = t.text
        level_2_name = t.text
    elif t.name == "h3":
        raw = t.text
        level_2_code = re.sub(r"(.*)\((.*)\)",r"\2",raw) #正则表达式：模式字符串：(.*)\((.*)\)；被替换字符串"\2"；被处理字符串：raw
        level_2_name = re.sub(r"(.*)\((.*)\)",r"\1",raw)
    elif t.name == "h4":
        raw = t.text
        level_3_code = re.sub(r"(.*) \((.*)\)",r"\1",raw)
        level_3_name = re.sub(r"(.*) \((.*)\)",r"\2",raw)
    elif t.name == "p":
        notes = t.text
        level_1_names.append(level_1_name)
        level_2_names.append(level_2_name)
        level_2_codes.append(level_2_code)
        level_3_names.append(level_3_name)
        level_3_codes.append(level_3_code)
        level_3_notes.append(notes)

#根据以上信息生成dataframe格式的数据
df_taxonomy = pd.DataFrame({
     
    'group_name' : level_1_names,
    'archive_name' : level_2_names,
    'archive_id' : level_2_codes,
    'category_name' : level_3_names,
    'categories' : level_3_codes,
    'category_description': level_3_notes
    
})

#按照 "group_name" 进行分组，在组内使用 "archive_name" 进行排序
df_taxonomy.groupby(["group_name","archive_name"])
df_taxonomy

	group_name	archive_name	archive_id	category_name	categories	category_description
0	Computer Science	Computer Science	Computer Science	Artificial Intelligence	cs.AI	Covers all areas of AI except Vision, Robotics...
1	Computer Science	Computer Science	Computer Science	Hardware Architecture	cs.AR	Covers systems organization and hardware archi...
2	Computer Science	Computer Science	Computer Science	Computational Complexity	cs.CC	Covers models of computation, complexity class...
3	Computer Science	Computer Science	Computer Science	Computational Engineering, Finance, and Science	cs.CE	Covers applications of computer science to the...
4	Computer Science	Computer Science	Computer Science	Computational Geometry	cs.CG	Roughly includes material in ACM Subject Class...
...	...	...	...	...	...	...
150	Statistics	Statistics	Statistics	Computation	stat.CO	Algorithms, Simulation, Visualization
151	Statistics	Statistics	Statistics	Methodology	stat.ME	Design, Surveys, Model Selection, Multiple Tes...
152	Statistics	Statistics	Statistics	Machine Learning	stat.ML	Covers machine learning papers (supervised, un...
153	Statistics	Statistics	Statistics	Other Statistics	stat.OT	Work in statistics that does not fit into the ...
154	Statistics	Statistics	Statistics	Statistics Theory	stat.TH	stat.TH is an alias for math.ST. Asymptotics, ...

155 rows × 6 columns

这里主要说明一下上面代码中的正则操作，这里我们使用re.sub来用于替换字符串中的匹配项

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式，数字形式。
其中pattern、repl、string为必选参数

re.sub(pattern, repl, string, count=0, flags=0)

实例如下：

# r'#.*$' 匹配#开始，匹配任意字符重复0/1+次（任意次）一直匹配到结尾

re.sub(r'#.*$', "", phone) # 但sub是只要字符串里面有匹配的pattern即可

'2004-959-559 '

import re

phone = "2004-959-559 # 这是一个电话号码"
 
# 删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)

电话号码 :  2004-959-559

if re.match(r'#.*$',phone): # match是从字符串的最开始判断是否符合pattern--不符合，因为不是#开头
    print("ok")
else:
    print("failed") # 结果是failed

# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

电话号码 :  2004959559

详细了解可以参考：https://www.runoob.com/python3/python3-reg-expressions.html

对于我们的代码来说：

re.sub(r"(.*)\((.*)\)",r"\2", " Astrophysics(astro-ph)")

'astro-ph'

对应的参数

正则中的模式字符串 pattern 的格式为 “任意字符” + “(” + “任意字符” + “)”。
替换的字符串 repl 为第2个分组的内容。
要被查找替换的原始字符串 string 为原始的爬取的数据。

这里推荐大家一个在线正则表达式测试的网站：https://tool.oschina.net/regex/

数据分析及可视化

接下来我们首先看一下所有大类的paper数量分布：

我们使用merge函数，以两个dataframe共同的属性 “categories” 进行合并，并以 “group_name” 作为类别进行统计，统计结果放入 “id” 列中并排序。

data1 = data.merge(df_taxonomy,on="categories",how="left").drop_duplicates(["id","group_name"]).groupby("group_name").agg({
     "id":"count"})
data1
# group_name:里面有NaN--但是group by的时候自动去掉了

	id
group_name
Computer Science	18087
Economics	173
Electrical Engineering and Systems Science	1371
Mathematics	24495
Physics	38379
Quantitative Biology	886
Quantitative Finance	352
Statistics	1802

data2 = data1.sort_values("id",ascending=False)
data2

	id
group_name
Physics	38379
Mathematics	24495
Computer Science	18087
Statistics	1802
Electrical Engineering and Systems Science	1371
Quantitative Biology	886
Quantitative Finance	352
Economics	173

可视化–类别的饼图

data2.sum(0)

id    85545
dtype: int64

data2.div(data2.sum(0),axis=1).iloc[:,0]

group_name
Physics                                       0.448641
Mathematics                                   0.286341
Computer Science                              0.211433
Statistics                                    0.021065
Electrical Engineering and Systems Science    0.016027
Quantitative Biology                          0.010357
Quantitative Finance                          0.004115
Economics                                     0.002022
Name: id, dtype: float64

data2.index # 饼图的labels参数

Index(['Physics', 'Mathematics', 'Computer Science', 'Statistics',
       'Electrical Engineering and Systems Science', 'Quantitative Biology',
       'Quantitative Finance', 'Economics'],
      dtype='object', name='group_name')

# 调整字体大小
import matplotlib.pylab as pylab
params = {
     "axes.titlesize": "xx-large" } # 还是不够大 所以用方法二！
pylab.rcParams.update(params)
#Valid font sizes are xx-small, x-small, small, medium, large, x-large, xx-large, smaller, larger.

# 方法二
import matplotlib as mpl
mpl.rcParams["font.size"] = 15 # 只能控制画布上的参数

# 用饼图可视化
fig,ax = plt.subplots(1,1,figsize=(24,24))
labels = data2.index

explodes = (0, 0, 0, 0.2, 0.3, 0.3, 0.2, 0.1) 
ax.pie(data2.div(data2.sum(0),axis=1).iloc[:,0],explode=explodes,labels = labels,
      autopct = "%1.2f%%",startangle=0,textprops={
     "fontsize":30}); # X必须是1D的数据 只能是一列数据 #textprops控制图形上的参数
ax.set_title("categories percentage");
# 参数
# startangle : float, default: 0 degrees
# The angle by which the start of the pie is rotated,counterclockwise from the x-axis.

_df = data.merge(df_taxonomy, on="categories", how="left").drop_duplicates(["id","group_name"]).groupby("group_name").agg({
     "id":"count"}).sort_values(by="id",ascending=False).reset_index()

_df

	group_name	id
0	Physics	79985
1	Mathematics	51567
2	Computer Science	40067
3	Statistics	4054
4	Electrical Engineering and Systems Science	3297
5	Quantitative Biology	1994
6	Quantitative Finance	826
7	Economics	576

下面我们使用饼图进行上图结果的可视化：

fig = plt.figure(figsize=(15,12))
explode = (0, 0, 0, 0.2, 0.3, 0.3, 0.2, 0.1) 
plt.pie(_df["id"],  labels=_df["group_name"], autopct='%1.2f%%', startangle=160, explode=explode)
plt.tight_layout()
plt.show()

下面统计在数学Mathematics各个子领域2019年后的paper数量，我们同样使用 merge 函数，对于两个dataframe 共同的特征 categories 进行合并并且进行查询。然后我们再对于数据进行统计和排序从而得到以下的结果：

group_name="Mathematics"
cats = data.merge(df_taxonomy, on="categories").query("group_name == @group_name")

cats
# category_name是子类别的全称
# categories是子类别的简写

	id	categories	year	group_name	archive_name	archive_id	category_name	category_description
0	0704.0342	math.AT	2019	Mathematics	Mathematics	Mathematics	Algebraic Topology	Homotopy theory, homological algebra, algebrai...
1	0902.1274	math.AT	2019	Mathematics	Mathematics	Mathematics	Algebraic Topology	Homotopy theory, homological algebra, algebrai...
2	1104.5331	math.AT	2019	Mathematics	Mathematics	Mathematics	Algebraic Topology	Homotopy theory, homological algebra, algebrai...
3	1203.5288	math.AT	2019	Mathematics	Mathematics	Mathematics	Algebraic Topology	Homotopy theory, homological algebra, algebrai...
4	1209.1240	math.AT	2019	Mathematics	Mathematics	Mathematics	Algebraic Topology	Homotopy theory, homological algebra, algebrai...
...	...	...	...	...	...	...	...	...
64899	1912.03519	math.GN	2019	Mathematics	Mathematics	Mathematics	General Topology	Continuum theory, point-set topology, spaces w...
64900	1912.03631	math.GN	2019	Mathematics	Mathematics	Mathematics	General Topology	Continuum theory, point-set topology, spaces w...
64901	1912.03796	math.GN	2019	Mathematics	Mathematics	Mathematics	General Topology	Continuum theory, point-set topology, spaces w...
64902	1912.04214	math.GN	2019	Mathematics	Mathematics	Mathematics	General Topology	Continuum theory, point-set topology, spaces w...
64903	1912.11988	math.GN	2019	Mathematics	Mathematics	Mathematics	General Topology	Continuum theory, point-set topology, spaces w...

24495 rows × 8 columns

cats.groupby(["year","category_name"]).count().reset_index().pivot(index="category_name", columns="year",values="id")

year	2019
category_name
Algebraic Geometry	1726
Algebraic Topology	386
Analysis of PDEs	3025
Category Theory	134
Classical Analysis and ODEs	803
Combinatorics	2601
Commutative Algebra	370
Complex Variables	490
Differential Geometry	1297
Dynamical Systems	1177
Functional Analysis	1166
General Mathematics	296
General Topology	179
Geometric Topology	685
Group Theory	647
History and Overview	132
K-Theory and Homology	54
Logic	642
Metric Geometry	208
Number Theory	2025
Numerical Analysis	990
Operator Algebras	244
Optimization and Control	1718
Probability	1908
Quantum Algebra	165
Representation Theory	599
Rings and Algebras	537
Spectral Theory	124
Symplectic Geometry	167

# Mathematics这类中 Analysis of PDEs这一子类的论文数量最多
# Existence and uniqueness, boundary conditions, linear and non-linear operators, stability, soliton theory, integrable PDE's, conservation laws, qualitative dynamics

统计在计算机Computer Science各个子领域2019年后的paper数量

group_name="Computer Science"
cats = data.merge(df_taxonomy, on="categories").query("group_name == @group_name")
cats.groupby(["year","category_name"]).count().reset_index().pivot(index="category_name", columns="year",values="id")

year	2019	2020
category_name
Artificial Intelligence	558	757
Computation and Language	2153	2906
Computational Complexity	131	188
Computational Engineering, Finance, and Science	108	205
Computational Geometry	199	216
Computer Science and Game Theory	281	323
Computer Vision and Pattern Recognition	5559	6517
Computers and Society	346	564
Cryptography and Security	1067	1238
Data Structures and Algorithms	711	902
Databases	282	342
Digital Libraries	125	157
Discrete Mathematics	84	81
Distributed, Parallel, and Cluster Computing	715	774
Emerging Technologies	101	84
Formal Languages and Automata Theory	152	137
General Literature	5	5
Graphics	116	151
Hardware Architecture	95	159
Human-Computer Interaction	420	580
Information Retrieval	245	331
Logic in Computer Science	470	504
Machine Learning	177	538
Mathematical Software	27	45
Multiagent Systems	85	90
Multimedia	76	66
Networking and Internet Architecture	864	783
Neural and Evolutionary Computing	235	279
Numerical Analysis	40	11
Operating Systems	36	33
Other Computer Science	67	69
Performance	45	51
Programming Languages	268	294
Robotics	917	1298
Social and Information Networks	202	325
Software Engineering	659	804
Sound	7	4
Symbolic Computation	44	36
Systems and Control	415	133

我们可以从结果看出，Computer Vision and Pattern Recognition（计算机视觉与模式识别）类是CS中paper数量最多的子类，遥遥领先于其他的CS子类，并且paper的数量还在逐年增加；另外，Computation and Language（计算与语言）、Cryptography and Security（密码学与安全）以及 Robotics（机器人学）的2019年paper数量均超过1000或接近1000，这与我们的认知是一致的。

你可能感兴趣的:(数据分析)

Linux系统下Conda安装状态检查与环境管理指南 2401_85812053 linux
在Linux系统上管理和使用Conda环境是科学计算和数据分析工作中的常见需求。Conda是一个开源的包管理系统和环境管理系统，广泛用于安装多种编程语言的软件包和库。本文将详细介绍如何在Linux上检查Conda是否已经安装，以及如何管理Conda环境。1.Conda简介Conda是一个跨平台的软件包管理系统，它不仅能够管理Python包，还能管理R、Ruby、Lua、Scala等其他语言的包。C
爬虫获取 item_get_video 接口数据：小红书笔记视频详情的深度解析 API快乐传递者小红书API API 爬虫笔记音视频
在当今内容驱动的互联网时代，小红书作为国内领先的社交电商平台，其笔记视频内容成为品牌营销、内容创作和用户体验的重要组成部分。通过爬虫技术获取小红书笔记视频详情，不仅可以帮助开发者更好地理解用户需求，还能为电商运营、内容推荐和数据分析提供强大的支持。本文将详细介绍如何使用Python爬虫获取小红书item_get_video接口的返回数据，并对其数据结构进行详细解析。一、item_get_video
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
美容院如何通过数据分析降低顾客流失率 shboka920702 信息可视化
美容行业的竞争日益激烈，顾客流失率居高不下已成为许多美容院面临的共同难题。根据《美容行业经营分析报告》的数据，美容行业的平均顾客流失率高达40%，这意味着每10位顾客中就有4位在一年内不再光顾。如何通过数据分析降低顾客流失率，成为美容院经营者亟需解决的问题。顾客流失的原因多种多样，主要包括服务质量、价格、环境、竞争对手等。根据《消费者行为研究》期刊的调查，超过50%的顾客流失是由于服务质量不达标，
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
ArcGIS无插件加载（无偏移）在线天地图高清影像与街道地图指南橘飞侠 arcgis
在地理信息系统（GIS）的应用中，加载高清影像与街道地图对于地图制图、影像查阅、空间数据分析等工作至关重要。天地图作为官方出品的地图服务，以其标准的数据、较快的影像更新速度等特点受到广泛欢迎。以下是如何在ArcGIS中无插件加载（无偏移）天地图高清影像与街道地图的具体步骤。第一步：申请天地图Key访问天地图官方网站的地图服务API页面：http://lbs.tianditu.gov.cn/serv
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
智能租赁系统助力数字化转型提升管理效率与服务质量红点租赁系统开发其他
内容概要在当今快速发展的商业环境中，智能租赁系统正如一位得力助手，帮助企业以数字化的方式提升管理效率与服务质量。想象一下，传统的租赁管理就像是一场需要精确时间安排的舞蹈，而智能租赁系统则提供了高科技的音响设备，让整个表演流畅无比。通过先进的数字技术，比如云计算和大数据分析，这些系统能够优化资源配置，让企业的每一分钱都花得物有所值。更妙的是，智能租赁系统不仅高效处理日常事务，还能提供精确的数据分析，
金融租赁系统智慧风控实践探索红点租赁系统开发其他
内容概要当传统金融租赁还在和纸质合同较劲时，兴业金融租赁系统已经玩起了"变形金刚式"的智慧风控。这套系统就像给资产装上了GPS定位器+心电图监测仪，通过物联网传感器实时捕捉设备运行数据，配合卫星定位追踪车辆轨迹，再让大数据分析引擎消化海量场景信息——从工地的混凝土搅拌频率到物流车队的急刹车次数，全被转化成可量化的风险坐标。技术手段业务指标提升应用场景案例物联网传感器异常响应速度提升70%工程机械油
【MySQL基础-9】深入理解MySQL中的聚合函数 AllenBright #MySQL mysql 数据库
在数据库操作中，聚合函数是一类非常重要的函数，它们用于对一组值执行计算并返回单个值。MySQL提供了多种聚合函数，如COUNT、SUM、AVG、MIN和MAX等。这些函数在数据分析和报表生成中扮演着关键角色。本文将深入探讨这些聚合函数的使用方法、注意事项以及一些高级技巧。1.聚合函数概述聚合函数主要用于对一组值进行计算，并返回一个单一的值。常见的聚合函数包括：COUNT()：计算行数。SUM()：
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
Python数据可视化与地理空间分析 CrMylive. 信息可视化 python 开发语言
数据可视化是数据分析的一个关键环节，它将数据转化为可视化的图形和图表，帮助人们更好的理解和分析数据。Python作为一种通用的编程语言，也可以用于数据可视化和地理空间分析。本文将深入探讨Python在数据可视化和地理空间分析方面的应用。一、Python数据可视化Python数据可视化的核心工具是matplotlib，它是一个开源的绘图库，可以帮助用户创建高质量的静态、动态和交互式图形。除了matp
VBA和Python到底哪个比较难学？ cda2024 python windows 开发语言
开头：引人入胜的对比在当今数字化的时代，编程语言的选择对于许多从事数据分析、自动化办公或软件开发的人来说至关重要。如果你曾经在Excel中使用过宏功能，或者尝试过编写简单的Python脚本来处理数据，那么你可能已经接触到了两种非常流行的编程工具：VBA（VisualBasicforApplications）和Python。两者都具有强大的功能，但学习难度却有所不同。那么，VBA和Python到底哪
Python游戏开发自学指南：从入门到实践（第四天） Small踢倒coffee_氕氘氚 python自学经验分享笔记
Python不仅适用于数据分析、Web开发和自动化脚本，还可以用于游戏开发！虽然Python不是传统意义上的游戏开发语言，但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南，帮助你从入门到实践，掌握用Python开发游戏的技能。##一、为什么选择Python开发游戏？1.**简单易学**：Python语法简洁，适合初学者快速上手。2.
毕设分享大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
毕业设计项目大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
基于MapReduce的气候数据分析赵谨言论文毕业设计经验分享
标题:基于MapReduce的气候数据分析内容:1.摘要本文聚焦于基于MapReduce的气候数据分析。背景在于随着全球气候变化问题日益严峻，海量气候数据的高效处理和分析成为关键。目的是利用MapReduce技术对气候数据进行有效挖掘，以揭示气候变化规律和趋势。方法上，采用MapReduce编程模型对大规模气候数据进行分布式处理，通过数据的映射和归约操作实现并行计算。结果表明，运用该技术能显著提高
python数据可视化玩转Matplotlib subplot子图操作，四个子图（一包四），三个子图，子图拉伸_python subplot 2401_83817843 程序员 python 信息可视化 matplotlib
大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主Matplotlib是一个流行的Python可视化库，它提供了许多功能来创建各种类型的图表。其中一个功能是子图，它允许您在单个图表中绘制多个图。一、创建子图要创建子图，请使用plt.subplots()函数。该函数接受三个参数：行数、列数和子图编号。以下是一个简单的示例：importmatplotlib.pyplotaspltfig,a
Python物联网与传感器数据分析 master_chenchengg python python 办公效率 python开发 IT
Python物联网与传感器数据分析开场白：连接物理世界与数字宇宙物联网的魅力：让物体开口说话Python：编织万物互联的魔法传感器：感知世界的触角数据捕获：从现实世界到数字领域传感器类型概览：温度、湿度、光照及其他Python与硬件接口：树莓派的奇妙旅程实时数据流：如何捕捉每一刻的变化数据处理：挖掘数字宝藏的秘密数据清洗：让数据焕发光彩数据分析：揭秘模式与趋势异常检测：识别噪声与干扰可视化展示：讲
市场波动中的风险管理与策略优化 Q3990385023 区块链
市场波动中的风险管理与策略优化在市场交易中，价格的波动性为投资者提供了交易机会，但同时也带来了风险。如何在市场不确定性中进行有效的风险管理，并优化交易策略，是每位交易者都需要思考的问题。本文将探讨市场波动的影响因素、如何通过合理的资金管理降低风险，以及如何利用数据分析提升交易稳定性。一、市场波动的核心影响因素1.供需关系变化市场价格的波动主要受到供需关系的影响。无论是受宏观经济政策影响，还是市场预
第二十五篇 SQL优化杀手锏：用分析函数让你的查询快如闪电随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录一、初识分析函数：外卖骑手的一天1.1真实工作场景二、分析函数三板斧（超直观对比表）三、手把手教学：5大核心函数详解️3.1排名三剑客（班级成绩单案例）3.1.1ROW_NUMBER()：唯一学号式排名3.1.2RANK()：运动会颁奖式排名3.1.3DENSE_RANK()：电梯楼层式排名3.2时间旅行函数（股票分析案例）3.3滑动窗口函数（疫情数据分析）四、性能优化三大绝招（让老板眼前一亮
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
批量安装 Python 库的脚本：提高python学习效率的第一步（附源码） TAGRENLA Interesting python project python 学习开发语言
批量安装Python库批量安装Python库的脚本：提高数据分析效率的一步（附源码）批量安装脚本前提条件使用pip：Python包管理工具批量安装脚本查看当前python解释器中安装的所有的库批量安装Python库的脚本：提高数据分析效率的一步（附源码）在现代数据分析领域，Python已成为一个不可或缺的工具。为了进行数据处理、分析、可视化和建模等任务，Python社区涌现出了众多强大的库和工具。
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">