Tinali_127

Task3 论文页数图表代码统计

1. 任务说明

任务主题：论文代码统计，统计所有论文出现代码的相关统计；
任务内容：使用正则表达式统计代码连接、页数和图表数据；
任务成果：学习正则表达式统计；`

# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式，匹配字符串的模式
import requests #用于网络连接，发送网络请求，使用域名获取对应信息
import json #读取数据，我们的数据为json格式的
import pandas as pd #数据处理，数据分析
import numpy as np
import matplotlib.pyplot as plt #画图工具

2. 数据读取

def readArxivFile(path, columns=['id', 'submitter', 'authors', 'title', 'comments', 'journal-ref', 'doi',
       'report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'], count=None):
    '''
    定义读取文件的函数
        path: 文件相对路径
        columns: 需要选择的列
        count: 读取行数(原数据有17万+行)
    '''
    
    data  = []
    with open(path, 'r') as f: 
        for idx, line in enumerate(f): 
            if idx == count: # 索引从0开始，所以idx=count-->已经是第count+1条数据
                break
                
            # 读取每一行数据
            d = json.loads(line) # **关心所有列**--原始的样本：包含所有列的字典形式
            d = {col : d[col] for col in columns} # **关心其中某几列**--用字典生成式，key=列名，value=样本中对应列名的值 # 如果需要所有列，直接json.loads就行
            #print(d)
            data.append(d)

    data = pd.DataFrame(data)
    return data

data = readArxivFile(path="./data/arxiv-metadata-oai-2019.json",columns = ["id","abstract","categories","comments"])
data.head()

	id	abstract	categories	comments
0	0704.0297	We systematically explore the evolution of t...	astro-ph	15 pages, 15 figures, 3 tables, submitted to M...
1	0704.0342	Cofibrations are defined in the category of ...	math.AT	27 pages
2	0704.0360	We explore the effect of an inhomogeneous ma...	astro-ph	6 pages, 3 figures, accepted in A&A
3	0704.0525	This paper has been removed by arXiv adminis...	gr-qc	This submission has been withdrawn by arXiv ad...
4	0704.0535	The most massive elliptical galaxies show a ...	astro-ph	32 pages (referee format), 9 figures, ApJ acce...

data["comments"][0]

'15 pages, 15 figures, 3 tables, submitted to MNRAS (Low resolution\n  version; a high resolution version can be found at:\n  http://www.astro.uva.nl/~scyoon/papers/wdmerger.pdf)'

for index,comment in enumerate(data["comments"].head(10)):
    print(index,comment) # comments字段中会有具体代码的链接

0 15 pages, 15 figures, 3 tables, submitted to MNRAS (Low resolution
  version; a high resolution version can be found at:
  http://www.astro.uva.nl/~scyoon/papers/wdmerger.pdf)
1 27 pages
2 6 pages, 3 figures, accepted in A&A
3 This submission has been withdrawn by arXiv administrators due to
  inappropriate text reuse from external sources
4 32 pages (referee format), 9 figures, ApJ accepted
5 8 pages, 13 figures
6 5 pages, pdf format
7 30 pages
8 6 pages, 4 figures, Submitted to Physical Review Letters
9 34 pages, 9 figures, accepted for publication in ApJ

3. 统计论文页数–comments字段中的pages

data.info()


RangeIndex: 170618 entries, 0 to 170617
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id          170618 non-null  object
 1   abstract    170618 non-null  object
 2   categories  170618 non-null  object
 3   comments    118104 non-null  object
dtypes: object(4)
memory usage: 5.2+ MB

3.1 re.findall(pattern, string, flags=0)

Return a list of all non-overlapping matches in the string.

If one or more capturing groups are present in the pattern, return
a list of groups; this will be a list of tuples if the pattern
has more than one group

If no such pattern detected in the string–>return 空list

pages_pattern = "[1-9][0-9]* pages"
re.findall(pages_pattern,"10 pages,11 figures,20 pages") #如果findall有多个匹配，都会放到list里--len就不是1了

['10 pages', '20 pages']

pages_pattern = "[1-9][0-9]* pages" # 匹配至少一位的数字
# 至少是一位数--肯定在1--9的范围内，其他位数的范围就是0-9了，[0-9]* 代表0-9的数字匹配0次/多次（0次：1位数 多次：至少两位数）

re.findall(pages_pattern,data["comments"][0])

['15 pages']

data.comments.apply(lambda x:re.findall(pages_pattern,str(x))).head(10) #保险一点，用str函数进行数据类型的转换--但其实comments这一列都是object类型
# 只显示前10行

0         [15 pages]
2          [6 pages]
4         [32 pages]
5          [8 pages]
8          [6 pages]
             ...    
170594     [9 pages]
170596     [5 pages]
170603     [8 pages]
170604    [88 pages]
170608    [12 pages]
Name: comments, Length: 49690, dtype: object

3.2 抽取出comments字段里面的pages

用coln.apply(lambda x: re.findall(pattern,str(x)))

data["pages"] = data.comments.apply(lambda x:re.findall(pages_pattern,str(x)))
data.head()

	id	abstract	categories	comments	pages
0	0704.0297	We systematically explore the evolution of t...	astro-ph	15 pages, 15 figures, 3 tables, submitted to M...	[15 pages]
1	0704.0342	Cofibrations are defined in the category of ...	math.AT	27 pages	[27 pages]
2	0704.0360	We explore the effect of an inhomogeneous ma...	astro-ph	6 pages, 3 figures, accepted in A&A	[6 pages]
3	0704.0525	This paper has been removed by arXiv adminis...	gr-qc	This submission has been withdrawn by arXiv ad...	[]
4	0704.0535	The most massive elliptical galaxies show a ...	astro-ph	32 pages (referee format), 9 figures, ApJ acce...	[32 pages]

# pages这一列是object类型，但每个元素是list

3.3 筛选出有pages的论文

(data["pages"].apply(len) > 0)[:10]

0     True
1     True
2     True
3    False
4     True
5     True
6     True
7     True
8     True
9     True
Name: pages, dtype: bool

# 方法一：
# 对pages这一列的每个值（list），运行len函数，再判断是否>0-->得到一列布尔值
(data["pages"].apply(len) > 0)[:10] # 这里的len是在求每个list的长度

0          True
1          True
2          True
3         False
4          True
          ...  
170613    False
170614    False
170615     True
170616     True
170617     True
Name: pages, Length: 170618, dtype: bool

# 方法二：
# 对pages这一列的每个值，运行len是否>0的函数，返回结果已经是布尔值
data.pages.apply(lambda x:len(x)>0)

0          True
1          True
2          True
3         False
4          True
          ...  
170613    False
170614    False
170615     True
170616     True
170617     True
Name: pages, Length: 170618, dtype: bool

# 判断长度是否>0
df.coln.apply(len) > 0 # 结果是一列布尔值 # len函数不需要参数么？？
df.coln.apply(lambda x:len(x) > 0) # 结果也是一列布尔值

# 筛选出有pages的论文--直接修改原始数据集
data = data[data["pages"].apply(len) > 0]

data.pages.head(10)

0     [15 pages]
1     [27 pages]
2      [6 pages]
4     [32 pages]
5      [8 pages]
6      [5 pages]
7     [30 pages]
8      [6 pages]
9     [34 pages]
10     [4 pages]
Name: pages, dtype: object

3.4 从列表包含的字符串中提取出想要的数字

由于re.findall的结果是个list eg：[“15 pages”]–要从中提取出15这个数字

data.pages[0][0]

'15 pages'

re.match(r"([1-9][0-9]*)",data.pages[0][0]).group(1)

'15'

# 方法一：用x[0]提取出list中的string；用正则表达式提取出pages的数字部分--结果是string！
data.pages.apply(lambda x:re.match(r"([1-9][0-9]*)",x[0]).group(1))[:10] # x--是pages这一列的每个元素：list；x[0] -- string
# 只显示前10

0     15
1     27
2      6
4     32
5      8
6      5
7     30
8      6
9     34
10     4
Name: pages, dtype: object

# 方法二：# 用x[0]提取出list中的string；将" pages"（数字后面的所有）替换成空-->这样就只有数字存在了--结果也是string
data.pages[0][0].replace(" pages","")

'15'

data.pages.apply(lambda x:int(x[0].replace(" pages","")))[:10] # lambda匿名函数的参数是x--list，要用x[0]取出里面的string 才能进行str.replace

0     15
1     27
2      6
4     32
5      8
6      5
7     30
8      6
9     34
10     4
Name: pages, dtype: int64

data["pages"] = data.pages.apply(lambda x:int(x[0].replace(" pages",""))) # 用int函数转换数据类型从string-->int

data.info()


Int64Index: 80696 entries, 0 to 170617
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          80696 non-null  object
 1   abstract    80696 non-null  object
 2   categories  80696 non-null  object
 3   comments    80696 non-null  object
 4   pages       80696 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 3.7+ MB

data.pages.describe()

count    80696.000000
mean        18.965872
std         20.377207
min          1.000000
25%          9.000000
50%         14.000000
75%         24.000000
max       1958.000000
Name: pages, dtype: float64

data.pages.describe(percentiles=[0.1,0.25,0.5,0.75,0.85,0.9,0.95,0.99]).astype(int) # pages右偏很严重

count    80696
mean        18
std         20
min          1
10%          6
25%          9
50%         14
75%         24
85%         30
90%         36
95%         46
99%         81
max       1958
Name: pages, dtype: int32

3.5 由于右偏–这里只考虑pages前99%的数据

data_no_outlier = data[data.pages<81] # 这里不考虑99%分位数以上的数
data_no_outlier.head()

	id	abstract	categories	comments	pages
0	0704.0297	We systematically explore the evolution of t...	astro-ph	15 pages, 15 figures, 3 tables, submitted to M...	15
1	0704.0342	Cofibrations are defined in the category of ...	math.AT	27 pages	27
2	0704.0360	We explore the effect of an inhomogeneous ma...	astro-ph	6 pages, 3 figures, accepted in A&A	6
4	0704.0535	The most massive elliptical galaxies show a ...	astro-ph	32 pages (referee format), 9 figures, ApJ acce...	32
5	0704.0710	Differential and total cross-sections for ph...	nucl-ex	8 pages, 13 figures	8

plt.figure(figsize=(10, 6))
plt.hist(data_no_outlier.pages); # 即使过滤掉extreme case: pages整体还是右偏的趋势--85%的论文页数在0-30之间

对pages进行统计，统计结果如下: 论文平均页数为18，最少1页，最多1958页，75%的论文页数在24页以内

4. 按照分类统计论文页数

这里为了简单：只看论文第一个类别的主要类别（默认类别是按照相关性从高到低排序的 所以第一个类别和论文的相关性最高）

data.categories[1].split(' ')[0]

'math.AT'

first_cat = data.categories.apply(lambda x:x.split(" ")[0]) # 取类别字段中的第一个类别--str.split(空格)--结果是list，取出第一个
first_cat.head(10)

0     astro-ph
1      math.AT
2     astro-ph
4     astro-ph
5      nucl-ex
6     quant-ph
7      math.DG
8       hep-ex
9     astro-ph
10      hep-ex
Name: categories, dtype: object

first_cat[1].split(".")[0]

'math'

data["categories"] = first_cat.apply(lambda x: x.split(".")[0])
# 取出第一个类别的主要类别--.前面的部分

data.groupby("categories")["pages"].mean().sort_values() # 每个主要类别的论文平均页数 # 并按照mean从小到大排序

categories
chem-ph      4.000000
cmp-lg       6.500000
acc-phys     8.500000
comp-gas     9.000000
nucl-ex      9.468104
dg-ga       10.500000
chao-dyn    10.888889
hep-ex      11.158023
eess        11.503799
cond-mat    13.790076
patt-sol    14.000000
nucl-th     14.730808
cs          15.143570
quant-ph    15.302526
hep-lat     15.905822
physics     16.032428
astro-ph    16.369079
nlin        17.575139
gr-qc       18.852640
hep-ph      19.230494
alg-geom    20.000000
q-bio       20.473860
q-fin       24.691877
stat        24.817099
math        25.805516
adap-org    26.333333
q-alg       27.333333
hep-th      27.607584
solv-int    27.666667
math-ph     28.016901
econ        28.618056
Name: pages, dtype: float64

plt.figure(figsize=(12,6))
data.groupby("categories")["pages"].mean().sort_values().plot(kind="barh");

单从论文平均页数来看：最多的类别是经济econ；其次是Mathematical Physics（math-ph）

# 只看论文平均页数top5的类别--画箱线图: 是否存在偏态
top5_cat = data.groupby("categories")["pages"].mean().sort_values().tail(5).index

top5_cat # index类型

Index(['q-alg', 'hep-th', 'solv-int', 'math-ph', 'econ'], dtype='object', name='categories')

top5_cat.values # array数组类型

array(['q-alg', 'hep-th', 'solv-int', 'math-ph', 'econ'], dtype=object)

data.categories.isin(top5_cat).head(10) # 查看某一列的值是否在一个list/array中--如果在：返回True

0     False
2     False
4     False
5     False
8     False
9     False
10    False
12    False
15    False
16    False
Name: categories, dtype: bool

top5_data = data[data.categories.isin(top5_cat.values)]
top5_data.head()

	id	abstract	categories	comments	pages
30	0704.2912	In distinction to the Neumann case the squee...	math-ph	LaTeX, 16 pages	16
44	0705.0646	Intersecting stacks of supersymmetric fracti...	hep-th	8 pages, no figures	8
56	0705.1407	We consider Schr\"odinger operator in dimens...	math-ph	LaTeX 2e, 12 pages	12
60	0705.1641	For the complex Clifford algebra Cl(p,q) of ...	math-ph	39 pages	39
78	0705.2487	In this paper we attempt to reconstruct one ...	math-ph	LaTeX, 9 pages; in memoriam Vladimir A. Geyler...	9

sns.boxplot(x=top5_data.categories,y=top5_data.pages);

可以看出math-ph(Mathematical Physics) 和 hep-th(High Energy Physics - Theory)的论文页数偏大的值特别多（异常值特别多）
反而平均页数最多的类别econ的异常值很少–说明平均页数多是因为整体论文页数都多，而不是因为存在很多异常值拉高了平均水平

5. 统计论文图表个数–comments字段里面的figures

figure_pattern = r"[1-9][0-9]* figures"

# 从comments字段中抽取符合pattern的部分
data["figures"] = data.comments.apply(lambda x:re.findall(figure_pattern,str(x)))

# 筛选出figures>0的论文
data = data[data["figures"].apply(len) > 0]

# 从列表中抽取str抽取想要的数字--string类型 要用float进行转换
data["figures"] = data["figures"].apply(lambda x:float(x[0].replace(" figures","")))

data.head()

	id	abstract	categories	comments	pages	figures
0	0704.0297	We systematically explore the evolution of t...	astro-ph	15 pages, 15 figures, 3 tables, submitted to M...	15	15.0
2	0704.0360	We explore the effect of an inhomogeneous ma...	astro-ph	6 pages, 3 figures, accepted in A&A	6	3.0
4	0704.0535	The most massive elliptical galaxies show a ...	astro-ph	32 pages (referee format), 9 figures, ApJ acce...	32	9.0
5	0704.0710	Differential and total cross-sections for ph...	nucl-ex	8 pages, 13 figures	8	13.0
8	0704.1000	We report a measurement of D0-D0bar mixing i...	hep-ex	6 pages, 4 figures, Submitted to Physical Revi...	6	4.0

data.figures.describe(percentiles=[0.1,0.25,0.5,0.75,0.85,0.9,0.95,0.99]).astype("int")

count    49690
mean         7
std         23
min          1
10%          3
25%          4
50%          6
75%         10
85%         12
90%         15
95%         19
99%         33
max       4989
Name: figures, dtype: int32

很明显figures图片也是右偏的
最小值=1，最大值快5K，90%的论文包含的图片个数都是15个以下

6. 最后对论文的代码链接进行提取–判断这篇论文有无代码链接

为了简化：只考虑github链接

# 筛选包含github的论文
data_with_code = data[
    (data.comments.str.contains('github'))|
                      (data.abstract.str.contains('github'))
]
# 可以不写str.contains() == True：因为str.contains()的返回结果已经是T/F了 如果包含github这个子字符串，则返回True
# comments/abstract的关系是或 | 二者有一个包含github就可以

data_with_code.isnull().mean()

id            0.0
abstract      0.0
categories    0.0
comments      0.0
pages         0.0
figures       0.0
dtype: float64

data_with_code['text'] = data_with_code['abstract'].fillna('') + data_with_code['comments'].fillna('')
# 将abstract列和comments列进行拼接
# 如果这两列有空值NaN的地方，填补为空
# 但according to isnull().mean()的结果--这两列都没有空值；实际操作是这两列拼接起来

data_with_code.reset_index(inplace=True) # 进行了行的筛选之后always 重置索引

data_with_code.text[0]

"  Bayesian inference involves two main computational challenges. First, in\nestimating the parameters of some model for the data, the posterior\ndistribution may well be highly multi-modal: a regime in which the convergence\nto stationarity of traditional Markov Chain Monte Carlo (MCMC) techniques\nbecomes incredibly slow. Second, in selecting between a set of competing models\nthe necessary estimation of the Bayesian evidence for each is, by definition, a\n(possibly high-dimensional) integration over the entire parameter space; again\nthis can be a daunting computational task, although new Monte Carlo (MC)\nintegration algorithms offer solutions of ever increasing efficiency. Nested\nsampling (NS) is one such contemporary MC strategy targeted at calculation of\nthe Bayesian evidence, but which also enables posterior inference as a\nby-product, thereby allowing simultaneous parameter estimation and model\nselection. The widely-used MultiNest algorithm presents a particularly\nefficient implementation of the NS technique for multi-modal posteriors. In\nthis paper we discuss importance nested sampling (INS), an alternative\nsummation of the MultiNest draws, which can calculate the Bayesian evidence at\nup to an order of magnitude higher accuracy than `vanilla' NS with no change in\nthe way MultiNest explores the parameter space. This is accomplished by\ntreating as a (pseudo-)importance sample the totality of points collected by\nMultiNest, including those previously discarded under the constrained\nlikelihood sampling of the NS algorithm. We apply this technique to several\nchallenging test problems and compare the accuracy of Bayesian evidences\nobtained with INS against those from vanilla NS.\n28 pages, 6 figures, 2 tables. Accepted for publication in The Open\n  Journal of Astrophysics. Code available from\n  https://github.com/farhanferoz/MultiNest/"

data_with_code.abstract[0]

"  Bayesian inference involves two main computational challenges. First, in\nestimating the parameters of some model for the data, the posterior\ndistribution may well be highly multi-modal: a regime in which the convergence\nto stationarity of traditional Markov Chain Monte Carlo (MCMC) techniques\nbecomes incredibly slow. Second, in selecting between a set of competing models\nthe necessary estimation of the Bayesian evidence for each is, by definition, a\n(possibly high-dimensional) integration over the entire parameter space; again\nthis can be a daunting computational task, although new Monte Carlo (MC)\nintegration algorithms offer solutions of ever increasing efficiency. Nested\nsampling (NS) is one such contemporary MC strategy targeted at calculation of\nthe Bayesian evidence, but which also enables posterior inference as a\nby-product, thereby allowing simultaneous parameter estimation and model\nselection. The widely-used MultiNest algorithm presents a particularly\nefficient implementation of the NS technique for multi-modal posteriors. In\nthis paper we discuss importance nested sampling (INS), an alternative\nsummation of the MultiNest draws, which can calculate the Bayesian evidence at\nup to an order of magnitude higher accuracy than `vanilla' NS with no change in\nthe way MultiNest explores the parameter space. This is accomplished by\ntreating as a (pseudo-)importance sample the totality of points collected by\nMultiNest, including those previously discarded under the constrained\nlikelihood sampling of the NS algorithm. We apply this technique to several\nchallenging test problems and compare the accuracy of Bayesian evidences\nobtained with INS against those from vanilla NS.\n"

data_with_code.comments[0] # text这个字段是把abstract和comments拼接在一起了-->为了方便找到github连接 不用去两个字段里找了

'28 pages, 6 figures, 2 tables. Accepted for publication in The Open\n  Journal of Astrophysics. Code available from\n  https://github.com/farhanferoz/MultiNest/'

# 使用正则表达式匹配论文
pattern = '[a-zA-z]+://github[^\s]*'
data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(len)

匹配前面的子表达式一次或多次

匹配前面的子表达式零次或多次

[a-zA-z]+://github[^\s]*
- 字母（大小写）匹配1次或多次，匹配：，匹配//（双斜杠）,匹配github，匹配除了（空白符包括换行）以外的且匹配0次或多次

pattern = '[a-zA-z]+://github[^\s]*'

data_with_code['text'].str.findall(pattern) # 找出text中所有匹配的部分，return结果是list

0      [https://github.com/farhanferoz/MultiNest/]
1                                               []
2           [https://github.com/jeanluct/braidlab]
3        [https://github.com/compops/pmh-tutorial]
4       [https://github.com/COINtoolbox/DRACULA).]
                          ...                     
436         [https://github.com/sfeeney/ddspectra]
437    [https://github.com/infrontofme/UWGAN_UIE.]
438        [https://github.com/closest-git/ONNet.]
439                                             []
440      [https://github.com/JWFangit/LOTVS-DADA.]
Name: text, Length: 441, dtype: object

data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(lambda x: 0 if len(x) < 1 else 1)
data_with_code
# 新字段：code_flag--这篇论文有无代码的出现
# 匿名函数的参数x是list
# 如果x的长度<1 i.e list的长度=0：这个text没有匹配--没有github代码连接--映射成0（无）
# 如果x的长度>1 i.e 至少一个github代码连接--映射成1（有）
# 只关心有没有代码连接（1/0）不关心几个代码连接 所以0 if len(x) < 1 else 1

:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(lambda x: 0 if len(x) < 1 else 1)

	index	id	abstract	categories	comments	pages	figures	text	code_flag
0	5578	1306.2144	Bayesian inference involves two main computa...	astro-ph	28 pages, 6 figures, 2 tables. Accepted for pu...	28	6.0	Bayesian inference involves two main computa...	1
1	7180	1407.5514	We present the concept of an acoustic rake r...	cs	12 pages, 11 figures, Accepted for publication...	12	11.0	We present the concept of an acoustic rake r...	0
2	7475	1410.0849	Braidlab is a Matlab package for analyzing d...	math	52 pages, 32 figures. See https://github.com/j...	52	32.0	Braidlab is a Matlab package for analyzing d...	1
3	9857	1511.01707	This tutorial provides a gentle introduction...	stat	41 pages, 7 figures. In press for Journal of S...	41	7.0	This tutorial provides a gentle introduction...	1
4	10207	1512.06810	The existence of multiple subclasses of type...	astro-ph	16 pages, 12 figures, accepted for publication...	16	12.0	The existence of multiple subclasses of type...	1
...	...	...	...	...	...	...	...	...	...
436	166505	1912.09498	Upcoming million-star spectroscopic surveys ...	astro-ph	15 pages, 9 figures, code available from\n ht...	15	9.0	Upcoming million-star spectroscopic surveys ...	1
437	166901	1912.10269	In real-world underwater environment, explor...	eess	10 pages, 8 figures	10	8.0	In real-world underwater environment, explor...	1
438	167132	1912.10730	Diffractive deep neural network (DNNet) is a...	cs	5 pages,5 figures	5	5.0	Diffractive deep neural network (DNNet) is a...	1
439	167296	1912.11032	Learning robotic manipulation tasks using re...	cs	10 pages, 4 figures and 1 table in main articl...	10	4.0	Learning robotic manipulation tasks using re...	0
440	167894	1912.12148	Driver attention prediction has recently abs...	cs	12 pages, 13 figures, submitted to IEEE-TITS	12	13.0	Driver attention prediction has recently abs...	1

441 rows × 9 columns

# 只筛选出有代码连接的论文
data_with_code = data_with_code[data_with_code.code_flag == 1]

plt.figure(figsize=(10,6))
data_with_code.groupby("categories")["code_flag"].count().sort_values().plot(kind="barh")
plt.xlabel("count")

Text(0.5, 0, 'count')

可以看出来类别为cs（Computer Science）& astro-ph（Astrophysics）的论文中：包含代码连接的论文数量是最多的top2 远超过其他的类别

你可能感兴趣的:(数据分析)

matplotlib 绘制热力图扶子 python matplotlib绘图代码 matplotlib python 经验分享热力图
1、功能介绍：使用了matplotlib和seaborn两个python库来创建并显示一个热力图。热力图是一种通过颜色变化来表示二维表格数据集中值分布的图形，适合用于展示矩阵数据或数据分析结果中的模式和趋势。2、代码部分：importmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnp#设置中文字体plt.rcParams['font.sa
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
DeepSeek在性能测试中的应用：AI驱动的性能优化之旅程序员小雷性能优化功能测试测试工具单元测试测试用例 postman selenium
上次我们讨论了DeepSeek在自动化测试中的应用，今天我们继续深入探讨如何使用DeepSeek来进行性能测试。性能测试往往涉及大量数据分析和性能瓶颈诊断，这正是AI的强项。让我们看看如何借助DeepSeek的强大能力，让性能测试变得更智能、更高效。1.性能测试场景生成器首先，我们需要一个智能的性能测试场景生成器：classPerformanceScenarioGenerator:def__ini
对话式数据分析与Text2SQL Agent产品可行性分析思考
Text2SQLAgent产品可行性分析报告版本BG：基于一些手撸Text2SQL的产品MVP，进一步进行商业化思考。目标输出包含市场、技术、开发、商业模式及护城河策略的完整可行性分析报告，支撑产品决策。✅市场调研与竞品分析研究内容：市场现状与趋势全球Text2SQL技术应用场景（金融、零售、医疗等）2023-2028年复合增长率（CAGR）及驱动因素（如低代码、AI民主化）竞品分析矩阵竞品类型代
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（二）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025湖北职业技能大赛高职组信息安全评估赛项样题赛题网络加固
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（二）第一部分：第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）第三部分应用程序安全任务4：HP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：人力资源管理系统（60分）可以培训任务
2025学年湖北省职业院校技能大赛 “信息安全管理与评估”赛项样题卷（四）落寞的魚丶网络空间安全（职业技能大赛）#信息安全管理与评估赛项 2025职业湖北职业技能大赛职业技能大赛省赛高职组信息安全评估与管理赛项
2025学年湖北省职业院校技能大赛“信息安全管理与评估”赛项样题卷（四）第二部分：网络安全事件响应、数字取证调查、应用程序安全任务书任务1：应急响应（可以培训有答案）任务2：通信数据分析取证（40分）任务3：基于Windows计算机单机取证（120分）任务4：PHP代码审计（40分）第三部分：网络安全渗透、理论技能与职业素养任务一：商城购物系统（60分）可以培训任务二：办公系统（60分）任务三：F
AI表格数据分析
简单发一篇文章，最近看到AI数据分析是越来越火了哈，把简单的流程进行一次简要的分享。AI数据分析的本质，是“结构化数据→模式识别→可视化表达+洞察输出”。1、分析流程详解：（1）数据预处理什么是数据预处理呢？其实它可以理解成你给的是什么。步骤1：识别数据结构表头，字段的含义等。步骤2：清洗数据去除空值、格式错误、重复数据。步骤3：类型识别判断哪些是时间字段？哪些是数值型？哪些是分类字段？总结：类似
《网络攻防技术》《数据分析与挖掘》《网络体系结构与安全防护》这三个研究领域就业如何？扣棣编程其他网络数据分析安全
这几个研究领域都是当前信息技术领域的热点方向，就业前景总体来说都非常不错，但各有侧重和特点。我来帮你详细分析一下：1.网络攻防技术就业前景：非常火热且持续增长。核心方向：渗透测试、漏洞挖掘与分析、恶意软件分析、入侵检测/防御、应急响应、威胁情报、安全审计、红蓝对抗等。市场需求：极高。数字化转型深入、网络攻击日益频繁和复杂（勒索软件、APT攻击、供应链攻击等）、数据安全与隐私保护法规（如GDPR、中
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
中国双非高校经费TOP榜数据分析归零鸟高考考研高校大学
当我们习惯性仰望985、211这些“国家队”时，一批地方重点支持的高校正悄悄发力，手握重金，展现出不逊于名校的“钞能力”。特别是“双非”大学中的佼佼者，它们的年度经费预算，足以让许多普通院校望尘莫及。今天就带大家揭开2024年全国高校经费预算的神秘面纱，尤其关注那些没有985/211光环，却获得财政“真金白银”大力支持的双非实力派们！（数据综合整理自各高校2024年公开预算报告及相关教育资讯平台，
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户