crabstew

Python数据处理相关语法整理

简介
Python自身特性总结
编程Tips
拿到新电脑配环境时做的事：
一些加速python代码的技巧
Python项目代码结构
量化策略指标计算
- 绝对收益率
- 最大回撤
- 给定累计收益率序列计算收益率序列
- 年化收益率
- 年化波动率
- 夏普比率
-----------------------------------------------------
------------------- 分割线 -------------------------
------------------------------------------------------
字符串
字典
- 字典取数
Datetime库
- 字符串和日期相互转换
- 天数之间的加减
Scipy.stats
Numpy 库
- 数学函数
- 正态分布取样 / 多元正态分布取样
- 排名
- 数组/矩阵的堆叠
- 矩阵(matrix)相关操作
- 广播机制
- 生成固定的随机数
- 排序
- np.nan的处理
- 正负无穷
Pandas库
- 计算相关性
- 统计频数
- 描述性统计describe
- 多层索引Multiindex
- dataframe的整合与形变
- 数学函数
- 计算协方差和相关系数
- 对每一行每一列分别操作
- 时间窗口
- - 计算相关系数
  - 点乘
- 对dataframe的列进行遍历
- 对dataframe的行进行遍历
- 对Series进行遍历
- 生成日期序列
- 读取表格
- 删除满足条件的行
- 增删改查
- - 两个dataframe合并
  - 增加一行
  - 增加一列
  - 删除列
- 设置索引
- - set_index
  - reset_index
- 取索引
- 更改Series和DataFrame列名
- 缺失值/空字符串/inf/字符串/非数值处理
- 表格排序
- - df.sort_values()
  - df.sort_index()
  - df.set_index()
- 表格画图 - df.plot()
- 采样
- - df.resample()
- 对元素进行映射apply
- Shift(num)
- 两个表的连接
- 两个表的遍历
- groupby
- 内连接，左连接，右连接，全外连接(pd.merge)
Matplotlib.pyplot库
- 显示中文
- plt.plot()
- 颜色设置
- Fig和axes和plt画图的区别
- axes 相关属性设置
- plt.subplots
- 设置横纵坐标间隔
- 设置X\Y轴显示的最大值和最小值
- 双坐标轴
- 绘制水平直线
- 图例、网格, 设置
- 一个一个添加子图
- 绘制频率直方图
- 画条形图
- 画3D图
- 画散点图
Serverless
随机数
- 函数
- 随机取样
- 随机分成N组
正则表达式
- re.match（从起始位置开始匹配）
- re.search（扫描整个字符串并返回第一个成功的匹配）
dataclasses库
functools库 --- 缓存函数结果
- 缓存函数结果
有用的代码片段
- 线性回归
- 从列表中随机选取N个数
- 输出重定向
- 并行
- - 使用joblib来并行运行程序
  - 并行之使用Multiprocessing 获取函数值
- 监控内存使用情况
- Subprocess
- 计算运行时间
- 计算每段代码的运行时间的函数装饰器
- 使用tqdm显示for循环的进度条和耗时
- 序列化python对象
- 计算股票行业哑变量因子
- 因子中性化、去极值、标准化
- 非线性规划（Scipy.optimize.minimize）
- - 风险平价
- 拷贝文件
- 拷贝整个文件夹

简介

本篇博文主要是自己在处理金融类数据、编写金融类代码的时候的总结

Email: [email protected]

Python自身特性总结

python的所有类，都是type这个类的实例
metaclass可以允许父类对子类进行修改
variable_name : DataType
python可以以这样的方式指定变量的类型
目录下如果有__init__.py，那么这个目录就会被当成一个包，当import这个目录的时候，会先执行__init__里面的语句
a[::-1]，表示把a的数组里的元素倒序输出，但是只限制在一维里的元素
第三个-1其实是表示步长
一些pip不能安装的，需要下载轮子的包的下载网址
python包下载网址

编程Tips

一般修改dataframe或者Series要重新赋值，比如 df = df.concat([df1,df2],axis=1)
np.isnan 不能识别None，而pd.isnull 适用范围比较广
读取数据设定index后，可以使用 drop_duplicate 一下
如果Series的index是整数的话，索引 s[-1]会报没有-1这个key的错误
如果对dataframe或者Series的行进行筛选，并且要更改的话
记得使用df.loc[ ] 而不是直接 df[ ]
Pandas和Numpy常用库

拿到新电脑配环境时做的事：

关闭自动重启
我的电脑->管理->设置，windows update禁用，并且选项上面选择不操作

点击windows图标，进入设置，设置电源选项

点击windows图标，进入设置，关闭windows更新

一些加速python代码的技巧

使用numba
尽量在循环内少用Series和Dataframe的loc进行索引，这样会造成速度下降
少用dataframe的loc和append来往里面加元素，最好是先在python原生的列表里操作
numpy，dataframe，series只有在统计分析的时候才比较快（就是数据不变了已经），如果要往里面加元素，最好是原生的列表操作比较快
你对列表直接遍历进行操作比你把列表变成Series再进行apply操作要快

Python项目代码结构

python项目代码架构

量化策略指标计算

策略指标计算公式

指标公式：

Calmar（卡玛比率）= 超额收益 / 最大回撤

绝对收益率

给定收益率序列(pd.Series)，计算绝对收益率

def get_absolute_return(return_s):
    return ((return_s+1).cumprod().iloc[-1]-1)

最大回撤

给定累积收益率序列计算最大回撤

def compute_portfolio_max_dawdown(strategy_cumu_return_list):
    # 计算最大回撤
    i = int(np.argmax((np.maximum.accumulate(strategy_cumu_return_list) - strategy_cumu_return_list) /
                      np.maximum.accumulate(strategy_cumu_return_list)))
    if i == 0:
        return 0
    j = int(np.argmax(strategy_cumu_return_list[:i]))  # 开始位置

    max_drawdown = (strategy_cumu_return_list[j] - strategy_cumu_return_list[i]) / strategy_cumu_return_list[j]
    return max_drawdown

其中

np.maximum.accumulate(arr)-arr # 计算每个点的回撤绝对值
(np.maximum.accumulate(arr)-arr) /np.maximum.accumulate(arr) # 计算每个点的回撤比例

给定收益率序列计算最大回撤

def compute_portfolio_max_dawdown(portfolio_return_array):
    strategy_cumu_return_list = (np.array(portfolio_return_array) + 1).cumprod()
    # 计算最大回撤
    i = int(np.argmax((np.maximum.accumulate(strategy_cumu_return_list) - strategy_cumu_return_list) /
                      np.maximum.accumulate(strategy_cumu_return_list)))
    if i == 0:
        return 0
    j = int(np.argmax(strategy_cumu_return_list[:i]))  # 开始位置

    max_drawdown = (strategy_cumu_return_list[j] - strategy_cumu_return_list[i]) / strategy_cumu_return_list[j]
    return max_drawdown

给定累计收益率序列计算收益率序列

def compute_return(cumu_return_lst):
    shift_return_lst = [1] + list(cumu_return_lst)[:-1]
    return_lst = np.array(cumu_return_lst)/np.array(shift_return_lst) - 1
    return_lst[0] = 0
    return return_lst

年化收益率

给定累计收益率序列，计算年化收益率

# day_num是回测天数
def compute_annual_yield(cumu_return_lst):
    day_num = len(cumu_return_lst)
    annual_return = cumu_return_lst[-1]**(252/day_num) - 1
    return annual_return

年化波动率

给定收益率序列，计算年化波动率

def compute_annual_std(return_lst, daily_data_cnt):
    annual_std = np.std(return_lst)*math.sqrt(252*daily_data_cnt)
    return annual_std

夏普比率

给定收益率序列，计算夏普

def compute_portfolio_sharpe_ratio(portfolio_return_array, day_num, daily_data_cnt):
    strategy_cumu_return_list = (np.array(portfolio_return_array) + 1).cumprod()
    annual_yield = strategy_cumu_return_list[-1] ** (252 / day_num) - 1
    annual_std = np.std(portfolio_return_array) * math.sqrt(252 * daily_data_cnt)
    return (annual_yield - 0.04) / annual_std

-----------------------------------------------------

------------------- 分割线 -------------------------

------------------------------------------------------

字符串

字符串大小写转换
字符串大小写转换

字典

字典取数

d.get(key, default)
key是键值，若不存在，则返回default

Datetime库

字符串和日期相互转换

startDate = "2018-10-01"
endDate = "2018-10-31"

###字符转化为日期
startTime = datetime.datetime.strptime(startDate, '%Y-%m-%d').time()
endTime = datetime.datetime.strptime(endDate, '%Y-%m-%d').time()

now = datetime.datetime.now()
print(now)

###日期转化为字符串
print("--1---:" + datetime.datetime.strftime(startTime, "%Y-%m-%d"))
print("--2---:" + datetime.datetime.strftime(endTime, "%Y-%m-%d"))

天数之间的加减

两个日期直接加减可以获得天数

timedelta().days可获得天数

datetime.timedelta(days = XX)是间隔的天数

Scipy.stats

简介：scipy.stats是和数据统计相关的包，有各种统计函数

scipy.stats.rankdata()
可对数组中的数据进行排序
例子

Numpy 库

数学函数

np.cov(x)&np.var(x)
np.cov(x)&np.var(x)两者区别

>>> from numpy import cov
>>> cov([1, 2, 3], [2, 12, 14])
array([[  1.        ,   6.        ],
       [  6.        ,  41.33333333]])

正态分布取样 / 多元正态分布取样

正态分布取样

import numpy as np

np.random.normal(loc=mean, scale=std, size=(,))

多元正态分布取样

import numpy as np
sample = np.random.multivariate_normal(mean=[0,0], cov=[[1,0.5],[0.5,1.5]],size=200)

多元正态分布可以设置协方差矩阵

排名

降序排名：np.argsort(-arr).argsort()
升序排名：np.argsort(arr).argsort()

数组/矩阵的堆叠

np.vstack

T = np.array([9, 15, 25, 14, 10, 18, 0, 16, 5, 19, 16, 20])
S = np.array([39, 56, 93, 61, 50, 75, 32, 85, 42, 70, 66, 80])
M = np.asarray([38, 56, 90, 63, 56, 77, 30, 80, 41, 79, 64, 88])
X = np.vstack((T, S, M))
print(X)
# result
[[ 9 15 25 14 10 18  0 16  5 19 16 20]
 [39 56 93 61 50 75 32 85 42 70 66 80]
 [38 56 90 63 56 77 30 80 41 79 64 88]]

np.hstack

T = np.array([9, 15, 25, 14, 10, 18, 0, 16, 5, 19, 16, 20])
S = np.array([39, 56, 93, 61, 50, 75, 32, 85, 42, 70, 66, 80])
M = np.asarray([38, 56, 90, 63, 56, 77, 30, 80, 41, 79, 64, 88])
X = np.hstack((T, S, M))
print(X)
# result
[ 9 15 25 14 10 18  0 16  5 19 16 20 39 56 93 61 50 75 32 85 42 70 66 80
 38 56 90 63 56 77 30 80 41 79 64 88]

矩阵(matrix)相关操作

将列表转换成矩阵

print(np.matrix([1,3,2]))
# result
[[1 3 2]]

矩阵对应位置相乘：np.multiply()
np.multiply(), np.dot(), * 的区别博客

np.dot()：对于秩为1的数组，执行对应位置相乘，然后再相加；
对于秩不为1的二维数组，执行矩阵乘法运算；超过二维的可以参考numpy库介绍。

* 星号乘法 : 对数组执行对应位置相乘，对矩阵执行矩阵乘法运算

广播机制

numpy中的广播机制

生成固定的随机数

为了生成固定的随机数，我们需要使用种子(seed)
相同的种子会生成相同的随机数
用法：

randomState = np.random.RandomState(0) 
a = randomState.randint(10, size=(5,6))
# 这里的randomState其实就是在前面加了 np.random.seed(0)的 np.random, 后面可以调用randint等随机数生成方法

如果是使用np.random.seed(0)再使用np.random.randint调用，每次调用之前都要加np.random.seed(0)

排序

ndarray.sort()

np.nan的处理

np.nan其实是个float，

但是如果数组里有np.nan，在进行诸如np.argmax()，np.max()之类的统计计算的时候会反正nan

正负无穷

正无穷：np.inf
负无穷: -np.inf

Pandas库

计算相关性

# 较慢
df.corr()

# 较快
pd.DataFrame(np.corrcoef(df.values, rowvar=False), index = df.index, columns=df.columns)

统计频数

描述性统计describe

注意如果不是数值类型的进行describe, 会出现 count unique freq这些。
可以注意一些是否需要进行astype一下
如果想把Series横着加到Dataframe里出现错误，
要先把Series转换成Dataframe

多层索引Multiindex

m_index1=pd.Index([("A","x1"),("A","x2"),("B","y1"),("B","y2"),("B","y3")],names=['class1', 'class2'])
df1=pd.DataFrame(np.random.randint(1,10,(5,3)),index=m_index1)

df.index.names = […]
index.get_level_values(level)
获取多重索引第N曾的索引值
index.tolist()

dataframe的整合与形变

dataframe的整合与形变
注意* 要设置stack(dropna=False), dropna默认为False了

数学函数

数学函数集合：
Series及Dataframe数值计算和统计基础函数应用总结

count(),min(),quantile(),sum(),mean(),median(),std(),skew(),kurt()

cumsum(),cumprod()

value_counts(),unique()

print(df.count(),'→ count统计非Na值的数量\n')
print(df.min(),'→ min统计最小值\n',df['key2'].max(),'→ max统计最大值\n')
print(df.quantile(q=0.75),'→ quantile统计分位数，参数q确定位置\n')
print(df.sum(),'→ sum求和\n')
print(df.mean(),'→ mean求平均值\n')
print(df.median(),'→ median求算数中位数，50%分位数\n')
print(df.std(),'\n',df.var(),'→ std,var分别求标准差，方差\n')
print(df.skew(),'→ skew样本的偏度\n')
print(df.kurt(),'→ kurt样本的峰度\n')

使用rolling().apply(lambda XXXX) 会很慢，
因为apply其实是一个loop。

如果rolling()有实现数学函数，那么可以用，例如 rolling().max()

如果没有的数学函数，例如argmax()，那么可以考虑以下解决方案

方案一：超快

df.rolling(window=n).max()

如果rolling后面实现了一些函数可以用

方案二：超快
使用from numpy.lib.stride_tricks import sliding_window_view 的sliding_window_view

from numpy.lib.stride_tricks import sliding_window_view
sliding_window_view(df1, (d, len(df1.columns))).argmax(axis=2).squeeze()

axis=1：表示沿着行做argmax
axis=2：表示沿着列做argmax

参考stackoverflow

这个实现了一些例如 argmax, argmin, argsort之类的函数

例1：

def _ts_decay_linear(x1: pd.DataFrame, d):
    weight = np.arange(d) + 1
    weight = weight / weight.sum()

    result = sliding_window_view(x1, (d, len(x1.columns))).swapaxes(2,3).dot(weight).squeeze()
    result = np.concatenate([[[np.nan] * x1.shape[1] for i in range(d - 1)], result], axis=0)
    result = pd.DataFrame(result, index=x1.index, columns=x1.columns)
    return result

例2：

def _ts_rank(x1:pd.DataFrame, d):
    result = sliding_window_view(x1, (d, len(x1.columns))).argsort(axis=2).argsort(axis=2).squeeze()[:,-1,:]
    result = np.concatenate([[[np.nan] * x1.shape[1] for i in range(d - 1)], result], axis=0)
    result = pd.DataFrame(result, index=x1.index, columns=x1.columns)
    return result

方案三（使用原生列表处理，较慢）：

def _ts_argmin(x1:pd.DataFrame, d):
    result = []
    for row in x1.T.values.tolist():
        tmp_lst = []
        tmp_lst = tmp_lst + [np.nan] * (d - 1)
        for i in range(d, len(row) + 1):
            slice_lst = row[i - d: i]
            tmp_lst.append(slice_lst.index(min(slice_lst)))
        result.append(tmp_lst)
    result = list(map(list, zip(*result)))
    result = pd.DataFrame(data=result, index=x1.index, columns=x1.columns)
    return result

计算协方差和相关系数

import pandas as pd
# 对于s1是Series的情形
cov = s1.cov(s2)
cor = s1.corr(s2)
# 对于df1是dataframe的情形
df1.corrwith(df2,axis=0/1)

遇到Nan的话会忽略Nan进行计算

对每一行每一列分别操作

dataframe.apply(args=(arg1,arg2),axis=0/1)

axis=1: 对每一行进行操作

import numpy as np
import pandas as pd

a = pd.DataFrame(data=np.random.randint(10,size=(2,5)), index=pd.date_range(start='2020-01-01', end='2020-01-02', freq='D'))
print(a)
a= a.apply(lambda x: x.sum(),axis=1)
print(a)

# 结果
            0  1  2  3  4
2020-01-01  8  2  5  1  2
2020-01-02  3  9  2  4  0

2020-01-01    18
2020-01-02    18

axis=0: 对每一列进行操作

import numpy as np
import pandas as pd

a = pd.DataFrame(data=np.random.randint(10,size=(2,5)), index=pd.date_range(start='2020-01-01', end='2020-01-02', freq='D'))
print(a)
a= a.apply(lambda x: x.sum(),axis=0)
print(a)

# 结果
            0  1  2  3  4
2020-01-01  2  7  6  0  7
2020-01-02  5  7  1  1  8

0     7
1    14
2     7
3     1
4    15

时间窗口

data.rolling(window = num).sum()

注意：如果data是dataframe他可以指定axis=0, axis=0 就是一列一列进行操作，axis=1就是一行一行进行操作

计算相关系数

df1.corrwith(df2, method=‘spearman’, axis=1)

参数：
axis=0 表示计算对应列之间的相关系数
axis=1 表示计算对应行之间的相关系数
遇到Nan的话会忽略Nan进行计算

点乘

a.dot(b)
最好用这个，不要用 * 直接乘，如果b是list或者array会出问题

对dataframe的列进行遍历

iteriterms()

import pandas as pd
import numpy as np

stock_return_df = pd.read_excel('./A_share_monthly_return.xlsx',index_col=0,parse_dates=True)

for col_name, col in stock_return_df.iteritems():
    print(col)

对dataframe的行进行遍历

3种遍历方法

在iterrows()里对row进行更改会直接修改原始dataframe的行，例：

df1 = pd.DataFrame(data=random_state.randint(10000, size=(3774, 3000)), index=pd.date_range('2010-01-01', '2020-05-01', freq='d'))
    print(df1)
    for idx, row in df1.iterrows():
        row[0] = 0
    print(df1)
# 结果
            0     1     2     3     4     ...  2995  2996  2997  2998  2999
2010-01-01  2732  9845  3264  4859  9225  ...  4154  9289  2609  4369  8497
2010-01-02  9305  3001  4810  2906  7437  ...  2644  7230  3830  2067  6998
2010-01-03  1555  1659  4481  9719  5869  ...  2936  3356  7052  9589   818
2010-01-04  2824  6661  4645  4593  2863  ...  5722  4968  4699  3115  6194
2010-01-05  5117  3212  4009  5082   206  ...  3989  1137  8580  9623  9954
...          ...   ...   ...   ...   ...  ...   ...   ...   ...   ...   ...
2020-04-27  7157  7164  8072  1829  5243  ...  6620  8079  9726  9272  3106
2020-04-28  8603  3301  6819  5708  6772  ...  2344  4667  1416  5496  7303
2020-04-29  4922  9285  2712  3649   567  ...  6840  8727  1475  6463  4575
2020-04-30  1604  9847  9379  1088  5234  ...  4701  9478  7822  6443   652
2020-05-01  4877   895  2257  9885  6252  ...  5241  7137   679   804  6447

[3774 rows x 3000 columns]
            0     1     2     3     4     ...  2995  2996  2997  2998  2999
2010-01-01     0  9845  3264  4859  9225  ...  4154  9289  2609  4369  8497
2010-01-02     0  3001  4810  2906  7437  ...  2644  7230  3830  2067  6998
2010-01-03     0  1659  4481  9719  5869  ...  2936  3356  7052  9589   818
2010-01-04     0  6661  4645  4593  2863  ...  5722  4968  4699  3115  6194
2010-01-05     0  3212  4009  5082   206  ...  3989  1137  8580  9623  9954
...          ...   ...   ...   ...   ...  ...   ...   ...   ...   ...   ...
2020-04-27     0  7164  8072  1829  5243  ...  6620  8079  9726  9272  3106
2020-04-28     0  3301  6819  5708  6772  ...  2344  4667  1416  5496  7303
2020-04-29     0  9285  2712  3649   567  ...  6840  8727  1475  6463  4575
2020-04-30     0  9847  9379  1088  5234  ...  4701  9478  7822  6443   652
2020-05-01     0   895  2257  9885  6252  ...  5241  7137   679   804  6447

[3774 rows x 3000 columns]

Process finished with exit code 0

对Series进行遍历

for row_num, (factor_name, val) in enumerate(s.items()):
	pass

生成日期序列

pd.daterange(start= , end= , periods= ,freq= )
freq参数详情见链接

生成年频日期

for date in pd.date_range(start='2011',periods=10,freq='Y'):
    print(date)

读取表格

pd.read_csv(file_name, index_col=0, parse_dates=True) 默认以 ‘,’ 分割
pd.read_table(file_name) 默认以 ‘\t’ 分割
pd.read_table 的sep参数可以指定分割符
index_col = False的话表示读取的文件没有index列，index_col=0表示第0列是index
parse_dates=[‘col_name’]会将对应列的日期字符串转换成日期的格式
*当文件为空的时候会报错

删除满足条件的行

dataframe删除满足条件的行

增删改查

两个dataframe合并

*注意循环理最好不要有concat，循环里可以把series变成list，加道一个大list里。最后把那个list变成dataframe，这样快些

pd.concate([df1, df2], axis=0/1)
axis=0：把行拼在一起

import numpy as np
import pandas as pd


a = pd.DataFrame(data=np.random.randint(4,size=(2,2)))
b = pd.DataFrame(data=np.random.randint(4,size=(2,2)))

print(pd.concat([a,b], axis=0))

# 结果
   0  1
0  2  2
1  0  1
0  1  1
1  1  0

axis=1：把列拼在一起

import numpy as np
import pandas as pd


a = pd.DataFrame(data=np.random.randint(4,size=(2,2)))
b = pd.DataFrame(data=np.random.randint(4,size=(2,2)))

print(pd.concat([a,b], axis=1))

# 结果
   0  1  0  1
0  2  3  3  0
1  0  1  1  2

在concate的时候各个元素会进行对齐：

s1 = pd.Series([1,2], index= ['a','b'])
s2 = pd.Series([3,4], index= ['b','a'])
print(pd.concat([s1, s2],axis=1))

# 结果:
   0  1
a  1  4
b  2  3

增加一行

使用 df.append(s1)
df.append(df1)
*如果要append Series，那么要指定Series的name，或者要指定 ignore_index=True
使用df.concat([df1,df2], axis =0)

注意，上面使用完了要赋值回去，如df = df.append()

增加一列

DataFrame.insert(pos, column_name, value, allow_duplicates=False)

参数：

pos : 参数column插入的位置，如果想插入到第一列则为0，取值范围： 0 <= pos <= len(columns),其中len(columns)为Dataframe的列数
column_name :给插入数据value取列名，可为数字，字符串等
value : 可以是整数，Series或者数组等
allow_duplicates : 默认 False，如果插入的列已存在则报错

注意，这个不会返回一个新的表格，直接在原来的表格上改了

删除列

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(1,10).reshape((3,3)),columns=['A','B','C'])
print(df)
print()
df = df.drop(columns=['A'])
print(df)

运行结果：

设置索引

set_index

原型：DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)

keys：列标签或列标签/数组列表，需要设置为索引的列
drop：默认为True，删除用作新索引的列
append：默认为False，是否将列附加到现有索引
inplace：默认为False，适当修改DataFrame(不要创建新对象)
verify_integrity：默认为false，检查新索引的副本。否则，请将检查推迟到必要时进行。将其设置为false将提高该方法的性能。

reset_index

reset_index():

函数原型：DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=‘’)

作用：把索引设置为0,1,2,3,4…

参数解释:

level：int、str、tuple或list，默认无，仅从索引中删除给定级别。默认情况下移除所有级别。控制了具体要还原的那个等级的索引
drop：drop为False则索引列会被还原为普通列，否则会丢失
inplace：默认为false，适当修改DataFrame(不要创建新对象)
col_level：int或str，默认值为0，如果列有多个级别，则确定将标签插入到哪个级别。默认情况下，它将插入到第一级。
col_fill：对象，默认‘’，如果列有多个级别，则确定其他级别的命名方式。如果没有，则重复索引名

取索引

.loc[] 或 .iloc[]

多重索引要加()，如： .loc[(1,2),3]

取某日期最近日期/前一最近日期/后一最近日期的值:

import numpy as np
import pandas as pd
import re

a = pd.DataFrame(data=np.random.randint(10,size=(15,5)), index=pd.date_range(start='2020-01-01', end='2021-04-01', freq='M'))
result = a.index.get_loc('2020-03-29', method='ffill')
print(result)
print(a.iloc[a.index.get_loc('2020-03-15', method='ffill')])
# 结果:
1

0    8
1    6
2    3
3    6
4    5

索引的条件过滤
df.loc[() & ()], df.loc[() | ()], df.loc[~()]
isin,
索引条件过滤参考文章

更改Series和DataFrame列名

对于Series，因为只有一列，所以相当于改了整个Series的Name

s.rename("my_name")

对于DataFrame
1、直接大批量修改。
df.columns = [‘A’,‘B’]

2、只修改几个列
df.rename(columns={‘a’:‘A’}, inplace=Ture)

缺失值/空字符串/inf/字符串/非数值处理

非数值类型

def isnumber(x):
    try:
        return float(x)
    except:
        return None

对dataframe的每一列都apply这个就行了，或者使用applymap对每一个单元格进行操作

对于inf类型：
df[np.isinf(df)] = np.nan
接下来再顺便处理nan即可

对于NaN类型的：

df.dropna(axis = 0/1, how='all', thresh = 0/1/2..， subset= ['XX'])

参数说明：

axis：axis=0去掉的是行；axis=1去掉的是列
how：'all’代表只有当行/列全部是NaN的时候才被去掉
thresh：表示当有NaN数量>thresh个的时候，该行/列才被去掉
subset：去除指定列中含空值的行

例子：
axis = 1，去掉列

import numpy as np
import pandas as pd

a = pd.DataFrame(data=np.random.randint(10,size=(2,5)), index=pd.date_range(start='2020-01-01', end='2020-01-02', freq='D'))
a.iloc[0,0]= np.nan
print(a)
print(a.dropna(axis=1))

# 结果
              0  1  2  3  4
2020-01-01  NaN  8  0  5  3
2020-01-02  4.0  6  3  7  6

            1  2  3  4
2020-01-01  8  0  5  3
2020-01-02  6  3  7  6

axis=0, 去掉行

a = pd.DataFrame(data=np.random.randint(10,size=(2,5)), index=pd.date_range(start='2020-01-01', end='2020-01-02', freq='D'))
a.iloc[0,0]= np.nan
print(a)
print(a.dropna(axis=0))

# 结果
              0  1  2  3  4
2020-01-01  NaN  6  8  1  1
2020-01-02  2.0  0  7  5  3

              0  1  2  3  4
2020-01-02  2.0  0  7  5  3

填补缺失值：
df.fillna(method=“bfill/ffill”)

method：'bfill’向前填充，‘pad’、'ffill’向后填充

对于空字符串
例如：df.iloc[:,2] = df.iloc[:,2].str.split(‘,’, expand=True).replace(‘’, np.nan)
不要用df.replace
把所有字符串换成None

import pandas as pd
for col in df.columns:
    df[col] = pd.to_numeric(df[col], errors='coerce')

表格排序

df.sort_values()

作用：既可以根据列数据，也可根据行数据排序。
注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据index名和columns名排序（由.sort_index()执行）

df.sort_index()

df. sort_index()可以完成和df. sort_values()完全相同的功能，但python更推荐用只用df. sort_index()对“根据行标签”和“根据列标签”排序，其他排序方式用df.sort_values()。

df.set_index()

DataFrame可以通过set_index方法，可以设置单索引和复合索引。
DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
append添加新索引，drop为False，inplace为True时，索引将会还原为列

表格画图 - df.plot()

使用方法链接

使用DataFrame的plot方法绘制图像会按照数据的每一列绘制一条曲线，默认按照列columns的名称在适当的位置展示图例，比matplotlib绘制节省时间，且DataFrame格式的数据更规范，方便向量化及计算。

设置画出的类型，折线图还是柱状图
折线图不用设置
kind = ‘bar’
df.plot()返回ax，可对ax进行设置
plot()里面的label参数无效，会被column的名字覆盖掉

采样

df.resample()

resample一般需要index是日期的形式，根据某一频率采样后，得到的是相应的dataframe（包含相应日期的行），一般后面会跟数学函数，比如 mean(), sum()等，也可以使用apply()对这个dataframe进行操作

常用的函数：
first(), last()

对元素进行映射apply

df[col_name].apply(function_name, args=(xx,xx,…))

Shift(num)

shift是把列总体往下移num格

两个表的连接

方法一：

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=True,
      suffixes=('_x', '_y'), copy=True, indicator=False)

left：左边的dataframe
right：右边的dataframe
how：'inner’内连接 or 'left’左外连接 or 'left’右外连接 or 'outer’全连接
on: 用于连接的列索引名称
left_on：左边dataframe用于连接的列名称
right_on：右边dataframe用于连接的列名称

两个表的遍历

groupby

import pandas as pd
import matplotlib.pyplot as plt

data_df = pd.read_csv('./group.csv', encoding='gbk').set_index(['date','memberName', 'productName'])

total_position = (data_df['longNumber'] + data_df['shortNumber']).rename('totalPosition')
total_position_sum = total_position.groupby(by=['date','productName']).sum().rename('totalPositionSum')

groupyby表示，按by指定的列进行分组，然后进行指定操作

groupby后面跟的一些有用的函数：
nunique()，取unique的数量

内连接，左连接，右连接，全外连接(pd.merge)

pd.merge(left=, right=, on= ,how=)
DataFrame的合并merge

Matplotlib.pyplot库

显示中文

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

plt.plot()

marker: marker

颜色设置

设置颜色教程

Fig和axes和plt画图的区别

Fig和Axes和plt画图的区别

axes 相关属性设置

axes相关属性设置

注意，设置子图标题：
ax.title.set_text(‘…’)

plt.subplots

plt.subplots()参考博文
理解 fig, axes= plt.subplots(2,2)，其中axes是返回的子图, fig 是画布
为了在某个子图上画画，一般在plot函数下会有一个参数ax,传入ax=ax即可在相应的子图上画

为了使得子图间不重叠，可以使用方法 fig.tight_layout()

设置横纵坐标间隔

xticks和xticklabels

ax.set_xticks( lst )
lst里面放的是需要显示的数据点的位置

ax_set_xticklabels( lst )
lst里面是x轴任意刻度的标签，即把其他值用作标签

或者ticks和labels一起设置
日期坐标设置相关
例如：
假如A是需要画的Series，可以这样设置日期
plt.xticks(range(1, len(A.index),90),A.index[range(1, len(A.index),90)],rotation=90)
第一个参数是，设置需要显示坐标的数据点的pos，第二个参数是每个数据点的label，第三个参数是旋转多少度
MultipleLocator

from matplotlib.pyplot import MultipleLocator
y_major_locator=MultipleLocator(10)
ax.yaxis.set_major_locator(y_major_locator)

设置X\Y轴显示的最大值和最小值

链接
plt.axes(x_min, x_max, y_min, y_max)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

双坐标轴

ax1 = zero_rate_s.plot()
forward_rate_s.plot(ax=ax1)
ax1.set_xlabel('month')
ax1.set_ylabel('interest rate')
ax1.legend(loc='upper left')

ax2 = ax1.twinx()
discount_factor_s.plot(color='green', ax=ax2)
ax2.set_ylabel('discount factor')
ax2.legend(loc='upper right')

绘制水平直线

ax.axhline(y=0, color=‘black’, linestyle=‘–’)

图例、网格, 设置

plt.legend() / ax.legend()
legend(labels=[])可以设置每根曲线在图例里的名称
plt.grid(True)

参数:
matplotlin.pyplot.grid(b, which, axis, color, linestyle, linewidth， **kwargs)
- b : 布尔值。就是是否显示网格线的意思。官网说如果b设置为None，且kwargs长度为0，则切换网格状态。
- which : 取值为’major’, ‘minor’， ‘both’。默认为’major’。
- axis : 取值为‘both’， ‘x’，‘y’。就是想绘制哪个方向的网格线。
- color : 这就不用多说了，就是设置网格线的颜色。或者直接用c来代替color也可以。
- linestyle :也可以用ls来代替linestyle，设置网格线的风格，是连续实线，虚线或者其它不同的线条。 | ‘-’ | ‘–’ | ‘-.’ | ‘:’ | ‘None’ | ‘’ | ‘’]
- linewidth : 设置网格线的宽度

一个一个添加子图

import matplotlib.pyplot as plt

#创建新的figure
fig = plt.figure()

#必须通过add_subplot()创建一个或多个绘图
ax = fig.add_subplot(221)

#绘制2x2两行两列共四个图，编号从1开始
ax1 = fig.add_subplot(221)
ax2 = fig.add_subplot(222)
ax3 = fig.add_subplot(223)
ax4 = fig.add_subplot(224)

#图片的显示
plt.show()

绘制频率直方图

python绘制频率直方图

f=plt.figure()
ax1=f.add_subplot(111)

bins=np.arange(-60, 60, step=5)
 
ax1.hist(ts, bins=bins, alpha=1,
         color='steelblue', edgecolor='none' ,rwidth=0.8,
         density =False)
# density表示纵坐标是否表示为频率

ax1.set_xticks(bins)

用Python为直方图绘制拟合曲线的两种方法

封装成函数形式

def plot_distribution(ts, lower_bound, upper_bound, step):
    f = plt.figure()
    ax1 = f.add_subplot(111)

    bins = np.arange(lower_bound, upper_bound, step= step)
    ax1.hist(ts, bins=bins, alpha=0.5,
             color='steelblue', edgecolor='none', rwidth=0.8,
             density=False)

    ax1.set_xticks(bins)
    plt.show()

画条形图

plt.bar()画图

import numpy as np
import matplotlib.pyplot as plt
# 数据
x = np.arange(4)
Bj = [52, 55, 63, 53]
Sh = [44, 66, 55, 41]
bar_width = 0.3
# 绘图 x 表示 从那里开始
plt.bar(x, Bj, bar_width)
plt.bar(x+bar_width, Sh, bar_width, align="center")
# 展示图片
plt.show()

画3D图

ax.plot_surface()
官方链接

画散点图

python散点图的绘制

Serverless

随机数

函数

np.random.randint

import numpy as np

x=np.random.randint(100, size=(5))
# 生成一个[0,100)的随机数，大小为5

print(x)

np.random.rand
生成的数组元素在[0,1)之间，参数是你第N维的大小

import numpy as np

l1 = np.random.rand(2,3)

print(l1)

'''
[[0.44488226 0.7159999  0.11339061]
 [0.42876384 0.49648113 0.27221476]]
'''

随机取样

random.sample()
random.choice()

随机分成N组

randomState = np.random.RandomState(0)
def divideIntoNstrand(listTemp, n):
	twoList = [[] for i in range(n)]
	for i,e in enumerate(listTemp):
		twoList[i%n].append(e)
	return twoList

randomState.shuffle(group_factor)
tmp_split_factor_group = divideIntoNstrand(group_factor, split_num)

正则表达式

正则表达式菜鸟教程

re.match（从起始位置开始匹配）

re.match参考链接

re.match(pattern, string, flags=0)

re.search（扫描整个字符串并返回第一个成功的匹配）

re.search(pattern, string, flag)

如果没有匹配会返回None

成功匹配后，使用group()返回的是匹配的字符串
使用groups()返回的是元组

例子1：

factor_path = r'E:\code_repo\gp_cta\result_seed0_population2000_parsi0.04'
for file_name in os.listdir(factor_path):
    re_result = re.search(r'best_program_(\d+).csv', file_name)
    if re_result is not None:
        print(re_result.group())
# result
best_program_0.csv
best_program_1.csv
best_program_2.csv
best_program_3.csv
best_program_4.csv

例子2：

factor_path = r'E:\code_repo\gp_cta\result_seed0_population2000_parsi0.04'
for file_name in os.listdir(factor_path):
    re_result = re.search(r'best_program_(\d+).csv', file_name)
    if re_result is not None:
        print(re_result.groups())
# result
('0',)
('1',)
('2',)
('3',)
('4',)

re.search(pattern, string).groups() ，如果有匹配到，返回匹配到的各个组的元素

如果要加括号，记得把通配符放在括号里面，如(\d+)

dataclasses库

一个dataclass是指“一个带有默认值的可变的namedtuple”，广义的定义就是有一个类，它的属性均可公开访问，可以带有默认值并能被修改，而且类中含有与这些属性相关的类方法，那么这个类就可以称为dataclass，再通俗点讲，dataclass就是一个含有数据及操作数据方法的容器。
dataclasses参考链接

functools库 — 缓存函数结果

缓存函数结果

from functools import lru_cache

@lru_cache(maxsize=999)
def load_bar_data(
    symbol: str,
    exchange: Exchange,
    interval: Interval,
    start: datetime,
    end: datetime
):
    """"""
    return database_manager.load_bar_data(
        symbol, exchange, interval, start, end
    )

在函数头前面加lru_cache可以起到缓存函数结果的作用, max_size=num,表示最多缓存num个结果

有用的代码片段

线性回归

1. 方法一
线性回归及可决系数R^2的计算

from sklearn import linear_model
cft = linear_model.LinearRegression()
cft.fit(x,y)
beta, alpha  = cft.coef_, cft.intercept_

from sklearn.metrics import r2_score
sklearn.metrics.r2_score(y_true, y_pred, sample_weight=None, multioutput=’uniform_average’)

注意，如果x是single feature，要reshape(-1,1)

2. 方法二
可计算p值的方法
Find p-value (significance) in scikit-learn LinearRegression

import pandas as pd
import numpy as np
from sklearn import datasets, linear_model
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from scipy import stats

diabetes = datasets.load_diabetes()
X = diabetes.data
y = diabetes.target

X2 = sm.add_constant(X)
est = sm.OLS(y, X2)
est2 = est.fit()
predicted_y = est2.predict(X2)
print(est2.summary())

df1 = pd.concat((est2.params, est2.bse,est2.tvalues,est2.pvalues), axis=1)
df1 = df1.rename(columns={0: 'coef', 1: 'std_err',2:'t-statistics',3:'p-value'})
df1 = df1.round(decimals=3)
df1.to_excel('summary.xlsx')

statsmodel的结果提取
statsmodel结果提取

从列表中随机选取N个数

从列表中选取N个数参考链接

如果对象是list，那么可以使用如下代码

import random
data = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
sample_num = 5
random.sample(data, sample_num)

如果对象是Numpy的ndarray，或者是Pandas的Series或者DataFrame，需要先生成下标，例如对于Series来说：

contract_list = pd.Series(os.listdir('./complete_code')).apply(lambda x: x[:-4])
contract_list = contract_list.rename('address')

sample_num = 2000
sample_list = [i for i in range(contract_list.shape[0])] 
sample_list = random.sample(sample_list, sample_num) # 生成下标

sample_Series = contract_list.iloc[sample_list]

输出重定向

# 输出定向到文件
class Logger(object):
    def __init__(self, filename="Default.log"):
        self.terminal = sys.stdout
        self.log = open(filename, "a")

    def write(self, message):
        self.terminal.write(message)
        self.log.write(message)

    def flush(self):
        pass


sys.stdout = Logger(filename='./out.txt')
sys.stderr = Logger(filename='./err.txt')

并行

由于python解释器CPython只有一个GIL（Global Interpreter Lock），线程运行要获得这个锁才能运行，因此python无法实现多线程。
关于python的GIL多线程看这里

为了实现并行计算，充分利用多核CPU，Python只能运用多进程。

但是众所周知，进程切换比线程开销大，所以性能较多线程比较差。

多进程并行例子

I/O密集型任务：Python中可以使用多线程试试
（涉及到网络、磁盘IO的任务都是IO密集型任务）
from multiprocessing.dummy import Pool

CPU密集型任务：Python中只能使用多进程并行
from multiprocessing import Pool

使用joblib来并行运行程序

参考链接
例子


from joblib import Parallel, delayed
import time
def single(a):
    """ 定义一个简单的函数  """
    time.sleep(1)  # 休眠1s
    print(a)  

start = time.time()  # 记录开始的时间
Parallel(n_jobs=3)(delayed(single)(i) for i in range(10))   # 并行化处理
Time = time.time() - start  # 计算执行的时间
print(str(Time)+'s')

delayed第二个括号里的i表示传递给single函数的参数

运行结果：

#运行结果如下 
0
1
2
3
4
5
6
7
8
9
4.833665370941162s

并行之使用Multiprocessing 获取函数值

import pandas as pd
import os
from multiprocessing import Pool

def detectDistribution(src_path, filename):
    print('Checking {}'.format(filename))
    tmp_fullpath = os.path.join(src_path, filename)
    tmp_s = pd.read_pickle(tmp_fullpath).iloc[:,0]

    tmp_s_mean = tmp_s.mean()
    tmp_s_std = tmp_s.std()
    bins=[tmp_s_mean - 2.5* tmp_s_std,
          tmp_s_mean - 1.5* tmp_s_std,
          tmp_s_mean - 0.5* tmp_s_std,
          tmp_s_mean + 0.5 * tmp_s_std,
          tmp_s_mean + 1.5 * tmp_s_std,
          tmp_s_mean + 2.5* tmp_s_std]
    s = pd.cut(tmp_s, bins=bins)
    s_val_cnt = s.value_counts().sort_index(ascending=True)

    print('Done {}'.format(filename))
    if (s_val_cnt.iloc[0]< s_val_cnt.iloc[1] < s_val_cnt.iloc[2] ) and (s_val_cnt.iloc[2]>s_val_cnt.iloc[3]>s_val_cnt.iloc[4]):
        return True
    else:
        return  False

if __name__ == '__main__':
    src_path = r'D:\jiangjinyu\stock\2_pkl_version4.0\allpkl_f1_xgb_20220819\_1430'

    nthread = 30
    p = Pool(nthread)
    result_s = pd.Series(index = os.listdir(src_path))

    for tmp_filename in os.listdir(src_path):
        flag = p.apply_async(detectDistribution,(src_path, tmp_filename))
        # flag = detectDistribution(src_path, tmp_filename)
        result_s.loc[tmp_filename] = flag

    p.close()
    p.join()

    for idx, row in result_s.items():
        result_s.loc[idx] = row.get()

    result_s.to_csv('check_f1_report.csv')

监控内存使用情况

方法

Subprocess

subprocess教程
subprocess.run会阻塞当前进程
subprocess.Popen会打开一个新的进程，当前进程继续往下执行。

注意，stdout默认是None，这样会把输出打印到屏幕上。

import subprocess

if __name__ ==  '__main__':
    # 创建一个子进程
    p = subprocess.Popen('python test.py', shell=True)
    
    #p.poll可以检查进程是否终止
    while p.poll() is None:
        pass
    print(p.stdout)

import subprocess

if __name__ ==  '__main__':
    # 创建一个子进程
    p = subprocess.run('python test.py', shell=True)

计算运行时间

import time
import math

# 计算消耗时间，并格式化的函数
def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

start_time = time.time()
# ...
# ...some code
# ...
print(timeSince(start_time)) # 消耗的时间

计算每段代码的运行时间的函数装饰器

from functools import wraps
from line_profiler import LineProfiler

def profile_wrapper(func):
	def decorate():
		@wraps(func)
		def wrapper(*args, **kwargs):
			prof = LineProfiler()
			prof_wrapper = prof(func)
			ret = prof_wrapper(*args, **kwargs)
			prof.print_stats()
			return ret
		return wrapper
	return decorate()

在需要统计运行时间的代码上加上@profile_wrapper就可以了

使用tqdm显示for循环的进度条和耗时

一般使用方法为：

for item in tqdm(iterable, total=):

关于total参数的说明

序列化python对象

使用 dill 库

dill.dump(obj, fileobj)

dill.load(obj, fileobj)

计算股票行业哑变量因子

import pandas as pd


def change_code(code):
    pre = code[-2:]
    num = code[:-3]
    return pre.lower() + '.' + num


if __name__ == '__main__':
    A_code_lst = pd.read_csv('A_code_lst.txt').iloc[:, 0].apply(change_code).to_list()

    industry_dummy_variable= pd.DataFrame(index=A_code_lst, dtype='float')
    stock_industry = pd.read_csv('./stock_industry.csv', encoding='gbk')
    # stock_industry['code'] = stock_industry['code'].apply(lambda x:x[3:])
    stock_industry = stock_industry.set_index(['code'])
    stock_industry = stock_industry.loc[A_code_lst]

    industry_list = stock_industry['industry'].dropna().unique()
    for industry in industry_list:
        tmp_s = pd.Series(index=A_code_lst, dtype='float').rename('{}'.format(industry))
        tmp_s = tmp_s.fillna(0)
        tmp_s.loc[ stock_industry['industry'] == industry ] = 1
        industry_dummy_variable = pd.concat([industry_dummy_variable, tmp_s], axis=1)
    industry_dummy_variable.T.to_csv('./industry_dummy_variable.csv')

因子中性化、去极值、标准化

注意：一般市值中性化的时候是月度的市值进行中性化

去极值使用的函数： np.clip(array, min, max)

中位数去极值

# 中位数去极值
factor_row_median = factor_row.median()
factor_delta_median = (factor_row - factor_row_median).abs().median()
factor_row = np.clip(factor_row, factor_row_median - 5 * factor_delta_median, factor_row_median + 5 * factor_delta_median)

np.where(a<1,None,a)
把数组a中小于1的数设置为None，否则设置为原来的数

tmp=np.where(df['annual_return'] > factor_row_median + 5 * factor_delta_median, None, df['annual_return'])

df['annual_return']=np.where(df['annual_return'] < factor_row_median - 5 * factor_delta_median, None, tmp)

函数化：

# Notice: factor_row是series
def exclude_extreme(factor_row):
    factor_row_median = factor_row.median()
    factor_delta_median = (factor_row - factor_row_median).abs().median()
    tmp = np.where(factor_row> factor_row_median + 5 * factor_delta_median, None, factor_row)
    return np.where(factor_row < factor_row_median - 5 * factor_delta_median, None, tmp)

非线性规划（Scipy.optimize.minimize）

关于scipy.optimize.minimize的介绍

风险平价

# 组合内资产的协方差矩阵（在当前上下文中指策略之间的协方差矩阵）
V = np.matrix([[123,37.5,70,30],
               [37.5, 122, 72, 13.5],
               [70, 72, 321, -32],
               [30, 13.5, -32, 52]])

R = np.matrix([[14],[12],[15],[7]])

def calculate_portfolio_var(w, V):
    '''
    计算投资组合的风险
    :param w: 向量，表示各个资产在投资组合中的权重，
              其实对于这里的输入是一个 1*n 的矩阵
    :param V: 资产之间的协方差矩阵
    :return: 投资组合收益率的方差 sigma^2 （表示投资组合的风险）
    '''
    w = np.matrix(w)
    # w*V*w.T最后是一个1*1的矩阵来着，所以需要取[0,0]
    # w*V*w 是二次型
    return (w*V*w.T)[0, 0]

def calculate_risk_contribution(w, V):
    '''
    计算各个资产对投资组合的风险贡献
    :param w: 向量，表示各个资产在投资组合中的权重，
              其实对于这里的输入是一个 1*n 的矩阵
    :param V: 资产之间的协方差矩阵
    :return:
    '''
    w = np.matrix(w)
    sigma = np.sqrt(calculate_portfolio_var(w, V))
    # 边际风险贡献, marginal risk contribution
    # MRC是一个 n*1 的矩阵，代表各个资产的边际风险贡献
    MRC =V*w.T
    # 各个资产对投资组合的风险贡献程度
    RC = np.multiply(MRC, w.T) / sigma
    return RC

def risk_budget_objective(w, params):
    '''
    使用优化求解器求解目标
    :param w: 原始的投资组合中各个资产的权重，是优化器的初始迭代点
    :param params: params[0]代表各资产的协方差矩阵
                   params[1]代表希望各资产对组合风险的贡献程度
    :return:
    '''

    # 计算投资组合风险
    V = params[0]
    expected_rc = params[1]
    sig_p = np.sqrt(calculate_portfolio_var(w, V))
    risk_target = np.asmatrix(np.multiply(sig_p, expected_rc))
    asset_RC = calculate_risk_contribution(w, V)
    J = sum(np.square(asset_RC - risk_target.T))[0, 0]
    return J

def total_weight_constraint(w):
    '''
    在约束求解器中，这个函数的类型是eq, 表示最后返回的这个值要等于0
    :param w:
    :return:
    '''
    return np.sum(w) - 1.0

def long_only_contraint(w):
    # 表示w中的元素都要大于等于0
    return w


def solve_risk_parity_weight(original_w, expected_rc, V):
    '''
    解决风险平价的权重
    :param expected_rc: 期望的
    :param V: 资产间的协方差矩阵
    :return:
    '''
    # original_w = [0.25, 0.25, 0.25, 0.25]
    constraint = ({'type': 'eq',
                   'fun': total_weight_constraint},
                  {'type': 'ineq',
                   'fun': long_only_contraint})
    res = minimize(risk_budget_objective,
                   np.array(original_w),
                   args=[V, expected_rc],
                   method='SLSQP',
                   constraints=constraint,
                   options={'disp':False})

    return np.asmatrix(res.x)

拷贝文件

拷贝整个文件夹

import shutil
def CopyFile(filepath, newPath):
	fileNames = os.listdir(filepath)
	for file in fileNames
		newDir = os.path.join(filepath, file)
		if os.path.isfile(newDir):
			newFile = os.path.join(newPath, file)
			shutil.copyfile(newDir,newFile)
		else:
			CopyFile(newDir, newPath)

你可能感兴趣的:(编程语言,python,数据处理)

seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
Centos7安装uwsgi详细步骤快乐骑行^_^ 大数据 Centos7 安装uwsgi
Centos7安装uwsgi详细步骤步骤一：下载源码到centos7服务器步骤二：解压步骤三：编译环境准备步骤四：进入解压目录，并且编译uwsgi步骤五：准备测试安装是否成功的python代码testUwsgi步骤六：启动uWSGI来运行一个HTTP服务器步骤七：服务器ip+端口号访问步骤一：下载源码到centos7服务器uwsgi最新版2.0.20下载地址如下：https://github.co
uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
Python装饰器（decorator）
Python装饰器（decorator）是一种高阶函数，用于在不修改原函数代码的情况下，动态地为函数添加额外的功能。它本质上是一个接受函数作为输入并返回新函数的函数，常用于日志记录、性能测试、权限验证等场景。以下是关于Python装饰器的详细讲解：1.基本概念装饰器是一个函数，它接受一个函数作为参数，并返回一个新的函数。新函数通常会在调用原函数前后执行一些额外的逻辑。装饰器的语法糖是@decora
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

Python数据处理相关语法整理