把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)

下载curl软件,地址:

curl for Windows

for 64-bit下载好后解压到文件夹,将里面的bin文件添加到环境变量中,bon文件地址为:C:\Users\59980\curl-8.2.1_7-win64-mingw\bin

打开cmd,输入curl --help,出现下图即代表成功安装。

把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)_第1张图片

下载单个文件,默认将输出打印到标准输出中(STDOUT)中

curl http://www.centos.org

通过-o/-O选项保存下载的文件到指定的文件中:
-o:将文件保存为命令行中指定的文件名的文件中
-O:使用URL中默认的文件名保存文件到本地

# 将文件下载到本地并命名为mygettext.html

curl -o mygettext.html http://www.gnu.org/software/gettext/manual/gettext.html

# 将文件保存到本地并命名为gettext.html

curl -O http://www.gnu.org/software/gettext/manual/gettext.html

同样可以使用转向字符">"对输出进行转向输出

同时获取多个文件

curl -O URL1 -O URL2

若同时从同一站点下载多个文件时,curl会尝试重用链接(connection)。

-----------------------------------------------------分割线----------------------------------------------------------------

源数据格式:两个债券表格里面数据都是这样:
 把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)_第2张图片

将对应数据放在一个表格里面:

当然也可以用python代码读取两个文档进行数据处理生成一个数据框进行操作,这里就不展示了:

 把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)_第3张图片

 上图是放在一个表格里面后的结果。

处理数据代码:

#转换成因子数据格式
import pandas as pd

data =pd.read_excel(r'C:\Users\59980\Desktop\peixun\zong\成交收盘220205CFETSnew(1).xlsx')
df = pd.DataFrame(data)
df['债券代码1'] = df['债券代码1'].replace('220205.IB','220205.BOND')
df['债券代码2'] = df['债券代码2'].replace('220210.IB','220210.BOND')

df['交易日期'] = pd.to_datetime(df['交易日期']).dt.strftime('%Y/%m/%d')

df['factor_rate'] = df.apply(lambda row: {row['债券代码1']:row['收盘YTM(%)1'], row['债券代码2']:row['收盘YTM(%)2']}, axis=1)
df.insert(1,'factor_rate',df.pop('factor_rate'))


df = df[['交易日期', 'factor_rate']]

df.to_excel(r'C:\Users\59980\Desktop\peixun\zong\220210_220205_factor.xlsx',index=False)

结果为:

把一般数据转换成因子数据格式,做单因子、债券对历史数据回测+获取curl命令+垃圾数据转换成标准行情数据(bardata)_第4张图片

上面两个债券的带起收益率作为引子在投研平台进行回测。

-------------------------------------垃圾数据转换成标准行情数据(bardata)------------------------------------

从网站下载的垃圾数据转换成数据库上传的、能被行情数据获取的标准数据过程:

#改好quote-date,source和security_id列填充好,quote_date,open,high,low,close,volume,ytm,dirty,volume_sum全部填写好
#date_day复制quote_date即可,quote_time和index_type,create_time,quotation_type填充好

import pandas as pd
pd.set_option('display.max_columns', None)

# 创建示例数据框
df =pd.read_excel(r'C:\Users\59980\Desktop\peixun\zong\200210修正.xlsx')

# df['quote_time'] = df['quote_time'].astype(str).str.zfill(8)   #将时间列转换为字符串,并使用str.zfill()方法补零: 0:00:00转换成00:00:00格式

df['quote_date'] = pd.to_datetime(df['quote_date']).dt.strftime('%Y%m%d')    #将行情时间2020-01-01转换成20200101格式

df['date_day']=df['quote_date']

df['date_time'] = pd.to_datetime(df['quote_date'] + ' ' + df['quote_time'])   #生成时间戳


start_timestamp = pd.Timestamp("1970-01-01 08:00:00")    # 计算时间戳并考虑起始时间偏移量

df['quote_stamp'] = (df['date_time'] - start_timestamp) // pd.Timedelta(seconds=1)

df['date_time'] =df['quote_stamp']

df['volume'] = pd.to_numeric(df['volume'].str.replace(',', ''), errors='coerce')
df['volume_sum'] = pd.to_numeric(df['volume_sum'].str.replace(',', ''), errors='coerce')

df = df.sort_values(by='quote_date')

# print(df)
df.to_excel(r'C:\Users\59980\Desktop\peixun\zong\200210修正版本.xlsx',index=False)

你可能感兴趣的:(linux,运维,服务器)