量化数据来源:baostock,tushare
主要量化数据来自baostock,因为没有积分要求,但是数据多样化暂时不及tushare,但是对于基础量化数据工作,已经足够,刚刚上手操作,tushare的积分并不足够的朋友们建议使用baostock,如果是已经具有wind api接口且拥有基础数据量以上的数据权限的,可以忽略这个。
使用的数据库为pymongo,实际上mysql也可以,但是使用了MongoDB的应该会知道,MongoDB的语法简单,和代码很类似,增删改查的方便程度mysql之类并不能比拟,所以用了之后就觉得很喜欢……学习难度评价:和mysql没有区别的简单
pandas,numpy是基础
baostock是数据源
talib集成了很多指标公式,里面有的,只要和你自己的目标指标数据数值一样,或者区别可以调整,就可以直接使用,比如MACD
def CalculateMACD(self,df,short = 12,long = 26,mid = 9):
"""
计算MACD指标,使用talib接口
参数:
param: short 默认12
param: long 默认26
param: mid 默认9
使用特征:close
return:
DataFrame
columns = "code","date","DIF","DEA","MACD"
说明:
异同移动平均线
其意义和双移动平均线基本相同,即由快、慢均线的离散、聚合表征当前的多空状态和股价可能的发展变化趋势
"""
DIF,DEA,MACD = talib.MACD(df.close,fastperiod = short,slowperiod = long,signalperiod = mid)
df.loc[:,"DIF"] = DIF
df.loc[:,"DEA"] = DEA
df.loc[:,"MACD"] = MACD * 2
# 只保存结论值
df = df.loc[:,["code","date","DIF","DEA","MACD"]]
return df
这里直接使用talib的数据,但是和同花顺等数据相比,其MACD没有乘2,其实就是更好看一点,但是为了对比纠错方面的方便,对MACD进行乘2处理。
# 计算KDJ
def CalculateKDJ(self,df,m = 9,m1 = 3,m2 = 3):
"""
计算KDJ指标
使用特征:close,low,high
index: code,date
return:
DataFrame
columns = "code","date","K","D","J"
说明:
KDJ指标的中文名称又叫随机指标。
融合了动量观念、强弱指标和移动平均线的一些优点,能够比较迅速、快捷、直观地研判行情,被广泛用于股市的中短期趋势分析。
"""
low_list = df['low'].rolling(m).min()
high_list = df['high'].rolling(m).max()
rsv = (df['close'] - low_list) / (high_list - low_list) * 100
df['K{}/{}'.format(m,m1)] = pd.DataFrame(rsv).ewm(adjust = False,alpha = 1 / m1).mean()
df['D{}/{}'.format(m,m2)] = df['K'].ewm(adjust = False,alpha = 1 / m2).mean()
df['J{}'.format(m)] = 3 * df['K'] - 2 * df['D']
# 只取结论值和index值
df = df.loc[:,["code","date",'K{}/{}'.format(m,m1),'D{}/{}'.format(m,m2),'J{}'.format(m)]]
return df
百度了很久这个公式,有采用ewm使用com = 2的,但是如果使用com = 2在默认值的情况下KDJ值是正确的,但是非默认值,比如调整参数,尝试慢速KDJ时就不对了,最终采用alpha = 1/m的情况,对比同花顺数据,是正确的。
def CalculateWillR(self,df):
"""
计算WILLIAMS%R指标
参数:constant = 14
使用特征:close,high,low
return:
DataFrame
columns = "code","date","WILLR{}".format(constant)
说明:
利用摆动点来量度股市的超买卖现象,可以预测循环期内的高点或低点,从而提出有效率的投资讯号
"""
for wr in self.paramWillR:
df["WILLR{}".format(wr)] = (df.high.rolling(wr).max() - df.close)/(df.high.rolling(wr).max() - df.low.rolling(wr).min()) * (100)
# 按照标准计算应该是负100,但是和同花顺的计算方式不一致,所以采用同花顺的计算方式以便核对。
return df.loc[:,["code","date"] + ["WILLR{}".format(wr) for wr in self.paramWillR]]
def CalculateCCI(self,df,constant = 14):
"""
计算CCI指标
# CCI measures the difference between a security's price change and its average price change.
参数:constant = 0.015
使用特征:high low close
return:
DataFram
columns = "code","date","CCI"
说明:
顺势指标
专门测量股价、外汇或者贵金属交易是否已超出常态分布范围。属于超买超卖类指标中较特殊的一种
CCI指标的运行区间也分为三类:+100以上为超买区,—100以下为超卖区,+100到—100之间为震荡区
CCI指标就是专门针对极端情况设计的
是否应该直接计算命中分类
使用符合同花顺的公式
"""
TP = (df.high + df.low + df.close) / 3
MA = TP.rolling(14).mean()
MD = TP.rolling(14).apply(lambda x:pd.Series(x).mad(),raw = False)
df["CCI"] = (TP - MA) / (0.015 * MD)
df = df.loc[:,["code","date","CCI"]]
return df
自定义参数写了很多,觉得有点意义的就以上一些,以后有更多觉得有意思的再补(希望我不会忘记)