DolphinDB智臾科技

高性能+分布式，Python Parser 在量化因子计算场景中的应用

面向读者

有 Python 编程基础的 DolphinDB 初学者

本教程教学内容

如何在 DolphinDB 中用 Python 语言开发因子代码，并完成计算和入库存储
如何在 DolphinDB 中用 Python 语言创建各种不同频率的因子存储库表
如何在 DolphinDB 中用 Python 语言开发各种场景的因子计算代码

DolphinDB Python Parser （简称 Python Parser）是 Python 语言的一个 DolphinDB 实现。目前 Python Parser 支持了 Python 中最常用的语法，并兼容了 DolphinDB 部分独有的语法。通过 Python Parser，用户可以在 DolphinDB 支持的编程 IDE 中用 Python 语言编写脚本，然后提交给 DolphinDB Server 进行解析执行并得到结果。Python Parser 打破了全局解释锁（GIL, Global Interpreter Lock）的限制，能够方便地实现分布式并行计算。Python Parser 对 Python 语法的兼容，降低了用户上手 DolphinDB 的难度。

本教程基于量化投研中的因子挖掘场景，展示如何用 Python Parser 在 DolphinDB 上快速完成因子开发，包括因子计算和结果存储。

欢迎体验 DolphinDB python parser，下载试用版本，请戳链接 领取你的 DolphinDB Python Parser。

基于逐笔数据挖掘日频因子全流程

历史数据存储

在用 Python Parser 进行因子计算代码开发前，必须先把历史行情数据存入 DolphinDB，包括日 K 线、分钟 K 线、逐笔数据和 Level-1/Level-2 快照数据等。

关于历史数据存储的问题，DolphinDB 已经发布多篇相关教程，在此不再赘述：

通用行情数据导入教程：《国内股票行情数据导入实例》、《金融 PoC 用户历史数据导入指导手册之股票 level2 逐笔篇》
通联历史行情数据导入教程：《DolphinDBModules::easyTLDataImport 通联历史数据自动化导入功能模块使用教程》
文本数据导入教程：《数据导入教程》

上述教程代码都基于 DolphinDB 语法开发，在 DolphinDB 支持的编程 IDE 中执行代码时要选择 DolphinDB 语法解释器。选择方式如下：

GUI 编程工具：建议下载官网的最新版本：下载链接

Visual Studio Code（VSCode）编辑器 + DolphinDB VSCode 插件：建议下载最新版 VSCode 插件，本教程基于 V2.0.1041 开发。

在 VSCode 的 Settings 界面搜索 @ext:dolphindb.dolphindb-vscode connections 后，编辑 settings.json，在 dolphindb.connections 一节中，指定 “python” 条目。

"python": true 表示使用 Python Parser 语法解释器；"python": false 表示使用 DolphinDB 语法解释器。

为了能够成功运行本章节示例代码，可以先执行下述代码模拟生成少量逐笔成交数据：（需要将 csvDir 变量修改为 DolphinDB 部署服务器上 tradeData.csv 的实际目录，示例数据见附件）

def createTB():
    dbName, tbName = "dfs://TL_Level2", "trade"
    # 数据库如果存在，删除该数据库
    if existsDatabase(dbName):
        dropDatabase(dbName)
    # 创建数据库：时间维度按天 VALUE 分区 + 股票代码 SecurityID HASH 50 分区
    db1 = database("", ddb.VALUE, seq(2020.01.01, 2021.01.01))
    db2 = database("", ddb.HASH, [ddb.SYMBOL, 50].toddb())
    db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine="TSDB")
    schemaTB = table(array(ddb.INT, 0) as ChannelNo,
                    array(ddb.LONG, 0) as ApplSeqNum,
                    array(ddb.SYMBOL, 0) as MDStreamID,
                    array(ddb.LONG, 0) as BidApplSeqNum,
                    array(ddb.LONG, 0) as OfferApplSeqNum,
                    array(ddb.SYMBOL, 0) as SecurityID,
                    array(ddb.SYMBOL, 0) as SecurityIDSource,
                    array(ddb.DOUBLE, 0) as TradePrice,
                    array(ddb.LONG, 0) as TradeQty,
                    array(ddb.SYMBOL, 0) as ExecType,
                    array(ddb.TIMESTAMP, 0) as TradeTime,
                    array(ddb.TIME, 0) as LocalTime,
                    array(ddb.LONG, 0) as SeqNo,
                    array(ddb.INT, 0) as DataStatus,
                    array(ddb.DOUBLE, 0) as TradeMoney,
                    array(ddb.SYMBOL, 0) as TradeBSFlag,
                    array(ddb.LONG, 0) as BizIndex,
                    array(ddb.SYMBOL, 0) as OrderKind,
                    array(ddb.SYMBOL, 0) as Market)
    db.createPartitionedTable(schemaTB, tbName, partitionColumns=["TradeTime", "SecurityID"].toddb(), compressMethods={"TradeTime":"delta"}.toddb(), sortColumns=["SecurityID", "TradeTime"].toddb(), keepDuplicates=ddb.ALL)

def loadData(csvDir):
    # 创建存储逐笔成交的库表
    createTB()

    # 读示例数据
    name = ["ChannelNo", "ApplSeqNum", "MDStreamID", "BidApplSeqNum", "OfferApplSeqNum", "SecurityID", "SecurityIDSource", "TradePrice", "TradeQty", "ExecType", "TradeTime", "LocalTime", "SeqNo", "DataStatus", "TradeMoney", "TradeBSFlag", "BizIndex", "OrderKind", "Market"].toddb()
    type = ["INT", "LONG", "SYMBOL", "LONG", "LONG", "SYMBOL", "SYMBOL", "DOUBLE", "LONG", "SYMBOL", "TIMESTAMP", "TIME", "LONG", "INT", "DOUBLE", "SYMBOL", "LONG", "SYMBOL", "SYMBOL"].toddb()
    t = loadText(csvDir, schema=table(name, type))

    # append! 数据入库
    loadTable("dfs://TL_Level2", "trade").append!(t)

    # 统计库内数据量
    rowCount = select count(*) from loadTable("dfs://TL_Level2", "trade")      #	181,683
    print(rowCount)

# 执行 loadData 函数, 需要将 csvDir 变量修改为 ddb 部署服务器上 csv 的实际目录
csvDir = "/home/v2/下载/data/tradeData.csv"
loadData(csvDir)

本教程中的所有示例代码都是用 Python Parser 语法开发的，所以必须选择 Python Parser 语法解释器执行，GUI 编程工具解释器选择界面如下：

创建日频因子存储库表

通过因子存储最佳实践，日频因子存储库表创建示例代码如下：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://dayFactorDB", "dayFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按年 RANGE 分区 + 因子名维度 VALUE 分区
db1 = database("", ddb.RANGE, date(datetimeAdd(1980.01M,seq(0,80)*12,'M')))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

# 查看分区表结构
pt = loadTable(dbName, tbName)
pt.schema()

存储结构

对于多因子数据场景，用户可以选择窄表和宽表两种模式。
窄表模式把因子名存为一列，而宽表模式则把每个因子存为一列。
经测试在数据查询方面两种模式相差不大，但在增加因子、删除因子和更新因子等数据运维方面窄表模式性能显著优于宽表模式。
本教程示例代码为窄表存储最佳方案。

分区存储

DolphinDB 支持数据分区存储，对于不同分区数据支持多线程并行写入，对于同一个分区数据支持并发查询。
经测试日频因子数据采用 “时间维度按年 + 因子名” 的组合分区方式存储，综合性能最佳。

分区内分组排序存储

DolphinDB 的 TSDB 存储引擎提供排序键设置，每一个分区的数据写在一个或多个 level file 中，每一个 level file 内部的数据按照指定的列进行排序且创建索引。
排序列中除了最后一列的其他列通常为在点查中过滤条件会用到的列，其唯一值组合称为 SortKeys。
为保证性能最优，每个分区的 SortKeys 建议不超过 1000 个。当 SortKeys 较多时，可以通过设置 sortKeyMappingFunction 对 SortKeys 降维。
经测试日频因子数据采用 “securityid+tradetime” 的方式进行排序，sortKeyMapping 设置为 500 综合性能最佳。
DolphinDB 默认数据存储的压缩算法为 lz4，对于时间、日期类型的数据，建议指定采用 delta 压缩算法存储，提高存储的压缩比。

当日尾盘成交占比因子

基于逐笔成交数据计算当日尾盘成交占比因子的计算公式如下：

其中 BCVPt 表示 t 日期的尾盘成交占比； Volt 表示 t 日期的总成交量； Volt,14:30-15:00 表示 t 日期的 14:30—15:00 的成交量之和。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def beforeClosingVolumePercent(trade):
    tradeTime = trade["TradeTime"].astype(ddb.TIME)
    beforeClosingVolume = trade["TradeQty"][(tradeTime >= 14:30:00.000)&(tradeTime <= 15:00:00.000)].sum()
    totalVolume = trade["TradeQty"].sum()
    res = beforeClosingVolume / totalVolume
    return pd.Series([res], ["BCVP"])

# 指定计算某一天的因子
tradeTB = loadTable("dfs://TL_Level2", "trade")
df = pd.DataFrame(tradeTB, index="Market", lazy=True)
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["TradeTime", "SecurityID", "TradeQty"]].groupby(["SecurityID"]).apply(beforeClosingVolumePercent)

示例代码解析：

因子函数 beforeClosingVolumePercent 的函数体是按照 Python 语法进行开发的。
tradeTime = trade["TradeTime"].astype(ddb.TIME) 逐笔成交数据中的 TradeTime 以时间戳 TIMESTAMP 的数据类型存入数据库。数据类型的转化可以使用 astype() 函数。其中的类型关键字，需要加上 ddb 的前缀。
DolphinDB 中的时间常量的格式：yyyy.MM.ddTHH:mm:ss.SSS，比如： 14:30:00.000、2023.02.01、2023.02.01T14:30:00.000
tradeTB = loadTable("dfs://TL_Level2", "trade") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "trade" 的元数据取回到内存。此时变量 tradeTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(tradeTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001“ 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

存入数据库

上一节中的计算结果 res 是当前会话中的一个本地内存变量，关闭会话便会被释放，所以需要把计算结果存入数据库中的分区表中，达到持久化的目的。

把因子计算结果从内存存储到磁盘上的示例代码如下：

# res 是一个 Series, 需要将计算结果转化成窄表格式（共4列：tradetime, securityid, factorname, value）
result = res.reset_index().rename(columns={"SecurityID":"securityid"})
result["tradetime"] = 2023.02.01
result = result.melt(id_vars=["tradetime", "securityid"],value_vars=["BCVP"],var_name="factorname",value_name="value")

# 存入数据库
loadTable(dbName, tbName).append!(result.to_table())

# 查看库内数据量
select count(*) from loadTable(dbName, tbName)

示例代码解析：

因子库用窄表方式存储，需要先将 DataFrame 转化为和因子库统一的 4 列的格式：tradetime, securityid, factorname, value。
因为上述示例只计算了一天的因子，结果中没有日期信息，所以需要增加日期信息。
使用 melt 函数，将宽表转化为窄表。当计算出多个因子值时，可以修改参数 value_vars=[“factorname1“, “factorname2“, …]。
result.to_table() 用 .to_table() 函数将 no-lazy 模式的 DataFrame 转化为 DolphinDB 中的内存表。
通过 append! 函数，将因子结果存入数据库。

创建因子存储库表

不同频率的因子数据每日数据量是不同的，DolphinDB 的分区方案主要是根据数据量来制定的，以窄表模式存储的数据量统计如下：

类型	标的数	因子数	频率	时间	数据量(TB)	数据行数(亿行)	日新增数据(GB)
股票	5,000	10,000	日频	11年	2.4	1,337	0.9
股票	5,000	10,000	10分钟	11年	58.3	32,076	22.4
股票	5,000	10,000	1分钟	11年	583.4	320,760	223.5
股票	5,000	1,000	3秒	1年	126.8	58,080	536.4
股票	5,000	1,000	1秒	1年	380.3	174,240	1,609.3
期货	200	1,000	500毫秒	1年	35.2	16,117	148.9

为了方便用户快速上手 DolphinDB，我们通过因子存储最佳实践，总结了常用频率因子的最优存储方案，并给出了示例代码，如果用户没有时间了解分区的原理，直接复用官方提供的库表创建示例代码即可。

因子库	分区方案	分区列	排序列（sortColumns）	sortKeyMap
日频	时间维度按年 + 因子名	tradetime + factorname	securityid + tradetime	500
1 分钟频	时间维度按天 + 因子名	tradetime + factorname	securityid + tradetime	500
10 分钟频	时间维度按月 + 因子名	tradetime + factorname	securityid + tradetime	500
3s 快照频	时间维度按日 + 因子名	tradetime + factorname	securityid + tradetime	500
逐笔频	时间维度按日 + 因子名 + 股票代码维度：HASH 10	tradetime + factorname + securityid	securityid + tradetime	不降维
1s 频	时间维度按小时 + 因子名	tradetime + factorname	securityid + tradetime	500
期货500ms 频	时间维度按日 + 因子名	tradetime + factorname	securityid + tradetime	500

日频因子

日频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://dayFactorDB", "dayFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按年 RANGE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.RANGE, date(datetimeAdd(1980.01M,seq(0,80)*12,'M')))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

1分钟频因子

1 分钟频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://minuteFactorDB", "minuteFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按天 VALUE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.VALUE, seq(2021.01.01, 2021.12.31))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

10分钟频因子

10 分钟频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://tenMinutesFactorDB", "tenMinutesFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按月 VALUE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.VALUE, seq(2023.01M, 2023.06M))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

3秒快照频因子

3 秒快照频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://level2FactorDB", "level2FactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按天 VALUE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.VALUE, seq(2022.01.01, 2022.12.31))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

逐笔频因子

逐笔频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://tickFactorDB", "tickFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按天 VALUE 分区 + 因子名 VALUE 分区 + 股票代码 HASH 10 分区
db1 = database("", ddb.VALUE, seq(2022.01.01, 2022.12.31))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db3 = database("", ddb.HASH, [ddb.SYMBOL, 10].toddb())
db = database(dbName, ddb.COMPO, [db1, db2, db3].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname", "securityid"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL)

1秒频因子

1 秒频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://secondFactorDB", "secondFactorTB"

# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按小时 VALUE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.VALUE, seq(datehour(2022.01.01T00:00:00), datehour(2022.01.31T00:00:00)))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

期货500毫秒频因子

期货 500 毫秒频因子数据库和分区表的创建示例代码：

import pandas as pd
import dolphindb as ddb

dbName, tbName = "dfs://futuresFactorDB", "futuresFactorTB"
# 数据库如果存在，删除该数据库
if existsDatabase(dbName):
    dropDatabase(dbName)

# 创建数据库：时间维度按天 VALUE 分区 + 因子名 VALUE 分区
db1 = database("", ddb.VALUE, seq(2021.01.01, 2021.12.31))
db2 = database("", ddb.VALUE, ["f1","f2"].toddb())
db = database(dbName, ddb.COMPO, [db1, db2].toddb(), engine='TSDB', atomic='CHUNK')

# 创建分区表
schemaTB = table(array(ddb.DATE, 0) as tradetime, 
                array(ddb.SYMBOL, 0) as securityid, 
                array(ddb.SYMBOL, 0) as factorname, 
                array(ddb.DOUBLE, 0) as value)

db.createPartitionedTable(schemaTB, tbName, partitionColumns=["tradetime", "factorname"].toddb(), compressMethods={"tradetime":"delta"}.toddb(), 
                        sortColumns=["securityid", "tradetime"].toddb(), keepDuplicates=ddb.ALL, sortKeyMappingFunction=[lambda x:hashBucket(x, 500)].toddb())

量化因子计算代码开发

本章节基于股票行情数据，选取了一些具有代表性的因子，用 Python Parser 进行了实现，旨在指导用户进行自定义因子的转写和开发。

双均线因子

双均线就是根据两条周期不一样的均线的相对位置来跟踪趋势的一种方法，本教程我们使用双均线交叉的方式来判断买卖方向：

短周期均线从下向上突破长周期均线时，意味着当前时间段具有上涨趋势，突破点就是常说的金叉，是股票的买入信号，在代码里，使用前一短均值小于前一长均值且当前短均值大于当前长均值的方式来判断金叉，赋予信号值为 1；
短周期均线从上向下跌破长周期均线时，意味着当前时间段具有下跌趋势，跌破点就是常说的死叉，是股票的卖出信号，在代码里，使用前一短均值大于前一长均值且当前短均值小于当前长均值的方式来判断金叉，赋予信号值为 -1。

在这里我们使用简单移动平均（Simple Moving Average），其中 n 为窗口大小：

在下边的例子中我们使用了全市场 2020.07.01 至 2023.07.19 的日频股票数据来进行计算，在实际使用中可以自由更换数据频率，如分钟频率，小时频率等。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 调用数据
df = loadTable("dfs://Daily_adj_price", "data")
df = pd.DataFrame(df, "TRADE_DATE", True)

# 定义计算 ma 金叉死叉信号生成的方法
def signal_ma(data_chunk, short, long):
    #分别计算出5日和20日均线及其前一根均线
    data_chunk['ma_5'] = data_chunk['CLOSE_PRICE_1'].fillna(0).rolling(int(short)).mean()
    data_chunk['ma_20'] = data_chunk['CLOSE_PRICE_1'].fillna(0).rolling(int(long)).mean()
    data_chunk['pre_ma5'] = data_chunk['ma_5'].shift(1)
    data_chunk['pre_ma20'] =  data_chunk['ma_20'].shift(1)
    # 通过df[contion]方式按列进行条件，判断出金叉死叉信号
    data_chunk['signal'] = 0
    data_chunk.loc[((data_chunk.loc[:,'pre_ma5']< data_chunk.loc[:,'pre_ma20'])& (data_chunk.loc[:,'ma_5'] > data_chunk.loc[:,'ma_20'])), "signal"] = 1
    data_chunk.loc[((data_chunk.loc[:,'pre_ma5']> data_chunk.loc[:,'pre_ma20']) & (data_chunk.loc[:,'ma_5'] < data_chunk.loc[:,'ma_20'])), "signal"] = -1
    return data_chunk

# 生成信号
combined_results = df.groupby('SECURITY_ID').apply(signal_ma,5,20)

示例代码解析：

通过使用 pandas 包中的 pd.groupby() + apply 的方式
实现了按照股票代码分组后对前复权的收盘价使用 rolling().mean() 求出移动平均线，并根据长短期均线之间的位置关系来判断出金叉死叉进而产生信号：1代表多头信号，-1代表空头信号，0则为目前没有信号。
在计算双均线金叉死叉信号的时候，Python Pandas 版本的实现逻辑和代码同 Python Parser 保持了一致，因此在使用时无需额外操作即可在二者之间切换。此外，Python 解析器底层自动实现的批处理加速功能，省去了 Python 实现批处理所需的额外工作，更为高效。

十档净委买增额

本章节展示了如何基于 Level2 快照行情数据计算十档净委买增额。

十档净委买增额因子指的是在有效十档范围内买方资金总体增加量，即所有买价变化量的总和，计算公式如下：

其中 level10_Difft 表示 t 时刻的十档净委买增额； bidi,t 表示 t 时刻的第 i 档买方报价； bidQtyi,t 表示 t 时刻的第 i 档买方挂单数量；指示函数 I 表示报价是否在有效释放范围内。

有效十档范围内表示不考虑已不在十档范围内的档位，即表示只考虑以下区间的档位：

最后，对过去 n 时间窗口内的十档净委买增额求和。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def level10Diff(df, lag=20):
    temp = df[["TradeTime", "SecurityID"]]
    temp["bid"] = df["BidPrice"].fillna(0)
    temp["bidAmt"] = df["BidOrderQty"].fillna(0) * df["BidPrice"].fillna(0)
    temp["prevbid"] = temp["bid"].shift(1).fillna(0)
    temp["prevbidAmt"] = temp["bidAmt"].shift(1).fillna(0)
    temp["bidMin"] = temp["bid"].apply("min")
    temp["bidMax"] = temp["bid"].apply("max")
    temp["prevbidMin"] = temp["bidMin"].shift(1).fillna(0)
    temp["prevbidMax"] = temp["bidMax"].shift(1).fillna(0)
    temp["pmin"] = temp[["bidMin", "prevbidMin"]].max(axis=1)
    temp["pmax"] = temp[["bidMax", "prevbidMax"]].max(axis=1)
    amount = temp["bidAmt"]*((temp["bid"]>=temp["pmin"])&(temp["bid"]<=temp["pmax"]))
    lastAmount = temp["prevbidAmt"]*((temp["prevbid"]>=temp["pmin"])&(temp["prevbid"]<=temp["pmax"]))
    temp["amtDiff"] = amount.apply("sum") - lastAmount.apply("sum")
    temp["amtDiff"] = temp["amtDiff"].rolling(lag, 1).sum()
    return temp[["TradeTime", "SecurityID", "amtDiff"]].fillna(0)

# 指定计算某一天一只股票的因子
snapshotTB = loadTable("dfs://TL_Level2", "snapshot")
df = pd.DataFrame(snapshotTB, index="Market", lazy=True)
df = df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")]
res = level10Diff(df.compute(), 20)

# 指定计算某一天的因子
snapshotTB = loadTable("dfs://TL_Level2", "snapshot")
df = pd.DataFrame(snapshotTB, index="Market", lazy=True)
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["TradeTime", "SecurityID", "BidPrice", "BidOrderQty"]].groupby(["SecurityID"]).apply(lambda x:level10Diff(x, 20))

示例代码解析：

Level2 快照行情数据拥有十档行情量价数据。针对这种类型相同、含义相近的数据，可以考虑使用 DolphinDB 的 Array Vector 类型来存储。在 DolphinDB 里 Array Vector 是一种特殊的向量，用于存储可变长度的二维数组。上述代码就是基于十档行情用 Array Vector 类型存储的数据库开发的，其中 “BidPrice”、“BidOrderQty” 都是 ArrayVector 的列。
表中 Array Vector 类型的列转化为 DataFrame 中的一列之后，其中每个元素为 List。
针对 Array Vector 转化的列，Python Parser 中支持四则运算、比较等基础运算（比如两列相乘 df["BidOrderQty"].fillna(0) * df["BidPrice"].fillna(0)）；其他运算需要使用 apply 函数（比如求每一行的最小值 temp["bid"].apply("min")）。
对于内置函数(比如 max/min/sum 等)，使用 apply 函数时，传入字符串和传入函数是有区别的。
- 传入字符串时，比如 temp["bid"].apply("max")，首先会去找 series 类里有没有实现这个函数，如果有，就用 series 的这个函数；如果没有，就去找内置函数。
- 传入函数时，比如 temp["bid"].apply(max)，会直接使用内置函数。

综上，对于 apply + 内置函数的情况下，一般建议用户传入字符串。

使用 shift(1) 的方式获取上一笔快照的数据。
使用 rolling().sum() 的方式求滑动窗口内十档净委买增额的和。
snapshotTB = loadTable("dfs://TL_Level2", "snapshot") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "snapshot" 的元数据取回到内存。此时变量 snapshotTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(snapshotTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001“ 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
lazy 模式下不允许直接改变 DataFrame 的值。因为 level10Diff 函数里面有 temp["bid"] = df["BidPrice"].fillna(0) 的操作，所以对直接过滤出来的 df 直接调用函数 level10Diff(df, 20) 会报错： Lazy-model DataFrame does not support update value. 需要使用 df.compute() 将 lazy 模式的 DataFrame 强制触发计算，转化为 no-lazy 模式的 DataFrame。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

价格变动与一档量差的回归系数

本章节展示了如何基于 Level2 快照行情数据计算价格变动与一档量差的回归系数。

回归模型：

其中，

ΔPt 表示 t 时刻的价格变动； lastPricet 表示 t 时刻的最新价格；
NVOLt 表示 t 时刻的买卖一档量差； bidQty1,t 表示 t 时刻的买方一档挂单笔数； askQty1,t 表示 t 时刻的卖方一档挂单笔数；
α 表示截距；λ 表示斜率；εt 表示 t 时刻的残差。

其中回归系数 λ 为目标因子值。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def priceSensitivityOrderFlowImbalance(df):  
    deltaP = 10000*df["LastPrice"].diff().fillna(0)
    bidQty1 = df["BidOrderQty"].values[0]
    askQty1 = df["OfferOrderQty"].values[0]
    NVOL = bidQty1 - askQty1
    res = beta(deltaP.values, NVOL)
    return pd.Series([res], ["priceSensitivityOrderFlowImbalance"])

# 指定计算某一天一只股票的因子
snapshotTB = loadTable("dfs://TL_Level2", "snapshot")
df = pd.DataFrame(snapshotTB, index="Market", lazy=True)
df = df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")]
res = priceSensitivityOrderFlowImbalance(df.compute())
  
# 指定计算某一天的因子
snapshotTB = loadTable("dfs://TL_Level2", "snapshot")
df = pd.DataFrame(snapshotTB, index="Market", lazy=True)
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["SecurityID", "LastPrice", "BidOrderQty", "OfferOrderQty"]].groupby(["SecurityID"]).apply(priceSensitivityOrderFlowImbalance)

示例代码解析：

Level2 快照行情数据拥有十档行情量价数据。针对这种类型相同、含义相近的数据，可以考虑使用 DolphinDB 的 Array Vector 类型来存储。在 DolphinDB 里 Array Vector 是一种特殊的向量，用于存储可变长度的二维数组。上述代码就是基于十档行情用 Array Vector 类型存储的数据库开发的，其中 “BidOrderQty”，“OfferOrderQty” 都是 ArrayVector 的列。
表中 Array Vector 类型的列转化为 DataFrame 中的一列之后，其中每个元素为 List。
针对 ArrayVector 类型，DolphinDB 开发了很多内置函数提升 Array Vector 的易用性和计算性能，比如 row 系列函数。所以除了上一章节的例子中使用的 apply 函数，也可以考虑将其通过 values 属性将 Series 转化为 DolphinDB 的类型，使用 DolphinDB 的内置函数，比如 df["BidOrderQty"].values[0] 取 Array Vector 的第一列.
使用 diff(1) 的方式计算一阶差分。
最新价 LastPrice 使用 DOUBLE 类型存储，因为量价的数量级相差较大，所以将价格变动扩大 10000 倍。
目前 Python Parser 只支持 pandas 中的函数，暂时还不支持 statsmodels、sklearn.linear_model 等数据分析包。所以不能直接计算回归系数。但是 DolphinDB 内置函数中，有 beta / ols 等函数可以求回归系数。所以这里选择用 values 属性将 Series 转化为 DolphinDB 的向量，使得后续可以调用 DolphinDB 的内置函数 beta。比如，beta(deltaP.values, NVOL)。
snapshotTB = loadTable("dfs://TL_Level2", "snapshot") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "snapshot" 的元数据取回到内存。此时变量 snapshotTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(snapshotTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001“ 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
不允许 lazy 和 no-lazy 的数据直接计算。当输入的 df 是 lazy 模式时，df["LastPrice"].diff() 操作会保留 lazy 模式，所以 deltaP 是 lazy 模式；df["BidOrderQty"].apply(lambda x:x[0]) 则会直接触发计算，所以 NVOL 是 no-lazy 模式。所以对直接过滤出来的 df 直接调用函数 priceSensitivityOrderFlowImbalance(df) ，执行到 NVOL*deltaP 时会报错： The operation args should be both lazy or not lazy. 需要使用 df.compute() 将 lazy 模式的 DataFrame 强制触发计算，转化为 no-lazy 模式的 DataFrame。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

主动成交量占比

本章节展示了如何基于 Level2 逐笔成交数据计算主动成交量占比。

主动成交占比即主动成交量占总成交量的比例，其计算公式如下：

其中 tradeQtyi 表示 i 时刻的成交量； actVolumet 表示 t 时刻起的前 lag 笔订单的主动成交量之和； totalVolumet 表示 t 时刻起的前 lag 笔订单的总成交量；指示函数 I 含义如下：

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def actVolumePercent(trade, lag):   
    res = trade[["TradeTime", "SecurityID"]]
    actVolume = (trade["TradeQty"]*(trade['BidApplSeqNum'] > trade['OfferApplSeqNum'])).rolling(lag).sum()
    totalVolume = trade["TradeQty"].rolling(lag).sum()
    res["actVolumePercent"] = actVolume/totalVolume
    return res

# 指定计算某一天一只股票的因子
tradeTB = loadTable("dfs://TL_Level2", "trade")
df = pd.DataFrame(tradeTB, index="Market", lazy=True)
df = df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")]
res = actVolumePercent(df.compute(), 60)
  
# 指定计算某一天的因子
tradeTB = loadTable("dfs://TL_Level2", "trade")
df = pd.DataFrame(tradeTB, index="Market", lazy=True)
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["TradeTime", "SecurityID", "TradeQty", "BidApplSeqNum", "OfferApplSeqNum"]].groupby(["SecurityID"]).apply(lambda x: actVolumePercent(x, 60))

示例代码解析：

通过条件 trade['BidApplSeqNum'] > trade['OfferApplSeqNum'] 过滤出主动成交订单。
通过 rolling(lag).sum() 的方式计算前 lag 笔订单的成交量之和。
tradeTB = loadTable("dfs://TL_Level2", "trade") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "trade" 的元数据取回到内存。此时变量 tradeTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(tradeTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001“ 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
lazy 模式下不允许直接改变 DataFrame 的值。因为 actVolumePercent 函数里面有 res["actVolumePercent"] = actVolume/totalVolume 的操作，所以对直接过滤出来的 df 直接调用函数 actVolumePercent(df, 60) 会报错： Lazy-model DataFrame does not support update value. 需要使用 df.compute() 将 lazy 模式的 DataFrame 强制触发计算，转化为 no-lazy 模式的 DataFrame。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

早盘买卖单大小比

本章节展示了如何基于 Level2 逐笔委托数据计算早盘买卖单大小比。

早盘买卖单大小比即早盘时间段买入订单平均委托量占卖出订单平均委托量的比例的对数，其计算公式如下：

其中 openBidVol 表示早盘时间段买入订单平均委托量； openAskVol 表示早盘时间段卖出订单平均委托量； orderQtyt 表示 t 时刻的委托量；

Ibid 是指示函数，当订单为买方委托单时值为 1，否则为 0； Iask 是指示函数，当订单为卖方委托单时值为 1，否则为 0。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def openBidVolDvdAskVol(df):
    tradeTime = df["TradeTime"].astype(ddb.TIME)
    openBidVolume = df["OrderQty"][(tradeTime >= 09:30:00.000)&(tradeTime <= 10:30:00.000)&((df["Side"]=="1")|(df["Side"]=="B"))].mean()
    openAskVolume = df["OrderQty"][(tradeTime >= 09:30:00.000)&(tradeTime <= 10:30:00.000)&((df["Side"]=="2")|(df["Side"]=="S"))].mean()
    if((openBidVolume>0)&(openAskVolume>0)):
        res = log(openBidVolume / openAskVolume)
    else:
        res = None
    return pd.Series([res], ["openBidVolDvdAskVol"])

# 指定计算某一天一只股票的因子
orderTB = loadTable("dfs://TL_Level2", "entrust")
df = pd.DataFrame(orderTB, index="Market", lazy=True)
df = df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")]
res = openBidVolDvdAskVol(df)
  
# 指定计算某一天的因子
orderTB = loadTable("dfs://TL_Level2", "entrust")
df = pd.DataFrame(orderTB, index="Market", lazy=True)
df = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01]
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["TradeTime", "SecurityID", "OrderQty", "Side"]].groupby(["SecurityID"]).apply(openBidVolDvdAskVol)

示例代码解析：

tradeTime = df["TradeTime"].astype(ddb.TIME) 逐笔委托数据中的 TradeTime 以时间戳 TIMESTAMP 的数据类型存入数据库。数据类型的转化可以使用 astype() 函数。其中的类型关键字，需要加上 ddb 的前缀。
DolphinDB 中的时间常量的格式：yyyy.MM.ddTHH:mm:ss.SSS，比如：09:30:00.000、2023.02.01、2023.02.01T09:30:00.000
通联数据中深交所和上交所的买卖方向用的不一样的枚举值。上交所：买单“B”，卖单“S”；深交所：买单“1”，卖单“2”。所以在判断买卖单的时候，增加了“或逻辑”（|）的判断。
if((openBidVolume>0)&(openAskVolume>0)) 这部分做了一个数据校验，避免出现某些股票早盘没有委托单时，早盘委托量为空的情况。
orderTB = loadTable("dfs://TL_Level2", "entrust") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "entrust" 的元数据取回到内存。此时变量 orderTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(orderTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001” 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

委托量加权平均委托价格

本章节展示了如何基于 Level2 逐笔委托数据计算委托量加权平均委托价格。

委托量加权平均委托价格是将多笔委托单的委托价格按各自的委托量加权而算出的平均价格，其计算公式如下：

其中 vwapt 表示 t 时刻起的前 lag 笔委托单的委托量加权平均委托价格； orderQtyi 表示 i 时刻委托单的委托量； orderPricei 表示 i 时刻委托单的委托价格。

因子计算示例代码如下：

import pandas as pd
import dolphindb as ddb

# 定义因子函数
def volumeWeightedAvgPrice(df, lag):
    res = df[["TradeTime", "SecurityID"]]
    totalAmount = (df["OrderQty"]*df["Price"]).rolling(lag).sum()
    totalVolume = df["OrderQty"].rolling(lag).sum()
    res["volumeWeightedAvgPrice"] = totalAmount / totalVolume
    return res

# 指定计算某一天一只股票的因子
orderTB = loadTable("dfs://TL_Level2", "entrust")
df = pd.DataFrame(orderTB, index="Market", lazy=True)
df = df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")]
res = volumeWeightedAvgPrice(df.compute(), 60)
  
# 指定计算某一天的因子
orderTB = loadTable("dfs://TL_Level2", "entrust")
df = pd.DataFrame(orderTB, index="Market", lazy=True)
res = df[df["TradeTime"].astype(ddb.DATE)==2023.02.01][["TradeTime", "SecurityID", "OrderQty", "Price"]].groupby(["SecurityID"]).apply(lambda x: volumeWeightedAvgPrice(x, 60))

示例代码解析：

通过 rolling(lag).sum() 的方式分别计算前 lag 笔委托单的总委托金额和总委托量
orderTB = loadTable("dfs://TL_Level2", "entrust") 通过 loadTable 函数，将 "dfs://TL_Level2" 数据库下的分布式表 "entrust" 的元数据取回到内存。此时变量 orderTB 只包含元数据，库内数据并未取到内存。
df = pd.DataFrame(orderTB, index="Market", lazy=True) 通过 pd.DataFrame() 函数，将 DolphinDB 的表转化为数据框。对于分布式表而言，index 为必填参数，可以指定表中的任意一列，该列仅作为索引，后续可以不参与计算；lazy 参数指定计算是否立即执行，必须指定为 True，表示该 DataFrame 会存储所有函数调用，尽可能延迟计算，以减少计算带来的性能消耗。
可以通过 df[过滤条件] 的形式选出库内指定范围的数据。比如：df[(df["TradeTime"].astype(ddb.DATE)==2023.02.01)&(df["SecurityID"]=="000001")] 指定取库内 2023.02.01 的 “000001” 这一天一只股票的数据。
建议在 groupby 执行计算函数之前，先对数据列进行过滤，只取出计算需要的列。可以降低内存使用，减少数据读取与拷贝的开销。
lazy 模式下不允许直接改变 DataFrame 的值。因为 volumeWeightedAvgPrice 函数里面有 res["orderWeightPrice"] = totalAmount/totalVolume 的操作，所以对直接过滤出来的 df 直接调用函数 volumeWeightedAvgPrice(df, 60) 会报错： Lazy-model DataFrame does not support update value. 需要使用 df.compute() 将 lazy 模式的 DataFrame 强制触发计算，转化为 no-lazy 模式的 DataFrame。
可以通过 .groupby(分组列).apply(函数) 的方式实现分组计算，Python Parser 内部对 groupby.apply 实现了并行计算。

性能测试

性能测试环境

CPU 类型	Intel(R) Xeon(R) Gold 5220R CPU @ 2.20GHz
逻辑CPU总数	24
内存	256 GB
OS	CentOS Linux release 7.9.2009 (Core)

性能测试结果

测试数据

2023 年单个交易所某日的 level-2 全天数据
- 快照数据：24,313,086 行 × 62 列 [约 20.6 GB]
- 逐笔成交：108,307,125 行 × 19 列 [约 11.0 GB]
- 逐笔委托：141,182,534 行 × 16 列 [约 11.6 GB]

数据源	因子	Python Parser 运行耗时	DolphinDB Scripts 运行耗时	Python 运行耗时	DolphinDB Scripts / python parser 性能对比	Python / python parser 性能对比
日频 K 线	双均线因子(单只股票）	10.88 ms	9.07 ms	30 ms	0.836	2.757
日频 K 线	双均线因子(全市场股票）	1.1 s	0.566 s	14.01 s	0.515	12.74
快照行情	十档净委买增额	4.3 s	1.4 s	49.4 s	0.326	11.488
快照行情	价格变动与一档量差的回归系数	2.8 s	0.34 s	25.5 s	0.019	9.107
逐笔成交	主动成交量占比	6.9 s	1.2 s	52.9 s	0.174	7.667
逐笔成交	当日尾盘成交占比	4.1 s	0.31 s	19.6 s	0.076	4.780
逐笔委托	早盘买卖单大小比	5.8 s	0.64 s	21.1 s	0.110	3.638
逐笔委托	委托量加权平均委托价格	7.2 s	1.4 s	77.2 s	0.194	10.722

总结

DolphinDB Python Parser 支持 Python 的常用语法，并兼容了 DolphinDB 部分独有语法。相比于 Python API，Python Parser 能够方便地访问 DolphinDB 库内的数据，减少了网络层面的开销；并且针对 groupby 等函数底层自动实现并行计算，提高计算性能。相比于 DolphinDB Scripts，Python Parser 兼容常用 Python 语法，学习难度更低，用户可以轻松上手 DolphinDB。

本教程针对量化金融中最常见的因子计算场景，提供了一种基于 Python Parser 开发因子的解决方案，包括不同频率因子库的存储方案和基于不同频率不同数据源的基础因子开发代码，并且因子计算性能和 Python 多进程框架相比能有 5 倍以上的提升。

附件

示例数据：tradeData.zip
因子实现 DolphinDB 版本：
- 当日尾盘成交占比.txt
- 价格变动与一档量差的回归系数.txt
- 十档净委买增额.txt
- 双均线.txt
- 委托量加权平均委托价格.txt
- 早盘买卖单大小比.txt
- 主动成交量占比.txt
因子实现 Python 版本：
- 双均线
- 当日尾盘成交占比.ipynb
- 价格变动与一档量差的回归系数.ipynb
- 十档委买增额.ipynb
- 委托量加权平均委托价格.ipynb
- 早盘买卖单大小比.ipynb
- 主动成交量占比.ipynb

欢迎体验 DolphinDB python parser，下载试用版本，请戳链接 领取你的 DolphinDB Python Parser。

你可能感兴趣的:(python,数据挖掘,数据分析,时序数据库)

Python使用库函数对列表数据进行排序_给定一个包含整数的列表,编写一个函数 is_sorted(list),判断该列表是否按升序 2401_86437117 python list 开发语言
2.sorted()函数sorted()函数也可以对列表进行排序，但它不会改变原始列表的顺序，而是返回一个新的排序后的列表。sorted()函数的使用方法如下：sorted(list,reverse=True/False)其中，list是需要排序的列表，reverse参数同样用于指定排序的方式。例如，如果我们需要对一个列表进行降序排序，可以使用以下代码：list=[3,1,4,1,5,9,2,6,
Python-面向对象编程总结（类、对象、派生、继承、方法 2401_86437117 python 开发语言
name="Girl"print(Girl.name)print(Girl.name)结果：>>Girl>Girl>>>私有变量，即**不可以在外部访问**的变量。名字前使用\_\_classGirl:“”“AClass——Girl”“”name=“Girl”__private_name=“XiuJie”结果：>>Traceback(mostrecentcalllast):> File"learn
Python 中的 with open：文件操作的最佳实践木觞清 python 开发语言
在Python中，文件操作是最常用的一项任务，无论是读取文件内容，还是将数据写入文件。传统的文件操作方式使用open()和close()函数来处理文件，但在实际开发中，我们推荐使用withopen()语句来进行文件操作。本文将详细介绍如何使用withopen()来安全、简洁、高效地进行文件操作。什么是withopen()？withopen()是Python中的上下文管理器（contextmanag
python列表元素提取_python提取list中的元素 weixin_39996096 python列表元素提取
如何在python列表中查找某个元素的索引方法二：利用enumerate函数。python怎么把一个列表中的特定子元素(元组)提取出eg:list1=[(小明,小明),(小红,小红),(小天，小天)]list2=[小list2=[i[0]foriinlist1]Python中怎么快速提取List中的元素个数提取list的元素个数？是什么意思？取list的元素的总个数还是取list里面的特定的一个或
python中如何修改列表中元素_python中修改列表元素的常见方法 weixin_39747049
列表的元素相当于变量，因此程序可以对列表的元素赋值，这样即可修改列表的元素。例如如下代码：a_list=[2,4,-3.4,'crazyit',23]#对第3个元素赋值a_list[2]='fkit'print(a_list)#[2,4,'fkit','crazyit',23]#对倒数第2个元素赋值a_list[-2]=9527print(a_list)#[2,4,'fkit',9527,23]上
蓝桥杯python基础算法（2-2）——基础算法（C）——递归 X _X Python Lanqiao 算法
四、递归递归出口：这是递归过程中的终止条件，防止函数无限制地调用自身。当前问题如何变成子问题：这是递归函数中最重要的部分，即如何将当前问题逐步简化为更小的子问题。例题-汉诺塔Hanoi塔由n个大小不同的圆盘和三根木柱a,b,c组成。开始时，这n个圆盘由大到小依次套在a柱上，如图所示。要求把a柱上n个圆盘按下述规则移到c柱上：(1)一次只能移一个圆盘；(2)圆盘只能在三个柱上存放；(3)在移动过程中
tensrflow+Python TypeError问题及解决方案（后续持续更新） my_chen_smile tensorflow python typeError tensorflow
TypeError:intreturnednon-int(typeNoneType)错误代码yl是tensorflow里的tensor数据类型ifint(yl.shape.dims[1])%2==1andint(yl.shape.dims[2])%2==1:yl=tf.pad(yl,tf.constant([[0,0],[sz,sz+1],[sz,sz+1],[0,0]]),mode='refle
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
Python 异常处理 weixin_33675507 python 操作系统 runtime
python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。异常处理:本站Python教程会具体介绍。断言(Assertions):本站Python教程会具体介绍。python标准异常异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)E
python中typeerror是啥意思-解决Python 写文件报错TypeError的问题 weixin_39569112
处理上传的文件：f1=request.FILES["pic"]fname="%s/%s"%(settings.MEDIA_ROOT,f1.name)withopen(fname,"w")aspic:forcinf1.chunks():pic.write(c)测试报错：TypeErrorat/upload/write()argumentmustbestr,notbytes把之前的打开语句修改为用二进
PyQt和QML 混合编程下出现 unable to convert a Python 'int' to C++ ‘int’ 错误乱乱乱乱步
第一篇博客写在出差路上。最近在调试一套PyQt与QML混合编程的程序，程序出现这个错误unabletoconvertaPython'int'toC++'int',并没有定位到具体哪行代码出错，经过排查，我发现原因如下self.distanceStatus=distanceStatus赋值给self.distanceStatus的数值过大，超出QML里面int类型的取值范围，也就是溢出了。Text{
解决：tf.placeholder(“float“, [None, width]) AttributeError: module ‘tensorflow‘ has no attribute ‘plac 小桥流水---人工智能 Python常见bug 算法 Python程序代码 tensorflow neo4j 人工智能
这个错误表明正在使用TensorFlow2.x，而代码是基于TensorFlow1.x编写的。tf.placeholder是TensorFlow1.x中的特性，在TensorFlow2.x中已经被移除，因为即时执行模式（EagerExecution）取代了静态图的机制。解决方法1.修改代码以兼容TensorFlow2.x在TensorFlow2.x中，可以直接使用普通的Python张量或tf.ke
Python入门书籍推荐常木耀_R python
许多刚入门Python选手，由于缺乏指导，导致往往培养不出爱好最后放弃作为一个自学新手，我想将我要推荐的书籍介绍出来，来帮助类似像我一样的其他新手。希望有用(仅仅是推荐书，不夹带任何私货，如有侵犯您的权益，私信我删除。入门:1.《Abyte-of-python》中文名:简明python教程入门的书很多，但能让新手轻松看懂的就少了，作者写的思路非常清晰，对每一个知识点讲解的很到位，不多不少，对初学者
MongoDB从入门到实战：全面掌握核心操作与Python对接技巧！ kdayjj966 windows python 服务器 mongodb 开发语言数据库
MongoDB数据库"NoSQL"⼀词最早于1998年被⽤于⼀个轻量级的关系数据库的名字随着web2.0的快速发展，NoSQL概念在2009年被提了出来NoSQL在2010年⻛⽣⽔起，现在国内外众多⼤⼩⽹站，如facebook、google、淘宝、京东、百度等，都在使⽤nosql开发⾼性能的产品对于⼀名程序员来讲，使⽤nosql已经成为⼀条必备技能NoSQL最常⻅的解释是“non-relation
Python入门之类的其它特性 Ssaty. python 开发语言
第1关：类的内建函数importspecialmethodtestsc=specialmethodtest.subClass()#请在下面填入判断subClass是否为parentClass的子类的代码，并输出结果##########Begin##########print(issubclass(specialmethodtest.subClass,specialmethodtest.parent
uv 安装包子燕若水 python 开发 python chrome 开发语言
是的，你可以使用`uv`来安装Python包。`uv`是一个高性能的Python包安装器和解析器，由`astral.sh`团队开发，旨在替代`pip`和`pip-tools`，提供更快的包安装体验。###如何使用`uv`安装包1.**安装`uv`**：如果你还没有安装`uv`，可以通过以下命令安装：```bashcurl-LsSfhttps://astral.sh/uv/install.sh|sh
完美解决TypeError: Unable to convert function return value to a Python type! The signature was () -＞小桥流水---人工智能算法深度学习 Python程序代码 python 开发语言
从报错信息来看，这个问题主要是由于TensorFlow与NumPy版本不兼容引起的。以下是解决这个问题的步骤：问题分析报错信息提到：AmodulethatwascompiledusingNumPy1.xcannotberuninNumPy2.0.2asitmaycrash.表明NumPy版本是2.0.2，而TensorFlow是为NumPy1.x编译的。报错还提到：AttributeError:_
Go+ 下个里程碑：超越 cgo，无缝对接 C 语言 xushiweizh 编译器编程语言 python 人工智能 java
去年（2021年）Go+的slogan从“面向数据科学”的语言升级到了“面向工程、STEM教育与数据科学”三位一体的语言。也就是说，我们希望Go+可以同时被软件工程师、中小学生、数据分析师这三个截然不同的人群所广泛使用。对Go+来说，“面向数据科学”这个目标注定有非常长远的路要走。所以去年Go+的版本迭代主要精力都花在了“低门槛”上。我们努力让Go+的使用门槛低到和Python相当的水平。这是从G
Python 浅拷贝深拷贝 MIPS71 Python
看《流畅的Python》8.3节默认做浅拷贝，自己动手实践。书中提到的网站http://pythontutor.com是一个可视化编程的网站。csdn不支持图片粘贴，我也是服了，图片全没了。。。一、浅拷贝在http://pythontutor.com/visualize.html#mode=edit下输入：importcopyl1=[3,[66,55,44],(7,8,9)]l2=list(l1)
Python DeepCopy ancher2008 Python Python Copy DeepCopy 原理区别
Copy和DeepCopy的区别。Ppython中所有数据类型都是对象，变量名只是一个对象的引用（标签）。copy：不可变对象：相当于增加了一个对象引用（新标签），包括简单数据类型和Tuple,Set>>>a=123>>>b=a>>>c=copy.copy(a)>>>d=copy.deepcopy(a)>>>id(a)1665100880>>>id(b)1665100880>>>id(c)1665
Python中的深拷贝详解嵌入式之禅 python windows 服务器 Python
深拷贝是Python中一个重要的概念，它用于创建一个对象的完全独立副本，包括所有嵌套对象和其内容。在本文中，我们将详细介绍深拷贝的概念、用法和实际示例。在Python中，深拷贝是通过copy模块中的deepcopy函数实现的。该函数可以创建一个与原始对象完全独立的副本，其中包含所有嵌套对象及其内容。与深拷贝相对的是浅拷贝，浅拷贝只复制对象的引用，而不是对象本身。下面是一个简单的示例，演示了深拷贝和
Python淘宝电脑销售数据爬虫可视化分析大屏全屏系统开题报告字节全栈_Jwy python 爬虫 flutter
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！如果需要联系我，可以在CSD
【Python】deepcopy的详细解释资源存储库 tensorflow 人工智能 python
目录【Python】deepcopy的详细解释1.浅拷贝与深拷贝的区别2.deepcopy的用法3.浅拷贝与深拷贝的对比4.为什么使用deepcopy？5.deepcopy的工作原理6.__deepcopy__方法7.使用deepcopy时的注意事项总结【Python】deepcopy的详细解释deepcopy是Python标准库中的copy模块提供的一个函数，它用于创建对象的深拷贝。深拷贝与浅拷
SQLModel入门野草说技术 Python高楼平地起数据库 SQLModel ORM
目录概述快速开始官方教程简单使用样例概述SQLModel是一个ORM框架，其基于SQLAlchemy和Pydantic，其中SQLALchemy提供底层ORM能力，Pydantic提供类型校验能力，SQLModel中，一个SQLModelmodel既是一个SQLAlchemymodel也是一个Pydanticmodel。SQLModel的优势在于解决了PythonWeb开发中最大的痛点之一，ORM
python numpy 生成矩阵_详解：python numpy矩阵的创建与数据类型！(含实例方法） weixin_39836751 python numpy 生成矩阵
前言：今天为大家带来的内容是，详解：pythonnumpy矩阵的创建与数据类型！(含案例方法）本文里面的案例和代码具有不错的参考意义，希望能够在此对各位有所帮助！喜欢的话不忘关注点赞加转发不迷路哦！！！一、构造矩阵矩阵的构造可以有多种方法：1.使用python中的方法构造矩阵-生成一维矩阵#使用python自带的range（）方法生成一个矩阵a=list(range(100))#range（）产生
Python安装netCDF4 什么时候能够成为程序猿 python 开发语言 linux
netCDF4离线安装包LinksfornetCDF4(tsinghua.edu.cn)pipinstall netCDF4-1.6.0-cp39-cp39-win_amd64除了netCDF4还要安装一个cftimecftime离线安装包pipinstall cftime-1.6.2-cp39-cp39-win_amd64以上需要根据自己的python版本来选择。安装numpy超过2.0报错
python操作sqlite3 reset2021 python基础理论 sqlite 数据库 python
01、sqlite数据库简介：SQLite，是一款轻型的数据库，它包含在一个相对小的C库中，很多嵌入式产品中使用了它，其中python就嵌入了它。所以在此就简单地讲述一下python中相关sqlite的操作。下面就数据库的常规操作，连接，增删改查几个操作进行讲述。2.1连接数据库#try-except:防止因连接失败导致程序崩溃try:#数据库文件路径db_file='saveinfo.db'#连
python netCDF4 ww大魔王丷 Python python
NetCDF简介NetCDF即networkCommonDataForm（网络通用数据格式），是一种面向数组型并适于网络共享的数据的描述和编码标准。文件的后缀是.nc。nc在气象领域应用很广，因为它可以存储不同波段的长时间观测结果。NetCDF文件中的数据以数组形式存储。例如，某个位置处随时间变化的温度以一维数组的形式存储。某个区域内在指定时间的温度以二维数组的形式存储。来源：【知乎Assimov
python安装netCDF KeepStu python 数据分析 python 数据可视化
1.下载https://www.lfd.uci.edu/~gohlke/pythonlibs/#netcdf4找到netCDF4‑1.5.4‑cp37‑cp37m‑win_amd64.whl（建议使用稳定一点的版本）2.安装放入D:\Anaconda3pipinstallnetCDF4-1.5.4-cp37-cp37m-win_amd64.whl3.测试fromnetCDF4importDatas
python模块netCDF4安装最新教程 2401_85863780 python 开发语言 netCDF4 whl
netCDF4是一个Python库，用于读写netCDF4文件格式，这是一种广泛使用的存储多维科学数据的格式。通过预编译的whl文件安装netCDF4可以简化安装过程，特别是在编译时可能会遇到依赖问题的情况下。安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。