数据挖掘在股指期货操纵行为识别中的应用理论
与模型研究
MG0915055 马文虎
(工程管理学院 信息管理工程)
摘 要:目前国内外各大交易所对操纵行为的识别方法是基于经验和统计的简单划分,这些方法虽然得到广泛应用,但是实际起到的效果却十分有限,也无法适应日益复杂的监控需求。而基于数据挖掘技术的方法,不仅为股指期货操纵行为识别提供了新的实现手段,而且提高了股指期货操纵行为识别的能力,增强了监控的效率,使以前无法识别的操纵行为无处遁形。本文在对原有数据挖掘技术改造的基础上,提出了针对股指期货交易主要指标的三种分析方法,即基于小波-BP神经网络-ARMAX/GARCH的股指期货合约价格的时间序列分析模型、成交数据的支持向量机分类模型和委托行为的多分类融合分类模型。这些新的方法分析的内容涵盖了股指期货交易数据的核心部分,同时弥补了现有方法存在的不足,提高了分析的准确性及识别的及时性。
关键字:数据挖掘 股指期货 行为识别 支持向量机 小波分析
股指期货目前已经是现代资本市场中十分成熟的金融产品,也是当前国际资本市场主流风险管理工具之一。虽然股指期货是在20世纪80年代初新一轮金融创新的背景下兴起和发展起来的,但在20世纪90年代,金融衍生品市场已经成为金融领域的主旋律。操纵行为作为金融衍生品市场最主要的违法违规行为,它扭曲了价格对实际价值的反映,破坏了市场的资源配置功能,同时,操纵行为破坏了市场的公平投资环境,削弱了资本市场对国内外投资者的吸引力。因此,各国政府一直致力于市场操纵行为的防范。
目前,国内对股指期货的操纵模式与监管对策缺乏系统的研究,这将影响到我国股指期货推出的进程与路径。目前国内商品期货交易所和证券交易所对操纵行为的识别一般是基于经验的分类或基于统计的简单划分方法,这些方法一般根据决策者的经验或是根据交易行为简单的属性特征,对交易趋势预测和交易客户分类,例如根据客户持仓量或交易量进行分类。虽然这些划分对操纵行为的识别也是很有意义的,但却无法满足复杂的分析需求,诸如哪些客户存在潜在操纵股指期货的行为、哪些客户的违法概率更高等。随着管理信息系统的广泛应用和金融衍生品市场的深入发展,交易所将积累越来越多的交易数据,面对海量的交易数据,传统的分析方法更显得力不从心。
数据挖掘技术的出现,为解决海量数据下的交易行为分析提供了新的方法。90年代中期出现的数据挖掘技术(Data Mining)是一项以人工智能为基础的数据分析技术,其主要功能是在大量数据中自动发现潜在有用的知识。数据挖掘中的决策树法、神经网络法、关联分类法等都可以作为股指期货行为分析的基础技术。然而,将这些现有的数据挖掘技术直接应用于交易行为分析还存在着一些问题和不足。本文将针对交易行为数据的特点,探索新的数据挖掘技术和方法,以弥补现有数据挖掘方法存在的缺点和不足。
股指期货以股票为基础,同时具有自身特定的机制,因而,股指期货兼具有股票与期货的特性。从产品定价的角度,金融衍生品市场与现货市场甚至可被认为“一个市场”。由于股票与衍生品市场之间存在高效的套利关系,股权衍生品的操纵行为会与现货市场相互传递,存在期货与现货同时操纵的问题。
操纵是指:任何单位或者个人以获取利益或者减少损失为目的,利用其资金、信息等优势或滥用职权操纵市场,影响证券市场价格,制造证券市场假象,诱导或致使投资者在不了解事实真相的情况下做出证券投资决定,扰乱证券市场秩序的行为[1]。
股指期货交易行为有建仓、平仓、委托、撤单、交易指令使用等方面。面向交易行为的操纵可以表现在拉升、打压、连续交易、连续委托及撤单、市价报单的连续使用。
图1 股指期货操纵分类与行为
操纵者操纵的第一个步骤就是在股指期货市场上建立足够的仓位,达不到一定的仓位,操纵者很难实现操纵的目的。
为了能建立足够的仓位,操纵者甚至有可能反向操纵股票市场。比如,为了能够买入足够的股指期货头寸,操纵者在股票现货市场上抛售,造成恐慌气氛,导致股票价格和股票指数下跌,操纵者趁机买入股指期货。
当操纵者建立了足够的股指期货头寸后,所面临的问题就是如何操纵股票现货市场,拉升或者打压指数,抬高或压低结算价格。操纵者影响市场有两种途径,一是通过直接交易来影响市场,二是通过媒体影响大众投资者的判断和情绪。有时操纵者采用两种手段相结合的方式来操纵市场。
做空操纵的方法与做多操纵相似,不过方向相反。操纵者首先在股指期货市场上卖出足够多的股指期货,然后大量借入权重股股票并卖出,以打压指数。等股指期货到期,操纵者在股指期货上的空头头寸就可以获得大量的利润。如果市场上不允许卖空股票,操纵者也可以凭借做多操纵积累的权重股股票现货头寸打压股指。在这种情况下,操纵者通过一次做多操纵和一次做空操纵,完成一个操纵周期。如果市场上允许卖空股票,操纵者既可以先做多,然后做空,也可以先进行做空操纵,然后进行做多操纵,完成一个操纵周期。综上所述,可以把操纵的表现形式归结为以下方式,见表1。
表1 股指期货操纵的行为表现
1982年,美国在全球首先推出股指期货,经过25年发展,股权类衍生产品已取得巨大发展。Kumar与Seppi研究了现金结算下的期货操纵问题,通过假定操纵者为完全无信息交易者并引入策略性独立信息交易者之后发现,在信息不对称下,不管是否采取现金结算方式替代实物交割方式,期货合约本身就易受到市场操纵的影响。Craig Pirrong研究发现,在衍生产品市场中,现金结算并不是总优于实物交割,对最后结算机制选择依赖于市场供求情况。郎咸平对国际投行运用中国电信与中国联通两只股票价格操纵香港恒生指数与H股指数期货进行了研究[2]。
在成熟市场上,已有大量实证研究表明,股指期货存在到期效应。Stoll和Whaley以1982年5月至1985年12月的S&P500指数期货为研究对象,发现在期货合约到期日,现货市场最后一个小时比非到期日有较大的价格波动和成交量,并且到期日最后半小时与隔日开盘半小时的指数报酬存在负相关,即存在价格反转,尤其是在指数期货、期权和股票期权同时到期的时间——也称为三倍魔法时间,市场的异常现象更明显。Chamberlain在加拿大,Schlag在德国,Stoll和Whaley在澳大利亚,Karolyi在日本都发现了类似的情况。股指期货到期效应超过一定的限度,就可能存在操纵最后结算价的行为,如邢精平对2006年5月韩国KOSPI200股指期权到期日大动荡案例进行分析后认为,市场存在明显的操纵行为。
目前,国内理论界仅是对股指期货市场操纵行为进行了初步研究。臧玉卫、王萍与吴育华研究了贝叶斯网络在股指期货风险预警中的应用[3]。郑尊信与吴冲锋[4]将Kumar与Seppi假设中市场交易机制延伸到指令驱动市场,研究表明,根据股指期货和现货市场的特点而设计恰当的现金结算方式有助于控制股指期货的操纵行为。邢精平等对境外股指期货的操纵案例或疑似案例进行研究,将股指期货的操纵行为分为三类,即资金推出型、信息引导型与到期日短期操纵型,归纳了每类操纵的特点与防范措施[5]。
随着股指期货的不断发展,股指期货监管也成为交易所的工作重点,以统计分析为主的数量手段不能满足股指期货操纵行为识别的要求。对于海量的股指期货交易数据,需要谋求新的分析方法和手段。然而,目前国内外把数据挖掘技术应用到股指期货行为分析中研究比较少,理论研究也较薄弱,使得股指期货操纵行为识别陷入停滞不前的境地,因此在此阶段有必要也急需应用数据挖掘技术。
数据挖掘(Data Mining)一词,1995年在首届国际知识发现与数据挖掘大会上被首次提出,并迅速在世界范围内成为研究热点。数据挖掘是源于数据库中的知识发现(Knowledge Discovery in Database,KDD)的一项以人工智能为基础的数据分析技术,其主要功能是在大量数据中自动发现潜在有用的知识,这些知识可以被表示为概念、规则、规律、模式等。广义的数据挖掘观点认为数据挖掘就是数据库中的知识发现,它包括数据清理与集成、数据选择与变换、模式发现以及模式表示与评估。
在金融与商业领域中,数据挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。利用数据挖掘技术对分布于全球的市场消息和信息的处理来预测全球市场的主要股票指数,并对全球主要外汇交易市场货币交易率的未来走势进行预测和决策分析。这样,数据挖掘、信息管理和智能决策支持就可以融合应用于金融预测和决策分析之中。典型的金融分析领域有投资评估和股票指数预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验并通过对已有股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。
从某种意义上说,传统的经济模型过分强调对参数估计理论和方法的研究,附加了过强的先验假设,过分强调理论的指导作用而忽视了数据本身的作用。事实上,经济现象是复杂的,复杂的经济过程决定了模型之外的因素作用和动态变化的特征。而且不同的经济对象有其不同的经济背景和经济过程,反映在资料上就是数据自身的不同结构。也就是说,经济数据本身就含有一定的经济现象和特征。因此如果直接把数据挖掘的方法直接应用到股指期货操纵行为识别中,有很多需要改进的地方。
目前,数据挖掘技术应用到股指期货操纵行为识别的研究比较少,理论研究较薄弱。同时国内外各交易所的风险控制体系也大多以统计分析方法为主,如香港交易所、新加坡交易所和澳大利亚证券交易所等采用的SMARTS监察系统。只有个别交易所简单的应用了数据挖掘技术,如纳斯达克市场的ADS系统。究其原因主要是因为:
(1)数据挖掘技术是近一、二十年才兴起的,而第一个股指期货正式交易也仅仅是在1982年,无论从理论与实践,两者都是较新的事物。
(2)对股指期货的研究目前集中在对股指期货的套利、定价以及波动性等方面,很少触及面向交易行为的操纵识别问题。
(3)交易数据皆属于保密数据,国内外面向交易数据的分析研究多在交易所内部完成。
目前的应用都是将现有的数据挖掘技术直接应用于股指期货操纵行为识别中,而且应用不是很广泛。同时这些方法在运用到股指期货操纵行为识别中时,还存在如下一些有待解决的问题:
(1)现有的金融序列预测都是应用传统的模型进行预测,然而股指期货合约价格走势序列是受交易行为影响,使得股指期货合约序列存在非线性、噪声性和隐周期性,传统的金融序列预测模型无法客观的反映出这种噪声性和隐周期性。
(2)由于客户交易数据是由客户实体自有资本、认识等因素的不同而不同的,并且投资者进行交易时体现出较强的多粒度性,因此不考虑上述特性的分类方法不能确保良好的分类结果。
(3)传统的分类方法一般采用一种分类模型,而股指期货交易数据具有很强的实体差异性和二重性,因此很难用一个模型准确描述数据的全部属性,这也是分类研究中的一个普遍性问题。
在股指期货交易中,数据挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。利用数据挖掘技术对交易数据以及市场消息和信息的处理来预测股指期货走势,并对交易数据进行分类,发现股指期货操纵行为。这样数据挖掘、信息管理和智能决策支持就可以融合地用于股指期货操纵行为发现中。
利用数据挖掘技术可以对交易所丰富的数据和信息资源进行整合和分析,提高交易所识别市场操纵行为的能力。例如可以建立基于涉嫌市场操纵帐户总体行为模式的识别模型,通过挖掘不同涉嫌帐户在对股指期货的操纵行为中具有的共同行为模式,建立识别模型。数据挖掘在交易行为操纵识别中的应用可以表示如下:
(1)交易数据准备——数据和信息资源的整合
将交易的各种数据和信息资源进行整合,为挖掘涉嫌市场操纵帐户的行为模式提供良好的数据基础。主要工作是运用一致性检查、异常值检查和统计分析等手段对原始的数据和信息资源进行整合,包括历史交易数据、委托数据、持仓数据、资金数据、结算数据、行情数据、投资者基本资料。重点考察数据的一致性、完整性、清洁性。
(2)数据预处理——备选行为模式的选取
要实现数据挖掘并取得好的效果,首先要对目标对象的特征进行全面而准确的描述。采用统计分析、数据可视化、聚类等手段对投资者行为特征及其他相关特征进行初步探索,考察涉嫌账户的可能行为特征和其他相关特征,作为备选的行为模式。例如可以通过对噪声数据的处理,可以对预测和分类提供依据。
(3)涉嫌账户选取
对股指期货操纵的识别过程中需要两个数据样本集,训练样本集和检验样本集,分别用于建模和对模型进行评价。这两个数据集都来自参加交易的投资者,我们需要标记出两个数据集中的涉嫌账户。涉嫌账户的来源可以有三种:一是证监会立案调查的涉嫌市场操纵账户。这部分账户经司法认可,具有权威性。但由于司法认定的困难,被立案调查的案件只是实际涉嫌案件的一小部分,被调查的涉嫌账户更是实际涉嫌账户的极少部分,因此不具有广泛性;二是交易所认定的涉嫌市场操纵账户。这部分账户是监管人员根据实际经验识别出的,具有一定的权威性,但监管人员个人经验上的差异,在一定程度上限制了涉嫌账户识别的广泛性;三是通过统计分析和数据挖掘技术发现的涉嫌账户。这些账户不具有权威性,但如果分析得当,将具有很大的广泛性。
(4)模型建立——建立涉嫌市场操纵账户的识别模型并挖掘行为模式通过对交易历史数据的学习进行短期预测,或在训练样本集的基础上建立涉嫌市场操纵账户的识别模型,如决策树、神经网络、回归等。挖掘涉嫌市场操纵账户的行为模式就是提取识别模型中用于识别的行为特征。这个过程的主要工作将通过大量的数据处理和分析实现,包括整理数据使之满足模型的需要,设定和选取不同的备选特征等。
本研究提出的基于数据挖掘的股指期货操纵行为识别模型总体结构如图2所示。
图2 股指期操纵行为识别模型(数据-方法-指标模型)
该模型包括数据、方法及指标3个部分,为此本研究将该模型命名为股指期货操纵行为识别的数据-方法-指标体系模型。
数据部分主要由投资者属性数据和交易数据构成。其中,投资者属性数据存储包括投资者的全部内在属性和外在属性。交易数据包括投资者的持仓、委托、撤单、成交、资金等数据,根据交易数据的噪声性、隐周期性、二重性、多粒度性及实体差异性,分别提出不同的方法进行分析。
方法部分是股指期货操纵行为识别模型的核心部分,该部分的方法包括小波分析、神经网络方法、支持向量机法、决策树法、遗传算法、多分类融合法等数据挖掘方法以及这些方法的集成方法。数据挖掘将通过对投资者静态数据和交易数据的学习算法,建立投资者与行为分析结果之间的映射关系。
指标部分是通过数据-方法模块的分析,输出反操纵的指标,包括指数预警指标、异常账户指标、关联账户指标、大户报告指标、连续交易委托量指标等,这些指标是在投资者与交易行为映射关系的基础上建立的。
股指期货操纵行为的表现形式是多种多样的,但是追其根源都可以用报单、成交、持仓、价格、资金这五个指标体现出来,这五项也是股指期货日常监控的重要内容,这些指标通过不同的组合就以交易行为表现出来,因此这是本文的研究重点,具体如图3所示。
图3 股指期货监控核心内容
在目前常用的结构模型中,数据挖掘的基本工作方法都是通过分析已知分类信息的历史数据,总结出一个预测客户分类状况预测模型。用于建立分类预测模型的训练集由模型的数据部分提供。这部分数据可以是历史数据也可以是通过其他外生的,即该模型以外的方法如实验法、调研法等获得的数据。
股指期货操纵行为识别的数据挖掘方法,除了要求一般数据挖掘所应具有的信息发现能力外,还要求具有下列能力:(1)充分考虑数据的噪声性和隐周期性;(2)提高所发现知识的可靠性;(3)准确地对交易数据的多粒度特点进行识别;(4)综合多种挖掘模型适应交易数据的二重性和实体差异性。
股指期货操纵行为识别模型中的数据挖掘分析方法针对不同的交易数据数据采用不同的方法,主要的内容结构见图4。
图4 股指期货操纵行为识别的数据挖掘方法内部逻辑图
(1)股指期货合约价格序列作为输入值,因为该序列具有噪声性、隐周期性以及非线性,使用基于小波的神经网络-ARMAX/GARCH模型进行短期预测,预测结果可以作为系统的输出,也可以作为有操纵嫌疑客户的分类的预警指标。
(2)由于报单委托数据具有多粒度性,采用基于支持向量机的分类方法,该方法在解决带噪音分类问题方面也有很突出的优越性,并通过直观的几何方式给出分类的最优解,其分类结果输出,为指标体系提供蓝本。
(3)另外一种重要的交易数据是成交数据,该数据能体现出投资者的参与情况及历史记录。成交数据具有多粒度性和实体差异性,因此采用多分类融合器进行分类提高分类的效果。同样,输出的结果为指标体系提供参考。
从图3可以知道股指期货监控的核心内容是股指期货期货合约价格时间序列、委托数据及成交数据,根据股指期货操纵行为监控的需求,以及各个核心内容具有的特点,本研究提出了对应的分析模型,如图4所示。
股指期货操纵行为识别的指标体系主要功能是市场的风险预警、风险度量、风险源跟踪,并据此制定风险控制措施等,保证市场稳定运行,为广大投资者提供公平、公正、公开的投资场所,充分发挥股指期货市场的功能。
股指期货操纵行为和风险的产生是多方面因素综合作用的结果,因而建立适合的指标体系显得尤为重要。预警指标应该包含涉及风险的各方面,从而构成多角度、多侧面的指标体系。但是,在风险指标数量较多的情况下,难免出现双重或多重预警现象,即A指标和B指标同时发出预警信号,而它们反映的风险事实则是同一个。在这种情况下,则会出现人为夸大了风险发生的可能性。因此,无论风险指标之间是正相关还是负相关,均对操纵行为识别的准确性产生不利影响,故要尽量选择相关程度较低的风险指标,这也是应用数据挖掘的重要原因。
基于数据挖掘的反操纵指标建立过程是通过对风险源的认定和违规的监视,如图5所示。
图5 指标体系的形成过程
数据挖掘作为一种重要的数据分析工具,将为股指期货监管提供重要方法,并将在操纵行为识别方面有着重要应用。本研究以拓展数据挖掘应用空间和提供有效的股指期货操纵行为识别手段为目的,在集成现有投机者属性数据和交易数据的基础上,应用数据挖掘技术分析股指期货操纵识别模式,从投资者整个生命周期的角度来分析投资者各种特征、属性、行为的特点及变化规律,使相关知识发现更为准确、有效。
基于数据挖掘的一些基本技术,本研究建立了股指期货操纵行为识别系统的层次模型,如图6所示。该框架分为三个层次:数据管理层、数据挖掘层和应用层。
数据管理层主要是将投资者属性数据和交易数据等经过抽取、提炼、转换、加载等操作集成到数据仓库中,完成客户数据的管理和存储;同时也对一些相关的外部数据进行存储和管理。这些数据是该分析框架的研究对象,也是获得客户知识的基础。
图6 股指期货操纵行为识别体系的层次结构
数据挖掘层主要根据反操纵的目的完成数据挖掘过程。它包括数据的选择、数据的预处理、模式发现和模式的评估和解释几个部分。数据预处理主要是将经过选择的数据根据待解决的问题进行适当的变换等操作,以满足股指期货操纵行为识别的需要。模式发现部分在经过选择和预处理的投资者时序数据和静态数据的基础上进行数据挖掘,发现蕴含于数据中的模式。模式评估和解释对发现的模式进行分析和评价,从中选择有意义的模式作为知识,加以解释,并以适当的形式呈现至应用层。
数据挖掘层功能的实现需要相应的数据挖掘模型和算法的支持,同时也需要应用领域的知识来指导和辅助数据挖掘过程。因此数据挖掘层包含模型库和算法库以及领域知识库。通过对它们的调用来实现数据挖掘层的各种功能,这种结构使面向交易行为的数据挖掘分析框架具有良好的可扩展性,能够根据需要方便地对模型的功能进行扩充。在数据挖掘相关技术的支持下,该分析框架根据设计的时序数据挖掘模型和算法,实现面向交易行为的股指期货操纵行为模式发现的功能。
应用层主要根据确定的数据挖掘的目标,指导数据挖掘层完成相应的功能,并将经过评价和解释的知识以适当的形式呈现出来,为指标体系的建立提供理论支持。
这种基于时序数据挖掘的分析框架,要求所研究的投资者有高频的交易数据,如委托数据、成交数据等,此外还需要有投资者属性数据。
在国际上股指期货快速发展的背景下,我国的股指期货已呼之欲出。交易所作为股指期货交易的平台,要向广大投资者提供一个规范化、法制化的投资环境。鉴于我国金融市场的复杂性,需要引入新的技术方法和手段,帮助市场监管人员有效地识别各种违法违规交易行为,从而更好地发挥交易所的一线监管职能。因此,本文研究了股指期货操纵行为识别方法,目的是完善和提高股指期货操纵行为识别的分析方法,更好地为股指期货反操纵提供技术支持。
本文对我国股指期监控存在的问题及股指期货数据特点进行了系统的研究,并从一线监管者的角度出发,给出了如何发现各种涉嫌违法违的股指期货操纵行为,建立了股指期货操纵行为发现的模式。本文建立了股指期货操纵行为识别模型---数据-方法-指标体系模型,以及股指期货操纵行为识别体系架构模型,这些构架性研究成果为今后关于股指期货操纵行为识别的研究建立了一个基础性的体系结构。
[1] 国务院证券委员会.《禁止证券欺诈行为暂行办法》.1993年9月2日发布.
[2] 郎咸平.操纵.东方出版社,2004.
[3] 臧玉卫,王萍,吴育华.贝叶斯网络在股指期货风险预警中的应用.科学学与科学技术管理,2003,10:122-125.
[4] 郑尊信,吴冲锋.防范操纵下的股指期货现金结算价设计,管理科学,2006,19(5):92-96.
[5] 邢精平,张鹏,宋福铁.股指期货市场操纵风险及其防范.中国金融期货交易所研究报告,2006.