经济与金融大数据挖掘——知识点总结回顾

前言

关键:做对的事,把事做对
避免原则和本质错误更为重要!
经济与金融大数据挖掘——知识点总结回顾_第1张图片
金融市场是现代市场经济的重要基石

  • 智力密集性
  • 充斥着信息和数据
  • 高回报高收入
  • 高智力人才投身

中国大数据应用规模最大的五个行业

  1. 互联网
  2. 电信领域
  3. 金融领域
  4. 政府
  5. 医疗

1.1 金融行业大数据应用投资分布

从投资结构上分为银行、证券、保险
经济与金融大数据挖掘——知识点总结回顾_第2张图片

1.3 金融业需要大数据的原因

  1. 现代金融市场高度依赖于数据驱动
  2. 本质上是信息中介
  3. 数据价值高:在大数据应用价值方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高。
  4. 数据产生量大:从行业内每家公司的数据量来看,信息、金融保险、计算机及电子设备、公共事业四类的数据量最大。

数据驱动金融,金融产生数据

1.4 金融业的本质是信息分析能力

银行:存款人与借款人的信息中介
保险:事故发生率,赔偿金额与保费率的计算平衡
证券:投资信息分析能力,基于事件驱动

1.5 金融大数据主要类型

  • 传统的数字数据
  • 财务数据
  • 个人金融信息
  • 事件发生概率统计

2000年后,数据快速转向数字化,计算能力快速提升,金融公司拥有大量数据,数据来源多元化。
互联网时代的大数据:文本数据、图像数据、音频数据、视频数据、地理位置数据、行为数据
大数据来源多元化:论坛、微博、各种APP、位置信息、交通数据库、监控视频。

各行业主要数据来源对比
经济与金融大数据挖掘——知识点总结回顾_第3张图片
金融数据挖掘相关的技术
经济与金融大数据挖掘——知识点总结回顾_第4张图片
经济与金融大数据挖掘——知识点总结回顾_第5张图片
经济与金融大数据挖掘——知识点总结回顾_第6张图片
经济与金融大数据挖掘——知识点总结回顾_第7张图片
经济与金融大数据挖掘——知识点总结回顾_第8张图片

二、银行大数据

2.1 银行大数据应用方面

  1. 客户画像应用
    银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果。
    可扩展的外部数据来源:客户在社交媒体的行为数据、在电商网站的交易数据、企业客户的产业链上下游数据、其他有利于扩展银行收集客户兴趣爱好的数据
  2. 精准营销
    在客户画像的基础上银行可以有效的开展精准营销。
    经济与金融大数据挖掘——知识点总结回顾_第9张图片
  3. 风险管控

中小企业贷款风险评估、欺诈交易识别等。
经济与金融大数据挖掘——知识点总结回顾_第10张图片
4. 运营优化

  • 市场和渠道分析优化
  • 产品和服务优化
  • 舆情分析

三、保险大数据

精细化营销:客户细分、潜在客户挖掘、客户流失预测、客户关联销售、客户精准营销
精细化运营:产品优化、运营分析、代理人甄选
欺诈分析:保险欺诈与滥用分析、车险欺诈分析

  1. 客户细分和精细化营销
    经济与金融大数据挖掘——知识点总结回顾_第11张图片
  2. 欺诈行为分析
    经济与金融大数据挖掘——知识点总结回顾_第12张图片
  3. 精细化运营
    保单个性化、保险销售人员甄选

四、证券大数据

现代证券市场汇集了一个国家最重要的企业
证券是经济的晴雨表
证券市场受到各种信息的驱动

4.1 信息驱动金融市场

2013年诺奖得主尤金法码(Fama)提出有效市场假说”证券市场价格反映了投资者获得的所有过去、现在、和涉及未来的公开信息“

4.2 信息处理的非理性扭曲金融市场

2017年诺奖得主理查德塞勒进一步补充和完善,提出行为金融学。”人群对信息的处理并非是完全和理性的,存在各种个体和群体性偏差“

证券市场预测模型的发展阶段
经济与金融大数据挖掘——知识点总结回顾_第13张图片

  1. 时间序列的交易数据
    最早用于建立预测模型的一类数据,主要包括:历史价格数据,交易量数据,指数数据
  • 预测模型
    典型的预测模型有自回归滑动平均模型(ARMA)广义自回归条件异方差模型(GARCH)
    计算机领域的学者采用人工智能相关技术(如神经网络、支持向量机、模糊理论)进行建模并实现预测
  1. 新闻数据
    一些新闻报道(如财经新闻)会直接或间接地影响金融市场行情。
    一个多源数据的预测DS模型可以表示为
    在这里插入图片描述
    预测模型的思路通常是,利用数据的极性值来分析市场的走势。通过论坛评论判断发言人情感倾向。
    新闻多是以非结构化半结构化的文本形式出现的,因此文本信息处理成为基于新闻信息的预测模型的主要研究内容。
    一般而言,使用新闻数据建立预测模型分为数据预处理、数据极性计算、预测模型学习三个步骤。
    对于英文的新闻数据,数据预处理主要是词过滤。对于中文的新闻数据,数据预处理首先要进行分词,然后再进行词过滤。
    词过滤主要是去掉一些停用词和不重要的词,保留有代表性的词。
    数据极性计算,目前的研究主要使用名词短语命名实体词袋模型等文本挖掘技术,来构造极性指数,计算新闻数据相关内容(词)的极性,给每条新闻进行标注。
    近年来,将新闻信息用于构建预测模型得到了广泛研究,其中具有代表性的有情感分析技术文档摘要技术
  2. 互动媒体
    以推文为代表的一种新的数据进入金融市场。数据来源:推特、博客、脸谱、微博等社交平台。
    以一种“群智能”的方式引导投资者的心理和行为,进而逐渐影响市场动态。

面临的挑战

  1. 推文、微博等半结构化、非结构化文本信息,具有数据量大、更新快、噪声高、冗余多等特征。
  2. 现有的自然语言处理和文本挖掘方法,如情感分析等无法有效地对这些信息进行处理并用于后续的分析预测工作。
  3. 使用现有的情感分析技术进行市场价格预测,存在较高的时间复杂度,无法满足目前的实际应用(如算法交易)对预测时间的要求
  4. 行为金融学指出人类行为的非理性,对这种非理性的度量和研究

绪论

1.1 大数据金融的领域理论基础

  1. 信息经济学
    金融是信息工业,其表现为整个金融工业可以完全无纸化运行。
    银行、保险、证券的核心都是对信息的收集处理和利用
    金融行业的利润从根本上来自于信息不对称
    1)信息不对称
    市场参与者对信息的了解是有差异的
    掌握信息充分的参与者,处于有利地位
    信息不对称决定了竞争是不完全的
    私有信息对交易有着重要作用
    2)差车驱逐良车
    旧车市场上,卖方信息更多,买方知之甚少,只能观察价格,同等价格情况下,车况差的车主更愿意达成交易。
    结论:在经济和金融市场中,只要是存在信息不对称的地方,信息和数据就能创造利润。
  • 信息与风险
    金融业是经营风险的行业
    风险来自于客户信息的不完全与不对称。
    信息不对称在金融市场广泛存在。
  1. 金融中介理论
    三种主要的金融形态,从本质上看都是信息中介。
    过去主要依靠银行,券商,保险等传统金融结构收集信息。
    互联网时代,网上购物,支付,交易行为等提供了源源不断的数据。
    大数据的出现,改变了我们对金融中介的传统认识
    形成金融再脱媒现象,在金融管制的前提下,资金跳过跳过传统的媒介即商业银行体系,直接输送给需求方和融资者,完成资金的体外循环,银行传统业务利益不断缩减,将间接融资转变为直接融资。

  2. 金融功能理论
    传统上把金融市场划分为银行,证券,保险,为了控制风险,进行分业经营。
    Merton和Bodie在1993年提出金融综合功能理论。
    从基础上总结了金融的六大功能,以便于在新时代重新进行新的思考。

金融六大功能

  • 资源配置:证券、银行
  • 支付:银行
  • 风险管理:贷款、保险、利率、证券
  • 价格发现:贷款、保险、利率、证券
  • 分割所有权:证券
  • 提供激励:证券、贷款

大数据金融

配置资源:证券,贷款:信用评价、小微企业
支付:银行、支付宝,微信
风险管理:贷款,保险,利率,证券:综合行为追踪
价格发现:贷款,保险,利率,证券:套利模型,事件驱动,统计模型,机器交易

大数据金融模式

  • 平台金融模式:企业自身掌握有大数据,并有能力对这些数据进行专业挖掘,为平台企业提供资金融通和结算。
  • 供应链金融模式:京东商城,为上下游企业提供金融服务。

传统小微企业贷款困局

  • 信用难以评估
  • 没有多少可抵押资产
  • 贷款金额少,评估人员占用的费用比高
  • 银行多倾向于进行大额,高信用企业贷款

大数据对金融行业态的影响

  • 大数据时代,数据将成为金融机构的核心竞争力
  • 互联网企业比传统银行拥有全面的客户数据,正在颠覆整个行业
  • 出现了大数据金融机构提供信用评估+传统金融机构提供贷款的新商业模式
  • 传统银行正在沦为资金汇集和提供商,正在失去金融中介的作用
  • 这个过程可能会很漫长
  • 传统的业务形态必将发生改变,不再仅仅依靠资产抵押、人工调查,而更加关注依靠大数据进行综合分析,“乞丐也有信用”

大数据,大挑战

  • 个人隐私保护
  • 相关关系与因果关系
  • 大数据偶然错误导致的严重后果,光大8.16事件。

大数据与量化投资

4.1量化投资的发展历程

  • 定性投资转向基于大数据的量化投资
  • 在欧美市场,伴随着高频交易,大数据及云计算的发展,量化投资已经跻身主流投资方式
  • 交易量占到市场90%以上
  • 我国也已经占到15%以上
  1. 量化投资的理论
  • 马科维兹的均值方差模型
  • 尤金法玛的市场有效性理论EMH
  • 夏普的资本资产定价模型
    共同构建了数理化的“现代投资理论”
  1. 量化投资的优势
  • 借助计算机建模及程序化执行指令,消除了心理干扰
  • 量化决策过程更客观科学,使管理更有纪律性和系统性。
  • 量化投资能够给投资者带来更加丰富的投资渠道和产品,满足不同投资者的多层次、差异化投资需求。
  1. 主动型量化基金
    主动型量化基金在海外发展30多年,国内发展16年。
    随着中小创板块2013年后的持续牛市,以及大数据,人工智能,金融科技等领域快速发展,量化投资开始成为市场热点。
  2. 股票量化投资流程

4.2 量化投资的主要策略

主流的量化投资策略

  1. 量化选股:通过数据分析,判断是否将一只股票放入股票池。
    数学方法:公司估值法、趋势法、资金法
    估值法:估值高低
    趋势法:市场动向
    资金法:主力资金动向
    不同的方法背后,是不同的基础理论,以及对这个世界的哲学思考。

  2. 衍生的模型
    多因子模型,风格轮动模型、行业轮动模型、资金流模型、动量反转模型、一致预期模型、趋势追踪模型

  3. 世界最好的投资基金概览
    经济与金融大数据挖掘——知识点总结回顾_第14张图片

多因子模型的基础:均值方差模型

  • 1952年,Markowitz建立了均值方差模型,第一次将梳理工具引入了金融研究。
  • Markowitz把风险定义为收益率的波动率。
  • 1964年,威廉夏普提出了资本资产定价模型CAMP,与默顿米勒和哈里马科维兹三人共同获得1990年诺贝尔经济学奖。
  • 1973年Black和Scholes
  • 20世纪末至今,遗传算法、决策树、神经网络、等非线性方法在金融理论及实践上获得了广泛的应用。
  1. 资产定价模型CAPM
    CAPM阐述了投资者都采用Markowitz理论进行投资条件下,市场均衡状态的形成。
    把资产预期收益与预期风险之间的理论关系用一个简单的线性关系进行了表达,认为资产收益与资产风险之间正相关,相关系数为β
    经济与金融大数据挖掘——知识点总结回顾_第15张图片

资本资产定价模型的假设
CAPM是建立在Markowitz模型基础上的,Markowitz模型的假设自然包含在其中:

  • 投资者希望财富越多越好,效用是财富的函数财富又是投资收益率的函数,因此可以认为效用为收益率的函数
  • 投资者能事先知道投资收益率概率分布正太分布
  • 投资风险用投资收益率的方差标准差标识
  • 影响投资决策的主要因素为期望收益率风险两项。
  • 投资者都遵守主宰原则(Dominance rule),即同一风险水平下,选择收益率较高的证券,同一收益率水平下,选择风险较低的证券。
  1. 多因子模型的形成:市场有效理论
    尤金法玛(Fama)进一步发展了这些理论,提出有效市场假说EMH,获得了2013年诺奖。
    EMH将市场划分为强有效,半强有效,弱有效及无效4种类型。
    市场假说影响到了设计数据模型的基本思路
  • 强有效市场
    价格充分反映了所有公司的运营信息,包括了公开的信息,也包括未公开的信息。
    推论:在强有效市场中,任何投资者都不能获得超额利润,任何主动的投资方法都是没有价值的。
    原因:任何主动的投资方法都是基于对信息的分析和预测,由于价格已经反映了这些信息,因此这些工作都是徒劳的。
    进一步推论:在强有效市场,设计任何数据模型都是无效的
    最好什么也不做,直接投资市场指数——被动投资。

基于EMH强有效市场理论建立的模型1:被动指数基金

指数基金是以特定的指数为标的基金,并以该指数的成份股为投资对象,通过购买该指数的全部或部分成分股构建投资组合,以追踪的指数表现的基金产品
目前市场上主流的标的指数:沪深300指数、标普500指数、纳斯达克100指数

弱有效市场

中国是弱有效市场。
中国市场中选择可能是有效地,不是强有效市场。

  1. 弱有效市场
    价格仅仅反映过去的成交量,成交价等信息
    任何公司基本面信息及非公开信息都能带来超额收益
    推论:数据分析能够带来超额收益
    弱有效市场,或者市场的无效性,是数据模型建立的基础,可以进行主动投资
    这种投资基于两种手段:信息更广泛更及时的收集能力、信息更深度的分析能力

基于弱有效市场建立的模型2:多因子模型

  1. 三因子模型:CAPM市场指数、市净率、公司规模
    在资本资产定价模型(CAPM)等传统理论下,投资组合的全部风险溢价由Beta系数表示。
    该模型在解释市场回报的现实情况上,遇到了诸多挑战
    Fama和French发现市值较小,市值账面低的两类公司更可能取得优于市场水平的平均回报率,由此引入市净率、公司规模。与CAPM中的市场指数一同估计股票的回报水平,构建了三因子模型。
  2. 四因子模型:CAPM市场指数、市净率、公司规模、动量效应
    Jegadeesh和Titman以动量策略交易(动量效应是指过去收益较高的资产,在未来一段时间内仍获得较高的收益,过去收益较低的资产在未来仍获得较低的收益。)能够获取超额利润来说明股票的异常报酬
    如果投资人预期未来股价将持续增长,致使投资人产生过度反应,此类股票价格在过去的增长推动下将会变得更高。进而说明股票是具有价格的动量效果
    Carhart在Fama和French的三因子模型基础上加入动量效应,构建了四因子模型。
  3. β系数的取法
    所谓系统风险,是指资产受宏观经济、市场情绪等整体性因素影响而发生的价格波动,换句话说,就是股票与大盘之间的联动性,系统风险比例越高,联动性越强
    β是一种风险指数,用来衡量个别股票或股票基金相对于整个股市的价格波动情况。
  4. 阿尔法收益
    威廉夏普在19964年发表的一篇文章中将金融资产的收益拆分成两部分
  • 和市场一起波动的部分叫贝塔收益,
  • 不和市场一起波动的部分叫做阿尔法收益
  • 资产收益=阿尔法收益+β收益+残留收益

由CAPM扩展出多因子模型的步骤

经济与金融大数据挖掘——知识点总结回顾_第16张图片

经济与金融大数据挖掘——知识点总结回顾_第17张图片

行为学主要观点

1010种认知偏差、27种社会偏差、49种记忆偏差
常见的是:过度自信、损失厌恶、处置效应、锚定效应

羊群效应:投资者往往是通过观察周围人群的行为而提取信息,在这种信息的不断传递中,许多人的信息将大致处于相同且彼此强化,从而产生的从众行为。
羊群效应是由个人理性行为导致的集体的非理性行为的一种非线性机制。

基于羊群效应建立的模型

  • 动量模型
  • 技术分析模型
  • 反向投资模型

对于弱小的动物来说,羊群效应具有保护性作用。
适应器的代价很小,但收益很关键。
羊群效应是进化迟滞的表现,是根植于我们基因的心理机制,很可能会长期存在,也可能会产生严重的问题,不知不觉中因为情绪而影响思考结果,长期压力下无法独立思考,无法信任系统结果。

大数据与银行

芝麻信用

身份特征:15%
信用历史:35%
履约能力:20%
行为偏好:25%
人脉关系:5%
经济与金融大数据挖掘——知识点总结回顾_第18张图片

5C模型

经济与金融大数据挖掘——知识点总结回顾_第19张图片

FICO模型

信用偿还历史:35%
使用信用的年限:30%
信用账户数:15%
正在使用的信用类型:10%
新开立的信用账户“10%
经济与金融大数据挖掘——知识点总结回顾_第20张图片

你可能感兴趣的:(金融大数据,大数据,数据分析,人工智能,机器学习)