智能投研-数据应用领域

智能投研是指基于人工智能、大数据、云计算等现代科技手段,获取、处理、分析海量相关数据,生成投资观点和报告。 其中关键的人工智能技术包括自然语言处理(NLP,包括自然语言理解NLU、自然语言生成NLG等)、知识图谱等,人工智能提供算法和工具,大数据提供素材,云计算则提供算力。

与智能投顾的侧重点不同,智能投研的主要目的是深层次改造投资研究流程,提升资产管理能力和风险评估能力,创造AUM(资产管理规模)高质量增长。

智能投研产业链--数据获取与数据加工

数据源:

(1)金融数据。金融行业已经存在大量标准化的数据,包括行情数据、公司财务数据、公司公告、交易数据、宏观数据、行业数据、券商研报等。

(2)爬虫数据。采集来自互联网的数据,主要有地方政府网站、监管部门网站、媒体网站、社交网络等。

(3)另类数据,主要有舆情数据、社交数据和通过智能设备采集的数据,包括社交网络的付费API数据、卫星图片、天气数据等,还有通过移动终端或物联网设备采集的各种数据。

数据源的特点

1. 数据全面:金融数据+另类数据+爬虫数据。多种数据交叉验证,能创造更多价值。

2. 获取非结构化数据:一般的数据源都是结构化数据,对于如PDF、图片等非结构化数据(IPO招股书、企业年报、定增公告等),也可以解析转结构化数据。

3. 实时性:数据源可以24小时不间断提供数据,保证数据及时、有效。

数据提供商

image.png

国内以wind为头部玩家,追随者虽众,但差距比较大。

  • Wind终端:包括股票、债券、期货、外汇、基金、指数、权证、宏观行业等多项品种,7×24×365不间断的为金融机构、政府组织、企业、媒体提供准确、及时、完整的金融数据资讯。

  • 同花顺iFinD:覆盖股票、债券、基金、期货、指数、外汇等金融品种,提供最新最全市场行情、新闻研报、基本资料等。

  • 东方财富Choice:覆盖股票、固收、基金、商品、外汇、宏观行业等领域,提供Excel插件、量化接口、组合管理等应用工具,集信息查询、统计分析、应用于一体。

  • 恒生聚源:集证券实时行情、及时资讯、全面数据和专业分析工具为一体。

  • 通联数据:国内首家开放性的大数据信息平台,汇聚海外、金融、行业、企业、电商、搜索、社交媒体等各领域大数据,是量化投资和人工智能领域的原料宝藏。

  • 朝阳永续:Go-Goal4.0金融终端既是数据平台、也是工具平台,旨在助力投研人员和投顾群体,提升研究效率和服务品质。将多维度的数据挖掘成果工具化、互联网化,形成集自选股管理/监控、个股诊断、行业诊断、大盘诊断、研报分析、催化剂跟踪等多功能一体的智能投研、展业平台。

  • 私募云通:包含国内最全的私募基金数据库、公募基金数据库、量化因子数据库。基于私募云通后台强大的数据库,结合金融机构内源数据,通过各功能模块的自由组合,可以为金融机构在基金组合配置的投前筛选、投中评价和投后管理全流程提供支持,提升机构资管能力。

智能投研工具型&解决方案型公司

通联数据-萝卜投研网页版&APP

萝卜投研适用于机构和个人投资者,侧重对股票、研报、新闻公告、行业数据等的展示与分析,主要包含以下版块:

  • 首页:新闻咨询

  • 发现:新闻订阅

  • 研报:包含实时宏观研究、投资策略、行业研究、公司研究、晨会研究、债券研究、基金研究、期货研究、期权研究、外汇研究、新三板研究、金融工程、其他研究。提供PDF转文本展示。以及由萝卜投研撰写的深度见闻报告。

  • 数据:涵盖指标库、宏观经济、行业经济、市场统计。

指标库:中国宏观、行业经济、国际宏观、特殊数据、市场行情、公司数据。

宏观经济:国民经济核算、工业、景气指数、固定资产投资、财政、金融、汇率、对外经济、国内贸易、就业与工资、人民生活、人口与资源、科教体卫、证券市场。

行业经济:农林牧渔、能源、化工、钢铁、有色金属、建材、汽车、机械设备、电子电器、信息服务、食品饮料、纺织服装、轻工制造、医药生物、公用事业、交通运输、房地产及建筑业、旅游酒店、文体教育与工艺品、批发零售业、行业综合。

市场统计:货币市场、国债市场、外汇市场、市场情绪、A-H股、股指期货。

  • 研究:包含PE/PB Bands、同类对比、财务分析、策略选股、大盘预测。

基于宏观基本面数据和市场情绪指标, 通联数据开发了A股大盘指数预测模型,对当前时期未来一个月左右的沪深300指数涨跌进行预测。

  • 组合:包含自选池、组合监控

  • 看板:个股分析,跟账号相关的公告、 新闻、股票池等收藏。

image.png
image.png

文因互联

文因互联基于知识图谱和自然语言处理技术,为金融机构提供业务流程自动化和智能化解决方案。

  • 主要业务
  1. 智能监管引擎:自动化解析公众公司信息披露文档和网络舆论,提供合规、市场监控、内控与风险管理等应用。
  2. 银行智能营运分析引擎:自动化分析财务报表、外源文档、行内文档,提高银行运营决策、产品设计、营销推广、风险管理效率。
  3. 金融数据生产引擎:提供智能金融的通用底层数据和工具,实现秒级金融文本挖掘、数据推送。
  • 技术优势
  1. 知识图谱:将不同数据源的结构化结果,通过实体关联构建统一的“实体-关系”图结构模型,提供统一的知识库与知识图谱,支持跨领域数据链接与发现。
  2. 数据结构化:将海量异构文本进行结构化处理,包括文本、复杂的表格与图片,并通过自然语言技术进一步处理,自动检测数据一致性,处理无效与缺失值。
  3. 语义推理:结合“实体-关系”的结构化图谱与具体场景的业务逻辑,对异构信息进行逻辑检验,结合相关性分析与情感分析,推理出可能的隐含信息。
  4. 自然语言查询:自然语言查询支持用汉语提问,获取数据库中的信息。底层可以接入各种数据:报表平台、CRM等,助力管理,营销及运营效率提升。

庖丁科技

庖丁科技是全球领先的专注于金融语义理解的人工智能公司,致力于将国际最前沿的深度学习(Deep Learning)、自然语言处理(Natural Language Processing)、富格式文档(Richly Formatted Documents)解析等技术与金融各垂直领域专业知识进行深度融合,帮助传统金融行业打造新一代核心竞争力。

  • AutoDoc:金融市场信息披露文档AI智能复核

  • Scriber:文档信息智能认知系统,让机器读懂业务文档,提供你所需要的关键信息

  • PDFlux:PDF文档结构识别,识别文档中的表格、段落、图片、章节目录等,高效、准确地提取各种排版的表格数据

  • Calliper:智能文档比对,支持Word、PDF、扫描件之间比较,支持超长文档

  • Hunter:智能文档搜索,长文档极速加载、结果片段智能聚合、精准识别章节目录、拷贝表格和段落

  • Foundry:自然语言处理AI平台,贯通标注、训练、预测全流程,一体化处理文本语义

达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

  • 文本挖掘引擎:利用自然语言处理技术,让计算机具备文字阅读能力,帮助客户自动化处理海量文本数据,提升文字处理效率和文本挖掘深度,降低人工成本

  • 垂直搜索和知识图谱:垂直搜索引擎利用知识图谱和语义分析技术,帮助用户从海量信息中快速准确搜索到目标内容,为客户搭建出高效精准的智能搜索系统

  • 文档智能审阅系统:文档智能审阅系统可应用于金融、制造、通信、法律、审计、媒体、政府等多种文字密集型行业,为企业自动化抽取文档的关键信息、对比不同版本的文档差异、纠正文档文字错误、以及发现文书中潜在的法律风险

  • 企业级搜索引擎:企业级搜索引擎致力于为企业提供AI时代的智能搜索服务,通过对企业中散落在各系统中的数据、内容进行统一管理和高效利用,使用者可以对企业中的数据、文档、人物、图片表格等信息进行全方位、高效率的检索

  • 文字识别(OCR):达观OCR综合使用图像处理、计算机视觉、自然语言处理和深度学习等技术,准确全面的识别扫描件和图片中的文字,并通过语义分析理解抽取出业务所需关键要素,在识别的同时实现文档的结构化处理

  • 机器人流程自动化(RPA):达观RPA可迅速实现业务提效,将重复性劳动进行自动化处理,高效低门槛连接不同业务系统,让财务、税务、金融、人力资源、信息技术、保险、客服、运营商、制造等行业在业务流程上实现自动化智能升级

  • 数据挖掘分析:利用最先进的数据挖掘技术,为企业捕捉全网信息,基于海量数据和精准算法,就网站流量走势、用户行为、产品销量等进行准确预测

image.png

熵简科技:智能投研平台

结合另类数据、NLP、机器学习等多项自主研发的技术与产品,打造高效能的新一代投研一体化辅助决策平台。围绕流程管理和知识管理两大模块,提供知识图谱、智能研报、聚合搜索、舆情监控等16余项应用插件,依托高并发、低耦合的系统架构,实现用户需求的快速响应。

image.png

熵简科技内部已有自建、成熟的数据库。其自建的类别主要有三类:

一、另类数据库(ADB):包括电商、招聘、点评、招投标、视频等12个大数据库,均是来源于非付费的公开信息采集;

二、行业经济数据库(EDB):对行业指标相关的数据进行采集和整理,进而形成的行业经济数据库,如汽车领域中不仅包含有汽协、乘联会披露的车型、销量,也包含易车网的折扣率等深度数据;

三、研究舆情数据库(RDB):即通过对券商研报、公司公告、企业智库、微博舆情、公众号文章等进行聚合形成的研究报告数据库。

对于数据源的监管制定了“合规三维度”:即数据源非付费性质、不涉及个人隐私、不涉及政治敏感话题。

总结

智能投研解决方案型公司和数据采集型公司的业务边界越来越模糊,两类公司在发展过程向对方领域都有渗透,都在打造从数据采集->数据存储->数据加工->数据工具集->解决方案的整套流程,形成自有的业务生态圈。

你可能感兴趣的:(智能投研-数据应用领域)