[python案例]金融知识图谱构建流程


向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

小型金融知识图谱构流程示范

存储方式

  1. 基于RDF的存储

  2. 基于图数据库的存储

[python案例]金融知识图谱构建流程_第1张图片

知识图谱构建代码 链接获取:

关注微信公众号 datayx  然后回复  知识图谱  即可获取。

AI项目体验地址 https://loveai.tech

知识图谱构建流程

1.数据获取

(1)股票基本信息

(2)股票Top10股东信息

(3)股票概念信息

(4)股票公告信息

(5)财经新闻信息(该数据集已获取但需进一步处理,未存入图数据库)

(6)概念信息

(7)股票价格信息

2.数据预处理

(1)基本信息存在空值

(2)股东信息存在重复数据

(3)CSV文件格式更改为UTF-8格式

(4)计算股票对数收益

(5)保留股票价格交易日为242(众数)&计算皮尔逊相关系数

3.数据存储

(1)明确实体&关系

(2)使用py2neo交互neo4j创建节点和关系

4.数据可视化查询

(1)基于Crypher语言

5.相关应用

(1)中心度算法(Centralities)

(2)社区检测算法(Community detection)

(3)路径搜索算法(Path finding)

(4)相似性算法(Similarity)

(5)链接预测(Link Prediction)

数据获取

[python案例]金融知识图谱构建流程_第2张图片

[python案例]金融知识图谱构建流程_第3张图片

数据预处理

[python案例]金融知识图谱构建流程_第4张图片

[python案例]金融知识图谱构建流程_第5张图片

[python案例]金融知识图谱构建流程_第6张图片

数据交互(Sample)

[python案例]金融知识图谱构建流程_第7张图片

[python案例]金融知识图谱构建流程_第8张图片

[python案例]金融知识图谱构建流程_第9张图片

数据可视化查询

查询与“平安银行”相关信息(所属概念板块、发布公告、属于深股通/沪股通、股东信息)

[python案例]金融知识图谱构建流程_第10张图片

插入股票间相关系数之后,显示与“平安银行”所有相关信息

[python案例]金融知识图谱构建流程_第11张图片

查询“平安银行”与“万科A”的对数收益的相关系数

[python案例]金融知识图谱构建流程_第12张图片

导入已开源的图算法(仅简单的统计算法)

(1)下载graph-algorithms-algo-3.5.4.0.jar复制到对应数据库的plugin文件夹下

(2)修改数据库目录下的conf中neo4j.conf,添加dbms.security.procedures.unrestricted=algo.*

链路预测算法

使用neo4j附带的图算法,其中链路预测部分主要基于判断相邻的两个节点之间的亲密程度作为评判标准

[python案例]金融知识图谱构建流程_第13张图片

[python案例]金融知识图谱构建流程_第14张图片

[python案例]金融知识图谱构建流程_第15张图片

其他算法

中心度算法(Centralities):

(1)PageRank (页面排名)

(2)ArticleRank

(3)Betweenness Centrality (中介中心度)

(4)Closeness Centrality (接近中心度)

(5)Harmonic Centrality

社区检测算法(Community detection):

(1)Louvain (鲁汶算法)

(2)Label Propagation (标签传播)

(3)Connected Components (连通组件)

(4)Strongly Connected Components (强连通组件)

(5)Triangle Counting / Clustering Coefficient (三角计数/聚类系数)

路径搜索算法(Path finding):

(1)Minimum Weight Spanning Tree (最小权重生成树)

(2)Shortest Path (最短路径)

(3)Single Source Shortest Path (单源最短路径)

(4)All Pairs Shortest Path (全顶点对最短路径)

(5)A*

(6)Yen’s K-shortest paths

(7)Random Walk (随机漫步)

相似性算法(Similarity):

(1)Jaccard Similarity (Jaccard相似度)

(2)Cosine Similarity (余弦相似度)

(3)Pearson Similarity (Pearson相似度)

(4)Euclidean Distance (欧氏距离)

(5)Overlap Similarity (重叠相似度)

链接预测(Link Prediction):

(1)Adamic Adar

(2)Common Neighbors

(3)Preferential Attachment

(4)Resource Allocation

(5)Same Community

(6)Total Neighbors

预处理算法(Preprocessing):

(1)One Hot Encoding


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

QQ群 

333972581

你可能感兴趣的:([python案例]金融知识图谱构建流程)