青年君

知识图谱整理

知识图谱架构图

通过外部网站或者公开数据集获取，三方机构API获取，机构的业务相关数据。
将数据存储到MYSQL数据库中，供后续使用。
通过Binlog实时处理增量导入NEO4J图数据库，或者直接通过mysql+apoc将数据库数据批量导入到NEO4J图数据库。
通过RestfulAPI直接提供图数据应用接口。或者将图数据通过SparkGraphX上搭建的一些算法模型处理后，再提供RestfulAPI接口。

图数据库的数据存储形式

图数据的特点：

包含节点、属性和关系。
节点的属性以键值对形式存储，节点可以有多个类别标签，一个实体上可以拥有多个标签。
关系有方向也有属性，关系也可以有多个类别标签。

APOC将数据库写入NEO4J

直接同步数据库信息到neo4j中！！！

安装APOC

apoc-3.4.0.3-all.jar、mysql-connector-java-5.1.21.jar 两个jar包，放到NEO4J的plugins目录下。

APOC功能

APOC数据集成-JDBC

APOC JDBC概念

apoc.load.jdcb：可以访问提供JDBC驱动程序的数据库，并执行查询。其将结果变成以一行数据为单位的数据流，然后可以使用这些行来更新或创建图形数据结构。

APOC JDBC语法

call 
apoc.load.jdbc("jdbc:mysql://{ip}:{port}/{dbname}?user={username}&password={password}","{tablename}") yield row
create
(b:Black{number:row.black_id, type:row.type})

这是一行代码，返回row后接着跟一个cypher语句创建Black实体。yield row语句返回的是数据库中每行的数据，使用 row. 来调用每一行中的具体字段。后面通过 create 创建实体，row. 来获取前面的数据库字段作为实体的属性。

NEO4J基本操作

##　新建

# 新建实体
create (p:person{name:'jason',age:30}) return p   
# create不管有没有关系都会新增关系 
MATCH (p:person),(d:dog) CREATE (p)-[l:love]->(d) return p,l,d   # 实体之间新建关系，
# merge有则返回，无则新增 
MATCH (p:person),(d:dog) merge (p)-[l:love]->(d) return p,l,d

删除

# 必须先删除关系后才能删除实体
match (n:person{name:'jason'})-[l:love]->(d:dog) delete l  # 删除关系
match (n:person{name:'jason'}) delete n    # 删除实体

修改

match (t:tiger) set t:labelA return t    # 修改标签类别
match (n:person) set n.name='jason'    # 修改实体属性
match (n:person{name:'jason'})-[l:love]->(m:person{name:'uk'}) set l.time='1989' return n,l,m     # 修改关系的属性

查询

基本查询

普通查询：查询jason拥有的电话号码

match (n:person)-[:has_phone]->(p:phone) where n.name='jason' return n,p limit 20

查询关系：查询10个为call的关系

match p=()-[c:call]->() return p limit 10

正则查询：查询10个以jason开头的人名

match (n:person) where n.name=~'jason.*' return n limit 10

包含查询：查询10名字中包含“j”的人名

match (n:person) where n.name contains 'j' return n limit 10

复杂查询

三度内朋友关系实体查询：

match (p:person)-[:friend]-(p1:person)-[:friend]-(p2:person) where p.name='jason' return p,p1,p2

三度内所有有关系的实体查询：

match (p:person)-[]-(p1:person)-[]-(p2:person) where p.name='jason' return p,p1,p2

所有与jason通话的电话查询：

match (n:person)-[:has_phone]->(p:phone)-[:call]-(p1:phone) where n.name='jason' return n,p,p1

最短路径查询：10度范围内查询p1到p2最短路径

match (p1:person{name:'jason'}),(p2:person{name:'leo'}) p=shortestpath((p1)-[*..10]-(p2)) return p1,p2
# 所有最短路径查询！！！
match (p1:person{name:'jason'}),(p2:person{name:'leo'}) p=allshortestpaths((p1)-[*..10]-(p2)) return p1,p2

申请人之前有多少个逾期进件：

match (p:person)-[h:has_application]->(a:application) where a.status='over_due' and p.personid='23001' return count(a)

申请人的1度关系中有多少触碰黑名单：

match (p:person)-[]-(p1:person)-[h:has_phone]-(b:black) where p.personid='23001' return count(b)

申请人的2度关系中有多少个触碰黑名单：

match (p:person)-[]-(p1:person)-[]-(p2:person)-[:has_phone]-(b:black) where p.personid='23001' return count(b)

索引

所有索引都是建立在属性之上！！！

create index on <标签名称>(属性名称)
create index on :person(name)    # 创建索引
drop index on :person(name)      # 删除索引

添加唯一约束条件

create constraint on (p:person) assert p.name is unique     # 创建唯一约束
drop constraint on (p:person) assert p.name is unique       # 删除唯一约束

Orientdb 基本操作

连接数据库

from pyorient.ogm import Config, Gragph
config = Config.from_url(server, user, pwd)
g = Graph(config)

构造schema类

Node = declarative_node()    # 节点
Relationship = declarative_relationship()    # 边（关系）

# 定义节点类，继承Node；定义关系时，继承Relationship
class OrientdbFile(Node):
element_type = 'file'  # 表名
element_plural = 'files'  # 复数形式

file_id = Integer(nullable=False, unique=True)
emp_no = Integer(nullable=True, unique=False)
file_type = String(nullable=True, unique=False)

初始化schema

g.create_all(Node.registry) # 创建节点
g.create_all(Relationship.registry)  # 创建边

绑定schema

若orientdb中已存在表，则只需要绑定相应的表即可。

from class

g.include(Node.registry) # 绑定节点
g.include(Relationship.registry)  # 绑定边

from schema

classes_from_schema = graph.build_mapping(
   Node,
   Relationship,
   auto_plural = True)

# Initialize Schema in PyOrient
graph.include(classes_from_schema)

插入数据

orientdb里，一条记录可以认为是表对象的一个实例。插入记录即新建一个对象实例。有两种方式实现。

使用broker

g.persons.create(id="1", name="张三")

p = {"id": "2", "name": "李四"}
Person.objects.create(**p)

原生方式

p = {"id": "3", "name": "王五"}
g.create_vertex(Person, **p)

查询数据

方式一

result = g.persons.query().all()
for p in result:
    print(p.id, p.name)

1 张三
2 李四
3 王五

方式二

result = g.query(Person).all()
for p in result:
    print(p.id, p.name)

1 张三
2 李四
3 王五

filter

result = g.persons.query(name='张三').all()

result = g.query(Person).filter(Person.name == "'张三'").all()  # 备注：张三内层同样需要用引号包裹起来，源代码的问题，所以建议使用上面方式。

修改数据

pyorient的ogm本身并没有实现update功能，可以简单通过删除后插入实现修改功能。

ps = g.persons.query(name='张三').all()
for p in ps:
    g.delete_vertex(Person, {"name": "张三"})
    p_dict = dict(name=p.name, id=p.id)
    p_dict.update({"name": "张麻子"})
    g.create_vertex(Person, **p_dict)
result = g.persons.query().all()
for p in result:
    print(p.id, p.name)

2 李四
3 王五
1 张麻子

删除数据

p_dict = {"name": "张三"}
g.delete_vertex(Person, **p_dict)

batch批量处理

批量操作

batch = g.batch()
for i in range(5, 10):
    batch['f' + str(i)] = batch.persons.create(name='name' + str(1), id=i)
batch.commit()

result = g.persons.query().all()
for r in result:
    print(r.name, r.id)

李四 2
name1 5
王五 3
name1 6
张麻子 1
name1 7
name1 8
name1 9

备注：

batch的key不能为纯数字，例如batch[‘12’]，当然，batch[12]更不行。报错timeout，不解释。

batch的key必需明确，否则会不提交到库。

batch = g.batch()
for i in range(10, 11):
    batch.persons.create(name='name' + str(1), id=i)
batch.commit()

result = g.persons.query(id=10).all()
for r in result:
    print(r.name, r.id)

并没有任何输出，表明，记录并没有正确提交。

搭建风控算法

风控算法流程

特征工程

申请人相关特征：年龄、收入、工作性质等等。
从知识图谱提取（与关系网络强相关）：

（1）按照申请规则提取出来的特征，可以看做（2）提取出来特征的特例（规则结论只有两种，1或0）

a. 申请人是否第一次借款。

b. 申请人的朋友之前是否有过逾期。

（2）直接提取出来的特征（知识图谱提取的数据型特征）

a. 申请人2度关系内多少个黑名单节点。

b. 申请人电话记录里面12点到凌晨2点的记录占比。

模型搭建

逻辑回归、GBDT（最为常见）、SVM、神经网络

模型评估

准确率、AUC、ROC曲线、KS值

逻辑回归

主要用在二分类问题上！！！逻辑回归也是一个线性分类器！！！

线性分类器

逻辑回归做二分类时候，两种概率表示为：
$\frac{1}{1+e^{-w^{T}x+b}} \\ p(y=0|x,w) = \frac{e^{-w^{T}x+b}}{1+e^{-w^{T}x+b}}$
逻辑回归的决策边界线，为两种概率相同的点的集合。可以推导出以下的式子：
$\frac{p(y=0|x,w)}{p(y=1|x,w)} =1 \\ e^{-w^{T}x+b} =1 \\ -w^{T}x+b =ln1 \\ w^{T}x+b = 0$
所以逻辑回归的决策边界线为 $w^{T}x+b = 0$ ，为线性决策边界线。所以逻辑回归是一个线性分类器。

目标函数

定义好的条件概率：
$p(y|x,w)=p(y=1|x,w)^y[1-p(y=1|x,w)]^{1-y}$
相当于越理想的模型，预测出来的条件概率值就会越大，完全拟合的最优模型的概率值为1。

假设拥有数据集： $D={\{(x_i,y_i)\}}，i\in(1,n)$ ， $x_i\in R^d$ 特征值， $y_i \in \{0,1\}$

只需要求得每个数据的概率积最大，那么就是最优。所以目标函数定义为：
$\hat{w}_{MLE},\hat{b}_{MLE}=argmax_{w,b}\prod_{i=0}^np(y_i|x_i,w,b) \\ argmax_{w,b}意思为：让右边积最大化的参数w,b$
化简目标函数：求区间积最大，通过 $l o g$ 函数将其转化为求和最大！！！
$\hat{w}_{MLE},\hat{b}_{MLE}=argmax_{w,b}\prod_{i=0}^np(y_i|x_i,w,b) \\ →argmax_{w,b}\sum_{i=0}^n log (p(y_i|x_i,w,b))→argmin_{w,b}-\sum_{i=0}^n log p(y_i|x_i,w,b) \\ →argmin_{w,b}-\sum_{i=0}^n log p(y_i=1|x,w,b)+(1-y)log (1-p(y_i=1|x,w,b))$

最优化问题

凸函数：凸函数有全局最优解。

非凸函数：只能求得局部最优解，但是可以通过多次训练来求得效果最好的一组解。

逻辑回归梯度下降法

一般通用

求使得 $f (w)$ 值最小的参数w：

初始化 $w^1$ ；
for t=1,2,3…：
t+1时刻的w，等于t时刻的w- $\eta$ *t时刻的导数值 $\nabla f(w^t)$ , $w^{t+1}=w^t-\eta \nabla f(w^t)$

逻辑回归梯度下降法：

初始化 $w^1$ , $b^1$
for t=1,2,3…:
$目标函数对w求导后得：w^{t+1}=w^t-\eta \sum_{i=0}^n[\sigma(w^tx+b)-y]x，n为每个样本$
$目标函数对b求导后得：b^{t+1}=b^t-\eta \sum_{i=0}^n[\sigma(w^tx+b)-y]，n为每个样本$

逻辑回归随机梯度下降法

随机梯度下降（SGD）多用用于支持向量机、逻辑回归等凸损失函数下的线性分类器的学习。并且SGD已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题。

初始化 $w^1$ , $b^1$
for t=1,2,3…:
每次随机选定一个样本 $x^i,y^i）$ 参数进行更新： $w^{t+1}=w^t-\eta \sum_{i=0}^n[\sigma(w^tx^i+b)-y^i]x^i$
$b^{t+1}=b^t-\eta \sum_{i=0}^n[\sigma(w^tx^i+b)-y^i]$

微服务

微服务架构是一种架构模式，提倡单一应用划分成一组小的服务，每个服务运行在其独立的进程中，服务间采用轻量级的通信机制互相沟通，通常是基于HTTP协议的RESTful API。

组件化：可将错误隔离，某一组件出现问题，不影响其他组件。

弹性架构：按需伸缩，根据不同的业务并发进行扩展。

去中心化：可以独立测试和部署。

快速响应：单一模块的BUG修复、打包、测试和上线的时间周期少。

规则存储

存储到数据库中

优点：更新规则的时候不需要修改代码。

缺点：每次规则读取都需要一次数据库交互。
写在程序的配置文件中

优点：读取的速度会比数据库快。

缺点：修改规则时候需要修改代码。

规则开发

将cypher语句存储到数据库中，每次需要的时候就去查询语句，然后执行。

申请人之前有多少个逾期的进件。

match (p:Person)-[h:HAS_APPLICATION]->(a:Application) where a.status="OVER_DUE" and p.personId="243001" return count(a)

申请人的一度关系中有多少个触碰黑名单。

match (p:Person)-[]-(p1:Person)-[h:HAS_PHONE]-(b:Black) where p.personId="243010" return count(b)

match (p:Person)-[]-(p1:Person)-[h:HAS_PHONE]-(b:Black) where p.personId=$personId return count(b)	//用$personId进行传值

申请人的二度关系中有多少个触碰黑名单。

match (p:Person)-[]-(p1:Person)-[]-(p2:Person)-[h:HAS_PHONE]-(b:Black) where p.personId="243010" return count(b)

规则引擎开发

运用spring-bootj进行引擎开发。

pom文件配置


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>org.examplegroupId>
    <artifactId>RuleEngineServerartifactId>
    <version>1.0-SNAPSHOTversion>

    <parent>
        <groupId>org.springframework.bootgroupId>
        <artifactId>spring-boot-starter-parentartifactId>
        <version>2.3.2.RELEASEversion>
    parent>

    <dependencies>
        <dependency>
            
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
            <version>2.3.2.RELEASEversion>
        dependency>
        
        <dependency>
            
            <groupId>io.springfoxgroupId>
            <artifactId>springfox-swagger2artifactId>
            <version>3.0.0version>
        dependency>
        <dependency>
            <groupId>io.springfoxgroupId>
            <artifactId>springfox-swagger-uiartifactId>
            <version>3.0.0version>
        dependency>
        
        <dependency>
            
            <groupId>org.projectlombokgroupId>
            <artifactId>lombokartifactId>
            <version>1.18.12version>
        dependency>

        <dependency>
            
            <groupId>mysqlgroupId>
            <artifactId>mysql-connector-javaartifactId>
        dependency>
        
        <dependency>
            
            <groupId>org.neo4j.drivergroupId>
            <artifactId>neo4j-java-driverartifactId>
            <version>4.4.5version>
        dependency>
    dependencies>
project>

入口文件

package com.jason.ai;

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.scheduling.annotation.EnableScheduling;

@EnableScheduling	// 这两个标签表明这是入口文件
@SpringBootApplication
public class Application {
    public static void main(String[] args) {
        SpringApplication.run(Application.class, args);
    }
}

Swagger配置

package com.jason.ai.config;

import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import springfox.documentation.builders.ApiInfoBuilder;
import springfox.documentation.builders.PathSelectors;
import springfox.documentation.service.ApiInfo;
import springfox.documentation.service.Contact;
import springfox.documentation.spi.DocumentationType;
import springfox.documentation.spring.web.plugins.Docket;
import springfox.documentation.swagger2.annotations.EnableSwagger2;

@Configuration
@EnableSwagger2
public class SwaggerConfig {

    // 明确接口的规范，定义哪些暴露在外面可以访问！
    @Bean
    public Docket api() {
        return new Docket(DocumentationType.SWAGGER_2)
                .apiInfo(apiInfo())
                .pathMapping("/")
                .select()
                .paths(PathSelectors.regex("/.*"))
                .build();
    }

    private ApiInfo apiInfo() {
        return new ApiInfoBuilder().title("Knowledge Graph Rule Engine Service API.")
                .contact(new Contact("ZhuJun", "", "[email protected]"))
                .description("Knowledge Graph Rule Engine Service API.")
                .version("1.0")
                .build();
    }
}

kafka消息队列

Producer API：允许应用程序发布的记录流至一个或多个kafka的Topic

Consumer API：允许应用程序订阅一个或多个Topic，并处理他们记录的数据流。

Streams API：允许应用程序充当流处理器，从一个或多个主题消费输入流，并产生一个输出流至一个或多个输出的主题，有效的变换输入流和输出流。

Connector API：可以构建和允许kafka Topic连接到现有的应用程序或数据系统中重用生产者或消费者。例如，关系数据库的连接器可能捕捉每个对表的更改。

kafka单点环境部署

启动zookeeper服务，集群调度通过zookeeper管理。bin/zookeeper-server-start.sh config/zookeeper.properties
启动kafka服务。bin/kafka-server-start.sh config/server.properties
创建topic。bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic my_test
查看topic列表。bin/kafka-topics.sh --list --zookeeper localhost:2181
启动生产者。bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_test
启动消费者。bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic my_test --from-beginning

kafka集群环境部署

主要是进行多备份，当其中一些节点死掉后，也能保证消息不丢失。

启动zookeeper服务，集群调度通过zookeeper管理。bin/zookeeper-server-start.sh config/zookeeper.properties
设置zookeeper集群地址，以","为分割。zookeeper.connect=172.16.150.154:2181,172.16.150.155:2181,172.16.150.156:2181
拷贝config/server.properties配置文件，集群几个点就拷贝几份。cp config/server.properties config/server-1.properties
修改每个拷贝的文件server-1.properties，确保每个节点不一样。

（a）broker.id=0 改为 broker.id=1

（b）listeners=PLAINTEXT://:9092 改为 listeners=PLAINTEXT://:9093

（c）log.dirs=/tmp/kafka-logs 改为 log.dirs=/tmp/kafka-logs-1
启动拷贝出来的服务。bin/kafka-server-start.sh config/server-1.properties
创建一个topic，几个节点factor就是几。bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 1 --topic jason-topic
查看topic介绍信息。bin/kafka-topic.sh --describe --zookeeper localhost:2181 --topic jason-topic

其中Leader：1，表示1号为leader，当leader被杀死后，zookeeper会自动维护换到其他节点作为leader；Replicas：1,2,0表明1位leader，总体是全部复制品服务节点；Isr：1,2,0表示
启动生产者。bin/kafka-console-producer.sh --broker-list localhost:9092 --topic jason-topic
启动消费者。bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic jason-topic --from-beginning

java API消费者

POM文件


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>org.examplegroupId>
    <artifactId>kafkaDemoartifactId>
    <version>1.0-SNAPSHOTversion>

    <properties>
        <maven.compiler.source>8maven.compiler.source>
        <maven.compiler.target>8maven.compiler.target>
    properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.kafkagroupId>
            <artifactId>kafka-clientsartifactId>
            <version>2.2.0version>
        dependency>
    dependencies>
project>

消费者

package com.jason.ai.kafka;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.time.Duration;
import java.util.Arrays;
import java.util.Properties;

public class ConsumerDemo {

    public static void main(String[] args) {
        Properties pros = new Properties();
        pros.put("bootstrap.servers", "localhost:9092");	// 集群主服务地址！！！
        pros.put("group.id", "test");   // 用来标识consumer进程所在组的字符串，如果设置同一个group id，表示这些进程属于同一个consumer group
        pros.put("enable.auto.commit", "true"); //如果设置为true，consumer所接受到消息的offset将会自动同步到zookeeper中。
        pros.put("auto.commit.interval.ms", "1000");    //消费者向zookeeper提交offset的频率，单位是秒
        pros.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        pros.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(pros);
        consumer.subscribe(Arrays.asList("my_test"));
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
        }
    }
}

生产者

package com.jason.ai.kafka;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class ProducerDemo {
    public static void main(String[] args) {
        Properties prop = new Properties();
        prop.put("bootstrap.servers", "localhost:9092");
        prop.put("acks", "all");    // 生产者需要server接收到数据之后，发出一个确认接收的信号。
                                    // 0 producer不需要等待确认消息。 1 至少要等待leader已经成功将数据写入本地log，并不意味着所有节点已经写入。
                                    // all 意味着leader需要等待所有的节点都已成功写入日志中。
        prop.put("retries", 0);     //重试次数，会改变消息的顺序。
        prop.put("buffer.memory", 335544);  // 消息内存大小
        prop.put("batch.size", 16384);  // 批处理消息，减少请求次数。如果为0，就是禁用批处理，如果太大，消息就会堆积在内存中，占用内存空间。

        prop.put("linger.ms", 1);
        prop.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        prop.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        Producer<String, String> producer = new KafkaProducer<String, String>(prop);
        for (int i = 0; i < 100; i++) {
            // 吃传输key，value值
            producer.send(new ProducerRecord<String, String>("my_test", Integer.toString(i + 1), Integer.toString(i)));
        }
        producer.close();
    }
}

canal将改变数据同步

canal可以很方便地同步数据库的增量数据到其他的存储应用。

链接：https://github.com/alibaba/canal/wiki/QuickStart

准备工作

对于自建 MySQL , 需要先开启 Binlog 写入功能，配置 binlog-format 为 ROW 模式，my.cnf 中配置如下

[mysqld]
log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=1 # 配置 MySQL replaction 需要定义，不要和 canal 的 slaveId 重复

授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限, 如果已有账户可直接 grant

CREATE USER canal IDENTIFIED BY 'canal';  
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
-- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
FLUSH PRIVILEGES;

下载canal：

wget https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.deployer-1.1.5.tar.gz

解压canal：

tar -zxvf canal.deployer-1.1.1.tar.gz -C canal		// -C解压到指定目录里

修改配置：

vi conf/example/instance.properties

## mysql serverId
canal.instance.mysql.slaveId = 1234
#position info，需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306 	// ip信息
canal.instance.master.journal.name = 
canal.instance.master.position = 
canal.instance.master.timestamp = 
#canal.instance.standby.address = 
#canal.instance.standby.journal.name =
#canal.instance.standby.position = 
#canal.instance.standby.timestamp = 
#username/password，需要改成自己的数据库信息
canal.instance.dbUsername = jason		// 改为自己的用户名  
canal.instance.dbPassword = 112233		// 改为自己的密码
canal.instance.defaultDatabaseName = test	//数据库名称
canal.instance.connectionCharset = UTF-8
#table regex
canal.instance.filter.regex = .\*\\\\..\*			# 过滤哪些库和表能够被canal监听！！！

启动：

bin/startup.sh

java使用canal

导入canal依赖包

<dependency>
    <groupId>com.alibaba.ottergroupId>
    <artifactId>canal.clientartifactId>
    <version>1.1.0version>
dependency>

连接池打开，然后进入bin目录后，重启canal服务：./restart.sh

canal.instance.parser.parallelThreadSize = 16	// 将这个取消注释！！！

java使用canal客户端代码

package com.alibaba.otter.canal.sample;
import java.net.InetSocketAddress;
import java.util.List;


import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.common.utils.AddressUtils;
import com.alibaba.otter.canal.protocol.Message;
import com.alibaba.otter.canal.protocol.CanalEntry.Column;
import com.alibaba.otter.canal.protocol.CanalEntry.Entry;
import com.alibaba.otter.canal.protocol.CanalEntry.EntryType;
import com.alibaba.otter.canal.protocol.CanalEntry.EventType;
import com.alibaba.otter.canal.protocol.CanalEntry.RowChange;
import com.alibaba.otter.canal.protocol.CanalEntry.RowData;


public class SimpleCanalClientExample {


public static void main(String args[]) {
    // 创建链接
    // 修改！！！加入自己的IP地址
    CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress("127.0.0.1",	
                                                                                        11111), "example", "", "");
    int batchSize = 1000;
    int emptyCount = 0;
    try {
        connector.connect();
        connector.subscribe(".*\\..*");
        connector.rollback();
        int totalEmptyCount = 120;
        while (emptyCount < totalEmptyCount) {
            Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
            long batchId = message.getId();
            int size = message.getEntries().size();
            if (batchId == -1 || size == 0) {
                emptyCount++;
                System.out.println("empty count : " + emptyCount);
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                }
            } else {
                emptyCount = 0;
                // System.out.printf("message[batchId=%s,size=%s] \n", batchId, size);
                printEntry(message.getEntries());
            }

            connector.ack(batchId); // 提交确认
            // connector.rollback(batchId); // 处理失败, 回滚数据
        }

        System.out.println("empty too many times, exit");
    } finally {
        connector.disconnect();
    }
}

private static void printEntry(List<Entry> entrys) {
    for (Entry entry : entrys) {
        if (entry.getEntryType() == EntryType.TRANSACTIONBEGIN || entry.getEntryType() == EntryType.TRANSACTIONEND) {
            continue;
        }

        RowChange rowChage = null;
        try {
            rowChage = RowChange.parseFrom(entry.getStoreValue());
        } catch (Exception e) {
            throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:" + entry.toString(),
                                       e);
        }

        EventType eventType = rowChage.getEventType();
        System.out.println(String.format("================> binlog[%s:%s] , name[%s,%s] , eventType : %s",
                                         entry.getHeader().getLogfileName(), entry.getHeader().getLogfileOffset(),
                                         entry.getHeader().getSchemaName(), entry.getHeader().getTableName(),
                                         eventType));

        for (RowData rowData : rowChage.getRowDatasList()) {
            if (eventType == EventType.DELETE) {
                printColumn(rowData.getBeforeColumnsList());
            } else if (eventType == EventType.INSERT) {
                printColumn(rowData.getAfterColumnsList());
            } else {
                System.out.println("-------> before");
                printColumn(rowData.getBeforeColumnsList());
                System.out.println("-------> after");
                printColumn(rowData.getAfterColumnsList());
            }
        }
    }
}

private static void printColumn(List<Column> columns) {
    for (Column column : columns) {
        System.out.println(column.getName() + " : " + column.getValue() + "    update=" + column.getUpdated());
    }
}
}

canal消息发送到kafka中

修改canal配置文件

修改vi conf/example/instance.properties

#  按需修改成自己的数据库信息
#################################################
...
canal.instance.master.address=192.168.1.20:3306
# username/password,数据库的用户名和密码
...
canal.instance.dbUsername = canal
canal.instance.dbPassword = canal
...
# mq config
canal.mq.topic=example	// 队列名字为example
# 针对库名或者表名发送动态topic
#canal.mq.dynamicTopic=mytest,.*,mytest.user,mytest\\..*,.*\\..*
canal.mq.partition=0	// 0才生效！！！
# hash partition config
#canal.mq.partitionsNum=3	// 多分区时候，就在这里改正！！！
#库名.表名: 唯一主键，多个表之间用逗号分隔
#canal.mq.partitionHash=mytest.person:id,mytest.role:id
#################################################

修改vi /usr/local/canal/conf/canal.properties

# ...
# 可选项: tcp(默认), kafka, RocketMQ
canal.serverMode = kafka		// 改成kafka
# ...

修改集群信息

# kafka/rocketmq 集群配置: 192.168.1.117:9092,192.168.1.118:9092,192.168.1.119:9092 
// mq.yml修改集群地址
canal.mq.servers = 127.0.0.1:6667		// 改成集群地址
canal.mq.retries = 0
# flagMessage模式下可以调大该值, 但不要超过MQ消息体大小上限
canal.mq.batchSize = 16384
canal.mq.maxRequestSize = 1048576
# flatMessage模式下请将该值改大, 建议50-200
canal.mq.lingerMs = 1
canal.mq.bufferMemory = 33554432
# Canal的batch size, 默认50K, 由于kafka最大消息体限制请勿超过1M(900K以下)
canal.mq.canalBatchSize = 50
# Canal get数据的超时时间, 单位: 毫秒, 空为不限超时
canal.mq.canalGetTimeout = 100
# 是否为flat json格式对象
canal.mq.flatMessage = false
canal.mq.compressionType = none
canal.mq.acks = all
# kafka消息投递是否使用事务
canal.mq.transaction = false

启动canal服务：bin/startup.sh；启动zookeeper服务：bin/zookeeper-server-start.sh config/zookeeper.properties；启动kafka服务：bin/kafka-server-start.sh config/server.properties；启动消费者：bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic example --from-beginning

拼写纠错

用户输入，生成编辑距离为1或者2的可能字符串，然后通过建立的词典库进行过滤，对过滤后的词用语言模型进行排序，最后选出最合适的单词。

编辑距离

计算编辑距离

动态规划（DP）：将一个大问题拆解成几个子问题，通过子问题的答案来回答大问题。

假设有字符串 $S$ 与字符串 $T$ ，长度分别为 $M ， N$ 。 $D P [i ， j]$ 表示计算S与T子串的编辑距离。

$D P [i ， j]$ 分为以下情况：

最后字符相等情况，即 $S_i=T_i$ ，这时 $D P [i ， j] = D P [i - 1 ， j - 1]$ 。
最后字符串不相等情况，又分为：

（a） $S_i$ 比 $T_i$ 短，那么就需要增加一个字符。

（b） $S_i$ 比 $T_i$ 长，那么久减少一个字符。

（c） $S_i$ 与 $T_i$ 同样长短，那么就需要进行一次替换。

实现代码如下：

def edit_distance(str1, str2):
    """
    计算两个字符串之间的编辑距离
    :param str1:字符串一
    :param str2:字符串二
    """
    m, n = len(str1), len(str2)
    # base case多了一个维度，所以是n+1 * m+1
    dp = [[0 for x in range(n + 1)] for x in range(m + 1)]
    for i in range(m + 1):
        for j in range(n + 1):
            # 假设第一个字符串为空，那么编辑距离就是第二个字符串长度
            if i == 0:
                dp[i][j] = j
            # 第二个字符串为空，那么编辑距离就是第一个字符串长度
            elif j == 0:
                dp[i][j] = i
            # 如果两个字符串最后相同，那么编辑距离就等同于子穿的编辑距离
            elif str1[i - 1] == str2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            # 如果最后一个字符不一样，那么就是添加、减少、修改这三种的最小编辑距离
            else:
                dp[i][j] = 1 + min(dp[i][j - 1],  # 添加
                                   dp[i - 1][j],  # 减少
                                   dp[i - 1][j - 1])  # 替换
    return dp[m][n]

生成指定编辑距离的单词

输入一个字符串，将字符串分为左右两个部分，然后根据编辑距离的三种方式（添加、删除、修改）生成编辑距离为1的字符串。

def generate_edit_one(str1):
    """
    生成编辑距离为1的所有字符串列表
    :param str1:输入字符串
    """
    letters = "abcdefghijklmnopqrstuvxyz"
    splits = [(str1[:i], str1[i:]) for i in range(len(str1) + 1)]
    # 添加
    inserts = [L + letter + R for L, R in splits for letter in letters]
    # 删除
    deletes = [L + R[1:] for L, R in splits if R]
    # 修改
    replaces = [L + letter + R[1:] for L, R in splits if R for letter in letters]

    return set(inserts + deletes + replaces)

def generate_edit_two(str1):
    """
    生成编辑距离不大于2的字符串
    :param str1:输入字符串
    """
    return [etwo for eone in generate_edit_one(str1) for etwo in generate_edit_one(eone)]

拼写纠错数学建模

问题定义：给定一个输入字符串S，我们要找出最有可能的修改后的字符串C。

抽象从函数： $\hat c=argmax P(c|s)$ 。

对于任何修改后的字符串 $C$ ，分母 $P (s)$ 都是一样给定的S。

$P (s ∣ c)$ 表示：正确的是“apple”，被错写成为“appl”的概率。

$P (c)$ 表示：文本中出现“apple”这个单词的概率值。
$\hat c=argmax P(c|s) \\ =argmax P(s|c)*P(c)/P(s) \\ =argmax P(s|c)*P(c)$

分词

jieba分词

import jieba

jieba.add_word("贪心学院")
seg_list = jieba.cut("贪心学院专注于人工智能教育", cut_all=False)

停用词过滤

停用词列表要考虑自己的应用场景。

stemming（英文中）

利用语法规则将不同时态、单复数等单词进行合并。但是算法处理后的单词不一定是词库存在的单词。

java实现PorterStemmer算法：https://tartarus.org/martin/PorterStemmer/java.txt

通过NLTK库实现stemming算法：

from nltk.stem.porter import *

stemmer = PorterStemmer()
test_strs = ["caresses","flies","dies","died","owned","sized","itemization"]
singles = [stemmer.stem(word) for work in test_strs]

文本的表示

词向量

Glove训练词向量，垂直领域的词向量需要大量的文档进行专门训练。

欧式距离

距离越小相似度越高。

余弦相似度

值越大相似度越高。

余弦相似度计算文本相识度，分子是两个向量内积，分母是每个向量模的乘积。内积表示向量之间的相关性，内积越大越相关。
$余弦相似度：d=(s_1 * s_2)/|s_1|*|s_2|$

命名实体识别

评价分类器

contingency table

	预测正例	预测反例
真实正例	TP（真正例）	FN（假反例）
真实反例	FP（假正例）	TN（真反例）

基于规则的命名实体识别

正则表达式提取：电话号码
基于已知的词典库：公司名（通过定义的前缀或后缀丰富词库）。

（1）先建立好词典库

（2）匹配：精确匹配、模糊匹配（规则、相识度算法（还可以利用前后文信息来更好计算））

基于模型的命名实体识别

先分词，再特征提取

构造训练集

模型选择

时序模型：条件随机场、隐式马尔科夫模型、递归神经网络

时序无关模型：逻辑回归、支持向量机、最大熵模型

特征提取

步骤：文本——》提取特征：1.设计特征；2.转换成向量形式；3.特征选择。

当前词的特征：unigram单个词一组、bigram两个词一组。
stemming：去除时态和前后缀等后的单词。
词性。
单词的前后缀。
当前词的特点：长度，是否大写，包含多少数字，是否包含大写字符。
句法、依存分析。

特征向量化

分类变量：独热编码。例子：小学、高中、大学（1,0,0）
数值变量：直接归一化（归一到[0,1]，或者归一到正态分布中）处理，或者不做任何处理，然后作为特征向量。例子：身高、体重、气温。
顺序变量：四星好评（分等级）。处理方法与数值变量一样，或者独热编码处理。

MajorityVoting提取实体

统计每个单词最有可能被分成的实体类别。
给定一个新的单词时，把它分类成为这个类别。

import pandas as pd
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_predict

data = pd.read_csv("./datas/ner_dataset.csv", encoding="latin1")
data = data.fillna(method="ffill")

class MajorityVotinTagger(BaseEstimator, TransformerMixin):
    # 继承BaseEstimator, TransformerMixin，就能直接当做一个算法函数来使用。
    def fit(self, x, y):
        """
        :param x: list of words
        :param y: list of tags
        """
        self.tags = []
        self.mjvote = {}
        word2cnt = {}
        for x, t in zip(x, y):
            if t not in self.tags:
                self.tags.append(t)
            if x in word2cnt:
                if t not in word2cnt[x]:
                    word2cnt[x][t] = 1
                else:
                    word2cnt[x][t] += 1
            else:
                word2cnt[x] = {t: 1}

        for k, v in word2cnt.items():
            self.mjvote[k] = max(v, key=v.get)

    def predict(self, x):
        return [self.mjvote.get(w) for w in x]

words = data["Word"].values.tolist()
tags = data["Tag"].values.tolist()
assert len(words) == len(tags)
pred = cross_val_predict(estimator=MajorityVotinTagger(), X=words, y=tags, cv=5)
report = classification_report(y_pred=pred, y_true=tags)

你可能感兴趣的:(知识图谱,知识图谱)

音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder 赖皮猫 neo4j
知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。知识图谱的生成上，利用大模型的泛化能力来自动生成和构建知识图谱，包括实体、关系和属性等。其相较于微软开源的GraphRAG（以下简称MS-GRAG）有很多相似和同源之处，但也有很多的不同。模块能力llm-graph-builderGraph
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
深入理解PyTorch中的MessagePassing 小桥流水---人工智能深度学习机器学习算法人工智能 pytorch 人工智能 python
深入理解PyTorch中的MessagePassing图神经网络（GraphNeuralNetworks，简称GNNs）在近年来已成为处理图形数据的一种强大工具，广泛应用于社交网络分析、蛋白质结构预测、知识图谱增强等多个领域。PyTorchGeometric（PyG）是基于PyTorch的一个库，专为图神经网络的研究和实现而设计。在PyG中，MessagePassing类是实现图神经网络层的核心组
ecchart关系图展示（知识图谱） P-ShineBeam 知识基础 echarts 前端 javascript
ECharts关系图#box{display:none;background-color:lightgoldenrodyellow;width:200px;height:260px;position:absolute;right:10px;top:150px;}#box-type{display:block;}#box-name{display:block;}/*#box-index{*//*di
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
React+Vis.js（06）：vis.js修改选中节点的样式和边的样式叁拾舞 Vis.js javascript react.js 前端 vis.js
文章目录初始化知识图谱选中节点修改节点背景颜色选中节点修改节点文字颜色未选中节点恢复节点背景颜色和文字颜色修改当前选中节点的边的颜色初始化知识图谱创建network.js组件，来初始化原始知识图谱：importReact,{useRef,useEffect}from"react";importvisfrom"vis";constnodes=newvis.DataSet([
图神经网络GNN的前世今生小桥流水---人工智能 Python程序代码深度学习人工智能神经网络人工智能深度学习
GNN图神经网络（GraphNeuralNetwork，简称GNN）已经成为处理图形结构数据的一种强大工具，广泛应用于社交网络分析、知识图谱、推荐系统等领域。在本文中，我们将深入探讨图神经网络的历史背景、关键的发展阶段以及未来可能的发展方向。一、背景介绍图（Graph）是一种数据结构，由节点（Node）和连接节点的边（Edge）组成。在许多现实世界的应用中，数据自然地呈现出图形结构，如社交网络中的
A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications UnknownBody LLM Daily Survey Paper LLM for Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译。生成图分析的大型语言模型综述：查询、学习和应用摘要1引言2前言3图结构理解任务4图学习任务5图形推理6图表示7基于知识图谱的增强检索8基于图LLM的应用9基准数据集和评估10未来的方向11结论
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
【大咖力荐新手必备】软件开发入门，这300篇文章就够了！高校俱乐部软件开发新手必备数据编码 IP
小编在这里根据知识图谱整理了CSDN站内的优质文章300篇，帮助见习工程提升技术能力、实现系统化学习！基础IT技术文章300篇大合集包含：【信息/编码】进制转换25篇、数据编码25篇；【IP/组网】网关与网段25篇、IP协议26篇、主机与DNS23篇、访问控制37篇；【程序逻辑】JavaScript29篇、常用算法37篇；【Web基础】HTML31篇、CSS32篇、DOM与BOM23篇扫码添加小助
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
视频回放- Neo4j “图,无处不在 ”关联系列线上研讨会 : 知识图谱助力企业提升数据应用价值 Jennifer726 音视频知识图谱 big data 数据库开发数据仓库
感谢您注册参加1月12日Neo4j“图,无处不在”关联系列线上研讨会-知识图谱助力企业提升数据应用价值。以下是相关内容视频回放。欢迎推荐给更多的同事和朋友观看。图的影响力-回顾2021，展望2022(Dr.JimWebber,Neo4j首席科学家）https://www.bilibili.com/video/BV1V44y1L7kX/从数据分析到数据智能-Neo4j知识图谱介绍(金昕，Neo4j高
构建生物医学知识图谱from zero to hero （4）：通过Neo4j构建知识图谱 ASKCOS AIDD CADD 化学生物知识图谱 neo4j 人工智能
图数据库是一种专门用于存储图形数据的NoSQL数据库。与传统的关系型数据库和其他NoSQL数据库不同，图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成，节点代表实体，边代表实体之间的关系。例如，在社交网络中，用户可以表示为节点，朋友关系可以表示为边。图数据库具有以下特点：灵活的数据模型：图数据库采用图形数据模型，可以灵活地存储和表示各种类型的数据，例如社交网络、地图、知识图谱等
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【人工智能学习思维脉络导图】 AK@ 人工智能人工智能学习
曾梦想执剑走天涯，我是程序猿【AK】目录知识图谱1.基础知识2.人工智能核心概念3.实践与应用4.持续学习与进展5.挑战与自我提升6.人脉网络知识图谱人工智能学习思维脉络导图1.基础知识计算机科学基础数学基础（线性代数、微积分、概率论和统计学）编程语言（Python、R等）2.人工智能核心概念机器学习监督学习无监督学习强化学习深度学习神经网络卷积神经网络（CNN）循环神经网络（RNN）自然语言处理
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">