笨小孩k

JanusGraph实战：从安装到展示

一、写在前面

工作需要，最近开始接触一点知识图谱的东西，从0开始，老大确定了要使用的图计算框架，其余的，全都靠自己，由于毫无经验所言，图谱的概念对我来说是新的，JanusGraph这个框架是新的，它所基于的TinkerPop没听过，拿来写入数据的语言java基本上也算是新的了（虽然几年前在学校用过），部署可视化界面要使用的nginx也是新的，这些东西搅到一起，足足搞了10天才理出点头绪来，记录一下，给有相同需要的小伙伴点参考。

二、JanusGraph+HBase+ElasticSearch的环境搭建

一开始找到了好教程，但由于自己知识储备不足，不知道好教程是好教程，附上原文
参考的安装教程
我这里，由于是公司环境，Hbase和ES都是安装好的，不需要自己再装什么，下面记录一下我在安装的过程中踩了哪些坑

1.JanusGraph组件安装

（1）官方下载地址 github下载

坑：版本
在安装之前，我有想过这个问题，查了一下服务器上Hbase和ES的版本

hbase 版本查询：在服务器上使用 hbase shell 命令打开 hbase 客户端，信息的最后一行即可看到：Version 1.2.0-cdh5.16.1
ES 版本查询：在服务器上执行curl -XGET ip:port（把ip和port改成你ES服务器的ip和端口号），返回信息中即可看到：{"version":{"number" : "5.5.1"}}

接着，去JanusGraph下载页面查每一个版本的JanusGraph所支持的组件版本，在每一个版本的“Tested Compatibility”里，新版本的JanusGraph支持的其他组件的版本都比较高，一定要使用支持自己组件版本的JanusGraph。一开始，我发现最新的几个版本都不支持我的Hbase和ES，得用很久之前的版本，心里比较反感，谁还不想用新的呢，想着，那么老的版本，都没多少人用了，都不更新了的，就全然不当回事，心存侥幸心理下载了最新版，后面被事实啪啪打脸，我慢慢降低版本，重新配置，脸肿了之后才学乖去找支持我组件的版本，最终找到了 0.2.3 版本，这才发现，人家最近才更新完

（2）解压

unzip janusgraph-0.2.3-hadoop2.zip
mv janusgraph-0.2.3-hadoop2 janusgraph

（3）配置环境变量

打开 ~/.bashrc 文件，在末尾追加

export JANUSGRAPH_HOME=你的janusgraph文件夹所在路径
export PATH=:$JANUSGRAPH_HOME/bin:$PATH

让环境变量生效source ~/.bashrc

2.配置JanusGraph Server

这一步的配置需要修改两个配置文件：janusgraph-hbase-es-server.properties 和 gremlin-hbase-es-server.yaml
文件放在 janusgraph/conf/gremlin-server/ 下，如果没有，复制一份其他的配置文件再做修改即可

（1）janusgraph-hbase-es-server.properties

拷贝文件

cp janusgraph-cassandra-es-server.properties janusgraph-hbase-es-server.properties

修改配置信息

gremlin.graph=org.janusgraph.core.JanusGraphFactory
# 配置后端存储数据库
storage.backend=hbase
storage.hostname=node007164:2182,node007166:2182,node007167:2182  # 这里写你hbase的ip:port，如果是集群，可以像我这样写集群的zookeeper地址
storage.hbase.table=cpf_item_tag_graph  # 这里写hbase里的表，事先库里有没有这个表都行，有的话他会直接用，没有的话，他会新建，如果事先建好了，无论你对那个表设置了神马，都会被清除掉，他会重新按自己的需要配置信息，别问我咋知道的，没被我们数仓小哥哥骂死已经是他脾气好了

# 下面中间的那个search你可以随便改名字，后面在设置schema建索引的时候保持一致即可，后面到那会再提一下
index.search.backend=elasticsearch 
index.search.hostname=192.168.2.198:9201  # ES所在服务器的ip和端口，集群的话，写一个就行，我的就是集群
index.search.elasticsearch.health-request-timeout=120s  # 这个是后面我查数据的时候报错信息提示ES超时之类的，查了一圈才查到这，莫得配置是30s，如果你跑数据的时候碰到类似问题，可以试一下

其余配置信息没有修改

（2）gremlin-hbase-es-server.yaml

拷贝文件

cp gremlin-server.yaml gremlin-hbase-es-server.yaml

这个文件比较好改

channelizer: org.apache.tinkerpop.gremlin.server.channel.WsAndHttpChannelizer  # 改成同时支持websocket和http
graphs: {
  graph: conf/gremlin-server/janusgraph-hbase-es-server.properties  # 你自己的.properties文件路径
}

（3）启动JanusGraph Server

任意目录下执行gremlin-server.sh conf/gremlin-server/gremlin-hbase-es-server.yaml

三、向hbase中写入数据，并同步到ES中

好像有批量写入数据的工具，也许是我心不够静，还没研究明白，你们可以自己研究一下 janusgraph-utils
这里主要记录一下自己用Java往库里写数据的过程（不是不支持python，只是项目需要）：

1.建项目

（1）请使用 maven 创建一个新项目
（2）修改源，不然速度太慢了，慢到想砸电脑
找到maven的settings.xml文件，目录：（command+,）IntelliJ IDEA -> Preferences -> 搜索框搜 maven -> 右边面板倒数第2行 User settings file后面就是你的路径，倒数第1行是存储jar包的仓库地址，记住这两个地址
修改：打开settings.xml文件，找到标签，加入以下信息

	<mirror>
		
        <id>nexus-aliyunid>
		
        <name>Nexus aliyunname>
		
        <url>http://maven.aliyun.com/nexus/content/groups/public/url>
		
		<mirrorOf>centralmirrorOf>
    mirror>

找到标签，确定仓库目录是正确的
这样加载pom.xml依赖的时候就快很多了
（3）pom.xml文件：
依赖项如下，挑你需要的即可

    <dependencies>
        <dependency>
            <groupId>org.janusgraphgroupId>
            <artifactId>janusgraph-hbaseartifactId>
            <version>0.2.3version>
        dependency>
        <dependency>
            <groupId>org.janusgraphgroupId>
            <artifactId>janusgraph-coreartifactId>
            <version>0.2.3version>
        dependency>
        <dependency>
            <groupId>org.apache.tinkerpopgroupId>
            <artifactId>gremlin-driverartifactId>
            <version>3.4.1version>
        dependency>
        <dependency>
            <groupId>org.janusgraphgroupId>
            <artifactId>janusgraph-allartifactId>
            <version>0.2.3version>
        dependency>
        <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5version>
        dependency>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.47version>
        dependency>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>3.8.1version>
            <scope>testscope>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-hdfsartifactId>
            <version>2.7.3version>
        dependency>
        <dependency>
            <groupId>org.apache.hbasegroupId>
            <artifactId>hbase-clientartifactId>
            <version>1.2.6version>
        dependency>
        <dependency>
            <groupId>jdk.toolsgroupId>
            <artifactId>jdk.toolsartifactId>
            <version>1.8version>
            <scope>systemscope>
            <systemPath>${JAVA_HOME}/lib/tools.jarsystemPath>
        dependency>
    dependencies>

别忘了写build项，不然项目不知道要执行的main函数在哪哦

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>2.4version>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>mfw.graph.JanusMainmainClass>
                        manifest>
                    archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
            plugin>
        plugins>
    build>

2.设置Schema

为graph设置schema就相当于在mysql中建表的时候需要事先指定有哪些字段，要是你实在不想设置，那就任性吧，虽然我还是建议你自己设置，毕竟这样你可以将他玩弄于股掌之间。具体的知识点网上有很多，这里就只粘贴一下代码，在注释里解释一点自己的理解。（有提到1.2.1节ES的配置项）
Schema.java文件

package a;
import org.apache.tinkerpop.gremlin.structure.Edge;
import org.apache.tinkerpop.gremlin.structure.Vertex;
import org.janusgraph.core.*;
import org.janusgraph.core.schema.JanusGraphManagement;
import org.janusgraph.core.schema.SchemaStatus;
import org.janusgraph.graphdb.database.management.ManagementSystem;
import static org.janusgraph.core.Multiplicity.SIMPLE;

public class Schema {
    public void setSchema(String properties_path) {
        JanusGraph graph = JanusGraphFactory.open(properties_path);
        JanusGraphManagement mgmt = graph.openManagement();

        // JanusGraph schema 的构成有三部分: vertex label，edge label，property key
        // vertex labels: 创建 poi 节点, .make() 用于完成标签定义并返回标签
        VertexLabel poi = mgmt.makeVertexLabel("poi").make();
        VertexLabel tag = mgmt.makeVertexLabel("tag").make();

        // edge labels: 创建 Score 边
        EdgeLabel Score = mgmt.makeEdgeLabel("Score").multiplicity(SIMPLE).make();

        // vertex and edge properties: 设置 点 和 边 可以具有的属性，需要定义他们的数据类型
        PropertyKey itemId = mgmt.makePropertyKey("itemId").dataType(Integer.class).make();
        PropertyKey name = mgmt.makePropertyKey("name").dataType(String.class).make();
        PropertyKey uptime = mgmt.makePropertyKey("uptime").dataType(String.class).make();
        PropertyKey score = mgmt.makePropertyKey("score").dataType(Float.class).make();

        // 这里是跟前面配置的ES相关的地方，buildMixedIndex里面的参数与 配置项中间的名称(我的是search) 保持一直即可，ES里面就会生成对应的表
        // global indices 设置索引
        String item_tag_vertex = "item_tag_vertex";  // 这里自己随意设置即可，ES里生成的表名即为 janusgraph_item_tag_vertex
        // 后面的每一个 addKey() 添加的字段都会出现在ES表中，至于后面用buildMixedIndex还是别的，你google一下"janusgraph 索引"看看哪种符合自己的要求即可
        mgmt.buildIndex(item_tag_vertex, Vertex.class)addKey(itemId).addKey(name).addKey(uptime).buildMixedIndex("search");
        String item_tag_edge = "item_tag_edge";  // 我这里建了2张索引表
        mgmt.buildIndex(item_tag_edge, Edge.class).addKey(score).addKey(uptime).buildMixedIndex("search");
        mgmt.commit();

        //注册索引
        try {
            ManagementSystem
                    .awaitGraphIndexStatus(graph, item_tag_vertex)
                    .status(SchemaStatus.REGISTERED)
                    .call();
            ManagementSystem
                    .awaitGraphIndexStatus(graph, item_tag_edge)
                    .status(SchemaStatus.REGISTERED)
                    .call();
            //等待索引ok
            ManagementSystem.awaitGraphIndexStatus(graph, item_tag_vertex).status(SchemaStatus.ENABLED).call();
            ManagementSystem.awaitGraphIndexStatus(graph, item_tag_edge).status(SchemaStatus.ENABLED).call();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        graph.close();
    }
}

3.多线程向hbase里写数据

如果代码报了很多：Usage of API documented as …
去看一下项目的语法版本（command+;），Language Level 改成8 即可
文件格式：
poi_tag_leaves_interest.json

{
	"66572":"电影取景地",
	...
}

score下的poi文件

{
	"83299072": 
	{
		"name": "昆明艺术职业学院", 
		"interest": 
		{
			"20410": 
			{
				"tagname": "学校", 
				"score": 0.97, 
				"uptime": "2020-03-26"
			}, 
			...
		}, 
		"time": {}
	}
}

代码

package a;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.commons.lang3.concurrent.BasicThreadFactory;
import org.apache.tinkerpop.gremlin.process.traversal.dsl.graph.GraphTraversalSource;
import org.janusgraph.core.JanusGraph;
import org.janusgraph.core.JanusGraphFactory;
import org.janusgraph.core.schema.JanusGraphManagement;
import org.janusgraph.diskstorage.BackendException;

import java.io.*;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.text.SimpleDateFormat;
import java.time.LocalDate;
import java.util.*;

import java.util.concurrent.ArrayBlockingQueue;
import java.util.concurrent.ThreadPoolExecutor;
import java.util.concurrent.TimeUnit;
import java.util.logging.FileHandler;
import java.util.logging.Level;
import java.util.logging.Logger;

public class JanusMain {
    String uptime;
    // 各种路径我都用的绝对路径。。。
    private static final String PROPERTIES_PATH = "";  // 前面配置的 janusgraph-hbase-es-server.properties 文件的路径
    private static final String DIRECTORY = "项目路径/src/main/resources/";  // 记得把你的文件放在main/resources文件夹下
    private static final String TAG_PATH = DIRECTORY + "poi_tag_leaves_interest.json";
    private static final String BASE_LOG_PATH = "";  // log路径
    /**
     * 自定义线程池
     */
    private static ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(
            18, 18,
            2, TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(1000),
            new BasicThreadFactory
                    .Builder()
                    .namingPattern("item_tag_custom_thread-%d")
                    .daemon(true)
                    .build(),
            new ThreadPoolExecutor.AbortPolicy());

    private JanusMain() {
        SimpleDateFormat sdf = new SimpleDateFormat();// 格式化时间
        sdf.applyPattern("yyyy-MM-dd HH:mm:ss a");// a为am/pm的标记
        uptime = sdf.format(new Date());
    }
    public Logger getLogger(String suffix) {
        String threadName = Thread.currentThread().getName();
        Logger logger = Logger.getLogger(JanusMain.class.getName() + "_" + threadName);
        //设置文件名
        String logPath = BASE_LOG_PATH + LocalDate.now() + suffix + "_" + threadName + ".log";
        //将输出handler加入logger
        try {
            FileHandler fileHandler = new FileHandler(logPath, true);
            logger.addHandler(fileHandler);
        } catch (IOException e) {
            logger.log(Level.WARNING, "set Logger Exception", e);
        }
        return logger;
    }
    /**
     * @param fileName:
     * @return
     */
    public JSONObject readJsonFile(String fileName) {
        try {
            String fileRead = new String(Files.readAllBytes(Paths.get(fileName)));
            return JSON.parseObject(fileRead);
        } catch (IOException e) {
            System.out.println(fileName + " 不存在");
            e.printStackTrace();
            return null;
        }
    }
    public ArrayList<JSONObject> readTxtFile(String fileName) {
        try {
            String fileRead = new String(Files.readAllBytes(Paths.get(fileName)));
            String[] files = fileRead.split("\n");
            ArrayList<JSONObject> scoreList = new ArrayList<>();
            for(String file: files){
                scoreList.add(JSON.parseObject(file));
            }
            return scoreList;
        } catch (IOException e) {
            System.out.println(fileName + " 不存在");
            e.printStackTrace();
            return null;
        }
    }
    /**
     * 先把所有标签写入库中
     */
    public void writeTag() {
        String[] suffix = TAG_PATH.split("/");
        Logger logger = getLogger(suffix[suffix.length - 1].split("\\.")[0]);
        JanusGraph graph = JanusGraphFactory.open(PROPERTIES_PATH);
        JSONObject items = readJsonFile(TAG_PATH);
        // 写你自己的文件处理逻辑
        // ...
        graph.tx().commit();
        graph.close();
    }
    public void writePOI(File file) {
        JanusGraph graph = JanusGraphFactory.open(PROPERTIES_PATH);
        GraphTraversalSource g = graph.traversal();
        String threadName = Thread.currentThread().getName();

        Logger logger = getLogger(file.getName());
        logger.log(Level.WARNING, "执行线程名：" + threadName);
        logger.log(Level.WARNING, "文件：" + file.getName() + "执行开始");
        // 写你自己的文件处理逻辑
        // ...
        graph.close();
        logger.log(Level.WARNING, "文件：" + file.getName() + "执行完毕");
    }
    /**
     * 用这个函数分发多线程
     */
    public void writePOIs() {
        // 读取原始数据
        File files = new File(DIRECTORY);
        File[] filesArr = files.listFiles();
        int i = 1;
        for (File file : filesArr) {
            threadPoolExecutor.prestartAllCoreThreads();
            System.out.println("当前正在创建第" + i++ + "个线程");
            threadPoolExecutor.submit(() -> {
                new JanusMain().writePOI(file);
            });
        }
    }
    public static void main(String[] args) throws BackendException {
        JanusMain jm = new JanusMain();
        String properties_path = PROPERTIES_PATH;
        Logger logger = jm.getLogger(JanusMain.class.getName());
        JanusGraph graph = JanusGraphFactory.open(properties_path);
        JanusGraphFactory.drop(graph);  // 删除旧的schema, 同时会删除所有数据
        // 设置schema
        new Schema().setSchema(properties_path);
        logger.info("Schema 设置 over");
        graph.close();

        graph = JanusGraphFactory.open(properties_path);
        JanusGraphManagement mgmt = graph.openManagement();
        logger.info(mgmt.printSchema());
        graph.close();
        // 处理tag
        jm.writeTag();
        // 多线程处理poi
        jm.writePOIs();
        // 一直等到所有线程都执行完
        while (true) {
            if (threadPoolExecutor.getActiveCount() == 0) {
                break;
            }
            try {
                TimeUnit.SECONDS.sleep(5);
            } catch (InterruptedException e) {
                logger.log(Level.WARNING, "休眠异常", e);
            }
        }
        graph = JanusGraphFactory.open(properties_path);
        GraphTraversalSource g = graph.traversal();
        // 查询图中有多少节点和边
        logger.info("Vertex count = " + g.V().count().next());
        logger.info("Edges count = " + g.E().count().next());
        graph.close();
    }
}

在检查相同节点是否已经创建过时，我废了好大劲，这里额外贴出来，希望能帮到你

GraphTraversal<Vertex, Vertex> has = g.V().has("tag", "itemId", tagid); // 第一个参数是节点label，前面schema里创建的，第二个参数是自己设置的属性，第三个参数是第二个参数的值，我的项目中，label+itemId即可唯一确定一个节点

好啦，跑起来运行就好啦

四、可视化配置

用的 graphexp，界面美化了点的版本graphexp

1.下载项目

修改graphexp.html文件，将Server Address的value值改为你自己的ip

2.安装并配置nginx

网上找了好多教程，一通改，一通失败，然而用yum只需要一个命令，不过需要保证系统是基于CentOS的，查询命令

cat /etc/redhat-release

（1）用yum安装，如果没有yum源，自己去搜索添加一下

sudo yum install nginx

nginx会被安装到/etc/nginx/目录，修改配置文件nginx.conf，找到server配置，我的在第38行，默认的80端口没被占用的话就不用管他，将原来的root注释掉，修改location

# root         /usr/share/nginx/html;
location ~*^.+$ {
          root 你的graphexp文件夹所在的路径;
}

（2）启动服务

sudo systemctl start nginx

（3）检查防火墙是否已关闭
坑：一定要确定两个防火墙都关闭了

firewall

firewall-cmd --state

返回not running即可
如果没关就把它关掉systemctl stop firewalld.service

iptables

service iptables status

输出信息中有 Active: inactive (dead) 即可
如果没关就把它关掉service iptables stop

3.见证奇迹

坑：这里如果出不来，你试着改改下面的配置项（我折腾了老半天）：

Sever Address：改成你自己的ip，默认是localhost
Gremlin version：版本调低一点试试，默认是最高版本

坑：不知道为啥，明明是刚从github上拉下来的项目，不好使又删了重新拉有的时候就好使了。。。。。github上显示并不是刚刚更新过。。。。。

在浏览器中输入：http://ip:port/graphexp.html，点击右上角的Search

数据量太大的话，点击左上角的Get graph info按钮会报错，就是因为数据量太大，我还不知道该怎么办，如果你知道，请留言告诉我一下，谢谢

五、python更新数据

poiVertexId = g.V().has(data_type, ‘itemId’, itemid)
[[‘V’], [‘count’]]
[[‘V’], [‘has’, ‘poi’, ‘itemId’, ‘53’]]
gremlinpython版本太高（3.4.6）降到3.2.6

大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
利用Docugami将商业文档转化为XML知识图谱 bBADAS xml 知识图谱人工智能 python
在当今的数字化时代，处理和理解商业文档的结构及其内容是企业信息化管理的关键任务。Docugami作为一种创新的技术工具，能够将复杂的商业文档转换为文档XML知识图谱。这种知识图谱由完整文档的XML语义树组成，能够精准地表示文档的语义和结构特性，为文档自动化处理提供了基础。技术背景介绍Docugami通过将文档转化为结构化的XML语义树，使得原本无序的文本变得有序和可操作。这种转化不仅仅是格式的改变
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不神话大模型，不做技术乌托邦，用"传统IT+AI积木"实现企业智能转型人工智能
一、开篇：AI革命的务实辩证法在技术狂热与落地鸿沟并存的AI时代，灵燕智能体开发平台提出"三轮驱动法则"：•不颠覆的智慧：MySQL、知识图谱库、MQ等传统中间件构成数字地基•不空想的创新：大模型仅承担"认知苦力"，在人类设计的思考链中定向发力•不取巧的工程：通过D2R映射、低代码工具、元数据治理实现可落地的智能装配二、核心价值：智能开发的工业流水线技术要素原子化拆解将复杂需求分解为可执行的"技术
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
知识图谱系列文章——文物知识图谱 weixin_43407382 知识图谱
文章介绍背景1、文物可以提供创意，如哥窑面饰的照相机2、目前文物数字化工作非常少，没有纳入设计元素3、文物知识图谱建成后具有很多好处&#￥方法一、本体构建1、明确领域和目的——文物知识图谱&设计创意2、领域信息采集与分析——文物信息，３４０件文物实例，3、定义文物本体概念和结构层次4、定义概念属性和属性约束5、本体编码（建模语言和工具）6、本体评估——Jena的内嵌推理机，基于描述的逻辑7、本体实
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
AI工具如何改变编程学习？Trae IDE与Claude 3.5的实践案例黑金IT AI智能 AI编程 fasttify 人工智能学习 ide
在现在这个到处都是电脑和手机的时代，AI工具正在变成编程学习和开发的好帮手。今天，咱们就来好好聊聊AI工具，特别是TraeIDE和Claude3.5这两个工具，在学习FastAPI和构建知识图谱的时候有多厉害，还有它们对编程行业会有什么影响。一、AI工具：编程学习与开发的好帮手AI工具在编程学习和开发里，作用可太大了。就像TraeIDE和Claude3.5，它们能像好朋友一样，在写代码的时候帮忙检
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
知识图谱在人工智能语义理解与推理中的关键作用及发展研究 @王威& 人工智能
摘要本文聚焦知识图谱，深入剖析其在人工智能语义理解与推理中的核心作用。阐述知识图谱的构建原理、表示方法，分析其在自然语言处理、智能问答系统、推荐系统等多领域助力语义理解与推理的应用，探讨面临的挑战并展望未来发展方向，全面呈现知识图谱对人工智能发展的重要价值与深远影响。一、引言在人工智能追求更精准理解和处理人类语言与知识的进程中，知识图谱成为关键技术。它以结构化形式组织海量知识，揭示实体间复杂关系，
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置