陈万君Allen

手把手医学知识图谱搭建案例

手把手医学知识图谱搭建案例

注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，Python Java Scala SQL 代码，CV NLP 推荐系统等，Spark Flink Kafka Hbase Hive Flume等等~写的都是纯干货，各种顶会的论文解读，一起进步。
今天和大家分享一下医学知识图谱中三元组搭建的案例
github: https://github.com/king-yyf/CMeKG_tools
#博学谷IT学习技术支持#

文章目录

手把手医学知识图谱搭建案例
前言
一、先来看最终效果展示
二、核心代码
- 1.引入库
- 2.训练数据
- 3.数据预处理
- 4.平平无奇的ner模型Model4s
- 5.很有创意的Model4po
- 6.正常训练模型
- 7.demo案例
总结

前言

知识图谱（Knowledge Graph）被运用在很多科研领域，其重要程度不言而喻，很多大厂都在致力于搭建属于自己的知识图谱，尤其是知识抽取是知识图谱的核心，今天和大家分享一下医学知识图谱中三元组搭建的案例。

一、先来看最终效果展示

搭建出来的三元组准确性还是相当不错的

再来看看最终的知识图谱效果图,通过模型有了三元组，利用Neo4j搭建知识图谱so easy~

二、核心代码

1.引入库

这里最重要是导入transformers包，因为整个预训练模型是通过huggingface去做的。还是是用bert。

代码如下（示例）：

import json
import numpy as np
import torch
import torch.nn as nn
from transformers import BertTokenizer, BertModel, AdamW
from itertools import cycle
import gc
import random
import time
import re

#先指定好所有的路径
class config:
    batch_size = 1
    max_seq_len = 256
    num_p = 23
    learning_rate = 1e-5
    EPOCH = 2

    PATH_SCHEMA = "/CMeKG/predicate.json"
    PATH_TRAIN = '/CMeKG/train_example.json'
    PATH_BERT = "/CMeKG/model/medical_re"
    PATH_MODEL = "/CMeKG/model/medical_re/model_re.pkl"
    PATH_SAVE = '/CMeKG/model/save'
    tokenizer = BertTokenizer.from_pretrained("/CMeKG/model/medical_re/vocab.txt")

    id2predicate = {}
    predicate2id = {}

2.训练数据

其中PATH_TRAIN = '/CMeKG/train_example.json’是训练数据
{
“text”: “12小时尿沉渣计数的相关疾病:单纯型尿路感染，妊娠合并急性膀胱炎，慢性肾炎，狼疮性肾炎，急性膀胱炎12小时尿沉渣计数的相关症状是高血压，男子性功能障碍，蛋白尿，血尿，水肿，排尿困难及尿潴留，尿频伴尿急和尿痛”,
“spo_list”: [
[
“12小时尿沉渣计数”,
“相关疾病”,
“单纯型尿路感染”
]

其中text是原文，spo是三元组，s代表主体，p代表关系，s代表客体。

3.数据预处理

这里我都已经写好注视了，这个一个数据预处理逻辑

代码如下（示例）：

class IterableDataset(torch.utils.data.IterableDataset):
    def __init__(self, data, random):
        super(IterableDataset).__init__()
        self.data = data
        self.random = random
        self.tokenizer = config.tokenizer

    def __len__(self):
        return len(self.data)

    def search(self, sequence, pattern):
        n = len(pattern)
        for i in range(len(sequence)):
            if sequence[i:i + n] == pattern:
                return i
        return -1

    def process_data(self):
        idxs = list(range(len(self.data)))
        if self.random:
            np.random.shuffle(idxs)
        batch_size = config.batch_size
        max_seq_len = config.max_seq_len
        num_p = config.num_p
        batch_token_ids = np.zeros((batch_size, max_seq_len), dtype=np.int)
        batch_mask_ids = np.zeros((batch_size, max_seq_len), dtype=np.int)
        batch_segment_ids = np.zeros((batch_size, max_seq_len), dtype=np.int)
        batch_subject_ids = np.zeros((batch_size, 2), dtype=np.int)
        batch_subject_labels = np.zeros((batch_size, max_seq_len, 2), dtype=np.int)
        batch_object_labels = np.zeros((batch_size, max_seq_len, num_p, 2), dtype=np.int)
        batch_i = 0
        for i in idxs:
            text = self.data[i]['text']
            batch_token_ids[batch_i, :] = self.tokenizer.encode(text, max_length=max_seq_len, pad_to_max_length=True,
                                                                add_special_tokens=True)
            batch_mask_ids[batch_i, :len(text) + 2] = 1#对pad出来的设置成0
            spo_list = self.data[i]['spo_list']
            idx = np.random.randint(0, len(spo_list), size=1)[0]#相当于每次都是随机选一个S来组成数据
            s_rand = self.tokenizer.encode(spo_list[idx][0])[1:-1]#S的ID编码
            s_rand_idx = self.search(list(batch_token_ids[batch_i, :]), s_rand)#S所在text的开始索引位置
            batch_subject_ids[batch_i, :] = [s_rand_idx, s_rand_idx + len(s_rand) - 1]#S所在text的起始和终止索引位置
            for i in range(len(spo_list)):
                spo = spo_list[i]
                s = self.tokenizer.encode(spo[0])[1:-1]#不要首尾特殊字符
                p = config.prediction2id[spo[1]]
                o = self.tokenizer.encode(spo[2])[1:-1]
                s_idx = self.search(list(batch_token_ids[batch_i]), s)#S的开始位置
                o_idx = self.search(list(batch_token_ids[batch_i]), o)#O的开始位置
                if s_idx != -1 and o_idx != -1:#他俩都存在的话
                    batch_subject_labels[batch_i, s_idx, 0] = 1#到时候要预测每一个token是不是S的起始和终止位置
                    batch_subject_labels[batch_i, s_idx + len(s) - 1, 1] = 1
                    if s_idx == s_rand_idx:
                        batch_object_labels[batch_i, o_idx, p, 0] = 1#记录O的开始位置及S与O之间的关系
                        batch_object_labels[batch_i, o_idx + len(o) - 1, p, 1] = 1#记录O的结束位置及S与O之间的关系
            batch_i += 1
            if batch_i == batch_size or i == idxs[-1]:
                yield batch_token_ids, batch_mask_ids, batch_segment_ids, batch_subject_labels, batch_subject_ids, batch_object_labels
                batch_token_ids[:, :] = 0
                batch_mask_ids[:, :] = 0
                batch_subject_ids[:, :] = 0
                batch_subject_labels[:, :, :] = 0
                batch_object_labels[:, :, :, :] = 0
                batch_i = 0

    def get_stream(self):
        return cycle(self.process_data())

    def __iter__(self):
        return self.get_stream()

4.平平无奇的ner模型Model4s

这里和普通的ner任务完全一样，就是调用huggingface的bert预训练模型接口

代码如下（示例）：

class Model4s(nn.Module):
    def __init__(self, hidden_size=768):
        super(Model4s, self).__init__()
        self.bert = BertModel.from_pretrained(config.PATH_BERT)
        for param in self.bert.parameters():
            param.requires_grad = True
        self.dropout = nn.Dropout(p=0.2)
        self.linear = nn.Linear(in_features=hidden_size, out_features=2, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, input_ids, input_mask, segment_ids, hidden_size=768):
        hidden_states = self.bert(input_ids,
                                  attention_mask=input_mask,
                                  token_type_ids=segment_ids)[0]  # (batch_size, sequence_length, hidden_size)
        output = self.sigmoid(self.linear(self.dropout(hidden_states))).pow(2)

        return output, hidden_states

5.很有创意的Model4po

这里通过上面的Model4s找到text主题后，固定主题，然后找到相应的客体和关系，相当精彩的想法。也是整个项目精彩之处。

代码如下（示例）：

class Model4po(nn.Module):
    def __init__(self, num_p=config.num_p, hidden_size=768):
        super(Model4po, self).__init__()
        self.dropout = nn.Dropout(p=0.4)
        self.linear = nn.Linear(in_features=hidden_size, out_features=num_p * 2, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, hidden_states, batch_subject_ids, input_mask):
        all_s = torch.zeros((hidden_states.shape[0], hidden_states.shape[1], hidden_states.shape[2]),
                            dtype=torch.float32)

        for b in range(hidden_states.shape[0]):
            s_start = batch_subject_ids[b][0]
            s_end = batch_subject_ids[b][1]
            s = hidden_states[b][s_start] + hidden_states[b][s_end]#起始特征+终止特征
            cue_len = torch.sum(input_mask[b])#实际长度
            all_s[b, :cue_len, :] = s#将所有位置的特征设置成主体的
        hidden_states += all_s#每一个位置实际特征都是 自身 + 主体
        #我估计pow(4)这么大个数 是由于预测出来的结果都有些大，要降低预测值大小
        output = self.sigmoid(self.linear(self.dropout(hidden_states))).pow(4)#预测每一个位置与主题的关系

        return output  # (batch_size, max_seq_len, num_p*2)

6.正常训练模型

写的也比较普通，把2个模型的损失加起来就行。

def train(train_data_loader, model4s, model4po, optimizer):
    for epoch in range(config.EPOCH):
        begin_time = time.time()
        model4s.train()
        model4po.train()
        train_loss = 0.
        for bi, batch in enumerate(train_data_loader):
            if bi >= len(train_data_loader) // config.batch_size:
                break
            batch_token_ids, batch_mask_ids, batch_segment_ids, batch_subject_labels, batch_subject_ids, batch_object_labels = batch
            batch_token_ids = torch.tensor(batch_token_ids, dtype=torch.long)
            batch_mask_ids = torch.tensor(batch_mask_ids, dtype=torch.long)
            batch_segment_ids = torch.tensor(batch_segment_ids, dtype=torch.long)
            batch_subject_labels = torch.tensor(batch_subject_labels, dtype=torch.float)
            batch_object_labels = torch.tensor(batch_object_labels, dtype=torch.float).view(config.batch_size,
                                                                                            config.max_seq_len,
                                                                                            config.num_p * 2)
            batch_subject_ids = torch.tensor(batch_subject_ids, dtype=torch.int)

            batch_subject_labels_pred, hidden_states = model4s(batch_token_ids, batch_mask_ids, batch_segment_ids)
            loss4s = loss_fn(batch_subject_labels_pred, batch_subject_labels.to(torch.float32))
            loss4s = torch.mean(loss4s, dim=2, keepdim=False) * batch_mask_ids#只计算非pad部分
            loss4s = torch.sum(loss4s)
            loss4s = loss4s / torch.sum(batch_mask_ids)

            batch_object_labels_pred = model4po(hidden_states, batch_subject_ids, batch_mask_ids)
            loss4po = loss_fn(batch_object_labels_pred, batch_object_labels.to(torch.float32))
            loss4po = torch.mean(loss4po, dim=2, keepdim=False) * batch_mask_ids
            loss4po = torch.sum(loss4po)
            loss4po = loss4po / torch.sum(batch_mask_ids)

            loss = loss4s + loss4po
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            train_loss += float(loss.item())
            print('batch:', bi, 'loss:', float(loss.item()))

        print('final train_loss:', train_loss / len(train_data_loader) * config.batch_size, 'cost time:',
              time.time() - begin_time)

    del train_data_loader
    gc.collect();

    return {
        "model4s_state_dict": model4s.state_dict(),
        "model4po_state_dict": model4po.state_dict(),
        "optimizer_state_dict": optimizer.state_dict(),
    }

7.demo案例

输出的结果就是文章开头

import medical_re
import json
model4s, model4po = medical_re.load_model()

text = '据报道称，新冠肺炎患者经常会发热、咳嗽，少部分患者会胸闷、乏力，其病因包括: 1.自身免疫系统缺陷\n2.人传人。'  # content是输入的一段文字
res = medical_re.get_triples(text, model4s, model4po)
print(json.dumps(res, ensure_ascii=False, indent=True))

总结

通过huggingface中bert预训练模型实现的一个非常不错的知识图谱搭建过程。Neo4j怎么搭建，以后有时间继续更新。

你可能感兴趣的:(Python和人工智能,知识图谱,人工智能,自然语言处理)

大模型开发流程 HalukiSan 语言模型
大模型开发流程参考新想法（Halukisan(Xiaoliu)(github.com)）大模型一般开发流程设计：确定目标，设计功能。这一步需要认真考虑好，这个模型应用的目标群体是谁，需求方的具体应用场景是什么，不一定每次都要一个大模型为底座。架构搭建：搭建整体架构，搭建数据库，可以参考Halukisan/ModelDataBase:Es和向量数据库Milvus的构建与数据存储(github.com
第一篇：数据库基础与概念猿享天开数据库数据库
第一篇：数据库基础与概念目标读者：没有接触过数据库的初学者。内容概述：在本篇文章中，我们将从零开始，详细介绍数据库的基本概念、常见的数据库管理系统（DBMS）以及数据库设计的基础知识。无论你是完全没有接触过数据库，还是对其有些模糊的印象，这篇文章都将帮助你理解数据库的核心功能和工作原理，并为你进一步深入学习数据库打下坚实的基础。一、什么是数据库？我们生活中每时每刻都在接触数据，比如：你手机上的联系
【后端速成Vue】v-bind和v-model 程序猿教你打篮球后端速成Vue vue.js javascript 前端
篮球哥找工作专属IT岗位内部推荐：专属内推链接：内推通道前言：前面的文章看完，可能会有疑问，在Vue中如何操作类名呢？我要想动态的控制类名该怎么办？这篇文章就来解决这个问题，Vue扩展了v-bind的语法，可以使用Vue针对class类名和style行内样式进行控制，下面就一起来学习v-bind的使用。1、v-bind操作类名对象的方式绑定类名：什么意思呢，这里:class传递了一个对象，这个对象
ORA-02287: 此处不能使用序列号頑張ろう！ ORACLE sql 数据库 oracle
出错的原因：NEXTVAL和【UNION或者UNIONALL】不能在*同一级中*同时使用案列介绍：取两个序列号插入同一个表中的时候，就出现了错误：ORA-02287:此处不能使用序列号SQL简化了一下，看起来更容易明白：SELECTseq_cst_chng_num.NEXTVALseqIdFROMdualUNIONALL--此处换成UNION也是同样的错误SELECTseq_cst_chng_nu
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
LitGPT - 20多个高性能LLM，具有预训练、微调和大规模部署的recipes 伊织产研 #AI 开源项目 LitGPT 预训练微调部署
文章目录一、关于LitGPT二、快速启动安装LitGPT高级安装选项从20多个LLM中进行选择三、工作流程1、所有工作流程2、微调LLM3、部署LLM4、评估LLM5、测试LLM6、预训练LLM7、继续预训练LLM四、最先进的功能五、训练方法示例六、项目亮点教程一、关于LitGPTLitGPT用于使用、微调、预训练和部署LLMLightning快速⚡⚡每个LLM都是从头开始实现的，没有抽象和完全控
pandas与data.table比较和常用操作整理 kekefen01
在对数据表进行日常操作时，有一些操作是经常用到的，记录如下：1.输入：从文件读取数据/从头创建一个dataframepd.DataFrame(data,index=[list],columns=[list])2.修改列名、索引列a.columns=[yourlisthere]DataFrame可以通过set_index方法，可以设置单索引和复合索引。3.切片操作df可以[]直接切片，不过规则比较混
ArkTS编程规范 RZer HarmonyOS ArkTS
文章目录目标和适用范围规则来源章节概览代码风格编程实践术语和定义总体原则命名类名、枚举名、命名空间名采用UpperCamelCase风格变量名、方法名、参数名采用lowerCamelCase风格常量名、枚举值名采用全部大写，单词间使用下划线隔开避免使用否定的布尔变量名，布尔型的局部变量或方法需加上表达是非意义的前缀格式使用空格缩进，禁止使用tab字符行宽不超过120个字符条件语句和循环语句的实现必
C语言字符与字符串杂记 du__kefeng C语言 c语言字符串
文章目录前言一、字符0，'0'，'\0'二、字符串为什么用char*存储字符串而不用char计算字符串长度三、字符数组与字符串常量的区别总结前言最近学习了C语言字符和字符串的相关知识，本文将学到的相关知识中本人认为比较有意思的知识点记下来，方便以后复习。提示：以下是本篇文章正文内容，下面案例可供参考一、字符0，‘0’，’\0’在学习字符的相关知识的时候，让我印象比较深的是这三个字符，此处做个记录。
深入解析内存管理与优化：让你的程序轻松应对高负载杨胜增 java 数据库开发语言
深入解析内存管理与优化：让你的程序轻松应对高负载随着技术的发展，现代应用程序越来越复杂，处理的数据量和请求量也越来越庞大。我们在追求更高效、快速的系统时，除了优化CPU和数据库，内存的管理与优化同样是提升性能的关键。如果内存管理不当，程序可能会出现内存泄漏、溢出，甚至导致系统崩溃。因此，了解内存的工作原理及优化技巧，成为了每个开发者的必修课。在本文中，我们将全面讲解如何高效地进行内存管理，探索常见
Linux系统中的Rsync服务入眼皆含月 linux 运维服务器
一、Rsync服务概述Rsync是一种功能强大的文件同步工具，广泛应用于Linux系统中的数据备份和文件同步任务。它通过比较文件的修改时间和大小来实现增量备份，大大提高了同步效率，减少了网络带宽的使用，并且支持多种同步选项，如压缩、加密和排除特定文件等。二、Rsync主要特点1、增量同步Rsync通过比较文件的修改时间和大小，只同步发生变化的部分，而不是整个文件。这使得同步过程更加高效，特别是在处
【华为OD-E卷 - 连续出牌数量 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-连续出牌数量100分（python、java、c++、js、c）】题目有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
SSM 构建个性化商铺系统：功能亮点聚焦商业成功 2402_85758349 后端 java
第二章开发技术与环境配置以Java语言为开发工具，利用了当前先进的SSM框架技术，以MyEclipse10为系统开发工具，MySQL为后台数据库，开发的一个个性化商铺系统。2.1微信开发者工具在传统web浏览器中，在加载htm15页面时先加载视图层的html和css，后加载逻辑层的javascript，然后返回数据并在浏览器中展示页面。而微信开发者工具的系统层是基于NativeSystem的，视图
探索PandaTable开发板的OMAP4430架构与应用 clowntom
本文还有配套的精品资源，点击获取简介：PandaTable开发板基于OMAP4430处理器，专为嵌入式系统设计，集成了双核ARMCortex-A9MPCore处理器，LPDDR2内存以及HDMI和LVDS接口，提供了高性能与低功耗。它支持多种显示分辨率，适合多媒体应用开发。"PANDATABLE.DSN"文件提供了板子电路设计的完整细节，帮助工程师进行设计理解、二次开发或故障排查。开发者可以利用这
第27篇：Python开发进阶：python多线程与多进程编程猿享天开 python从入门到精通 python 服务器
第27篇：多线程与多进程编程目录并发编程概述什么是并发编程多线程与多进程的区别多线程编程线程的基本概念创建和管理线程线程同步与锁多进程编程进程的基本概念创建和管理进程进程间通信线程与进程的比较全局解释器锁（GIL）GIL的影响绕过GIL的策略异步编程简介异步与并发asyncio模块示例代码常见问题及解决方法总结并发编程概述什么是并发编程并发编程是一种程序设计范式，允许多个任务在同一时间段内交替执行
Vue3 v-bind 和 v-model 对比傻小胖 Vue3 Vue vue.js javascript 前端
1.基本概念1.1v-bind单向数据绑定从父组件向子组件传递数据简写形式为:1.2v-model双向数据绑定父子组件数据同步本质是v-bind和v-on的语法糖2.基础用法对比2.1表单元素绑定import{ref}from'vue'consttext=ref('')import{ref}from'vue'consttext=ref('')2.2组件属性绑定3.主要区别3.1数据流向/>/>3.
汽车蓝牙钥匙定位仿真小程序程序员石磊基于深度学习的室内定位室内定位蓝牙钥匙蓝牙钥匙定位
此需求来自于粉丝的真实需求，假期没事，牛刀小试。一、项目背景如今，智能车钥匙和移动端定位技术已经相当普及。为了探索蓝牙Beacon在短距离定位场景下的可行性，我们搭建了一个简易原型：利用UniApp在移动端采集蓝牙信标的RSSI（信号强度），通过三边定位算法估算钥匙在车内或车周围的坐标，并使用FastAPI+Redis实现数据存储与可视化接口，最后在Leaflet地图中模拟车辆俯视效果，实时展示定
python 爬取小红书追光少年3322 python 网络爬虫
爬虫实现基本流程一.明确需求明确采集的网站及数据内容目标：根据小红书作者主页链接，采集作者主页所有笔记，并保存为excel表格。采集的字段包括作者、笔记类型、标题、点赞数、笔记链接。网址：https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43二.分析思路分析爬虫思路，概括如下：打开小红书主页与登录打开小红书作者主页,获取作
自然语言处理基础知识入门(四) Transformer模型整体最详解（self- attention机制，mask机制）这个男人是小帅 NLP自然语言知识梳理入门自然语言处理 transformer 人工智能 nlp 语言模型机器翻译深度学习
文章目录前言一、Seq2Seq1.1Seq2Seq的基本架构1.2Seq2Seq的框架实例二、Transformer2.1Transformer的整体架构2.2Transformer的输入2.2.1InputEmbeding2.2.2PositionalEncoder2.2.3Transformer的输入2.3Transformer的自注意力机制2.3.1注意力机制2.3.2权重矩阵WWW2.3.
Python笔记之 collections.deque双端队列一起种梧桐吧 Python笔记列表队列 python
deque简介deque是一个双端列表,如果要经常从两端操作数据,选择deque就比较好,如果要实现随机访问,还是建议使用列表list.collections.deque官方说明文档操作简介append()append(x)Addxtotherightsideofthedeque.importcollectionsmydeque=collections.deque(range(3),maxlen=
python操作腾讯文档_python通过调用腾讯api实现对图片内文字提取 weixin_39865102 python操作腾讯文档
需求：读取图片内的文字，图片包含url形式的和image形式的实现思路：python调用腾讯api，参考腾讯官方文档:https://cloud.tencent.com/document/product/866/17596步骤：调用api需要配置header请求头，请求头需要鉴权签名，鉴权签名需要api密钥。鉴权签名：https://cloud.tencent.com/document/produ
DeepSeek R1本地化部署与联网功能实战指南：从零搭建智能对话系统 Coderabo python DeepSeek R1
前言在人工智能技术快速发展的今天，如何将先进的对话模型DeepSeekR1部署到本地环境并赋予其联网能力，成为许多开发者和企业关注的重点。本文将深入讲解完整的本地化部署流程，并通过实例代码演示如何为模型添加实时网络访问功能。一、环境准备与基础架构1.1硬件需求推荐配置：NVIDIAGPU（RTX3090或更高）+32GB内存+50GB存储空间最低配置：CPU（支持AVX2指令集）+16GB内存+3
【小白学AI系列】NLP 核心知识点（三）Word2Vec Blankspace空白人工智能自然语言处理 word2vec
Word2Vec定义：Word2Vec是一种将单词转化为向量的技术，基于神经网络模型，它能够将单词的语义关系通过向量空间的距离和方向进行表示。通过Word2Vec，我们可以将单词从一个离散的符号转化为一个稠密的向量（一般是高维的），并且能够捕捉到单词之间的语义关系和相似性。历史来源：Word2Vec由TomasMikolov等人于2013年在谷歌提出，它迅速成为了词向量表示（wordembeddi
python实现调用腾讯云翻译API qq_32474521 腾讯云 python 自动翻译
时长两月半程序员练习生为了完成导师的翻译任务，查询了一下腾讯云翻译的API使用方式大佬轻喷，主要以记录为准主要参考：机器翻译文本翻译-API接口-API中心-腾讯云(tencent.com)【玩转腾讯云】【腾讯云机器翻译TMT】机器翻译入门-腾讯云开发者社区-腾讯云(tencent.com)主要实现了文本翻译的部分，代码可以直接使用使用前提：1、注册腾讯云https://cloud.tencent
C 语言实现计算一年中指定日期是第几天题】共享家9527 c语言
引言在编程的世界里，处理日期和时间相关的问题是非常常见的。比如在日历应用、任务管理系统、数据分析等场景中，经常需要计算某个日期在一年中是第几天。本文将详细介绍如何使用C语言来实现这一功能，通过分析代码的结构、逻辑以及可能存在的问题和改进方法，帮助大家更好地理解和掌握相关知识。代码整体功能概述给定的C语言代码旨在实现一个简单的功能：从用户那里获取输入的年份、月份和日期，然后计算并输出该日期是对应年份
DV试验和PV试验介绍马上到我碗里来汽车电子 DV试验 PV试验
1基本介绍DV试验DV试验，全称DesignVerificationTest，又称设计验证试验，是指在产品设计阶段，对产品的设计进行验证的一种试验方法。DV试验的主要目的是为了验证产品的设计是否满足功能和性能要求，并找出设计中的缺陷和不足，为产品的改进提供依据。DV试验的流程一般包括以下几个阶段：试验计划制定：首先要制定DV试验计划，明确试验的目的、范围、方法、标准等。试验计划应由产品设计人员、试
PyCharm代码格式化快捷键失效？一文教你轻松解决 liuxin33445566 pycharm ide python
标题：PyCharm代码格式化快捷键失效？一文教你轻松解决PyCharm，作为一款功能强大的Python开发IDE，提供了代码格式化的快捷键功能，极大地提升了开发效率。然而，有时我们可能会遇到快捷键失效的问题，导致无法快速格式化代码。本文将详细解释如何解决PyCharm中代码格式化快捷键不工作的问题，并提供一些实用的代码示例。1.快捷键失效的常见原因在PyCharm中，代码格式化的默认快捷键通常是
iCloud备忘录同步指南：跨设备同步你的想法与任务 liuxin33445566 icloud
引言iCloud备忘录是苹果公司提供的一项功能，它允许用户在所有苹果设备上同步备忘录。无论是快速记录想法、创建购物清单，还是规划旅行，iCloud备忘录都能帮助用户保持组织和同步。本文将详细介绍如何在iCloud中同步备忘录，确保你的笔记在所有设备上保持最新状态。iCloud备忘录概述iCloud备忘录是iOS、iPadOS、macOS、watchOS以及Windows平台上备忘录应用的一部分。它
pythonasm库分析，看看你和自学编程小学生的差距 linhhanpy pythonasm python使用汇编 python 开发语言汇编前端
下面是pythonasm.asm库的源代码fromkeystoneimport*fromcapstoneimport*assembly_instructions=[]#储存汇编指令的列表#汇编指令写入列表defmov(reg1,reg2):assembly_instructions.append(f"mov{reg1},{reg2}")defdb(value):assembly_instructi
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他