在路上的工程师

使用HanLP进行分词和实体抽取

HanLP Github地址：https://github.com/hankcs/HanLP

HanLP文档地址：https://hanlp.hankcs.com/docs/api/hanlp/pretrained/index.html

多任务模型

首先我们来了解下HanLP有哪些预训练模型，其分为单任务模型和多任务模型，多任务模型就是可以同时执行多个任务，其模型的位置都在hanlp.pretrained.mtl这个包下，根据其文档说明

hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH

Electra（Clark et al.2020）在近源中文语料库上训练的联合tok、pos、ner、srl、dep、sdp和con模型的基础版本。

hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH

Electra（Clark et al.2020）在近源中文语料库上训练的联合tok、pos、ner、srl、dep、sdp和con模型的迷你版本。

hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ERNIE_GRAM_ZH

ERNIE（Xiao et al.2021）在近源汉语语料库上训练的联合tok、pos、ner、srl、dep、sdp和con模型的基础版本。

hanlp.pretrained.mtl.NPCMJ_UD_KYOTO_TOK_POS_CON_BERT_BASE_CHAR_JA

BERT（Devlin et al.2019）在NPCMJ/UD/Kyoto语料库上训练基本字符编码器，解码器包括tok、pos、ner、dep、con、srl。

hanlp.pretrained.mtl.OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH

Electra（Clark et al.2020）在开源中文语料库上训练的联合tok、pos、ner、srl、dep、sdp和con模型的基础版本。

hanlp.pretrained.mtl.OPEN_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH

Electra（Clark et al.2020）在开源中文语料库上训练的联合tok、pos、ner、srl、dep、sdp和con模型的迷你版本。

hanlp.pretrained.mtl.UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_XLMR_BASE

XLM-R（Conneau et al.2020）联合tok、pos、lem、fea、ner、srl、dep、sdp和con模型的基础版本，在UD和OntoNotes5语料库上进行训练。

hanlp.pretrained.mtl.UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_MT5_SMALL

mT5（Xue et al.2021）联合tok、pos、lem、fea、ner、srl、dep、sdp和con模型的迷你版本，在UD和OntoNotes5语料库上进行训练。

然后根据github上的readme可以了解到这些简写的任务含义以及标注标准。

功能	RESTful	多任务	单任务	模型	标注标准
分词	教程	教程	教程	tok	粗分/细分
词性标注	教程	教程	教程	pos	CTB、PKU、863
命名实体识别	教程	教程	教程	ner	PKU、MSRA、OntoNotes
依存句法分析	教程	教程	教程	dep	SD、UD、PMT
成分句法分析	教程	教程	教程	con	Chinese Tree Bank
语义依存分析	教程	教程	教程	sdp	CSDP
语义角色标注	教程	教程	教程	srl	Chinese Proposition Bank
抽象意义表示	教程	暂无	教程	amr	CAMR

另外，通过print(hanlp.pretrained.mtl.ALL)

可以直接打印所有的模型名称，并且附有模型文件下载链接。

模型加载和使用

我们选择上面的一种模型

import hanlp

HanLP = hanlp.load(
        hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH,
        devive=0  # 多个GPU时，可以用该参数指定
    )

第一次运行时，会自动下载模型文件，下载地址和存储路径会在控制台显示，存储路径一般在C盘：

C:\Users\username\AppData\Roaming\hanlp…

也可以自己下载文件到指定目录解压，然后从指定目录加载，但是要注意解压的文件夹名称要和压缩文件名称一致，例如

hanlp.load(
    save_dir=(
        './data/hanlp/mtl/'
        'close_tok_pos_ner_srl_dep_sdp_con_electra_base_20210111_124519'),
    device=0
)

下载好之后，可以查看该模型支持哪些任务：

tasks = list(HanLP.tasks.keys())
print(tasks)

['con', 'dep', 'ner/msra', 'ner/ontonotes', 'ner/pku', 'pos/863', 'pos/ctb', 'pos/pku', 'sdp', 'srl', 'tok/coarse', 'tok/fine']

tok/fine: tok是分词, coarse为粗分，fine为细分。。 '/'前面是任务,后面是标注标准

分词和自定义词典

分词测试

import hanlp


class HanLPModel:
    def __init__(self):
        self.HanLP = hanlp.load(
            save_dir=(
                './data/hanlp/mtl/'
                'close_tok_pos_ner_srl_dep_sdp_con_electra_base_20210111_124519'),
            devive=0
        )

    @staticmethod
    def show_all_models():
        print(hanlp.pretrained.mtl.ALL)

    def show_tasks(self):
        tasks = list(self.HanLP.tasks.keys())
        print(tasks)

    def tokenizer(self, data):
        data = data[:512]
        result_document = self.HanLP(data, tasks="tok")
        return result_document["tok/fine"]

content = """本院定于2022年6月1日 上午09时00分在普洱市中级人民法院第三法庭公开开庭审理原告中国音像著作权集体管理协会与被告普洱帝都娱乐有限公司著作权权属、侵权纠纷一案。"""

print(hanlp_model.tokenizer(content))

['本院', '定于', '2022年', '6月', '1', '日', '上午', '09', '时', '00', '分', '在', '普洱市', '中级', '人民', '法院', '第三', '法庭', '公开', '开庭', '审理', '原告', '中国', '音像', '著作权', '集体', '管理', '协会', '与', '被告', '普洱', '帝都', '娱乐', '有限', '公司', '著作权', '权属', '、', '侵权', '纠纷', '一', '案', '。']

这里设置tasks="tok"默认是细粒度的分词，如果设置tasks=“tok/coarse”，可以得到粗粒度的分词结果，设置tasks="tok*"可以得到两种分词结果。

以下是粗粒度的分词结果：

['本', '院', '定于', '2022', '年', '6', '月', '1', '日', '上午', '09', '时', '00', '分', '在', '普洱市中级人民法院第三法庭', '公开', '开庭', '审理', '原告', '中国音像著作权集体管理协会', '与', '被告', '普洱帝都娱乐有限公司', '著作权', '权', '属', '、', '侵权', '纠纷', '一', '案', '。']

自定义词典

在应用于特定领域时，一般我们都会有一些领域词，而hanlp这种通用的模型没办法提取出领域词，我们希望可以添加这样一个词表，可以让hanlp在分词时，将这些词作为一个分词结果。

我们可以通过这种方式自定义词典

def tokenizer(self, data):
    data = data[:512]
    tok = self.HanLP['tok/fine']
    # 强制模型
    tok.dict_force = {'中级人民法院', '开庭审理'}
    result_document = self.HanLP(data, tasks="tok")
    return result_document["tok/fine"]

# 分词结果
['本院', '定于', '2022年', '6月', '1', '日', '上午', '09', '时', '00', '分', '在', '普洱市', '中级人民法院', '第三', '法庭', '公开', '开庭审理', '原告', '中国', '音像', '著作权', '集体', '管理', '协会', '与', '被告', '普洱', '帝都', '娱乐', '有限', '公司', '著作权', '权属', '、', '侵权', '纠纷', '一', '案', '。']

强制模式优先输出正向最长匹配到的自定义词条，与大众的朴素认知不同，词典优先级最高未必是好事，极有可能匹配到不该分出来的自定义词语，导致歧义。

另外还有一种合并模式，合并模型优先级低于统计模型，即dict_combine会在统计模型的分词结果上执行最长匹配并合并匹配到的词条。一般情况下，推荐使用该模式，使用方式如下

tok.dict_combine = {'市中级人民法院', '开庭审理'}

# 分词结果
['本院', '定于', '2022年', '6月', '1', '日', '上午', '09', '时', '00', '分', '在', '普洱市', '中级', '人民', '法院', '第三', '法庭', '公开', '开庭审理', '原告', '中国', '音像', '著作权', '集体', '管理', '协会', '与', '被告', '普洱', '帝都', '娱乐', '有限', '公司', '著作权', '权属', '、', '侵权', '纠纷', '一', '案', '。']

合并模型添加的词并不一定总能分词成功，因为还是以统计为主，比如这里市中级人民法院就没有分词成功。

另外如果你的自定义词典中的词含有空格、制表符等，可以通过tuple的形式添加

tok.dict_combine = {('iPad', 'Pro')}

如果想要获取分词在原文本的位置信息，可以这样配置

tok.config.output_spans = True

返回格式为三元组（单词，单词的起始下标，单词的终止下标），下标以字符级别计量。

实体抽取和自定义实体词典

接下来我们用它来对一段文本进行实体抽取(实体抽取任务中包含分词)

实体抽取测试

class HanLPModel:

    def extract_ner(self, data):
        data = data[:512]
        results_document = self.HanLP(data, tasks="ner")
        tok_fine = results_document["tok/fine"]
        ner_msra = results_document["ner/msra"]
        return tok_fine, ner_msra


hanlp_model = HanLPModel()


content = """
国家卫生健康委新闻发言人、宣传司副司长米锋在会上表示，我国现有本土确诊病例和无症状感染者连续27天下降，但又有新的本土聚集性疫情发生，疫情防控形势依然严峻复杂。

“近期，全国疫情整体呈现稳定下降态势。”雷正龙在发布会上介绍，近一周以来，全国每天新增本土感染者已经降至1200例以下，波及范围进一步缩小。北京聚集性疫情和零星散发病例交织，局部地区和重点人群仍有感染传播风险。

当前，上海疫情继续整体向好，新增报告感染人数持续下降，已连续8天每天新增低于1000例，但是防反弹压力仍然较大，个别点位和社区风险仍有波动，疫情防控成果仍需进一步巩固。

此外，四川广安邻水疫情处于波动下降期，疫情传播风险较前期有所降低。天津、吉林近期有聚集性疫情发生，需加快检测和风险点位排查。河南、安徽、江西、辽宁等地疫情已得到有效遏制，疫情形势趋于平稳。

据雷正龙介绍，截至2022年5月22日，31个省（自治区、直辖市）和新疆生产建设兵团累计报告接种新冠病毒疫苗337109.6万剂次。"""
token_res, ner_res = hanlp_model.extract_ner(content)
print(token_res)
print(ner_res)

# 分词结果
['国家', '卫生', '健康委', '新闻', '发言人', '、', '宣传司', '副', '司长', '米锋', '在', '会上', '表示', '，', '我国', '现有', '本土', '确诊', '病例', '和', '无症状', '感染者', '连续', '27', '天', '下降', '，', '但', '又', '有', '新', '的', '本土', '聚集性', '疫情', '发生', '，', '疫情', '防控', '形势', '依然', '严峻', '复杂', '。', '“', '近期', '，', '全国', '疫情', '整体', '呈现', '稳定', '下降', '态势', '。', '”', '雷正龙', '在', '发布会', '上', '介绍', '，', '近', '一', '周', '以来', '，', '全国', '每天', '新增', '本土', '感染者', '已经', '降', '至', '1200', '例', '以下', '，', '波及', '范围', '进一步', '缩小', '。', '北京', '聚集性', '疫情', '和', '零星', '散发', '病例', '交织', '，', '局部', '地区', '和', '重点', '人群', '仍', '有', '感染', '传播', '风险', '。', '当前', '，', '上海', '疫情', '继续', '整体', '向', '好', '，', '新增', '报告', '感染', '人数', '持续', '下降', '，', '已', '连续', '8', '天', '每天', '新增', '低于', '1000', '例', '，', '但是', '防', '反弹', '压力', '仍然', '较', '大', '，', '个别', '点位', '和', '社区', '风险', '仍', '有', '波动', '，', '疫情', '防控', '成果', '仍', '需', '进一步', '巩固', '。', '此外', '，', '四川', '广安', '邻水', '疫情', '处于', '波动', '下降期', '，', '疫情', '传播', '风险', '较', '前期', '有所', '降低', '。', '天津', '、', '吉林', '近期', '有', '聚集性', '疫情', '发生', '，', '需', '加快', '检测', '和', '风险', '点位', '排查', '。', '河南', '、', '安徽', '、', '江西', '、', '辽宁', '等', '地', '疫情', '已', '得到', '有效', '遏制', '，', '疫情', '形势', '趋于', '平稳', '。', '据', '雷正龙', '介绍', '，', '截至', '2022年', '5月', '22日', '，', '31', '个', '省', '（', '自治区', '、', '直辖市', '）', '和', '新疆', '生产', '建设', '兵团', '累计', '报告', '接种', '新冠', '病毒', '疫苗', '337109.6万', '剂次', '。']


# 实体抽取结果
[
     ('国家卫生健康委', 'ORGANIZATION', 0, 3), 
     ('宣传司', 'ORGANIZATION', 6, 7), 
     ('米锋', 'PERSON', 9, 10), 
     ('雷正龙', 'PERSON', 56, 57), 
     ('1200', 'INTEGER', 75, 76), 
     ('北京', 'LOCATION', 84, 85), 
     ('上海', 'LOCATION', 106, 107), 
     ('1000', 'INTEGER', 127, 128), 
     ('四川', 'LOCATION', 157, 158), 
     ('广安', 'LOCATION', 158, 159), 
     ('天津', 'LOCATION', 173, 174), 
     ('吉林', 'LOCATION', 175, 176), 
     ('河南', 'LOCATION', 190, 191), 
     ('安徽', 'LOCATION', 192, 193), 
     ('江西', 'LOCATION', 194, 195), 
     ('辽宁', 'LOCATION', 196, 197), 
     ('雷正龙', 'PERSON', 211, 212), 
     ('2022年', 'DATE', 215, 216), 
     ('5月', 'DATE', 216, 217), 
     ('22日', 'DATE', 217, 218), 
     ('新疆生产建设兵团', 'ORGANIZATION', 228, 232), 
     ('新冠', 'ORGANIZATION', 235, 236), 
     ('337109.6万', 'DECIMAL', 238, 239)
]

这里返回的实体抽取结果，每个四元组表示[命名实体, 类型标签, 起始下标, 终止下标]，下标指的是命名实体在单词数组中的下标，单词数组默认为第一个以tok开头的数组

这里执行ner抽取任务时，设置tasks=“ner”，默认是MSRA标准，如果想要执行特定标注的ner任务，可以这样调用：tasks=“ner/pku”，同时执行所有标准的ner任务：tasks=“ner*”。

接下来我们再做一个测试：

content = """本院定于2022年6月1日上午09时00分在普洱市中级人民法院第三法庭公开开庭审理原告中国音像著作权集体管理协会与被告普洱帝都娱乐有限公司著作权权属、侵权纠纷一案。"""

results_document = self.HanLP(content, tasks="ner*")
print(results_document)

{
  # 分词结果上面已经有了，就省略了
  "ner/msra": [
    ["2022年", "DATE", 2, 3],
    ["6月", "DATE", 3, 4],
    ["1", "LOCATION", 4, 5],
    ["日", "DATE", 5, 6],
    ["上午", "TIME", 6, 7],
    ["分", "TIME", 10, 11],
    ["普洱市中级人民法院第三法庭", "ORGANIZATION", 12, 18],
    ["中国音像著作权集体管理协会", "ORGANIZATION", 22, 28],
    ["普洱帝都娱乐有限公司", "ORGANIZATION", 30, 35]
  ],
  "ner/pku": [
    ["普洱市中级人民法院", "nt", 12, 16],
    ["第三法庭", "nt", 16, 18],
    ["中国音像著作权集体管理协会", "nt", 22, 28],
    ["普洱帝都娱乐有限公司", "nt", 30, 35]
  ],
  "ner/ontonotes": [
    ["2022年6月1日上午09时00分", "TIME", 2, 11],
    ["普洱市中级人民法院第三法庭", "ORG", 12, 18],
    ["中国音像著作权集体管理协会", "ORG", 22, 28],
    ["普洱帝都娱乐有限公司", "ORG", 30, 35]
  ]
}

自定义实体词典

像自定义分词一样，很多时候特定领域有自己的实体，也同样可以通过添加自定义词典的形式来提高抽取效果。

这里分为白名单词典和强制词典，与分词的合并模型和强制模式类似。

def add_white_list(self):
    ner = self.HanLP['ner/msra']
    ner.dict_whitelist = {'原告': 'ROLE', '被告': 'ROLE', '著作权权属侵权纠纷': 'REASON', '普洱市': 'LOCATION', '中级人民法院': 'ORGANIZATION', '第三法庭': 'LOCATION', '院定': 'LOCATION'}

[('2022年', 'DATE', 2, 3), ('6月', 'DATE', 3, 4), ('1', 'LOCATION', 4, 5), ('日', 'DATE', 5, 6), ('上午', 'TIME', 6, 7), ('分', 'TIME', 10, 11), ('普洱市', 'ORGANIZATION', 12, 13), ('中级人民法院', 'ORGANIZATION', 13, 16), ('第三法庭', 'LOCATION', 16, 18), ('原告', 'ROLE', 21, 22), ('中国音像著作权集体管理协会', 'ORGANIZATION', 22, 28), ('被告', 'ROLE', 29, 30), ('普洱帝都娱乐有限公司', 'ORGANIZATION', 30, 35)]

白名单词典通过ner.dict_whitelist添加，这里添加的实体除了最后一个"院定"的实体，基本在抽取结果中都成功抽取了，这里的"院定"其实就是做测试用的，肯定不是实体，也表示白名单词典并不一定会被输出，优先级低于统计。

强制词典的添加比较麻烦，需要了解标注规则。

BIO

B stands for ‘beginning’ (signifies beginning of an Named Entity, i.e. NE)
I stands for ‘inside’ (signifies that the word is inside an NE)
O stands for ‘outside’ (signifies that the word is just a regular word outside of an NE)

BIOES

B stands for ‘beginning’ (signifies beginning of an NE)
I stands for ‘inside’ (signifies that the word is inside an NE)
O stands for ‘outside’ (signifies that the word is just a regular word outside of an NE)
E stands for ‘end’ (signifies that the word is the end of an NE)
S stands for ‘singleton’(signifies that the single word is an NE )

比如这里把原告和被告添加为ROLE实体

ner = self.HanLP['ner/msra']
ner.dict_tags = {('审理', '原告'): ('O', 'S-ROLE'),
                 ('与', '被告'): ('O', 'S-ROLE'),
                 ('1', '1日', '日'): ('I', 'S-TIME', 'I')
                }

但是想把1日添加为一个时间实体没有成功，有知道如何添加的可以留言~

另外还可以添加黑名单词典，黑名单中的词语绝对不会被当做命名实体，比如这里1被识别为实体，将其从实体中移除：

def add_black_list(self):
    ner = self.HanLP['ner/msra']
    ner.dict_blacklist = {'1'}

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal 数据分析能量站机器学习人工智能
微软Phi-4-multimodal模型是人工智能领域的一个重要进展，它标志着微软在多模态人工智能技术上的突破。以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
AI开拓者指南：GenAI产品应用TIPs——从采购到使用（采购篇） ai开发
AI浪潮愈发澎湃的当下，生成式人工智能技术已成为企业创新与效率提升的重要工具。企业对生成式人工智能产品（以下简称为“GenAI产品”）的应用需求日益增长，其应用场景也愈发多样化：开展营销活动的过程中利用AI生成创意文案和视觉设计素材，极大地缩短了创作周期并降低了成本；使用AI客服机器人处理客户咨询，显著地提高了客户满意度和响应速度；使用AI还可以为客户提供个性化的产品推荐，提高销售转化率等等。然而
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
从过拟合到强化学习：机器学习核心知识全解析吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能过拟合强化学习 python LLM scikit-learn
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
从LangChain到LangGraph：轻松迁移指南 tt_jishu langchain 前端 javascript python
引言在人工智能应用的开发过程中，从一个框架迁移到另一个框架可能是一个复杂的过程。本文将深入探讨如何从传统的LangChain代理迁移到LangGraph代理，这将为您的工具调用和对话管理带来更大的灵活性。主要内容1.安装和设置确保已安装所需的依赖包：%%capture--no-stderr%pipinstall-Ulanggraphlangchainlangchain-openai设置OpenAI
利用matlab实现贝叶斯优化算法（BO）优化支持向量机回归(SVR)的超参数是内啡肽耶算法 matlab 支持向量机机器学习回归
【导读】在机器学习建模中，支持向量机（SVM）回归模型的效果高度依赖超参数选择。但手动调参就像"大海捞针"，而网格搜索又面临"计算爆炸"的难题。今天给大家介绍一个智能调参黑科技——贝叶斯优化算法。通过Matlab实现，只需几分钟就能让模型性能自动升级！一、为什么要用贝叶斯优化调参？传统调参三大痛点：C参数（正则化强度）：过小导致过拟合，过大削弱模型能力ε参数（不敏感区域）：决定对预测误差的容忍度核
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析木子算法多目标优化人工智能算法多目标人工智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析在工程优化、机器学习等众多领域，约束多目标优化问题（CMOPs）广泛存在。传统方法在处理这类问题时，常因可行区域不连通或约束违反局部极小点陷入停滞。近期，IEEETransactionsonEvolutionaryComputation上的一篇论文提出了一种新颖的解决方案——MOEA/D-DAE算法，通过结合检测-逃逸策略（DAE）和
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

使用HanLP进行分词和实体抽取