猫猫爱吃小鱼

基于文本分类方法的警情数据处理和自助报警的实现

《文本分析与挖掘》

2021/2022(1)

期末综合实验报告

报告题目文本分析期末大作业

计算机科学与技术学院

基于文本分类方法的警情数据处理问题

问题分析

当前公安机关掌握着各种宝贵警情数据资源，但是这些资源没有被进一步利用，普遍的是只对相关数据进行管理、统计和查询。随着时间的推移和数据的积累，如何将警情数据库及相关数据库里面的数据有效利用起来，进提高警队的战斗力,进一步打击违法犯罪活动，就成了当前急需解决的问题。现阶段，公安情报人员在分析文本情报时往往依赖人力手动完成，耗时长、效率低。烽火普天智能情报文本挖掘平台，基于自然语言处理等技术，可对多源、异构、海量的公安情报文本进行文本分析挖掘，与公安内部系统信息整合、综合分析和预警监测，不断提高智能化的情报工作能力，为公安业务提供有效的决策支持、提高公安快速响应与作战能力。

我们基于警情数据对于报案内容的进行分类，做了一个方便报案人员自动报警、及时找到相关部门解决问题、以及给警方人员提供一定的信息服务的系统。对于报警人员，主要涉及报警文本的分类。对于警方人员，主要涉及文本统计。

当前的文本分类算法主要有12中，包括8种传统算法：k临近、决策树、多层感知器、朴素贝叶斯（包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯）、逻辑回归和支持向量机；4种集成学习算法：随机森林、AdaBoost、lightGBM和xgBoost；2种深度学习算法：前馈神经网络和LSTM。本次大作业我们主要利用TextCNN和fastText分类警情数据，给报案人员提供方便的报案途径。

系统构架/功能模块

主要为两个模块，报案人员自助报案和警局处理人员对系统的查询和管理。如下图所示：

自动报案主要是根据报案人员的报案信息，给予处理信息和一些反馈。自动报案需要提取报案内容，进行分类，显示分类结果，从而给予处理信息。

1.基于报警人员的报警信息分类：

分析表格数据，发现只有报警内容信息对文本的分类有效，先对报警信息文本的预处理：

1.数据清洗：

对于提供的警情数据信息：

提取全部文本中出现最多的单词：

图2-关键词

查看全部数据的词云显示：

图3-前2000个词汇的云图

查看‘求助’事件的词云显示：

图4-求助案件词汇的云图

查看‘治安案件’事件的词云显示：

图5-治安案件词汇的云图

查看‘纠纷’事件的词云显示：

图6-纠纷案件词汇的云图

查看‘举报’事件的词云显示：

图7-举报案件词汇的云图

查看‘其它报警’事件的词云显示：

图8-其他报警案件词汇的云图

查看‘刑事案件’事件的词云显示：

图9-刑事案件词汇的云图

从中我们可以看出有许多单词在各类文本中出现的次数很多，

例如【‘人称’,’有人’,’称’,’年’,’月’,’日’】等和【‘重复报警’】：

文档中的报警内容有很多都带有【‘重复报警’】，且【‘重复报警’】后的内容只含有日期和报警电话，对分类无帮助，还会增加训练的时间，所以也需要去除这部分的内容。

对于下列的信息，全部去除：

t1=['*'民警','1','2','3','4','5','6','7','8','9','0',' ','(',')','带领','年','月','日','时','分','辅警','（','）','，','人称','报警','称','有人']

重复报警的内容也删除：

if(data[i]=='重' and i+1

 
  去除一些无用信息后，对训练集的数据进行分词，结果如下图所示： 
   
   图10-选择性删除一些信息 
   
   
  去除文本中的停用词，如【‘有人’】，标点符号，【‘几乎’】，【‘同时’】等信息。 
  加载停用词表（停用词表来自网络）： 
  stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8') 
      如下图所示： 
   
  图11-停用词表 
  2.数据增强： 
   
  可以看出对于六类报警内容中，举报事件和刑事案件远远少于其他类别，基于这个问题我们可以进行文本增强。 
  用到的工具是nlpcda，进行安装nlpcda和依赖包后就可以使用： 
  !pip install nlpcda 
  它的作用主要有： 
  ①在不改变原文语义的情况下，生成指定数量的训练语料文本。 
  ②对NLP模型的泛化性能、对抗攻击、干扰波动，有很好的提升作用。 
  nlpdata文本增强的主要方法如下： 
  ①随机(等价)实体替换：即缺省时使用内置（公司）实体。对公司实体进行替换。 
  调用如下（参数解释：create_num=3 ：返回最多3个增强文本change_rate=0.3 ： 文本改变率seed ： 随机种子）： 
  from nlpcda import Randomword

test_str = '类别少的警情数据'

smw = Randomword(create_num=3, change_rate=0.3)

rs1 = smw.replace(test_str) 
  ②随机同义词替换：缺省时使用内置同义词表，你可以设定/自己指定更加丰富的同义词表： 
  调用如下（参数解释：create_num=3 ：返回最多3个增强文本；change_rate=0.3 ： 文本改变率； seed ： 随机种子）： 
  from nlpcda import Similarword

test_str = '类别少的警情数据'

smw = Similarword(create_num=3, change_rate=0.3)

rs1 = smw.replace(test_str) 
  ③随机近义字替换：缺省时使用内置【同义同音字表】，你可以设定/自己指定更加丰富的同义同音字表： 
  调用如下（create_num=3 ：返回最多3个增强；change_rate=0.3 ： 文本改变率；seed ： 随机种子）： 
  from nlpcda import Homophone

test_str = '类别少的警情数据'

smw = Homophone(create_num=3, change_rate=0.3)

rs1 = smw.replace(test_str) 
  因为举报和刑事案件类别的文档内容比较少，所以选择增强这两类的文本内容。 
  具体方法： 
  随机选择类别为“举报”和“刑事案件”的报警内容100条，对其进行随机同义词替换，文本改变率设为0.3，分别重新生成100条报警信息，并存储下来和训练集一起训练。 
  下图为一个文本增强的例子： 
   
   图12-例子 
   
  下图为替换后的结果： 
   
   图13-文本替换 
   
  可以看出对应‘举报’类的报警信息，它主要是替换为了‘检举’，‘告发’，‘告密’等内容，对文本分类有一定的帮助。 
  3.基于报警人员的报警信息分类:主要使用了三种方法，TextCNN，朴素贝叶斯，fasttext。 
  整个分类的主要流程如下图所示： 
   
   
   
  图14-总体分类流程图 
  ①基于TextCNN. 
  文本分类的关键在于准确提炼文档或者句子的中心思想，而提炼中心思想的方法是抽取文档或句子的关键词作为特征，基于这些特征去训练分类器并分类。因为CNN的卷积和池化过程就是一个抽取特征的过程，当我们可以准确抽取关键词的特征时，就能准确的提炼出文档或句子的中心思想。 
  TextCNN架构图如下所示： 
   
   
   
  图15-TextCNN架构图 
  分类流程如下图： 
   
   图15-TextCNN分类流程图 
   
  将词表写入本地vocab.txt文件 
  with open('vocab.txt', 'w') as file:
    for word in  vocab:
        file.write(word)
        file.write('\n') 
  因为报警内容其实并不是很多，本次分类中把向量的最大维度 
  设为500： 
  class Config():
    embedding_dim = 50#向量维度
    max_seq_len = 100 # 文章最大词数
    vocab_file = 'vocab.txt' # 词汇表文件路径 
  这里需要注意：初始化词和id的映射词典，预留0给padding字符，1给词表中未见过的词。   
  标签映射如下： 
  elf.class_name = {0: '求助', 1: '治安案件',2:'纠纷',3:'举报',4:'其他报警',5:'刑事案件'} 
     开始训练： 
  # 初始化模型类，启动训练

textcnn = TextCNN(config)

history=textcnn.fit(X_train,new_y_train, X_val, new_y_val, epochs=20, callbacks=[early_stop, checkpoint_callback]) # 训练 
  训练结果如下： 
   
   
   
  图16-TextCNN训练结果 
  对于训练集的准确率已经达到了0.9，对于验证集的准确度0.6多。 
  测试集的各个准确度如下： 
   
   图17-TextCNN分类结果 
   
  ②基于fasttext. 
  fastText 模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。 
   fasttext的模型架构如下图所示： 
   
   图18-fastext网络架构 
   
  使用fasttext分类流程如下所示： 
   
   图19-fastext分类流程图 
   
   
  需要进行一些数据清洗、分词、去停用词、整理为fastText要求的文本格式，并生成训练数据。 
  生成的训练样本格式为： 
  __label_类别 分词1 分词2 分词3 ......分词n 
  例如： 
  __label__2 有人 赖着 不肯 离开 
      
  分割训练集和数据集，将训练数据和测试数据都写入文档： 
    
   with open('./data/train_data.txt', 'w') as out:
        for sentence in train_set:
            out.write(sentence+"\n")
        print("done!")
    with open('./data/test_data.txt','w') as f:
        for sentence in test_set:
            f.write(sentence+'\n')
        print('done!') 
   
  test_data.txt查看： 
   
   
   
  图20-fastext 测试数查看 
   
  训练模型（参数解释：word_ngrams设置 n-grams ；dim 训练的词向量维度）： 
  classifier = fasttext.train_supervised('./data/train_data.txt',label='__label__', wordNgrams=2,epoch=20,lr=0.1,dim=100) 
  训练集的准确度为： 
   
   图21-fastext训练准确度 
   
  测试集的准确度为： 
   
   图22-fastext测试准确度 
  准确度达到了0.6398，总的准确度还行，比TextCNN的高一些 
   
  ③基于朴素贝叶斯的分类： 
  朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y，朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。 
  训练的流程如下图所示： 
   
   
  图23-朴素贝叶斯分类流程图 
   
  先基于词频矩阵做训练： 
  vec = CountVectorizer(analyzer='word', max_features=50,  lowercase = False)
feature = vec.fit_transform(words) 
  feature的shape如下图所示： 
   
   
  导入贝叶斯模型： 
   
  from sklearn.naive_bayes import MultinomialNB #贝叶斯模型
classifier = MultinomialNB() 
classifier.fit(feature, y_train) 
  如下： 
   
  结果如下： 
   
   图24-基于词频矩阵分类结果 
   
  保存模型： 
  joblib.dump(classifier,'CountVectorizer.pkl') 
  再基于TF-IDF矩阵做训练：模型初始化： 
  from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(analyzer='word', max_features=20,  lowercase = False)
vectorizer.fit(words) 
   
  初始化如下图： 
   
   最终的分类准确度为： 
   
   图25-基于TF-IDF矩阵分类结果 
   
   
  分类效果没有 CountVectorizer的好。 
  保存模型： 
  joblib.dump(classifier,'TfidfVectorizer.pkl') 
   
   
   功能展示/结果对比 
   
  我们本次大作业基于警情数据做了一个警方管理和自动报案系统，自动报案系统基于报案人的口述数据，判断该报案内容为哪一类的报案数据，对于类别联系自动联系对于警方部门来处理，这和报案内容分类的准确度有很大关系；警方管理主要是警方基于警情信息，对警情进行一些查看和分析。 
  界面总体模块图： 
   
   图25-界面模块图 
   
  1.分类准确度： 
  ①TextCNN不做数据清洗，只滤去无关信息（未做数据增强）： 
   
   图26-基于TextCNN不做数据清洗（未做数据增强）分类结果 
   
  分类准确度如下：平均为0.61，其他报警类的报警数据分类准确度为0.3，特别低，治安案件的分类也比较差，只有纠纷类的比较高，因为其中的样本数是最多的。 
  ②TextCNN做数据清洗（未做数据增强）： 
   
   图27-基于TextCNN做数据清洗（未做数据增强）分类结果 
   
   
  分类准确度如下：平均为0.56，其他报警类的报警数据分类准确度为0.29，任然特别低，治安案件的分类还是比较差，只有纠纷类的准确度降低了，举报类和刑事案件类的准确度都上升了，因为数据清洗时可能会导致数据变为空的情况，也删除了很多信息，所以样本多的类别准确度会下降，而样本少的类别准确度会上升。对类别少的样本比较有利，但是总体的分类准确度还是降低了。 
   
  ③fastText（做过清洗数据）: 
  训练集准确度为0.93，比TextCNN的要高 
   
   图28-fastext训练准确度 
   
  测试集准确度为0.63，比TextCNN的要高 
   
   图29-fastext测试准确度 
  可见在警情数据分析中，fastText比textcnn更好一点，而且可以明显感觉到fastText的模型训练速度比textcnn快很多，但是fastText比textcnn训练的模型也大很多。 
  ④朴素贝叶斯： 
  基于词频向量训练准确度为0.58。 
   
  基于TF-IDF的向量训练准确度为0.51. 
    
   基于TF-IDF向量的分类可能更适用于主题检测中，或是新闻分类中，在警情数据分析中的分类效果不太理想。基于词频向量的准确度和TextCNN相差不大，训练速度稍微慢一点。 
  2.警方人员对警情数据的查看： 
   
  ①搜索引擎，警方人员可以通过该系统上网搜索需要的信息。 
   
   图30-搜索引擎 
   
  ②案件分布查看：警方人员查看报案人员的统计性别信息，地域信息和事件性质分布信息，来查看目前的案件统计状况，给解决案件提供相关的思路。 
   
   
   
  图31-案件性别信息 
  对于报案的地区做一个简单映射（为了方便地区的查看）： 
  data=[('浙江', k1), ('江苏', k2), ('上海', k3), ('湖南', k4), 

 ('安徽', k5), ('广东', k6), ('湖北', k7), ('河南', k8),   ('江西', k9)] 
   
  结果如下图所示： 
   
   图31-案件地域分布信息 
   
   
  图32-案件类别分布信息 
   
  ③警情分析查看： 
  用于查看警情的分布信息。 
   
   
   
  图32-警情分析查看 
  3.报案人员自助报案： 
   
   
  图33-自助报案界面 
   按下我要报警求助，进行报案语音的识别。模型检测报案内容，给出相关部门的指引（例如，你需要找到求助部门，已通知该部门的警察，请留下你的电话哦）。 
  我们语音输入【‘我要求助，我们家出事了！！’】，给出反馈如下所示： 
   
   图34-自助报案结果 
   
   
   讨论与总结 
   
   
  1.TextCNN的使用 
  TextCNN的流程：先将文本分词做embeeding得到词向量, 将词向量经过一层卷积,一层max-pooling, 最后将输出外接softmax 来做n分类。  
  TextCNN 的优势：模型简单, 训练速度快，效果不错。 
  TextCNN的缺点：模型可解释型不强，在调优模型的时候，很难根据训练的结果去针对性的调整具体的特征，因为在textCNN中没有类似gbdt模型中特征重要度(feature importance)的概念, 所以很难去评估每个特征的重要度。  
  实际训练中。TextCNN的网络模型比较复杂，但是效果还可以，，且训练速度也很快。 
  2.fastText的使用 
  fastText和word2vec模型结构很像，都是采用embedding向量的形式，得到word的隐向量表达。也都采用很多相似的优化方法，比如使用Hierarchical softmax优化训练和预测中的打分速度。但是而fasttext的输出层对应的是分类的label。不过不管输出层对应的是什么内容，起对应的vector都不会被保留和使用；fasttext输入层需要对应的整个sentence的内容，包括term，也包括 n-gram的内容。它的分类思想为利用h-softmax的分类功能，遍历分类树的所有叶节点，找到概率最大的label（一个或者N个）。 
  例如： 
   
   在本次大作业中，我们体会到fastText的学习速度比较快，效果还不错。fastText适用与分类类别非常大而且数据集足够多的情况，当分类类别比较小或者数据集比较少的话，很容易过拟合。它可以完成无监督的词向量的学习，可以学习出来词向量，来保持住词和词之间，相关词之间是一个距离比较近的情况；也可以用于有监督学习的文本分类任务。 
   
  3.基于文本分类的应用和文本的实体之间的联系还没有过多的深入，我们的初步设想是利用警情数据中的报警处理信息，应用到给报案人员的自助报案的反馈中，但是提取文本的实体联系和文本的实体信息比较难，由于各种环境配置都没能成功，所以最后也没实现。 
  4.文本数据的清洗比较适用于长文本，不太适用于短文本，因为短文本的内容本来就信息量很少，即时是无关信息，也会造成分类准确度的影响。 
  5.TF-IDF特征在报警数据集中的表现特别差，因为基于TF-IDF向量的分类可能更适用于主题检测中，或是新闻分类中，在警情数据分析中的分类效果不太理想。 
   
  视频演示链接： 
  文本分析_警情可视和自助报警_哔哩哔哩_bilibili

机器学习-K近邻算法 shy_snow python 机器学习机器学习近邻算法人工智能
k-近邻分类算法，即物以类聚的思想，通过已知分类中的点和未知分类的点距离最近的前k个点的分类来预测未知点的分类。kNN.pyfromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']returngroup,label
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
【人工智能】大比拼：文心一言 VS ChatGPT —— 禅与计算机程序设计艺术亲自测评 AI天才研究院 ChatGPT 人工智能文心一言 chatgpt
收到了百度“文心一言”的内测邀请，现在给大家亲身体验测评一下！禅与计算机程序设计艺术先说结论：文心一言表现基本符合预期。与ChatGPT有一定差距，应该在几个月左右。但是禅与计算机程序设计艺术，挺期待ChatGLM-130B版本的效果的。因为，ChatGLM-6B在本地测评的效果，还是非常不错的！目录文心一言写一篇论文介绍一下你自己，从技术原理、应用场景、未来发展、当前不足等方面，不少于3000字
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
富集分析——GO、KEGG ersanshi055 生信小菜鸟富集分析 GO kegg
一、富集分析的基础认知在生物信息学研究领域，基因功能解析及通路阐释是众多分析流程中的关键环节，富集分析（EnrichmentAnalysis）是将基因或蛋白列表按照功能进行分类的统计方法，目的是找出在特定基因集中显著富集的功能类别或通路。通过这种方法，研究人员可以理解一组基因（如差异表达基因）在哪些生物学过程、分子功能或通路中代表。1.富集分析分类基因本体论富集分析（GeneOntologyEnr
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
Softhub软件下载站实战开发（十四）：软件收藏集设计叹一曲当时只道是寻常 softHub 前端 golang
文章目录Softhub软件下载站实战开发（十四）：软件收藏集设计引言：为什么我们需要收藏集功能？收藏集功能的核心价值1.资源整合与分类管理技术架构设计数据库设计核心接口设计后端实现详解1.收藏集服务层2.列表查询实现3.添加软件实现前端实现详解1.收藏集列表页面2.软件管理弹窗组件3.软件选择与添加逻辑Softhub软件下载站实战开发（十四）：软件收藏集设计前面几篇我们讲了软件管理相关实现，本篇我
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Softhub软件下载站实战开发（十七）：用户端API设计
文章目录Softhub软件下载站实战开发（十七）：用户端API设计前言用户端API概览1.分类管理API2.首页API3.资源集管理API4.软件管理API5.资源下载API⬇️API设计原则‍Softhub软件下载站实战开发（十七）：用户端API设计前言在Softhub软件下载站的开发过程中，我们终于来到了用户端API的设计阶段！用户端API是整个系统与前端交互的核心桥梁，良好的API设计能极大
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
网络工程师组网必用，动态路由OSPF及MPLS静态LSP配置 wozuimang ICT网络工程师集训营路由交换网络工程师 MPLS
一、MPLSMPLS基于标签转发，在数据链路层及网络层之间增加MPLS头部，属于2.5层MPLS域中的相关MPLS名词1、LSR标签交换路由器，支持MPLS的路由器2、LER，MPLS边界连接其他网络的LSR设备3、区域内部LSR为核心LSR二、LSR分类1、入站（ingress）LSR：IP报文中压入MPLS头部2、中转（transit）LSR：用于MPLS标签交换，将报文继续MPLS域中转发3
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
linux-用户和组 2501_92004703 linux 服务器运维
linux-用户和组前言一、用户管理1.用户账户类型2.主要命令2.1useradd2.2usedel2.3usermod2.4su3.查看用户登录信息3.1w3.2who3.3last3.4lastlog3.5lastb4.用户配置文件4.1/etc/passwd4.2/etc/shadow4.3/etc/login.defs5.手工新建用户二、组管理1.组分类2.组配置文件总结前言用户和组是进
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

基于文本分类方法的警情数据处理和自助报警的实现

你可能感兴趣的:(分类,数据挖掘,人工智能)