weixin_39787792

BilSTM 实体识别_“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战的一点感受...

一. 比赛介绍

疫情催化下，人工智能正在持续助力中医药传承创新加速发展，其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱，将为为中医规范诊疗奠定较好基础。挑战旨在通过抽取中药药品说明书中的关键信息，中医药药品知识库的目标。

二. 赛题任务

命名实体识别(NER)的任务是识别 mention 命名实体的文本范围，并将其分类为预定义的类别，例如人，位置，组织等。NER 是各种自然语言应用(例如问题解答，文本摘要和机器翻译) 的基础。该赛题主要针对中药药品说明书实体识别，用于中医药药品知识库的构建。主要包括药品、药品成分、疾病等13类实体进行识别。

三. 数据介绍

1.实体类型共定义了13类，具体类别定义如下：

药品(DRUG)、药物成分(DRUG_INGREDIENT)、疾病(DISEASE)症状(SYMPTOM)、证候(SYNDROME)、疾病分组(DISEASE_GROUP)食物(FOOD)、食物分组(FOOD_GROUP)、人群(PERSON_GROUP)药品分组(DRUG_GROUP)、药物剂型(DRUG_DOSAGE)、药物性味(DRUG_TASTE)、中药功效(DRUG_EFFICACY)

2.数据下载

本次标注数据源来自中药药品说明书，共包含1997份去重后的药品说明书，其中1000份用于训练数据，500份用作初赛测试数据，剩余的497份用作复赛的测试数据。本次复赛测试数据不对外开放，不可下载且不可见，选手需要在天池平台通过镜像方式提交。

下载地址：

https://tianchi.aliyun.com/competition/entrance/531824/information

三. 环境搭建

1. 硬件环境

操作系统：Ubuntu18.04 均可。硬件配置：内存64G，1080Ti 11G，1个GPU卡或以上即可。

2. 软件环境

使用虚拟环境：  conda create –n tf1.x python==3.6进入虚拟环境：1.source .bashrc 2.source activate tf1.x安装依赖包：tensorflow-gpu==1.10 (conda install tensorflow-gpu==1.10)cudatoolkit==9.0 (conda install cudatoolkit==9.2)cudnn=7.0 (conda install cudnn==7.6.4)tqdm (pip install tqdm)pandas==0.25.3 (pip install pandas==0.25.3)numpy==1.14.5 (pip install numpy==1.14.5)

四. 赛题分析

1. 任务本质

实体识别任务。

2. 数据分析

针对赛题数据集，笔者进行了较为详细的统计和分析。数据集中的文本长度分布如图所示，文本长度250的数据最多。大部分数据文本长度不是很长。可以看出，数据集存在文本过长的不是很多，但是发现有标签错误的样本。

具体数据分布如下，数据最长为3036，最小17，中位数436，数据长度还是相差很大的。

五.预训练模型

1.预训练模型种类

预训练模型:

BERT、ALBERT、XLNET、BERT-WWM、Roberta。

都是基于 transformer 结构的预训练语言模型，包括了 Bert 及其后继者 Bert-WWM、

Roberta、XLNet、Albert 等，统称为 BERT 家族。它们不仅在结构上很相似，而且在使

用方法上更是高度一致。

2.输入截断方式

常用的截断的策略有三种：

pre-truncate
post-truncate
middle-truncate (head + tail)

3.预训练模型

3.1 Bert-WWM

模型结构与 Bert 完全一样，只是在 MLM 训练任务上做了一个小的改进。Bert 在做 MLM 采用

的是 token 级别的 mask，而 Bert-WWM 则采用了词级别的mask，更加合理一些。

3.2Roberta

Bert 的优化版，模型结构与 Bert 完全一样，只是在数据量和训练方法上做了改进。简单说就

是更大的数据量，更好的训练方式，训练得更久一些。

相比原生 Bert 的16G训练数据，RoBerta 训练数据量达到了161G；
去除了 NSP 任务，研究表明 NSP 任务太过简单，不仅不能提升反倒有损模型性能；
MLM 换成 Dynamic Masking LM；
更大的 batch size 以及其他超参数的调优。

3.3XLNet

XLNet 对 Bert 做了较大的改动，二者在模型结构和训练方式上都有不小的差异。

Bert 的 MLM 在预训练时有 MASK 标签，但在使用时却没有，导致训练和使用时出现不一致；

并且 MLM 不属于 Autoregressive LM，不能做生成类任务。XLNet 采用 PML(Permutation

Language Model) 避免了 MASK 标签的使用，且属于 Autoregressive LM，可以做生成任务。

Bert 使用的 Transformer 结构对文本的长度有限制，为更好地处理长文本，XLNet 采用升级

版的 Transformer-XL。

3.4Albert

Albert(Bert 瘦身版本)，希望用更简单的模型，更少的数据，得到更好的结果。它主要从以下两个方面减少模型的参数量：

对 Vocabulary Embedding 进行矩阵分解，将原来的矩阵VxE分解成两个矩阵VxH和HxE(H<
跨层参数共享，可以避免参数量随着网络深度的增加而增加。

3.5 各个预训练模型差异

这些模型的性能在不同的数据集上有差异，需要试了才知道哪个表现更好，但总体而言 XLNet、

Roberta、Bert-WWM 会比 Bert 效果略好，large 会比 base 略好。ALbert也有多个版本，large版本训

练时间其实也没有降低，tiny版本会好很多。更多情况下，它们会被一起使用，最后做模型融合。

五.代码结构

├── README.txt├── bert│   ├── CONTRIBUTING.md│   ├── LICENSE│   ├── README.md│   ├── __init__.py│   ├── __pycache__│   │   ├── __init__.cpython-35.pyc│   │   ├── __init__.cpython-36.pyc│   │   ├── modeling.cpython-35.pyc│   │   ├── modeling.cpython-36.pyc│   │   ├── modeling_v2.cpython-35.pyc│   │   ├── modeling_v2.cpython-36.pyc│   │   ├── modeling_v3.cpython-35.pyc│   │   ├── modeling_v3.cpython-36.pyc│   │   ├── tokenization.cpython-35.pyc│   │   └── tokenization.cpython-36.pyc│   ├── bert-master.zip│   ├── create_pretraining_data.py│   ├── extract_features.py│   ├── modeling.py│   ├── modeling_test.py│   ├── modeling_v1.py│   ├── multilingual.md│   ├── optimization.py│   ├── optimization_test.py│   ├── predicting_movie_reviews_with_bert_on_tf_hub.ipynb│   ├── requirements.txt│   ├── run_classifier.py│   ├── run_classifier_with_tfhub.py│   ├── run_pretraining.py│   ├── run_squad.py│   ├── sample_text.txt│   ├── tokenization.py│   └── tokenization_test.py├── cache│   ├── category2id.json│   └── random_order_train_dev.json├── conf.py├── data│   └── chinese_roberta_wwm_ext_L-12_H-768_A-12├── data_utils.py├── eval_metrics.py├── infer.py├── label2json.py├── model.py├── model_saved│   └── right├── optimization.py├── tf_utils│   ├── __pycache__│   │   ├── bert_modeling.cpython-35.pyc│   │   ├── bert_modeling.cpython-36.pyc│   │   └── rnncell.cpython-36.pyc│   ├── bert_modeling.py│   ├── ops.py│   └── rnncell.py├── train-cv.py└── utils.py

代码开源

https://github.com/myboyliu/chinese_drug_ner

六.一些trick

1. 简单定义即可修改网络结构：支持采用原生bert最后一层或最后多层进行融合，也可自行设计；支持修改bert+不同网络结构(BILSTM、IDCNN、)进行encoding，也可自行尝试新的结构。

2. 严格按照构建验证集方式，记录实验结果：支持模型训练过程中保存每个epoch下验证集对应的准确率、召回率、F1值，用于挑选最优模型支持设置交叉验证，同步记录实验结果。

3. 训练样本目标构造方式上，采用IOBS方式，如想修改设计思路，可自行修改，其他代码复用。

4. 如果没有其他设计思路，可以利用该整合版本代码跑不同的实验结果，进行模型融合。

5. 调参，lr | batch_size | dropout | bert最后一层，还是最后多层 | bert+cnn？抑或 bert+rnn？

6. 提高recall，从目前线上来看，召回偏低，对于解码部分比较严格，会丢失一部分预测结果，可想办法尽可能控制准确率提高召回。如果没有好的思路，可采用模型融合的方式进行召回补充。

7. 构造训练样本方式上，由于训练样本很多偏长(大于512)，可以尝试CNN卷积划窗的形式。以某个特殊符号进行切分，设定窗口大小。

8. 模型融合(很重要的上分点)| PS：多实验，多记录过程，实时保存最好的模型文件，最后进行模型融合。

模型的ensemble是提升最终效果的有力方法，针对本次任务，概率融合的方案。

前面已经说过，加不加先验特征的线上效果都差不多，但是结果文件差异性比较大，为此，可以将两个模型的结果取并集，而在取并集之前，则通过模型平均的方法提高单一模型的准确性。具体来说，先不加先验特征，然后将所有数据随机打乱并且分成8份，做8折的交叉验证，从而得到8个不加先验特征的模型；然后加上先验特征重做一次，得到另外8个加上先验特征的模型。

得到这16个模型后，将不加先验特征的8个模型进行平均融合(如下图，即将输出的概率进行平均，然后再解码出三元组)，再将加了先验特征的8个模型进行平均融合，这样一共得到两份结果文件，由于进行了平均融合，可以认为这两份结果文件的精度都有了保证，最后，将这两份结果文件取并集。

9. 半监督迁移学习【网上找公开的医学相关数据，最好数据分布差异小】

目前找了一个类似的药品说明书，数据路径如下：

https://github.com/myboyliu/chinese_drug_ner/blob/master/data/drug_info.csv

10. 还有就是一个神奇的事情，一个比较好的seed，可以考虑使用grid search，来找一个好的种子数，对提分也有功效

11.知识蒸馏

由于训练集存在一些缺漏和不规范的(当然大部分是好的)，因此采用类似知识蒸馏的方式来重新整理训练集，改善训练集质量。

首先，我们使用原始训练集加交叉验证的方式，得到了8个模型，然后用这8个模型对训练集进行预测，得到关于训练集的8份预测结果。每一个个样本的四元组pos_bposb, pos_epose, c>，d表示文档，pos_bposb,和pos_epose分别对应实体提及在文档d中的起止下标，c表示实体提及所属预定义类别，这些四元组同时出现在8份预测结果中但没有出现在训练集的标注中，那么就将这个四元组补充到该样本的标注结果中；如果某个样本的某个四元组在8份预测结果中都没有出现但却被训练集标注了，那么将这个三元组从该样本的标注结果中去掉。

这样一增一减之后，训练集就会完善很多，用这个修正后的训练集重新训练和融合模型。

七.sota 模型介绍

1.概要

FLAT: Chinese NER Using Flat-Lattice Transformer(ACL2020)

代码地址：https://github.com/LeeSureman/Flat-LatticeTransformer

作者提出了一种将Lattice图结构无损转换为扁平的Flat结构的方法，并将LSTM替换为了更先进的Transformer Encoder，该方法不仅弥补了Lattice LSTM无法并行计算(batchsize=1)的缺陷，而且更好地建模了序列的长期依赖关系；

作者提出了一种针对Flat结构的相对位置编码机制，使得字符与词汇得到了更充分更直接的信息交互，在基于词典的中文NER模型中取得了SOTA。

2.动机

从Transformer的position representation得到启发，作者给每一个token/span(字、词)增加了两个位置编码，分别表示该span在sentence中开始(head)和结束(tail)的位置，对于字来说，head position和tail position是相同的。

3.改进点

有效的位置编码一直是改进Transformer的重要方向，针对本文提出的Flat结构，作者借鉴并优化了Transformer-XL (ACL 2019)中的相对位置编码方法，有效地刻画了span之间的相对位置信息。

Relative Position Encoding of Spans

span是字符和词汇的总称，span之间存在三种关系：交叉、包含、分离，然而作者没有直接编码这些位置关系，而是将其表示为一个稠密向量。作者用和表示span的头尾位置坐标，并从四个不同的角度来计算和的距离：

如图2所示，这会得到四个相对距离矩阵：，其中表示的开始位置和的开始位置的距离。然后将这四个距离拼接后作一个非线性变换，得到和的位置编码向量：

其中是Transformer采用的绝对位置编码：

这样，每一个span都可以与任意span进行充分且直接的交互，然后作者采用了Transformer-XL (ACL 2019)中提出的基于相对位置编码的self-attention：

可以直观地将前两项分别看作是两个span之间的内容交互和位置交互，后两项为全局内容和位置bias，在Transformer-XL中是根据绝对位置编码直接计算得出的，而这里的经过了非线性变换的处理。最后，用替换式(1)中的，取出字的编码表示，将其送入CRF层进行解码得到预测的标签序列。

参考资料：

https://github.com/ZhengZixiang/NERPapers

https://zhuanlan.zhihu.com/p/141088583

https://github.com/thunlp/OpenNRE

https://zhuanlan.zhihu.com/p/249181095

https://zhuanlan.zhihu.com/p/150000444

渗透测试/漏洞赏金/src/黑客自学指南
Web渗透测试方法论方法论概要在此方法论中我们的目标范围仅是一个域名或一个子域名，因此你应当针对你测试范围内的每一个不确定其web服务的域名，子域名或ip进行测试1.首先确定web服务器所使用的技术，其次如果你成功识别到技术，那么接下来要知道如何利用检索的信息。·该技术版本有任何已知的漏洞吗·使用的是常规的技术吗？有什么有用的技巧以此来检索更多的信息？·有没有针对某种技术的专用的扫描器可以用？比如
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
C#WPF的XAML命名空间和命名空间映射详解未来无限 C#WPF程序设计 c#wpf 命名空间命名空间映射 XAML
本文详解C#WPF的XAML命名空间和命名空间映射。目录XAML命名空间定义实例演示命名空间说明XAML命名空间定义XAML命名空间实际上是XML命名空间概念的扩展。指定XAML命名空间的方法依赖于XML命名空间语法、将URI用作命名空间标识符以及使用前缀提供从相同标记源引用多个命名空间等约定。XML命名空间的XAML定义增添的主要概念是，XAML命名空间表示标记用法唯一性范围，还影响标记实体可如
PS系统教程06-图片裁剪-详细版有点。 ps photoshop
图片裁剪-详细版首先勾选图层-单机裁剪工具-删除裁剪像素背景颜色是和左边工作区颜色保持一致的。确定选择单机两下工作区中的√按下回车键缩小裁剪当你缩小裁剪之后再想扩大，那么扩大的部分就是背景颜色不勾选删除裁剪像素效果（裁剪完单机一下）这种情况是你进行裁剪单机一下的效果，说明就是还没有完全确定的状态。总结：只要不勾选删除裁剪像素就是会对裁剪过的部分进行预保留。内容识别不勾选勾选后
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
Java底层原理：深入理解JVM类加载机制与反射机制代码老y java jvm 开发语言
一、JVM类加载机制JVM类加载机制是Java运行时环境的重要组成部分，它负责将字节码文件加载到JVM内存中，并将其转换为可执行的类。类加载机制的实现涉及类加载器（ClassLoader）、类加载过程和类加载器的层次结构。（一）类加载器（ClassLoader）类加载器是Java类加载机制的核心组件，它负责加载字节码文件并将其转换为JVM能够识别的类。Java提供了三种内置的类加载器：启动类加载器
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
基于OpenCV-python的人脸识别系统 transuperb 完整代码 opencv python 人工智能
importsysimportosimporttkinterastkfromtkinter.ttkimportStyleimportnumpyasnpimportcv2fromPILimportImageTk,ImageDraw,ImageFontfrompanel.models.tabulatorimportthemefromModelimport*fromtkinterimportttk,fi
基于Redisson的Redis发布订阅传对象[消息队列]
1、实体类实现Serializable接口2、发布消息packagecom.ahies.stm.app.synthesizes.aifind.controller;importcom.ahies.stm.app.synthesizes.aifind.entity.AifindHistory;importcom.ahies.stm.app.util.ResponseResult;importorg.
如何制作一份E-R图菜汪本汪数据库
ER模型，全称为实体联系模型、实体关系模型或实体联系模式图（ERD）（英语：Entity-relationshipmodel）由美籍华裔计算机科学家陈品山发明，是概念数据模型中高层描述所使用的数据模型或模式图。ER模型常用于信息系统设计中。比如，在概念结构设计阶段，ER模型用来描述信息需求和/或要存储在数据库中的信息类型，但是数据建模技术可以用来描述特定论域（感兴趣的区域）的任何本体（对使用的术语
USB枚举过程详解小米人儿我的博客 usb
USB枚举（Enumeration）是USB设备插入主机时，主机和设备之间自动进行的识别、配置和准备使用的过程。就像新员工入职第一天需要登记信息、领取工牌、配置电脑一样，USB设备也需要向主机“自我介绍”，告诉主机它是什么、能做什么、需要什么资源，主机才能正确使用它。举个真实例子：插入一个USB键盘物理连接：你把USB键盘插到电脑的USB口上。键盘内部的VBUS（电源线）获得5V电压，开始上电。键
基于OpenCV的银行卡识别 Yang了个羊 OpenCV opencv 人工智能计算机视觉
一、设计思路1、预处理银行卡号序列模版，对其进行一系列形态学操作，继而进行轮廓识别，构建与各个轮廓所对应的数字元组。2、对将要识别的银行卡进行灰度处理、二值化、阈值处理，sobel算子边缘检测等预处理，再通过模版匹配方法找出与已知轮廓高度符合的数字。二、代码复现预操作：自定义一个cv_show函数，便于后来的图像展示。#绘图展示defcv_show(name,img):cv2.imshow(nam
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
onnx-web + yolov8n 在视频流里做推理 CHEN_RUI_2200 人工智能 YOLO
顺着我上一篇文章使用onnxruntime-web运行yolov8-nano推理继续说，有朋友在问能不能接入视频流动，实时去识别物品。首先使用getUserMedia获取摄像头视频流getUserMediaAPI可以访问设备的摄像头和麦克风。你可以使用这个API获取视频流，并将其显示在页面上的标签中。注意事项：浏览器支持：getUserMedia被现代浏览器大多数支持，但在一些旧版浏览器上可能不兼
手把手教你玩转Git安装与配置（附避坑指南） techfluent git
文章目录一、安装前必看的5个注意事项（血泪经验）二、超详细安装步骤分解（图文对照版）Windows用户专属流程Mac用户极简方案三、新手必做的3项基础配置1.设置全局用户信息（核心操作！）2.生成SSH密钥（免密登录神器）3.修改默认分支名称（2020年后重要变化！）四、常见翻车现场救援指南场景1：安装后命令无法识别场景2：提交显示匿名用户场景3：SSH连接总失败五、高阶玩家定制技巧（提升效率必备
基于YOLOv8的桃子成熟度检测系统，支持图片、视频、摄像头输入，PyQt5界面检测。识别并分类桃子的成熟度（未熟、半熟、成熟） QQ67658008 YOLO 音视频 qt 桃子成熟水果成熟度检测系统
基于YOLOv8的桃子成熟度检测系统，支持图片、视频、摄像头输入，PyQt5界面检测。识别并分类桃子的成熟度（未熟、半熟、成熟）文章目录调用示例加载预训练模型开始训练加载训练好的模型在验证集上评估加载训练好的模型文字及代码仅供参考。桃子成熟度分类检测数据集，主要用于桃子成熟度分类检测应用任务数据背景：模拟实际田间条件，涵盖多种可能影响桃子检测准确性的因素，如变化的自然光照强度、多果粘连现象以及由枝
合规无忧！Parasoft dotTEST自动生成.NET代码安全审计报告慧都小项 Parasoft .NET 静态代码分析 Parasoft
在当今快速发展的软件开发领域，.NET开发团队面临着既要保证代码质量又要确保安全性的双重挑战。ParasoftdotTEST作为一款专为C#和VB.NET开发设计的自动化软件质量工具，为开发团队提供了全面的解决方案，帮助他们发现和修复缺陷，确保代码符合标准，同时将安全性融入开发流程中。一、提升生产力和代码质量ParasoftdotTEST能够自动执行广泛的静态代码分析，快速识别代码中的可靠性和安全
docker: Error response from daemon: could not select device driver ““ with capabilities: [[gpu]].
这个错误表明Docker无法识别或加载支持GPU所需的设备驱动程序。以下是完整的解决方案和根本原因分析，结合最新技术和实践整理：根本原因分析缺少NVIDIAContainerToolkit现代Docker依赖NVIDIAContainerToolkit（前身为nvidia-docker2）实现GPU透传，未安装时无法调用GPU驱动。Docker配置未启用NVIDIA运行时需在daemon.json
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
3秒搞定DeepSeek数学公式转Word！学生党救星（附代码实测） Uyker python 编辑器
适用场景：论文交稿deadline/报告美化/作业急救工具白嫖指南：免费+免安装方案优先一、终极方案：Mathpix截图转公式（强推！）效果：复杂矩阵→完美还原步骤：复制DeepSeek输出的LaTeX代码（例）\vec{F}=q(\vec{E}+\vec{v}\times\vec{B})打开Mathpix官网→按Ctrl+Alt+M截取公式右键粘贴到Word→自动变身标准公式！✅优势：识别准确率
【Servo】自整定、惯量识别、调谐我不是程序猿儿 Servo C c++C++c语言
好的，这里为你用伺服驱动领域的语言详细解释“自整定”的概念：自整定（AutoTuning）的定义自整定是指伺服驱动器通过内置的检测、识别和计算算法，自动测量并设置控制系统参数（如增益、惯量、摩擦等），以实现对伺服系统性能的快速优化和匹配，无需人工手动逐一调节。通俗理解：就像智能家电的“一键设置”，自整定可以让初学者或非专业人员只需按一个按钮，系统会自动检测自身状态，选择或计算出合适的参数，使伺服系
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
2025最火专业解读：信息安全（非常详细）零基础入门到精通，收藏这一篇就够了 QXXXD 程序员网络安全兼职副业安全 web安全高考网络运维
信息安全专业每天认识一个专业1.什么是信息安全信息安全，简称信安，是指保持信息的保密性、完整性、可用性以及真实性、可核查性、不可否认性和可靠性等。信息安全，听起来“高大上”，似乎有点高深莫测，实际上我们一点也不陌生。在信息化的今天，我们接触到的信息安全实例比比皆是。比如我们日常使用的智能手机的指纹锁，身份证办理时录入的指纹，拥有“黑科技”的虹膜识别技术，支付宝等软件在线交易时生成的动态验证码，电脑
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
深入理解API全称：从基本概念到AI绘画接入实战 UI罐头人工智能
你有没有注意过，现在很多App和小程序动不动就能“智能识别”“一键生成”？比如发个自拍，就能自动P图成二次元，或者输入几句话，就能生成一幅完整的画作。听起来像魔法，背后其实是技术的逻辑，而这套逻辑的核心，就是一个常被提起却不太好懂的词——API。API全称是“ApplicationProgrammingInterface”，中文叫“应用程序编程接口”，说白了就是程序和程序之间“打交道”的桥梁。看似
2025最新滑块验证码、图形验证码、解决滑块验证码识别的技术方法大全猫头虎前端技术专区深度学习 javascript 正则表达式 typescript 滑块验证码行为验证人机识别前端集成
2025最新滑块验证码、图形验证码、解决滑块验证码识别的技术方法大全概述滑块验证码（SliderCaptcha）自上线以来，以其交互性强、用户体验较好而被广泛应用于各类网站和APP的登录、注册、支付等关键环节。相比传统文字验证码或图形混淆验证码，滑块验证码能够更有效地区分真人与机器人，降低恶意脚本的通过率。然而，随着技术的发展，滑块验证码也不断被识别与破解。本文将从「生成与验证组件」和「识别与破解
批量图片尺寸修改工具 - 高效图片处理软件空中湖图像处理 python
批量图片尺寸修改工具-高效图片处理软件主要功能特点1.批量处理图片尺寸支持同时调整多张图片的尺寸可处理JPG、PNG、GIF等多种常见图片格式自动识别文件夹中的所有图片文件2.智能尺寸调整可自定义设置目标宽度和高度支持只设置宽度或高度，自动保持原图比例采用高质量缩放算法(LANCZOS)，保持图片清晰度3.灵活的文件夹处理可选择是否递归处理子文件夹支持保持原始文件夹结构自动创建输出目录，避免文件覆
【软件系统架构】系列四：嵌入式软件-NPU（神经网络处理器）系统及模板
目录一、什么是NPU？二、NPU与CPU/GPU/DSP对比三、NPU的工作原理核心结构：数据流架构：四、NPU芯片架构（简化图）五、NPU的优势六、NPU应用场景视觉识别语音识别自动驾驶智能监控AIoT设备七、主流NPU芯片/架构实例八、开发者工具生态（通用）九、NPU集成建议（嵌入式开发场景）十、NPU芯片选型对比+模型部署流程+嵌入式工程模板1.主流NPU芯片选型对比表2.模型部署流程（以T
亚马逊认证考试系列 - 第一部份：基础服务 - AWS SAA C03 忍者算法 aws 云计算
下面我针对**第一部分：基础服务（20%）**展开讲解，按照让零基础的人也能理解的目标逐步深入。核心服务1：EC2（ElasticComputeCloud）1.EC2的核心概念作用：EC2就是AWS提供的“云电脑”。你不需要买实体电脑，而是可以随时租用AWS的云电脑运行程序。按需使用，按时间付费，灵活高效。生活比喻：假如你需要一台电脑做任务（比如修图、剪视频），但不需要每天用，也不想买一台昂贵的高
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

BilSTM 实体识别_“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战的一点感受...

你可能感兴趣的:(BilSTM,实体识别)