渴望飞的鱼

python:中文词法分析（LAC）

转自：https://github.com/baidu/lac

中文词法分析（LAC）

本项目依赖Paddle v0.14.0版本。如果您的Paddle安装版本低于此要求，请按照安装文档中的说明更新Paddle安装版本。如果您使用的Paddle是v1.1以后的版本，请使用该项目的分支for_paddle_v1.1。注意，LAC模块中的conf目录下的很多文件是采用git-lfs存储，使用git clone时，需要先安装git-lfs。

为了达到和机器运行环境的最佳匹配，我们建议基于源码编译安装Paddle，后文也将展开讨论一些编译安装的细节。当然，如果您发现符合机器环境的预编译版本在官网发布，也可以尝试直接选用。

需要说明的是，本文档的是基于源码编译安装流程撰写的。如果在使用Paddle预编译版本过程中存在问题，请自己动手解决，但本文档所述的一些细节，也许可以作为有用的参考信息。

项目结构

.
├── AUTHORS              # 贡献者列表
├── CMakeLists.txt       # cmake配置文件
├── conf                 # 运行本例所需的模型及字典文件
├── data                 # 运行本例所需要的数据依赖
├── include              # 头文件
├── LICENSE              # 许可证信息
├── python               # 训练使用的python文件
├── README.md            # 本文档
├── src                  # 源码
├── technical-report     # 技术报告
└── test                 # Demo程序

项目简介

LAC是一个联合的词法分析模型，整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写，也可以认为是LAC Analyzes Chinese的递归缩写。

LAC基于一个堆叠的双向GRU结构，在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面，分词、词性、专名识别的整体准确率95.5%；单独评估专名识别任务，F值87.1%（准确90.3，召回85.4%），总体略优于开放平台版本。在效果优化的基础上，LAC的模型简洁高效，内存开销不到100M，而速度则比百度AI开放平台提高了57%。

在论文中引用LAC

如果您的学术工作成果中使用了LAC，请您增加下述引用。我们非常欣慰LAC能够对您的学术工作带来帮助。

@article{jiao2018LAC,
	title={Chinese Lexical Analysis with Deep Bi-GRU-CRF Network},
	author={Jiao, Zhenyu and Sun, Shuqi and Sun, Ke},
	journal={arXiv preprint arXiv:1807.01882},
	year={2018},
	url={https://arxiv.org/abs/1807.01882}
}

任务定义与建模

词法分析任务的输入是一个字符串（我们后面使用『句子』来指代它），而输出是句子中的词边界和词性、实体类别。序列标注是词法分析的经典建模方式。我们使用基于GRU的网络结构学习特征，将学习到的特征接入CRF解码层完成序列标注。CRF解码层本质上是将传统CRF中的线性模型换成了非线性神经网络，基于句子级别的似然概率，因而能够更好的解决标记偏置问题。模型要点如下，具体细节请参考python/train.py代码。

输入采用one-hot方式表示，每个字以一个id表示
one-hot序列通过字表，转换为实向量表示的字向量序列；
字向量序列作为双向GRU的输入，学习输入序列的特征表示，得到新的特性表示序列，我们堆叠了两层双向GRU以增加学习能力；
CRF以GRU学习到的特征为输入，以标记序列为监督信号，实现序列标注。

词性和专名类别标签集合如下表，其中词性标签24个（小写字母），专名类别标签4个（大写字母）。这里需要说明的是，人名、地名、机名和时间四个类别，在上表中存在两套标签（PER / LOC / ORG / TIME 和 nr / ns / nt / t），被标注为第二套标签的词，是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签，在四个类别的准确、召回之间做出自己的权衡。

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

数据格式

训练使用的数据可以由用户根据实际的应用场景，自己组织数据。数据由两列组成，以制表符分隔，第一列是utf8编码的中文文本，第二列是对应每个字的标注，以空格分隔。我们采用IOB2标注体系，即以X-B作为类型为X的词的开始，以X-I作为类型为X的词的持续，以O表示不关注的字（实际上，在词性、专名联合标注中，不存在O）。示例如下：

在抗日战争时期,朝鲜族人民先后有十几万人参加抗日战斗  p-B vn-B vn-I n-B n-I n-B n-I w-B nz-B nz-I nz-I n-B n-I d-B d-I v-B m-B m-I m-I n-B v-B v-I vn-B vn-I vn-B vn-I

我们随同代码一并发布了完全版的模型和相关的依赖数据。但是，由于模型的训练数据过于庞大，我们没有发布训练数据，仅在data目录下的train_data和test_data文件中放置少数样本用以示例输入数据格式。
模型依赖数据包括：
1. 输入文本的词典，在conf目录下，对应word.dic
2. 对输入文本中特殊字符进行转换的字典，在conf目录下，对应q2b.dic
3. 标记标签的词典,在conf目录下，对应tag.dic
在训练和预测阶段，我们都需要进行原始数据的预处理，具体处理工作包括：
1. 从原始数据文件中抽取出句子和标签，构造句子序列和标签序列
2. 将句子序列中的特殊字符进行转换
3. 依据词典获取词对应的整数索引
在训练阶段，这些工作由python/train.py调用python/reader.py完成；在预测阶段，由C++代码完成。

安装LAC

安装Paddle

Paddle可以在符合要求的原生Linux环境或docker环境下编译，编译依赖请参考安装文档。对于docker环境，我们建议基于Paddle的Dockerfile自己构建镜像。

如果Paddle官方发布了符合机器运行环境的镜像，也可以尝试直接选用，省去下文所述第一步至第四步的工作。

但是，无论是官方镜像，还是基于源码的默认编译命令，都不包含Fluid预测库部分。Fluid预测库的安装要放在单独的步骤解决（见下文第五步）。

第一步，克隆Paddle代码并检出v0.14.0版本

git clone https://github.com/PaddlePaddle/Paddle.git
cd Paddle
git checkout v0.14.0

注意，v0.14.0版本当前如果开启mkldnn的支持，会出现Segmentation Falut。这个问题在后续版本也许会修复。而在这之前，请在关闭mkldnn支持的情况下编译，具体在后文详述。

第二步（可选），构建docker镜像

对于非Linux环境（macOS， Windows……），需构建Paddle的docker镜像用于Paddle的编译和运行（主要是预测部分）。当然，在Linux环境下，也可以选择构建镜像。

# 可以使用自己喜欢的Ubuntu镜像，加快下载速度
docker build -t paddle:dev --build-arg UBUNTU_MIRROR='http://mirrors.ustc.edu.cn/ubuntu/' .

Paddle的docker镜像依赖Ubuntu基础镜像，大量软件包基于apt-get安装，因此可以配置Ubuntu镜像加速这一过程。

第三步，编译Paddle基础库

这一步骤会产出Paddle的基础库，以及python版的wheel包。

如前所述，v0.14.0版本需要关闭mkldnn库的支持。我们直接使用cmake命令完成编译。

# 假设$PWD是Paddle代码所在目录
docker run -it -v $PWD:/paddle -w /paddle paddle:dev /bin/bash # 启动shell
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release -DWITH_MKLDNN=OFF -DWITH_GPU=OFF -DWITH_FLUID_ONLY=ON ..
make -j  # 并发编译可提高速度, 表示设置的并发编译线程数

编译过程中，与LAC紧密相关的几个常用参数列在下表中。WITH_AVX和WITH_MKL选项会由cmake根据CPU的检测结果自动设定，其余参数如果需要设为默认值以外的值，需要手工指定。具体细节可以参考CMakeLists.txt。

选项	说明	默认值
WITH_GPU	如果需要CPU环境，请设为`OFF`。本文档中，LAC是基于CPU环境编译的。	ON
WITH_FLUID_ONLY	只编译Fluid API，建议设为`ON`。	OFF
WITH_AVX	是否编译含有AVX指令集的二进制文件，较新的CPU都支持AVX指令集。	自动
WITH_MKL	是否使用MKL数学库，如果为否则使用OpenBLAS。该选项与`WITH_AVX`绑定，如果`WITH_AVX`为`ON`，`WITH_MKL`也为`ON`。如果CPU支持AVX2指令集，还会引入Intel的`mkldnn`库，除非显式设定`WITH_MKLDNN`为`OFF`。	自动

第四步，安装python包

# 假设$PWD是Paddle代码所在目录
pip install build/python/dist/*.whl

更多安装细节，如升级现有包等操作，请参考安装文档。

第五步，编译Fluid预测库

Fluid预测不包含在默认的官方镜像，以及默认的源码编译产出中。需要单独编译。

Paddle官方也在维护Fluid预测库的预编译包，请看这里。如果有符合机器运行环境的预编译包，也可以尝试直接选用。

在第三步的make成功后，直接继续执行：

make -j  inference_lib_dist # 并发编译可提高速度, 表示并发编译的线程数

基于cmake直接编译时，Fluid预测库的编译产出会生成在build/fluid_install_dir目录。您可以把它拷贝到任何您喜欢的位置。

如果您使用的是自带基础库和Python包的Paddle官方镜像，或者由于其他原因不需要安装基础库和Python包，那么在第三步的cmake命令之后，直接make -j inference_lib_dist即可。

编译LAC

LAC依赖Paddle的Fluid预测库。编译、运行环境与Paddle相关环境保持一致，以避免各种意外的出现。注意，LAC模块中的conf目录下的很多文件是采用git-lfs存储，使用git clone时，需要先安装git-lfs。LAC本身的编译操作相对简单：

git clone https://github.com/baidu/lac.git
cd lac
mkdir build
cd build
# /path/to/fluid_inference_lib是上节第五步的对应的Fluid预测库编译产出路径
# LAC的demo程序，以及依赖LAC静态库的程序，都要依赖这个路径作为动态库的搜索路径
# 如果这个路径在编译完成之后有变动，需要手工设置LD_LIBRARY_PATH环境变量
cmake -DPADDLE_ROOT=/path/to/fluid_inference_lib ..
make
make install # 编译产出在 ../output 下

运行LAC

训练部分

训练过程，我们使用python实现。

准备好数据和字典。请将训练数据放在一个目录下，测试数据放在另一个目录下。如果有多份不同类型的训练语料，可以在训练目录下使用不同的前缀来区分不同的训练数据，比如使用novel_xxx表示小说类的训练语料，使用news_xxx表示新闻类的训练预料，训练支持同时按照一定的比例混合输入各种不同类型的语料。

查看训练支持的不同选项的含义，可以使用

python python/train.py -h

查看训练脚本支持的不同选项，通过设置不同的选项，对自己的训练实现定制化。其中以下选项可能较为常用：

--traindata_dir           指定训练数据所在的路径
--testdata_dir            指定验证数据所在的路径
--model_save_dir          指定模型保存的路径
--corpus_type_list        指定使用训练数据目录下哪些类型的语料，比如使用新闻和小说语料，可以设置为news novel
--corpus_proportion_list  指定使用训练数据目录下每种语料的比例，与corpus_type_list中的语料类型一一对应

运行命令 python python/train.py ，需要注意：直接运行使用的是示例数据及默认参数，实际应用时请替换真实的标记数据并修改相应配置项。 我们可以使用不同选项来改变训练的配置，如只使用新闻语料和标题语料，可以使用命令python python/train.py --corpus_type_list news title --corpus_proportion_list 0.5 0.5。

预测部分

预测部分基于Fluid预测库实现。

Python预测接口

准备输入:输入是utf8编码的句子，每个句子占一行。在预测脚本中，我们使用了data目录下的测试数据作为预测的默认输入。用户可以自行准备自己的要测试的输入。

查看预测支持的不同选项的含义，可以使用

python python/infer.py -h

查看预测脚本支持的不同选项，通过设置不同的选项，对自己的预测实现定制化。其中以下选项可能较为常用：

--batch_size        预测时，每次同时预测的样本数，批量预测时，较大的batch_size有助于提高预测速度
--test_data_dir     预测时作为输入的文件所在的目录

3、运行命令 python python/infer.py ，需要注意：直接运行使用的是示例数据及默认参数，实际应用时请替换真实的数据并修改相应配置项。

C++数据接口说明

因为分词、词性标注和专名识别常常作为其他模块的基础依赖，因此我们提供了C语言的预测接口

const int LAC_TYPE_MAX_LEN = 32;

词性名称、专名类别名称、定制化类别名称的最大长度限制为32。模块内置的词性名称和专名类别名称的长度都不会超过此值，定制化类别名称也不能超过词此长度，否则会导致字典加载失败。

typedef struct TAG {
    int offset; /* 在输入文本中的字节偏移 */
    int length; /* 字节长度 */
    char type[LAC_TYPE_MAX_LEN]; /* 类别（词性、专名类别或定制化类别） */
    double type_confidence; /* 类别置信度 */
} tag_t;

输出结构，offset和length代表该词在输入query中的字节偏移和长度，type代表该词的标注类别，type_confidence代表类别置信度（目前统一为1）

预测流程

初始化，加载字典和模型

void* lac_handle = lac_create(conf_dir);

初始化线程变量

void* lac_buff = lac_buff_create(lac_handle);

进行预测，获取结果

tag_t *results = new tag_t[max_result_num];
int result_num = lac_tagging(lac_handle,
                lac_buff, query, results, max_result_num);

释放资源

lac_destroy(lac_handle);

示例程序

output/demo/lac_demo是一个多线程的demo程序，其源码请参考test/src/lac_demo.cpp。Demo程序的使用方式为：

./lac_demo   
# conf_dir:   模型与字典的路径，随项目一同发布在conf目录中
# max_tokens: 单个句子的最大长度，单位是字符
# thread_num: 线程数

程序从标准输入逐行读取句子，然后给出句子的分析结果。

示例输入：

2003年10月15日北京时间9时,杨利伟乘由长征二号F火箭运载的神舟V号飞船首次进入太空, 象征着中国太空事业向前迈进一大步,起到了里程碑的作用。

示例输出：

2003年10月15日 TIME 0 17	北京 LOC 17 6	时间 n 23 6	9时 TIME 29 4	, w 33 1	杨利伟 PER 34 9	乘 v 43 3	由 p 46 3	长征二号F nz 49 13	火箭 n 62 6	运载 v 68 6	的 u 74 3	神舟V号 nz 77 10	飞船 n 87 6	首次 m 93 6	进入 v 99 6	太空 s 105 6	,  v 111 2	象征 v 113 6	着 u 119 3	中国 LOC 122 6	太空 n 128 6	事业 n 134 6	向前 d 140 6	迈进 v 146 6	一大步 m 152 9	, w 161 1	起 v 162 3	到 v 165 3	了 u 168 3	里程碑 n 171 9	的 u 180 3	作用 n 183 6	。 w 189 3

输出格式为：

word1 type1 offset1 length1 \t word2 type2 offset2 length2 \t ... 
word:   词
type：  词性、专名类型
offset：偏移量，单位为字节
length：长度，单位为字节

定制化功能

在模型输出的基础上，LAC还支持用户配置定制化的专名类型输出。当定制化的专名词出现在输入query中时，如果该词与原有的词法分析结果不存在边界冲突，则会用定制化专名类型替代原有的标签。配置定制化专名的方法是修改conf/customization.dic。专名类型对应的词写在类型名称下方，专名名称形如[D:XXX]。例如：

[D:season]
春天
夏天
秋天
冬天
[D:flower]
花
[D:wind]
风

以输入query“春天的花开秋天的风以及冬天的落阳”为例，原本输出结果为：

春天 TIME 0 6   的 u 6 3    花开 v 9 6  秋天 TIME 15 6  的 u 21 3   风 n 24 3   以及 c 27 6 冬天 TIME 33 6  的 u 39 3

添加定制化专名之后的结果为：

春天 [D:season] 0 6 的 u 6 3    花开 v 9 6  秋天 [D:season] 15 6    的 u 21 3   风 [D:wind] 24 3    以及 c 27 6 冬天 [D:season] 33 6    的 u 39 3   落阳 vn 42 6

可以看到，“春天”“秋天”“冬天”的类别变成了[D:season]，“风”的类别变成了[D:wind]。而定制化专名词“花”虽然出现在输入query中，但是由于它和原本的结果“花开”存在边界冲突，所以不会被识别。

贡献代码

我们欢迎开发者向LAC贡献代码。如果您开发了新功能，发现了bug……欢迎提交Pull request与issue到Github。

你可能感兴趣的:(python)

Python Cookbook（第2版）中文版 weixin_34248258 python 数据库 c/c++
PythonCookbook（第2版）中文版基本信息作者：AlexMartelliAnnaRavenscroftDavidAscher译者：高铁军[同译者作品]出版社：人民邮电出版社ISBN：9787115222664上架时间：2010-5-7出版日期：2010年5月开本：16开更多详细信息请查看：http://www.china-pub.com/196697前五章样张试读地址：http://ww
django数据迁移失败，数据库未创建 No changes detected 随心但不率性 django python 后端
接手一个django新项目，启动服务前首先需要做数据迁移python3manage.pymakemigrationspython3manage.pymigrate如果执行上述命令后需要的数据表未创建，且报Nochangesdetected可以检查下每个app目录下是否有migrations目录，若没有，则需要新建，且在该目录下创建文件__init__.py该文件可以为空migrations/__i
基于Django框架的服务器监控系统详细设计与具体代码实现杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
基于Django框架的服务器监控系统详细设计与具体代码实现1.背景介绍1.1问题由来在互联网和云计算时代，服务器作为数据中心的基础设施，其稳定性和可靠性直接影响着整个系统的运行。随着服务器的数量和复杂度的增加，服务器监控系统变得尤为重要。传统的服务器监控系统往往依赖于单一的工具或平台，难以实现全面、高效的监控需求。Django作为一种流行的PythonWeb框架，因其灵活性、可扩展性和社区支持，成
Python Cookbook-2.13 使用C++的类iostream语法我不会编程555 #Python学习 python 开发语言 windows c++
任务C++的基于ostream和操纵符(插入了这种特定的对象后,它会在stream中产生特定的效果)的I/O方式，并想将此形式用在自己的Python程序中。解决方案Python允许使用对特殊方法(即名字前后带有连续两个下划线的方法)进行了重定义的类来重载原有的操作符。为了将>somewhere,"Theaverageof&dand&dis$f\n"%(1,3,(1+3)/2)这种方式是Python
Django数据迁移 jay丿 django 数据库 sqlite
在Django中，数据迁移是一个核心功能，它允许你通过定义模型（Models）来自动生成数据库表，并且能够随着模型的变化更新数据库结构。下面是对上述命令的详细解释和扩写，以及一些额外的注意事项和技巧。1.检查应用下的模型是否存在异常在执行任何迁移之前，确保你的模型没有语法错误或逻辑问题是很重要的。你可以使用以下命令来检查特定应用下的模型：pythonmanage.pycheckappNameapp
Python笔记默默前行的蜗牛 python 笔记开发语言
1.如何在windows同时存在两个版本的Python2，Python3将Python2，Python3的路径添加到path中2.如何使用指定的Python版本pippython3-mpipinstalljupyter3.jupyternotebook使用http://blog.csdn.net/lee_j_r/article/details/52791228jupyternotebook4.中文
Python 与Java 开发人形机器人远程控制APP Geeker-2025 python java
开发一款人行开发机器人远程控制App是一个复杂且高度技术性的项目。该项目涉及多个技术领域，包括前端开发、后端开发、物联网（IoT）通信、实时数据处理、数据加密、安全性保障等。使用Python和Java联合开发可以充分利用每种语言的优势，构建一个高性能、可扩展且功能丰富的应用。以下是一个高层次的设计概述，涵盖主要的技术栈和功能模块，并提供使用Python和Java联合开发的示例。##技术栈概述###
基于Python爬虫技术抓取餐饮优惠信息：从数据抓取到趋势分析的完整实践 Python爬虫项目 2025年爬虫实战项目 python 爬虫信息可视化开发语言数据分析 oracle
一、引言随着互联网的发展，餐饮行业逐渐转向在线化，许多餐饮网站和平台发布了大量的优惠信息，吸引消费者在特定时间购买商品。对于商家而言，实时获取餐饮优惠信息能够帮助他们掌握市场趋势，制定有针对性的促销策略。而对于消费者来说，及时了解餐饮优惠信息能够帮助他们做出更加经济和理性的选择。在这篇博客中，我们将探讨如何使用Python爬虫技术抓取餐饮网站上的优惠信息，并进行数据清洗、存储、分析及可视化。我们将
Wireshark 插件开发实战指南轻口味开发工具 wireshark junit 测试工具
Wireshark插件开发实战指南环境搭建流程图开始使用TortoiseSVN获取Wireshark源码配置编译MSVC,Python等工具链验证依赖库与工具链完整性环境搭建完成一、开发环境与工具准备（一）开发语言选择在Wireshark插件开发中，选择合适的开发语言是至关重要的第一步。不同的语言有其各自的优势和适用场景。Lua脚本语言是一种轻量级的编程语言，它的语法简洁明了，学习曲线平缓，非常适
《Python实战进阶》No 8：部署 Flask/Django 应用到云平台（以Aliyun为例）带娃的IT创业者 Python实战进阶 python flask django
第8集：部署Flask/Django应用到云平台（以Aliyun为例）2025年3月1日更新增加了Ubuntu服务器安装Python详细教程链接。引言在现代Web开发中，开发一个功能强大的应用只是第一步。为了让用户能够访问你的应用，你需要将其部署到生产环境中。阿里云（Aliyun）作为国内领先的云服务提供商，提供了丰富的工具和服务来支持开发者快速、安全地部署和管理应用。本篇将详细介绍如何将Flas
快速上手 Unstructured：安装、Docker部署及PDF文档解析示例大F的智能小课大模型理论和实战 docker pdf 容器
1.核心概念1.1Unstructured简介Unstructured是一个强大的Python库，专注于从非结构化数据中提取和预处理文本信息，广泛应用于PDF、Word文档、HTML等多种格式的文件处理。其核心功能包括分区、清理、暂存和分块，能够将复杂的非结构化文档转换为结构化输出，为后续的自然语言处理任务提供高质量的数据支持。分区功能：Unstructured能够将原始文档分解为标准的结构化元素
【Django REF】Django REF 常用知识点汇总小C学安全 Python django sqlite 数据库
1.序列化器（Serializers）1.1自定义字段1.1.1、直接继承**serializers.Field**并重写关键方法通过继承serializers.Field类，并重写to_representation和to_internal_value方法来实现自定义序列化逻辑。to_representation用于控制从Python对象到原始数据类型的转换（例如，在返回给客户端之前将数据库中的d
如何使用vscode启动Flask并实现无公网IP远程访问内网服务 m0_74823878 面试学习路线阿里巴巴 tcp/ip java
文章目录1.安装部署Flask2.安装Cpolar内网穿透3.配置Flask的web界面公网访问地址4.公网远程访问Flask的web界面本篇文章主要讲解如何在本地安装Flask，以及如何将其web界面发布到公网进行远程访问。Flask是目前十分流行的web框架，采用Python编程语言来实现相关功能。较其他同类型框架更为灵活、轻便、安全且容易上手。它可以很好地结合MVC模式进行开发，开发人员分工
Flask在docker中运行 jackson_hou03 flask docker python
Flask在docker中运行FROMpython:3.11ADD./code/codeWORKDIR/codeRUNpipinstall-rrequirements.txt-ihttps://pypi.tuna.tsinghua.edu.cn/simple/CMD["python","/code/main.py"]dockerbuild-texecutor:1.0.0.
Flask笔记黑色火種 flask 笔记 python
一、Flask基础1.Flask环境搭建Python解释器安装Flask安装PyCharm2.Flask项目创建fromflaskimportFlask#创建应用实例app=Flask(__name__)@app.route('/zs')#路由#视图函数defhello_zs():return'Hello张三!'@app.route('/')#路由#视图函数defhello_world():ret
贪心算法理解与Python实现 LWENBiN8668 贪心算法 python 算法
贪心算法理解与Python实现什么是贪心算法？贪心算法是一种每一步选择当前最优解的算法策略，通过局部最优解的累积达到全局最优解。其核心思想是：在每一步做出对当前最有利的选择，不考虑未来影响。贪心算法适用条件贪心选择性质：局部最优解能导致全局最优解最优子结构：问题的最优解包含子问题的最优解实现步骤将问题分解为多个子问题定义每个步骤的最优选择标准执行贪心选择并缩小问题规模重复直到问题解决示例1：会议室
《基于鸿蒙系统的类目标签AI功能开发实践》程序猿阿伟 harmonyos 人工智能华为
在数字化时代，类目标签AI功能对于数据管理、信息检索等领域至关重要。本文将聚焦于在HarmonyOSNEXTAPI12及以上版本上，利用Python进行类目标签AI功能开发，以电商商品分类这一行业垂域为例，为开发者提供实操性强的学习资源，助力推动鸿蒙技术应用与创新。一、开发环境搭建在开始开发前，确保已经安装好以下工具：DevEcoStudio：鸿蒙应用开发的官方集成开发环境，可从华为官方网站下载并
Aigc 本地接入deepseek-api Mr_Chenph AI乱炖 AIGC deepseek pycharm python
开发环境开发环境：MacBookProSonoma14.5开发工具：PyCharm24.3.3需求整理（提示词）直接使用PyCharm安装Continue插件，配置好deepseek参数后生成代码一次：请帮我用python编写一个程序，功能如下：功能分为服务端和客户端（浏览器），服务端启动后，用户使用浏览器提出问题，服务端调用deepseek的api接口进行消息回复。二次：index页面中的英文变
Pwntools 的详细介绍、安装指南、配置说明程序员的世界你不懂效率工具提升百度新浪微博
Pwntools：Python开源安全工具箱一、Pwntools简介Pwntools是一个由Securityresearcher开发的高效Python工具库，专为密码学研究、漏洞利用、协议分析和逆向工程设计。它集成了数百个底层工具的功能，提供统一的PythonAPI接口，广泛用于CTF竞赛、渗透测试和安全开发。其核心优势包括：模块化设计：支持密码学、网络协议、shellcode生成等全栈操作跨平台
编程江湖：Python探秘之旅-----项目实战(八) 编程漫步者编程江湖：Python探秘之旅 python 开发语言
团队终于开始了一个实际项目，每个人都准备好运用他们所学的知识和技能。龙：（展示项目计划）我们的新项目开始了。我们需要明确地规划，确保每个人都知道他们的任务。码娜：（兴奋地）我已经迫不及待要把我们学到的东西用起来了！1.项目规划龙：首先，我们需要确定项目的需求和目标。接着，我们会分配任务，并设置里程碑。#项目需求requirements={"功能1":"实现用户登录","功能2":"数据可视化","
2024华为OD机试真题-根据某条件聚类最少交换次数(C++/Java/Python)-E卷-100分 2024剑指offer 华为od python c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1题目解析代码c++pythonjava题目描述给出数字K，请输出所有结果小于K的整数组合到一起的最少交换次数。组合一起是指满足条件的数字相邻，不要求相邻后在数组中的位置。数据范围：-100≤K≤100-100≤数组中数值≤100输入描述第一行输入数组：13140第二行输入K数
CATIA二次开发实战：基于Python的智能背景颜色控制工具开发 Python×CATIA工业智造 python 服务器开发语言
引言在CAD/CAM领域，CATIA作为行业标杆软件，其自定义功能开发一直备受关注。本文将深入讲解如何利用Python和PySide6框架开发一款CATIA背景颜色智能控制工具，该工具支持实时调色、预设方案、渐变效果和动态颜色切换模式，有效提升设计环境个性化体验。项目代码已通过实际验证，可直接集成到CATIAV5/V6环境使用。一、工具设计架构本工具采用MVC分层设计模式，通过三大模块实现核心功能
python 的sm2的封装，包括数字信封等 CissSimkey python 密码学算法
"""Author:tangleiDateTime:2024-11-18完成微信：ciss_cedar欢迎一起学习"""fromgmsslimportsm2,funcfromsm2_genkeyimportSM2_Keyfromsm3_applyimportsm3_hashfromsm4_applyimportsm4_ecb_encrypt,sm4_ecb_decryptdefsm2_digita
从opencv-python入门opencv--GUI功能之绘图&鼠标与图像界面的交互这是一个图像 python 计算机外设 opencv GUI 计算机视觉图像处理交互
从opencv-python入门opencv--GUI功能之绘图和鼠标操作一、文章介绍二、opencv绘制直线、矩形、圆形1、cv.line()2、cv.circle()3、cv.rectangle()4、在图像上绘制直线、矩形和圆形5、cv.ellipse()（在空白画布上绘制椭圆）（1）img=cv.ellipse(img,center,axes,angle,startAngle,endAng
计算网络信号信号强度（Java & Python& JS & C++ & C ） lihuhelihu java python javascript 华为od 华为 c++c语言
题目描述网络信号经过传递会逐层衰减，且遇到阻隔物无法直接穿透，在此情况下需要计算某个位置的网络信号值。注意:网络信号可以绕过阻隔物。array[m][n]的二维数组代表网格地图，array[i][j]=0代表i行j列是空旷位置;array[i][j]=x(x为正整数)代表i行j列是信号源，信号强度是x;array[i][j]=-1代表i行j列是阻隔物。信号源只有1个，阻隔物可能有0个或多个网络信号
卷积神经网络（Convolutional Neural Network，CNN）详细解释（带示例）浪九天人工智能理论人工智能神经网络深度学习机器学习
目录卷积神经网络示例Python案例代码解释卷积神经网络概述：卷积神经网络是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型。它通过卷积层、池化层和全连接层等组件，自动提取数据的特征，大大减少了模型的参数数量，降低计算量，同时提高了模型的泛化能力。主要组件卷积层：是CNN的核心组件，由多个卷积核组成。卷积核在数据上滑动，通过卷积操作提取数据的局部特征。卷积操作是将卷积核与数据的局
【Python pro】函数 CH3_CH2_CHO 今天你学Python了嘛 python 网络开发语言
1、函数的定义及调用1.1为什么需要函数提高代码复用性——封装将复杂问题分而治之——模块化利于代码的维护和管理1.1.1顺序式n=5res=1foriinrange(1,n+1):res*=iprint(res)#输出：1201.1.2抽象成函数deffactorial(n):res=1foriinrange(1,n+1):res*=ireturnresprint(factorial(5))#输出
Python神器PyVISA：5分钟搞定仪器远程控制（附实战代码）新能源汽车--三电老K python 开发语言自动化测试汽车
0.引言：为什么你需要PyVISA？痛点：实验室手动调参数？生产线重复测试效率低？解决方案：用Python+PyVISA实现“一键自动化”，支持GPIB/USB/TCP等多种接口！行业应用：华为/大疆等企业已广泛用于硬件测试，个人开发者也能快速上手！1.PyVISA核心优势（对比LabVIEW/NI-VISA）特性PyVISALabVIEW成本免费开源商业授权（昂贵）开发效率Python语法简洁图
【复杂网络建模】真实网络数据集的读取和操作钰云空间复杂网络 Python python
文章目录概要1.获取真实网络数据集的常用网址1.1NetworkRepository.1.2StanfordLargeNetworkDatasetCollection1.3KONCET1.4Netzschleuder2.网络分析2.1计算度中心性2.2绘制网络图小结概要在复杂网络建模中，使用真实的网络数据集是理解和分析现实世界网络结构的关键。接下来将介绍如何使用Python中的工具库（如Netwo
Python 基础（三）：入门必备知识的思考与对之前内容的总结 AI自学kuke-v Python教学 python 开发语言
1思考前两节我们讲了input,print()还有变量与数据类型的用法，但是我发现可学习性还是比较低。无法让大家系统的掌握Python这门语言的入门语法。那么为什么要系统的掌握语法呢？因为系统的掌握语法后，当我们想要用到这一知识点的时候，我们就可以迅速的找到相应的处理方法，从而更加方便与快捷的解决我们遇到的问题，不至于我们到用到的时候再去寻找相关的处理方法，所以我讲的内容要尽可能的高度地相关性、全
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户