王小希ww

【语音识别】WeNet：面向工业落地的E2E语音识别工具

WeNet：面向工业落地的E2E语音识别工具

文章目录

WeNet：面向工业落地的E2E语音识别工具
- 一、WeNet语音识别平台搭建
- - 1、参考资料
  - 2、快速搭建WeNet平台
- 二、WeNet实现推理（暂时无法使用onnx cpu版本进行推理）
- - 1、搭建WeNet环境
  - 2、模型训练
  - 3、基于libTorch模型的推理
  - 4、WeNet导出onnx模型
  - 5、使用`recognize_onnx`进行推理（未解决）

一、WeNet语音识别平台搭建

1、参考资料

wenet-e2e/wenet
Mozilla DeepSpeech
yeyupiaoling/PaddlePaddle-DeepSpeech

2、快速搭建WeNet平台

参考 WeNet中文文档

下载官方提供的预训练模型，并启动 docker 服务，加载模型，提供 websocket 协议的语音识别服务。


wget https://wenet-1256283475.cos.ap-shanghai.myqcloud.com/models/aishell2/20210618_u2pp_conformer_libtorch.tar.gz
tar -xf 20210618_u2pp_conformer_libtorch.tar.gz
model_dir=$PWD/20210618_u2pp_conformer_libtorch
docker run --rm -it -p 10086:10086 -v $model_dir:/home/wenet/model wenetorg/wenet-mini:latest bash /home/run.sh

Note：

这里的$PWD = "/home/wenet/model"。
一定要保证预训练模型文件的存储位置要正确，即解压在$PWD 下，执行如下命令

model_dir=$PWD/20210618_u2pp_conformer_libtorch进行变量赋值，否则会报：

实时识别

使用浏览器打开文件**index.html，在 WebSocket URL 中填入 ws://127.0.0.1:10086 (若在windows下通过wsl2**运行docker, 则使用ws://localhost:10086) , 允许浏览器弹出的请求使用麦克风，即可通过麦克风进行实时语音识别。

这里使用wsl2下的docker进行演示：如果靠近麦克风，误检率比较低。

二、WeNet实现推理（暂时无法使用onnx cpu版本进行推理）

Note：

如果仅使用wenet/bin/recognize.py，使用libTorch模型进行推理，可以在windows中搭建环境，具体搭建过程参考WeNet官网
如果要使用wenet/bin/recognize_onnx.py进行推理，需要先下载ctc_encoder，这里要注意pypi上的ctc_encoder只有2020的版本（WeNet1.0），和当前的WeNet3.0版本不一致，因此需要到https://github.com/Slyne/ctc_decoder下载并编译。由于编译swig_encoder过程中需要用到bash命令，所以尝试在linux系统中运行，这里使用WSL + ubuntu作为解决方案。

其实windows安装git就可以执行bash命令，只不过这里在安装好wget.exe,swig.exe ,git clone相应的package（kenlm，ThreadPool）之后，对于下载的openfst-1.6.3，即使在VC中补全了.h文件，无法编译成功。

1、搭建WeNet环境

这里由于要尝试使用onnx推理模型，因此使用WSL + ubuntu作为解决方案

WSL + Docker Desktop 的使用教程参考 WSL Ubuntu + Docker Desktop搭建python环境

在完成好WSL和Docker Desktop安装之后，WeNet环境配置步骤如下：

实例化anaconda容器

docker run -it --name="anaconda" -p 8888:8888 continuumio/anaconda3 /bin/bash

如果退出了，可以重启anaconda容器

#重启
docker start anaconda
docker exec -it anaconda /bin/bash

在base环境下配置wenet环境（不要创建虚拟环境，方便之后打包成镜像，供pycharm使用）

将WSL中的wenet项目拷贝到docker容器中（假设在WSL的/home/usr下有wenet项目）
```
docker cp /home/usr/wenet/requirements.txt 9cf7b3c196f3:/home/  #9cf7b3c196f3为anaconda容器id
```
进入anaconda容器内，在/home/使用pip安装所有包（conda源修改参考 ubuntu更换conda源）
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
conda install pytorch=1.10.0 torchvision torchaudio=0.10.0 cudatoolkit=11.1 -c pytorch -c conda-forge
```

下载ctc_encoder项目（让conformer进行语音识别时能够使用beam_search方法）

ctc_encoder官网如下：https://github.com/Slyne/ctc_decoder.

由于github clone在ubuntu中可能不好使，所以在windows中进入swig/setup.sh：

#!/usr/bin/env bash

if [ ! -d kenlm ]; then
    git clone https://github.com/kpu/kenlm.git
    echo -e "\n"
fi

if [ ! -d openfst-1.6.3 ]; then
    echo "Download and extract openfst ..."
    wget http://www.openfst.org/twiki/pub/FST/FstDownload/openfst-1.6.3.tar.gz --no-check-certificate
    tar -xzvf openfst-1.6.3.tar.gz
    echo -e "\n"
fi

if [ ! -d ThreadPool ]; then
    git clone https://github.com/progschj/ThreadPool.git
    echo -e "\n"
fi

echo "Install decoders ..."
# python3 setup.py install --num_processes 10
python3 setup.py install --user --num_processes 10

将必要的包安装好后（在git bash中使用setup.sh中的命令，wget，swig直接安装exe即可），整体文件结构如下（多了这四个文件）：

再把完整的ctc_encoder复制到anaconda容器中，直接进行编译即可。

编译ctc_encoder：

假设现在在anaconda容器中，ctc_encoder项目在/home目录下，进入swig文件夹后，运行bash setup.sh即可完成编译（需要先apt install gcc, apt install g++）

配置onnx，onnxruntime环境

pip install onnx==1.9.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install onnxruntime==1.9.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

将Docker运行时容器打包成镜像

将anaconda容器运行时的环境打包成镜像，给pycharm专业版调用，参考Pycharm使用docker容器内的环境开发

#OPTIONS说明：
#    -a :提交的镜像作者；
#    -c :使用Dockerfile指令来创建镜像；
#    -m :提交时的说明文字；
#    -p :在commit时，将容器暂停。

#2b1ad7022d19为anaconda容器运行时的id
docker commit -a "wangxiaoxi" -m "wenet_env" 2b1ad7022d19  wenet_env:v1

2、模型训练

参考Tutorial on AIShell

3、基于libTorch模型的推理

下载aishell2 sample数据集进行wenet模型的推理，官网如下：希尔贝壳

下载WeNet的预训练模型（下载Checkpoint model - conformer）

将测试数据集和预训练模型放在项目路径下，比如：

修改train.yaml中的cmvn_file的位置（如果使用docker容器中的python环境，建议使用相对路径）

cmvn_file: ../../test/aishell2/global_cmvn     #这里使用相对路径

将aishell2数据集修改成wenet数据格式

{"key": "D4_753", "wav": "../../test/aishell2/test_data/D4_750.wav", "txt": ""}
{"key": "D4_754", "wav": "../../test/aishell2/test_data/D4_751.wav", "txt": ""}
{"key": "D4_755", "wav": "../../test/aishell2/test_data/D4_752.wav", "txt": ""}
{"key": "D4_753", "wav": "../../test/aishell2/test_data/D4_753.wav", "txt": ""}
{"key": "D4_754", "wav": "../../test/aishell2/test_data/D4_754.wav", "txt": ""}
{"key": "D4_755", "wav": "../../test/aishell2/test_data/D4_755.wav", "txt": ""}
{"key": "D4_756", "wav": "../../test/aishell2/test_data/D4_756.wav", "txt": ""}

使用wenet/bin/recognize.py，输入如下命令

python recognize 
--config=../../test/aishell2/train.yaml \
--dict=../../test/aishell2/units.txt \
--checkpoint=../../test/aishell2/final.pt \
--result_file=../../test/aishell2/att_res_result.txt \
--test_data=../../test/aishell2/test_data/data.list \

输出结果如下：

Namespace(batch_size=16, beam_size=10, bpe_model=None, checkpoint='../../test/aishell2/final.pt', config='../../test/aishell2/train.yaml', connect_symbol='', ctc_weight=0.0, data_type='raw', decoding_chunk_size=-1, dict='../../test/aishell2/units.txt', gpu=-1, mode='attention', non_lang_syms=None, num_decoding_left_chunks=-1, override_config=[], penalty=0.0, result_file='../../test/aishell2/att_res_result.txt', reverse_weight=0.0, simulate_streaming=False, test_data='../../test/aishell2/test_data/data1.list')
2022-07-04 15:54:22,441 INFO Checkpoint: loading from checkpoint ../../test/aishell2/final.pt for CPU
F:\ASR\wenet\wenet\transformer\asr_model.py:266: UserWarning: __floordiv__ is deprecated, and its behavior will change in a future version of pytorch. It currently rounds toward 0 (like the 'trunc' function NOT 'floor'). This results in incorrect rounding for negative values. To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor').
  best_hyps_index = best_k_index // beam_size
2022-07-04 15:54:27,189 INFO D4_753 中国人民保险集团股份有限公司闽宁营销服务部
2022-07-04 15:54:27,189 INFO D4_755 中国电信闽宁镇合作营业厅
2022-07-04 15:54:27,189 INFO D4_754 闽宁镇卫生院
2022-07-04 15:54:27,189 INFO D4_756 闽宁镇客运站
2022-07-04 15:54:27,189 INFO D4_753 第六十一集
2022-07-04 15:54:27,189 INFO D4_755 第六十三集
2022-07-04 15:54:27,189 INFO D4_754 第六十二集

4、WeNet导出onnx模型

参考 ONNX backend on WeNet

这里先下载WeNet的预训练模型（下载Checkpoint model - conformer），接着使用wenet/bin/export_onnx_cpu.py，设置如下参数，即可将libtorch的pt文件转换成onnx文件

python export_onnx_cpu.py
 --config F:/ASR/model/20210618_u2pp_conformer_libtorch_aishell2/train.yaml \
 --checkpoint F:/ASR/model/20210618_u2pp_conformer_libtorch_aishell2/final.pt \
 --chunk_size 16 \
 --output_dir F:/ASR/model/20210618_u2pp_conformer_libtorch_aishell2/onnx_dir \
 --num_decoding_left_chunks -1

如果onnx导出成功，会在输出文件夹中生成如下3个文件：encoder.onnx，ctc.onnx, decoder.onnx。

5、使用`recognize_onnx`进行推理（未解决）

参考 https://github.com/wenet-e2e/wenet/pull/761.

先下载conformer模型的权重文件（checkpoint model），https://wenet.org.cn/wenet/pretrained_models.html

解压好权重文件之后，文件夹目录如下

修改train.yaml中的cmvn_file的位置

#cmvn_file: F:/ASR/model/20210618_u2pp_conformer_libtorch_aishell2/global_cmvn
cmvn_file: ../../test/aishell2/global_cmvn     #这里使用相对路径

转换成wenet的json数据格式：假设现在有音频文件D4_750.wav，通过格式转换成如下json格式，参考https://wenet.org.cn/wenet/tutorial_librispeech.html?highlight=test_data#stage-0-prepare-training-data

{"key": "D4_753", "wav": "../../test/aishell2/test_data/D4_750.wav", "txt": "而对楼市成交抑制作用最大的限购"}

接着运行：

python3 wenet/bin/recognize_onnx.py --config=20210618_u2pp_conformer_exp/train.yaml --test_data=raw_wav/test/data.list --gpu=0 --dict=20210618_u2pp_conformer_exp/words.txt --mode=attention_rescoring --reverse_weight=0.4 --ctc_weight=0.1 --result_file=./att_res_result.txt --encoder_onnx=onnx_model/encoder.onnx --decoder_onnx=onnx_model/decoder.onnx

注意这里最好使用相对路径，因为使用的是docker里的python环境，如果在读取文件时使用windows下的绝对路径，会导致如下错误。解决思路参考https://github.com/microsoft/onnxruntime/issues/8735（反正我解决不了）

{FileNotFoundError}[Errno 2] No such file or directory: 'F:/ASR/model/20210618_u2pp_conformer_libtorch_aishell2/train.yaml'

这里使用export_onnx_cpu导出的onnx模型，使用recognize_onnx进行推理

encoder_ort_session=onnxruntime.InferenceSession(encoder_outpath, providers=['CPUExecutionProvider']);
ort_inputs = {
    encoder_ort_session.get_inputs()[0].name: feats.astype('float32'),
    encoder_ort_session.get_inputs()[1].name: feats_lengths.astype('int64'),
    encoder_ort_session.get_inputs()[2].name: np.zeros((12,4,0,128)).astype('float32'),
    encoder_ort_session.get_inputs()[3].name: np.zeros((12,1,256,7)).astype('float32')
}
encoder_ort_session.run(None, ort_inputs)

会抛出错误

{Fail}[ONNXRuntimeError] : 1 : FAIL : Non-zero status code returned while running Slice node. Name:'Slice_49' Status Message: slice.cc:153 FillVectorsFromInput Starts must be a 1-D array

应该是cuda和onnxruntime版本不一致导致的，参考 OnnxRunTime遇到FAIL : Non-zero status code returned while running BatchNormalization node.

后来发现recognize_onnx是对export_onnx_gpu.py导出的模型进行推理，而不是export_onnx_cpu.py。要使用export_onnx_gpu.py还得安装nividia_docker和onnxruntime_gpu，否则会报错：

/opt/conda/lib/python3.9/site-packages/onnxruntime/capi/onnxruntime_inference_collection.py:53: UserWarning: Specified provider 'CUDAExecutionProvider' is not in available provider names.Available providers: 'CPUExecutionProvider'
  warnings.warn("Specified provider '{}' is not in available provider names."
Traceback (most recent call last):
  File "/opt/project/wenet/bin/export_onnx_gpu.py", line 574, in <module>
    onnx_config = export_enc_func(model, configs, args, logger, encoder_onnx_path)
  File "/opt/project/wenet/bin/export_onnx_gpu.py", line 334, in export_offline_encoder
    test(to_numpy([o0, o1, o2, o3, o4]), ort_outs)
NameError: name 'test' is not defined

这里就不费这个力了，等wenet项目完善吧。

嵌入式人工智能应用-第四章逻辑回归 8 数贾电子科技嵌入式人工智能应用人工智能逻辑回归算法
逻辑回归1逻辑回归介绍1.1背景介绍1.2原理1.2.1预测函数1.2.2判定边界1.2.3损失函数1,2,4梯度下降函数1.2.5分类拓展1.2.6正则化2实验代码3实验结果说明1逻辑回归介绍1.1背景介绍逻辑回归的过程可以概括为：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”，但是
138，【5】buuctf web [RootersCTF2019]I_＜3_Flask rzydal flask python 后端
进入靶场这段代码是利用Python的类继承和反射机制来尝试执行系统命令读取flag.txt文件内容''.__class__：空字符串对象调用__class__属性，得到str类，即字符串的类型。__class__.__base__：str类的__base__属性指向其基类，在Python中str是新式类，其基类是object。__base__.__subclasses__()：object类的__
使用`nohup`后台运行Python服务不输出日志避坑 LensonYuan Python工程落地 python 开发语言
解决使用nohup后台运行Python服务不输出日志的问题在服务器环境中，我们经常需要将Python程序设置为后台运行，以便它们可以在系统重启后继续运行。nohup是Linux系统中的一个实用工具，用于在用户退出终端后仍继续运行进程。然而，有时你会发现日志没有正确地被记录。本文将介绍一些常见的问题及相应的解决方法。后台运行Python程序的方法直接在当前目录生成日志文件nohuppythonyou
【Python 语法】二进制一杯水果茶！ python
基本语法1.`bin(n)`二进制表示2.二进制运算符，按位操作3.二进制位数相关方法4.`format()`输出为不同进制5.检查二进制中某一位是否为1Python提供了许多方便的工具来处理二进制相关的操作，尤其是对于整数的二进制表示和二进制运算。基本语法1.bin(n)二进制表示通过bin()函数将整数转换为二进制字符串：n=50bin_n=bin(n)print(bin_n)#输出'0b11
【Python 语法】heapq 模块一杯水果茶！ python
堆的应用场景主要功能示例：使用`heapq`实现优先队列heapq是Python标准库中用于实现堆队列（heapqueue）算法的模块。堆队列是一个基于堆（heap）数据结构的优先队列，它能在O(logn)时间内执行插入、删除最小元素等操作。Python中的heapq模块实现的是一个最小堆（min-heap），即堆顶元素是堆中的最小元素。堆的应用场景优先队列：heapq可以用来实现优先队列，按优先
《DeepSeek从入门到精通》下载疯狂吧小飞牛 deepseek 深度学习自然语言处理人工智能
下载地址：《DeepSeek从入门到精通》下载–无敌牛DeepSeek：从入门到精通@新媒沈阳团队：余梦珑博士后清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生
python array_python之模块array weixin_39955953 python array
>>>importarray#定义了一种序列数据结构>>>help(array)#创建数组，相当于初始化一个数组，如：d={},k=[]等等array(typecode[,initializer])--createanewarray#a=array.array('c')，决定着下面操作的是字符，并是单个字符#a=array.array('i')，决定着下面操作的是整数|Attributes:||t
python nodejs 对比_nodejs性能测试对比 weixin_39526564 python nodejs 对比
1.如何对基于node.js的websocket进行并发访问的性能测试源地址私信我吧这段代码使用了node.js的异步利器onRequestvar/tj/should.jsSuperAgent:/visionmedia/superagentMocha:/mochajs/mochahttp://mochajs.org/(全局安装)npminstall-gmocha命令行：传到项目根目录mocha--
python 速度 write_videofile_moviepy音视频剪辑：使用VideoFileClip、AudioFileClip和write_videofile、write_audiofile... weixin_39529914 python 速度 write_videofile
一、概述在本地进行音视频处理时，首先要从视频文件进行音视频加载，最后要将处理结果输出到文件。本节介绍moviepy的音视频的加载和输出方法。二、视频加载2.1、视频加载方法要从视频文件中加载视频非常简单，使用VideoFileClip类的构造方法即可完成加载。其构造方法语法如下：__init__(self,filename,has_mask=False,audio=True,audio_buffe
python正则表达式提取字符串密码,用python正则表达式提取字符串 weixin_39546092
用python正则表达式提取字符串1.单个位置的字符串提取这种情况我们可以使用(.+)这个正则表达式来提取.举例,一个字符串"a123b",如果我们想提取ab之间的值123,可以使用findall配合正则表达式,这样会返回一个包含所以符合情况的list,代码如下:importrestr="a123b"printre.findall(r"a(.+)b",str)#输出['123']1.1贪婪和非贪婪
初识pytorch m0_73286250 pytorch 人工智能 python
一、AI发展史二、什么是深度学习深度学习是机器学习的一个子集。为了更好地理解这种关系，我们可以将它们放在人工智能（AI）的大框架中来看。机器学习是实现人工智能的一种途径，深度学习是机器学习的一个子集，也就是说深度学习是实现机器学习的一种方法。与机器学习算法的主要区别如下图所示：三、扩展1.使用场景1)图像识别和处理2)自然语言处理（NLP）3)音频处理4)视频分析5)游戏和仿真6)自动驾驶汽车7)
NVIDIA B200：高性能 AI 计算的未来知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 nvidia b200
简介对于一直关注人工智能和机器学习快速发展的人来说，新硬件的发布总是备受期待。每一代新处理器和加速器都有可能极大地改变我们开发和部署大规模机器学习模型的方式。NVIDIA长期处于人工智能硬件开发的最前沿，它再次凭借由Blackwell架构驱动的B200提高了标准。最近的MLPerf基准测试提供了B200的首批可靠数据，结果非常出色。在Llama270B型号上运行推理时，B200每秒可处理11,26
Java部署机器学习模型:方案二(基于DJL) iiilloi 机器学习 spring spring boot
DJL（DeepJavaLibrary）是由亚马逊公司开发的一款开源的深度学习框架，它旨在为Java开发人员提供一个简单而强大的API，使得在Java中使用深度学习变得更加容易。DJL有以下几个方面优势：支持多个底层引擎DJL支持多个底层引擎，包括MXNet、TensorFlow和PyTorch等。这使得DJL可以在多个平台上使用，包括Java、Android、iOS和RaspberryPi等。易
Python 标准库：os——操作系统接口骑个小蜗牛 Python python
文章目录模块介绍主要函数文件和目录操作环境变量操作路径操作系统信息进程管理注意事项总结模块介绍os模块是Python标准库的一部分，提供了与操作系统交互的功能，允许我们执行操作系统相关的任务，比如文件操作、进程管理、环境变量操作等。这个模块帮助Python程序与操作系统进行低层次的交互，无论是在Linux、Windows还是macOS系统上，os模块都能提供统一的接口来进行操作。主要函数文件和目录
Python MoviePy库：视频处理与编辑的强大工具程序员喵哥 python 音视频开发语言
更多Python学习内容：ipengtao.com随着视频内容的广泛应用，视频编辑和处理的需求不断增长。传统的非线性编辑软件功能强大，但对于自动化处理和批量操作来说，程序化的处理显得更为高效。MoviePy是一个基于Python的视频编辑库，它提供了丰富的视频处理功能，支持对视频的剪辑、合并、特效添加以及音频处理等操作。MoviePy的易用性和灵活性使得它成为开发者和数据科学家进行视频编辑的利器。
Python实现音视频剪辑混音合成是非常方便的，但有时候在输出文件时会遇到无声音的问题。本文将介绍如何使用moviepy解决这个问题。碧波浩渺· python java linux
Python实现音视频剪辑混音合成是非常方便的，但有时候在输出文件时会遇到无声音的问题。本文将介绍如何使用moviepy解决这个问题。首先，我们需要导入需要的库：frommoviepy.editorimport*接下来，我们创建一个VideoFileClip对象和一个AudioFileClip对象，并将它们合并：video=VideoFileClip("movie.mp4")audio=Audio
Vue 3最新组件解析与实践指南：提升开发效率的利器 Aic山鱼 vue.js 前端 javascript
目录引言一、Vue3核心组件特性解析1.CompositionAPI与组件逻辑复用2.内置组件与生命周期优化3.新一代UI组件库推荐二、高级组件开发技巧1.插件化架构设计2.跨层级组件通信三、性能优化实战1.惰性计算与缓存策略2.虚拟滚动与列表优化3.TreeShaking与按需引入四、总结作者：Aic山鱼|2025年2月17日作者推荐："近期我偶然邂逅了一个极为出色的人工智能学习平台，它不仅内容
【Python 语法】Python 正则表达式（regular expressions, regex）一杯水果茶！人生苦短我用 Python python 正则表达式
1.元字符和特殊字符2.常用函数2.1`re.match()`和`re.fullmatch()`2.2`re.search()`2.3`re.findall()`2.4`re.sub()`2.5`re.split()`3.进阶用法3.1捕获组和非捕获组3.2零宽断言4.实现原理Python正则表达式官方教程源代码:Lib/re/Python正则表达式用于在字符串中查找、匹配和替换特定的模式。正则表
Python导入moviepy找不到editor 视频没有声音设置audio_codec参数梅子专栏 python 音视频 moviepy editor moviepy.editor 导入报错
moviepy合成视频出错：问题一：导入moviepy.editor找不到editor，Nomodulenamedmoviepy.editor问题二：合成的视频没有声音问题一：导入moviepy.editor找不到editor，Nomodulenamedmoviepy.editorfrommoviepy.editorimport*改为frommoviepyimport*或者frommoviepyi
机器学习的模型类型（Model Types）路野yue 人工智能机器学习
1.传统机器学习模型线性模型（LinearModels）：线性回归（LinearRegression）：用于回归任务，拟合线性关系。逻辑回归（LogisticRegression）：用于分类任务，输出概率值。岭回归（RidgeRegression）和Lasso回归（LassoRegression）：带正则化的线性回归。树模型（Tree-basedModels）：决策树（DecisionTree）：
Python 标准库：array——数组操作骑个小蜗牛 Python python
文章目录模块介绍使用场景主要类-array主要函数-append()-insert()-remove()-pop()-reverse()-count()-index()-open()注意事项总结模块介绍Python标准库中的array模块提供了一个固定类型数组类，用于高效地存储同类型的元素。与内置的list类型相比，array更加节省内存并且能够处理大量数据。array主要用于数值计算和处理大规模
机器学习课程的常见章节结构 zhangfeng1133 机器学习分类学习
以下是机器学习课程的常见章节结构，结合了搜索结果中的信息：1.机器学习基础知识机器学习的定义与分类监督学习、无监督学习、半监督学习、强化学习机器学习的产生与发展机器学习的历史与现代应用经验误差与过拟合过拟合与欠拟合的概念及解决方案评估方法与性能度量交叉验证、准确率、召回率、F1分数等偏差与方差偏差-方差权衡及其对模型的影响2.经典机器学习算法2.1线性模型一元线性回归与多元线性回归梯度下降算法（批
掌握Python异常处理：try、except、else、finally的全面解析清水白石008 Python题库 python 开发语言 python java 前端
掌握Python异常处理：try、except、else、finally的全面解析一、异常处理基础在Python中，异常是程序在运行时发生的错误。当Python解释器遇到一个它不能处理的错误时，它会抛出一个异常。如果异常没有被捕获和处理，程序就会中断执行，并打印出错误信息和堆栈跟踪。异常处理的主要目的是在程序遇到错误时，提供一种方法来处理这些错误，而不是简单地让程序崩溃。二、try语句块：异常捕捉
机器学习_19 集成学习知识点总结数据媛机器学习集成学习人工智能 python scikit-learn numpy scipy
集成学习（EnsembleLearning）是一种强大的机器学习范式，通过组合多个模型的预测结果来提高整体性能和泛化能力。它在分类、回归和特征选择等任务中表现出色，广泛应用于各种实际问题。今天，我们就来深入探讨集成学习的原理、实现和应用。一、集成学习的基本概念1.1集成学习的定义集成学习通过组合多个学习器（通常称为“弱学习器”）的预测结果，构建一个更强的模型（“强学习器”）。其核心思想是利用多个模
机器学习_18 K均值聚类知识点总结数据媛机器学习均值算法聚类 python scikit-learn pandas numpy
K均值聚类（K-meansClustering）是一种经典的无监督学习算法，广泛应用于数据分组、模式识别和降维等领域。它通过将数据划分为K个簇，使得簇内相似度高而簇间相似度低。今天，我们就来深入探讨K均值聚类的原理、实现和应用。一、K均值聚类的基本概念1.1K均值聚类的目标K均值聚类的目标是将数据集划分为K个簇，使得每个簇内的数据点尽可能接近，而不同簇之间的数据点尽可能远离。具体来说，K均值聚类最
云上玩转DeepSeek系列之三：PAI-RAG集成联网搜索，构建企业级智能助手阿里云大数据AI技术 deepseek PAI 阿里云人工智能 RAG
正文DeepSeek系列模型以卓越性能在全球范围内备受瞩目，在各类评测中表现优异，推理性能接近甚至超越国际顶尖闭源模型。2025年2月以来，阿里云人工智能平台PAI持续推出围绕DeepSeek系列模型的最佳实践，包含快速部署、应用搭建、蒸馏、微调等各个环节，让企业和个人开发者可以在云上高效、灵活地部署和探索DeepSeek-R1、DeepSeek-V3等模型。本文将为您带来“基于PAI-RAG构建
机器学习—逻辑回归 60岁的程序猿 1024程序员节机器学习逻辑回归人工智能算法
本内容是博主自学机器学习总结的。由于博主水平有限，内容可能有些许错误。如有错误，请发在评论区。目录1、基础概念1.1、什么是逻辑回归1.2、逻辑回归与线性回归的区别1.3应用场景2、逻辑回归模型2.1、模型定义2.2、Sigmoid函数2.3、决策边界2.4、概率解释3、模型训练3.1、损失函数3.2、梯度下降法3.3、牛顿法3.4、拟牛顿法3.4、正则化3.5、总结4、多分类问题4.1、一对多（
WARNING: pip is configured with locations that require TLS/SSL 浩瀚好憨
WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.在PyCharm安装pygame失败在cmd输入pipinstallpygame出现WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeve
Linux升级openssl解决方案爱编程的喵喵 Linux解决方案 linux openssl 升级openssl 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Linux升级openssl解决方案
python中try怎么用_Python中try语句的用法 weixin_39816260 python中try怎么用
1.tryexcept语句的用法，用来检测一段代码内出现的异常并将其归类输出相关信息，首先是try:被检测代码段exceptException[asreason]:相关信息，举例说明：>>>try:f=open('该文档不存在')print(f.read())f.close()exceptOSError:print('文件出错了T_T')文件出错了T_T当然，我们也可以在exceptExcepti
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio