浮生物语QAQ

中文文本拼写检查错误纠正方案整理

说明：该文档主要考察平安文本纠错项目和爱奇艺文本纠错项目整理而来。

1. 常见的中文错误类型

发音错误，特点：音近，发音不标准，原因：地方发音，语言转化。 - 灰机
拼写错误：特点：正确词语错误使用，原因：输入法导致-拼音、五笔、手写 - 眼睛蛇
语法，知识错误：特点：逻辑错误，多字、少字，乱序 - 女性患病前列腺炎

2. 研究现状

2.1 通用纠错项目

https://github.com/shibing624/pycorrector

错误检测
- 常用字典匹配：切词后不再常用字典中认为有错
- 统计语言模型：某个字的似然概率低于句子的平均值
- 混淆字典匹配：example - 国藉 -> 国籍
候选召回
- 近音字替换（拼音）：藉\ji -> 籍，集，寄。。。
- 近形字替换（五笔）：藉 -> 籍，藕，箱
候选排序
- 语言模型计算句子概率，取概率超过原句子切最大的
  
  P(患者1天前体检发现脾动脉瘤)
  
  P(患者1天前体检发现皮动脉瘤)
  
  P(患者1天前体检发现劈动脉瘤)

2.2 学术界进展

基于序列标注的纠错

《 Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features
into LSTMs for Chinese Grammatical Error Diagnosis Task 》

利用序列标注模型 + 人工提取特征进行错误位置的标注

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200319175248299.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NoZW5ndWFuZ2NodW4xOTkz,size_16,color_FFFFFF,t_70, width=60%)

 					2017年IJCNLP举办的CGED比赛中阿里团队提出的Top1方案

成绩： P：0.36， R： 0.21， F1：0.27

基于NMT的纠错

《 Youdao’s Winning Solution to the NLPCC-2018 Task 2 Challenge: A Neural
Machine Translation Approach to Chinese Grammatical Error Correction 》

利用模型将错误语句翻译成正确语句，利用transformer模型完成端到端的纠错过程

成绩： P： 0.34， R：0.18， F0.5： 0.29

2.3 评价指标

过纠率 / 误报率

$\frac{正确句子被纠错的个数}{正确句子的个数}$
召回率

$\frac{错误句子被改正的句子数}{错误的句子总数}$
纠错目标

被改正的句子数 >> 被改错的句子数

$K * R > > (1 - K) * F A R$

目标在于尽可能的提高召回率R。

2.4 存在的问题

公司目前纠错现状，还存在一下问题。

缺乏标注语料，难以展开基于深度学习的监督学习
纠错强调实时性，对内存和实效性要求很高，线上纠错不得超过10ms/句，导致大规模字典和复杂模型无法线上使用
纠错要求高准确性，宁愿牺牲召回也必须保证高准确度，防止过纠（把正确的词改错），过纠率不得高于0.2%
结合电子病历，绝大部分错误都是替换错误，同音字，同行字等。

3. 平安文本纠错方案

平安人寿问答纠错模块结构如下图所示。其基本流程包括错误检测、候选召回、候选排序、候选筛选。

3.1 错误检测

基于规则的错误检测
- 拼音匹配：适合实体错误检测，比如疾病，药品等实体，需要维护拼音-实体隐射字典

拼音编辑距离：1. 检测所有编辑距离小于阈值的路径 2. 最优路径选取（最小拼音编辑距离，最长字符匹配）3. 语言模型 + 规则联合筛选
单双向2gram检测

当前词与上下文组成的2gram词频很低，认为有错

基于假设：正确表述发生的频次要远远大于错误表述发生的次数

基于神经网络语言模型的错误检测

核心思想：
- 通过完形填空的方式预测候选字的概率分布
- 如果原字的概率不在topK或者top1比值操作阈值则认为有错
改进措施：
- 传统的语言模型从左到右，单向，只利用上文，改为双向模型，利用上下文信息。
- 传统的语言模型把预测字MASK，没有预测字的信息，可以改为引入当前字的混淆字信息（如：相似的字音和字形字）。
- 传统语言模型会直接预测字表，比如字表大小是3800，预测结果会直接得到3800个字的概率分布，其中大多是无用信息，且容易引发维度灾问题。可以通过将预测字约束在近音、近形和混淆字表里，提高效率和正确字与错误中字的区分度。

基于word2vec-cbow改造的音字混合受限字表示语言模型检测算法

基于CSLM的中文拼写检测：《Chinese Spelling Errors Detection Based on CSLM,2015》

主要特征：
- 带入预测字及上下文拼音、五笔特征
- 去掉前后鼻音和翘舌音,并利用混淆音集映射的方式来提高模型对谐音错误的识别性能。
- 预测字表受限于近音字、近形字和混淆字表中。

3.2 候选召回

近音字候选召回

选择近音字作为候选字，构造一个近音字字典。大规模的基础字典，使得在存储和读取速度方面收到了极大的调整。

字典存储构架如下：

关键技术：

减低存储空间：
1. 利用Trie树降低信息冗余
2. 利用经典结合CSR压缩稀疏矩阵
3. 使用词典间的关联信息回复2gram同音字典
提高读取速度：Trie树、CSR技术的高效索引。
字、音编辑距离召回

使用编辑距离作为是否召回的依据。
混淆词集
疾病口语词

3.3 候选排序

针对候选词的排序主要由二级排序来实现。

一级排序

模型：逻辑回归LR

作用：二级排序比较耗时，通过一级排序初筛出TopK进入下一级

要求：正类召回率高，运行速度快

特征：
- 频次比值：候选频次越高分数越高
- 编辑距离：编辑距离越小分数越高
- 拼音jaccard距离：拼音相近分数越高
- 4gram-LM概率差值：候选替换后橘子越通顺分数越高
一级排序大致流程如下：

例如：甲状腺姐姐该怎么治疗？ ->结节 0.99

频次： 55 -> 94
编辑距离：2
拼音jaccard距离：0
语言模型概率：-21.9 -> -8.6
二级排序

模型：xgboost

作用：分数超过设定阈值且是Top1作为最终候选

要求：正类准确率高

特征：
1. 局部特征
  - 切词变化：短语个数、含错别字片段长度等
  - PMI变化：最小值、最值
  - 频次变化：频次变化、2gram频次变化
  - 4gram语言模型变化
  - 形音变化：拼音韵母变化、jccard距离、五笔变化
  - 其他：停用词\错别字位置、候选来源等等
2. 全局特征
  - Cbow-LM
  - LSTM-Attention-LM
  - BERT-LM

例子：红癍狼仓常见症状有哪些? 红斑狼疮

频次：20 -> 1688
切词：红\癍\狼疮 (1\1\2) -> 红斑狼疮 (4)
nn语言模型:癍 (<0.001) -> 斑 (0.979)
4gram语言模型:-19.2 -> -10.6
PMI:红癍(0.33) ->红斑(9.7)

3.4 整体架构

特性：

pipline串联，热插拔
子模块均遵循检测-召回-排序流程
规则+模型混用
离线+在线

在线方案：

低延迟、低复杂度
高速1ms-3ms/句
用于线上实时预测

离线方案：

大规模、复杂模型
低速200ms-500ms/句
用于构造在线模型，训练数据

3.5 总结与改进

优点：
- 无监督，方便将该方法迁移到其他垂直领域，只需要重新无监督挖掘数据
- 系统架构方便插拔特殊编写纠错子模块
缺点：
- 很难迁移到通用领域
- Pipline导致错误逐级传递
- Pipline链越长，耗时越长
改进思路
- 强化上下文/全局的语义理解
- 训练预料去噪处理
- 端到端算法，如NMT（神经机器翻译）
- 语法错误（多字少字乱序）

4. 爱奇艺文本纠错方案

《FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm》

4.1 背景

大部分的中文拼写检查模型都使用用一个范式，即讲每个汉字的固定相似字符集（混淆集或困惑集）作为候选项，然后使用过滤器选择最佳候选项作为错字的替换字符。这种设计面临着两个主要瓶颈：

稀疏的中文拼写检查数据上的过拟合问题。

由于中文拼写检查数据需要乏味繁冗的专业人力工作，因为一直资源不足。为了防止模型的过拟合， Wang等人（2018）提出了一种自动方法来生成伪拼写检查数据。但是，当生成的数据达到40k句子时，其拼写检查模型的精度不再提高。 Zhao等人（2017）使用了大量的语言学规则来过滤候选项，但结果却比我们的表现差，尽管我们的模型没有利用任何语言学知识。
困惑集的使用带来的汉字字符相似度利用上的不灵活性和不充分性问题。

困惑集因为是固定的，因此并非在任何语境、场景下都能包含正确候选项（一个比较极端的例子是，如果困惑集按照繁体中文制定，那么繁体中文的 “體”和“休”肯定不在困惑集的同一组相似字符中，但是在简体中文中对应的“体”和“休”缺是相似字符，如果错误文本中是把“休”写成了“体”，那么繁体中文困惑集下就无法检出，必须专门再制定一个简体困惑集才可以），这会极大降低检测的召回率（不灵活性问题）；另外，困惑集中的字符的相似性的信息有损失，没有得到充分利用，因为一个字符在困惑集中相似字符是无差别对待的，然而事实上每两个字符间的相似度明显是有差别的，因此会影响检测的精确率（不充分性）。

4.2 设计

FASPell提出通过设计中文拼写检查范式来避免传统模型的两个瓶颈。FASPell利用seq2seq的思想，包括去噪自编码器（DAE）和解码器。

编码器DAE

DAE通过利用无监督预训练方法（BERT），减少了监督学习中所需的中文拼写检查数据量（<10000个句子）。DAE可以将错误文本修改为正确文本的可能候选矩阵，解码器只需要在这个矩阵中寻求最佳候选项作为输出。DAE因为可以在大规模正常预料数据上无监督训练，而仅在中文拼写检测数据上做fine-tune，避免了过拟合问题。此外，只要DAE足够强大，所有语境上可能的候选字符都可以出现，且候选字符是根据上下文即时生成的，避免了困惑集带来的不灵活性。
解码器CSD

CSD巧妙的将预训练模型的置信度和字相似度结合起来，作为候选集的评价标准，消除困惑集的使用。CSD根据量化的字符相似度和DAE给出的符合语境的置信度来过滤出正确的替换字符，如此，字符相似性上的细微差别信息都可以得到充分利用。

模型架构如图1所示：

可以看到，在FASPell中，DAE由BERT中的掩码语言模型（MLM）来充当，而解码器使用了置信度-相似度解码器(CSD)。

4.3 CSD解码器

CSD主要结合DAE的置信度和字符相似度，置信度直接由DAE给出，暂且不谈，这里详细说明字符相似度。

字符相似度
- 字音
  
  采用中日韩统一表意文字（CJK）语言中的汉语发音，尽管目前只是对中文文本检错纠错，但是实验证明考虑诸如粤语、日语音读、韩语、越南语的汉字发音对提高拼写检查的性能是有帮助的，而过去的方法均只考虑了普通话拼音。
- 字形
  
  采用Unicode标准的IDS表征，它可以准确的扫描汉字中各个笔画和他们的布局方式，这使得即使相同笔画和笔画顺序的汉字之间也拥有不为1的相似度。
以午和牛，田和由为例：
训练CSD

CSD的训练阶段，利用训练集文本通过MLM输出的矩阵，逐行绘制置信度-字符相似度散点图，确定能将FP和 TP分开的最佳分界曲线。

如上图所示，红点代表正确检测并正确纠正的样本，蓝色圆圈代表正确检测但纠正错误的样本，叉叉代表错误检测的样本。图一并没有过滤候选集；图二倾向于错误检测性能，大部分正确检测的候选集保留了下来；图三更加倾向于错误纠正，FASPell采用此种曲线；图四采用加权确定阈值的方式来确定曲线 $（ 0.8 \times c o n f i d e n c e + 0.2 \times s i m i l a r i t y < 0.8 ）$ 。

在训练阶段，我们的目标在于确定一条合适的曲线，供于推理阶段使用。
3. 推理
在推理阶段，逐行根据分界线过滤掉FP得到TP结果，然后将每行的结果取并集得到最终替换结果。以上面架构图为例片，句子首先通过fine-tune训练好的MLM模型，得到的候选字符矩阵通过CSD进行解码过滤，第一行候选项中只有“主”字没有被CSD过滤掉，第二行只有“著”字未被过滤掉，其它行候选项均被分界线过滤清除，得到最终输出结果，即“苦”字被替换为为“著”，“丰”被替换为“主”。

LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
王东伟，中原焦点秦皇岛站第五期，每日分享第181天 Vivian_c8c7
《解码青春期》让孩子懂得承担责任，学会道歉。英国诗人亚历山大•蒲柏有句名言：凡人难免犯错宽恕方显神性。学会如何请求对方宽恕对于保持健康的关系至关重要。当青少年把事情搞砸的时候，他们需要从关心他们的成年人那里获得帮助。家长的目标是要培养一个能为自己的行为承担责任的青少年，培养一个敢于诚恳的承认错误，愿意真心悔改的青少年。青少年只关注自己如何委屈，而且会竭尽全力为自己的行为辩解。所以，家长得小心地拆除
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
928、在新冠的日子里（2）隔离天使小鱼儿
昨天YD全部人员核酸检测阴性。但是也都不能回家，要隔离14天，按规定执行。小红也是其中之一，今天是第三天，第二夜，门把手的源头还没有通报，在排查中。隔离措施是对的。是人？是物？是相似病毒？希望是虚惊一场。昨天，单位排长队，做核酸检测。我们都统一做了检测。现在出去做事，核酸检测是必须的。我今天也要外出做事，所以核酸检测也要提供。给小红准备了简单的替换衣服。我们也按规定执行。问闺蜜你们也都不回家吗？回
CentOS 7官方源停服，配置本机光盘yum源码哝小鱼 linux运维 centos linux 运维
1、挂载系统光盘mkdir/mnt/isomount-oloop/tools/CentOS-7-x86_64-DVD-1810.iso/mnt/isocd/mnt/iso/Packages/rpm-ivh/mnt/iso/Packages/yum-utils-1.1.31-50.el7.noarch.rpm(图形界面安装，默契已安装）如安装yum-utils依赖错误，按提示安装依赖包rpm-ivh
乡愁誰家今夜扁舟子
从前乡愁是一张张火车票我在这头故乡在那头而现在乡愁是一张张核算检测证明我在这头故乡说：你就在那头吧，别回这头！
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
【Python】已解决：ModuleNotFoundError: No module named ‘PIL’ 屿小夏 python 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘PIL’一、分析问题背景当你在Python环境中尝试导入PIL（PythonImagingLibrary）模块时，可能会遇到“ModuleNotFoundError:Nomodulenamed‘PIL’”的错误。这通常发生在尝试使用PIL
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一