qq_41895190

ICDAR 2019比赛及数据集下载- 任务-ICDAR 2019多语言场景文本检测和识别的稳健阅读挑战

ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=15&com=tasks

任务-ICDAR 2019多语言场景文本检测和识别的稳健阅读挑战

为了参加RRC-MLT-2019挑战赛，您必须至少参加一项任务。这是任务的描述。前三个任务与RRC-MLT-2017中的任务相似，但针对RRC-MLT-2019重新打开了它们，为数据集添加了新语言并提高了整个数据集的地面真实性。我们还将介绍有关End-2-End文本检测和识别的新任务。

任务1：多脚本文本检测

在此任务中，参与者方法应该能够概括为检测不同脚本的文本。此任务的输入是带有各种语言的嵌入文本的场景图像，并且需要在单词级别进行检测。

地面真相（GT）格式

注意：为此任务提供的GT包含的信息比该任务所需的信息更多，因为该GT也与任务3和4共享。因此，请确保您的方法生成的结果格式与“结果格式”段落中所述。

基本事实是根据单词边界框提供的。边界框不是面向轴的，并且由它们的四个角的坐标以顺时针方式指定。对于训练集中的每个图像，按照命名约定提供相应的UTF-8编码的文本文件：

gt_ [图片名称] .txt

文本文件是用逗号分隔的文件，其中每一行对应于图像中的一个文本块，并以以下格式给出其边界框坐标（顺时针为四个角），其脚本及其转录：

x1，y1，x2，y2，x3，y3，x4，y4，脚本，转录

有效的脚本是：“阿拉伯语”，“拉丁语”，“中文”，“日语”，“韩语”，“孟加拉语”，“印地语”，“符号”，“混合”，“无”

请注意，转录是在第9个逗号之后直至行尾的所有内容。不得使用转义字符。

如果将抄写提供为“ ###”，则将文本块（单词）视为“无关紧要”。一些“无关”单词具有与语言相对应的脚本类，而其他一些则具有“无”脚本类。后一种情况是由于分辨率低或其他失真而无法识别单词脚本的情况。

结果格式

预期的本地化（检测）结果如下：预期每个测试图像一个UTF-8编码的文本文件。要求参与者将所有结果提交到一个zip文件中。结果文件应遵循命名约定以测试图像ID命名：

res_ [图片名称] .txt

（例如res_1245.txt）。每行应对应图像中的一个单词，并以以下格式提供其边界框坐标（顺时针四个角）和置信度得分：

x1，y1，x2，y2，x3，y3，x4，y4，置信度

评价

f度量（Hmean）用作对参与者方法进行排名的度量。标准f量度基于与基本事实相比所检测到的单词边界框的召回率和精度。如果检测到的边界框与GT框的重叠量大于50％（并交相交），则认为检测正确（真阳性）。如何计算分数的详细信息在本文的III-B部分中：MLT2017

问题：任务1和3：我们是否应该检测到“无关”框（转录为“ ####”），将如何评估？
答：“无关”框不计入评估。这意味着检测或遗漏无关框不会影响您的最终分数。

任务2：裁剪Word脚本识别

我们的数据集图像中的文本以10种不同的语言显示，其中一些共享相同的脚本。另外，标点符号和一些数学符号有时会显示为单独的单词，这些单词被分配了一个特殊的脚本类，称为“符号”。因此，我们共有8个不同的脚本。我们已排除了此任务中具有“混合”脚本的单词。我们也排除了所有“无关”字眼，无论它们是否具有已识别的脚本。

基本真理格式

对于单词脚本识别任务，我们将数据集中的所有单词（裁剪的单词）作为单独的图像文件提供，并提供相应的地面脚本和抄录。在此任务中不使用转录，可以忽略。对于每个文本块，都提供了紧密包含文本块的面向轴的区域。

整个集合的单个UTF-8文本文件中提供了所有单词的脚本和抄本。地面真相文件中的每一行具有以下格式

[单词图像名称]，脚本，转录

请注意，转录是第二个逗号之后直到行尾的所有内容。不得使用转义字符。有效的脚本是“阿拉伯语”，“拉丁语”，“中文”，“日语”，“韩语”，“孟加拉语”，“印地语”，“符号”。

此外，我们提供有关从中提取单词图像的原始图像的信息，如下所示：在切出的文本块图像中定义文本块的（非轴定向）边界框的相对坐标为在整个集合的单独SINGLE文本文件中提供。文本框的坐标是参照切出框给出的，作为边框的四个角按顺时针方向给出。基本事实文件中的每一行都具有以下格式。

[原始图片名称]，x1，y1，x2，y2，x3，y3，x4，y4，[原始图片名称]

结果格式

参与者方法应提供每个图像的脚本，其中每个输入图像都是裁剪的单词图像（场景图像中的剪切出的文本块）。每个图像要求一个脚本名称。所有输出脚本应在单个UTF-8编码的文本文件中列出，每个单词图像一个脚本，并使用以下格式：

[文字图片名称]，脚本

评价

针对基本事实对结果的评估以以下方式计算：参与者为每个单词图像提供一个脚本ID，如果结果正确，则正确结果的计数会增加。给定方法的最终评估是这种预测的准确性。可以用下面的简单定义来总结：

令G = {g1，g2，。。。，gi，。。，gm}是地面真理中正确的脚本类的集合，并且T = {t1，t2，...。。。，ti，。。。，tm}是给定方法返回的一组脚本类，其中gi和ti引用相同的原始图像。如果gi = ti，则每个单词的脚本标识被视为正确（一个），否则为假（零），所有m个标识的总和除以m可得出此任务的整体准确性。

任务3：联合文本检测和脚本识别

该任务结合了多脚本文本识别所需的所有准备步骤。一个参与者方法应该以一个完整的场景图像作为输入，然后找到所有单词的边界框，以及关于每个单词的脚本ID信息。

基本真理格式

基本事实的提供方式与任务1相同。

结果格式

联合检测和脚本识别结果应在单个zip文件中提供。每个图像需要一个文本文件。应使用以下命名约定以测试图像ID命名该文件：

res_ [图片名称] .txt

在每个文本文件中，应提供检测到的边界框坐标的列表（顺时针四个角），以及检测的可信度和脚本类：

x1，y1，x2，y2，x3，y3，x4，y4，置信度，脚本

评价

此任务的评估是对文本框的正确定位（检测）和正确的脚本分类的级联。如果根据任务1的评估标准正确地检测到单词边界框，并且也如任务2中一样正确识别了此正确检测到的单词的脚本，则将该单词的联合检测和脚本识别视为正确。

任务4：端到端文本检测和识别

对于多种语言的统一OCR是一项非常艰巨的任务。多语言环境下的端到端场景文本检测和识别任务与其英语对应任务是一致的。给定一个输入场景图像，目标是定位一组边界框及其对应的转录。

我们提供此任务的基准方法： E2E-MLT https://github.com/MichalBusta/E2E-MLT
我们提供了一个综合数据集，该数据集在脚本方面与真实数据集匹配，以帮助您完成此任务的培训：
- 综合MLT数据（阿拉伯语，孟加拉语，中文，日语，韩语，拉丁语，印地语）
- MLT格式的GT（阿拉伯语，孟加拉语，中文，日语，韩语，拉丁语，印地语）
- 您可以在以下位置找到方法的详细信息以及合成数据集：
  - E2E-MLT-用于多语言场景文本的不受约束的端到端方法：https：//arxiv.org/abs/1801.09919

基本真理格式

基本事实的提供方式与任务1相同。

结果格式

联合检测和识别结果应在单个zip文件中提供。每个图像需要一个文本文件。应使用以下命名约定以测试图像ID命名该文件：

res_ [图片名称] .txt

在每个文本文件中，应提供检测到的边界框坐标（顺时针四个角）的列表以及检测的转录：

x1，y1，x2，y2，x3，y3，x4，y4，信心，转录

评价

此任务的评估是对文本框的正确定位（检测）和正确识别（单词转录）的级联。如果根据任务1的评估标准正确检测到单词边界框，并且也正确识别了此正确检测到的单词的转录（根据编辑距离度量），则将该单词的联合检测和识别记为正确。

测试集中所有包含未出现在训练集中的字符的单词都将设置为“无关”，因此无论您的方法是否正确检测/识别它们，都不会影响评价，他们根本就不算在内。这意味着您可以根据训练集的词典进行训练。

下载-ICDAR 2019多语言场景文本检测和识别的稳健阅读挑战

在下方下载训练数据集和每个任务的相关基础知识。

您可能还需要阅读本页末尾的“常见问题解答”部分。

任务1：多脚本文本检测

训练集：

训练集由10,000张图像组成，可以从以下2个链接下载：

TrainSetImagesTask1_Part1 （3.5G）

TrainSetImagesTask1_Part2 （3.3G）

基本事实由10,000个文本文件（与图像相对应）组成，具有单词级的本地化，脚本和转录，可以从以下链接下载：

TrainSetGT（6.5M）

请注意，此任务仅需要本地化结果（如任务页面中的结果格式所示），但是基本事实还提供每个边界框和脚本的脚本ID。任务3和4中将需要这些额外信息。

有关训练集的额外信息（对于只关注一种或仅几种语言，而不是全部多语言集的研究人员可能有用）：

10,000张图像在训练集中的排序如下：每个连续的1000张图像包含一种主要语言的文本（当然，它可能还包含1种或2种其他语言的其他文本，全部来自10种语言）
00001-01000 ：阿拉伯语
01001-02000：英语 02001-03000
：法语
03001-04000：中文
04001-05000：德语 05001-06000
：韩语
06001-07000 ：日语07001-08000
：意大利语 08001-09000
：孟加拉语
09001-10000：印地语

测试集：

图片（10,000张图片）：

MLT19_TestImagesPart1.zip

MLT19_TestImagesPart2.zip

任务2：裁剪Word脚本标识

训练集：

Word_Images_Part1 （单词图像[2个文件]的基本含义也在这里[与图像位于同一文件夹中]）

Word_Images_Part2

Word_Images_Part3

测试集：

裁剪文字图片：

MLT19_images_task2.zip

任务3：联合文本检测和脚本识别

训练集：

与任务1相同的训练集和基本事实（请参见上面的任务1）。

测试集： 与任务1相同的测试集。

任务4：端到端文本检测和识别

训练集：它包括两个部分：

真实数据集：与任务1中相同的训练集和基本事实（请参见上面的任务1）。
综合数据集：我们提供了一个综合数据集，该综合数据集在脚本方面与实际数据集相匹配，以帮助培训该任务：
- 下载：综合数据集的图像：阿拉伯语，孟加拉语，中文，日语，韩语，拉丁语，印地语
- 合成数据集的GT（与真实数据集的格式相同）：阿拉伯文，孟加拉文，中文，日文，韩文，拉丁文，印地文

请注意，我们为此任务提供了基准方法： E2E-MLT。https://github.com/MichalBusta/E2E-MLT您可以在以下位置找到方法的详细信息以及合成数据集：

E2E-MLT-用于多语言场景文本的不受约束的端到端方法：https：//arxiv.org/abs/1801.09919

测试集：与任务1相同的测试集。

使用条款

“多语言场景文本检测和脚本识别（MLT）”数据集和相应的注释已根据知识共享署名4.0许可获得许可。

你可能感兴趣的:(深度学习,户外文字识别,中文识别)

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
RTK_ROS_导航(1): GNSS里程计酸奶可乐 RTK导航 ROS ROS RTK 里程计
目录1.RTK配置2.ROS驱动3.RTK融合IMU实现里程计4.纯RTK的定位信息5.即将实现导航，正在更新中，如果遇到问题，欢迎CSDN讨论...1.RTK配置4GCORS+4G网络+户外有信号，不能实现RTK，就恢复出厂设置输出报文信息包含（一般需要三个同时打开）：GAPPA：包含位置信息GPVTG：包含速度信息GPHDT：包含定向的朝向信息扩展内容：NMEA的解析资料：http://byn
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他