别出BUG求求了

【深度学习】机器学习\深度学习常见相关公开数据集汇总（图像处理相关数据集、自然语言处理相关数据集、语音处理相关数据集）

一、前言

1. 介绍

常来说，深度学习的关键在于实践。从图像处理到语音识别，每一个细分领域都有着独特的细微差别和解决方法。

然而，你可以从哪里获得这些数据呢？现在大家所看到的大部分研究论文都用的是专有数据集，这些专有数据集又通常不会公开。那么，想实践那些最新的理论方法往往就成了难题。

如果你也遇到了这样的问题，接下来我们会提供了一系列可用的公开数据集给大家。

在本文中，我们列出了一系列高质量的数据集，每个深度学习爱好者都可以使用这些数据集来提高自己的能力。应用这些数据集将使您成为一名更好的数据科学家，并且您从中获得的东西将在您的职业生涯中具有无可估量的价值。我们还收录了具有当前最好结果（SOTA）的论文，供您浏览并改进您的模型。

2. 如何使用这些数据集？

首先要做的事：这些数据集的规模很大！所以请确保你的网络够快，确保下载没有任何限制。

有很多种方式可以使用这些数据集。比如：你可以使用它们来锻炼你的各种深度学习方法技巧；你可以使用它们来磨练你的技能，了解如何识别和构建每个问题，思考独特的使用案例和公布你的新发现！

数据集分为三类：图像处理相关数据集，自然语言处理相关数据集和语音处理相关数据集。如下：

二、图像处理相关数据集

1. MNIST：

官网：http://yann.lecun.com/exdb/mnist/
MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集，包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集，它可用于在实际数据中尝试学习技术和深度识别模式，并且它花费极少的时间和精力在数据预处理上。
大小：约50 MB
数量： 10个类别，70,000张图片
SOTA：Dynamic Routing Between Capsules

2. MS-COCO

COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点：
- 目标分割
- 上下文关系识别
- 超像素分割
- 330K图像（> 200K已标记）
- 150万个目标
- 80个分类
- 91种目标
- 每张图片5个字幕
- 包含250,000个人（已标记）
官网：https://cocodataset.org/
大小：约25 GB（压缩包）
数量： 330K张图像，80个对象类别，每个图像5个描述，25万个人（已标记）
SOTA： Mask R-CNN

3. ImageNet

ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语，ImageNet平均提供了约1000个图像来说明每个短语。
官网：http://www.image-net.org/
大小：约150GB
数量：图像总数约1,500,000; 每个都有多个边界框和相应的类标签。
SOTA： Aggregated Residual Transformations for Deep Neural Networks

4.Open Images Dataset

Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别，且有图像层级的标注框进行注释。
官网：https://github.com/openimages/dataset
大小： 500 GB（压缩包）
数量： 9,011,219张超过5k标签的图像
SOTA： Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

5.VisualQA

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点：
- 265,016张图片（COCO和抽象场景）
- 每张图片至少有3个问题（平均5.4个问题）
- 每个问题10个基本事实
- 每个问题3个似乎合理（但可能不正确）的答案
- 指标自动评估
官网：http://www.visualqa.org/
大小： 25 GB（压缩包）
数量： 265,016张图片，每张图片至少3个问题，每个问题10个基本事实
SOTA： Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6.The Street View House Numbers (SVHN)

这是一个为训练目标检测算法而“真实”存在的一个图像数据集–来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似，但SVHN包含更多的标记数据（超过600,000个图像）。
官网：http://www.visualqa.org/
大小： 2.5 GB
数量： 10个类别，共6,30,420张图片
SOTA：Distributional Smoothing With Virtual Adversarial Training

7.CIFAR-10

这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成（每个类在上图中表示为一行）。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次（training batches）和1个测试批次（test batches)。每个批次（batch）有10,000个图像。
官网：http://www.cs.toronto.edu/~kriz/cifar.html
大小：170 MB
数量：10个类别，共60,000张图片
SOTA：ShakeDrop regularization

8.Fashion-MNIST

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。
官网：https://github.com/zalandoresearch/fashion-mnist
大小：30 MB
数量：10个类，70,000张图片
SOTA：Random Erasing Data Augmentation

三、自然语言处理相关数据集

1.IMDB Reviews

这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外，还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。
官网：http://ai.stanford.edu/~amaas/data/sentiment/
大小：80 MB
数量：25,000条高质量影评用于训练，25,000条用于测试
SOTA：Learning Structured Text Representations

2.Twenty Newsgroups

顾名思义，该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档，均匀的分布在20个不同的集合。这些文档具有新闻的典型特征：主题，作者和引述。
官网：https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
大小：20 MB
数量：来自20个新闻组的20,000条消息
SOTA：Very Deep Convolutional Networks for Text Classification

3.Sentiment140

Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征：
- 推文的感情色彩（polarity）
- 推文的ID
- 推文的日期
- 查看记录
- 推特（tweeter）的用户名
- 推文的文本内容
- 大小：80 MB（压缩包）
数量：160,000条推文
官网：http://help.sentiment140.com/for-students/
SOTA：Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4.WordNet

在上面的ImageNet数据集中提到，WordNet是一个包含英文synsets的大型数据库。 Synsets是指同义词组，每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。
官网：https://wordnet.princeton.edu/
大小：10 MB
数量：通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。
SOTA：Wordnets: State of the Art and Perspectives

5.Yelp Reviews

这是Yelp（美国最大的点评网站）为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。
官网：https://www.yelp.com/dataset
大小：2.66 GB JSON，2.9 GB SQL and 7.5 GB Photos（全部已压缩）
数量：5,200,000条评论，174,000条商业类型，20万张图片和11个大型城市
SOTA：Attentive Convolution

6.The Wikipedia Corpus

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集–你可以通过单词，短语或段落来进行检索。
官网：http://nlp.cs.nyu.edu/wikipedia-data/%22%20%5Ct%20%22https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/_blank
大小：20 MB
数量：4,400,000篇文章，19亿单词
SOTA：Breaking The Softmax Bottelneck: A High-Rank RNN language Model

7.The Blog Authorship Corpus

此数据集包含来自数千名博主的博文（收集自http://blogger.com）。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。
官网：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm%22%20%5Ct%20%22https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/_blank
大小：300 MB
数量：681,288博文，超过1.4亿单词
SOTA：Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8.Machine Translation of Various Languages

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考：
- 英汉和汉英
- 英语 - 捷克语和捷克语 - 英语
- 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
- 英语 - 芬兰语和芬兰语 - 英语
- 英语 - 德语和德语 - 英语
- 英语 - 哈萨克语和哈萨克语 - 英语
- 英文 - 俄文和俄文 - 英文
- 英语 - 土耳其语和土耳其语 - 英语
大小：约15 GB
官网：http://statmt.org/wmt18/index.html
数量：约30,000,000个句子及其翻译
SOTA：Attention Is All You Need

四、语音处理相关数据集

1.Free Spoken Digit Dataset

此列表中的另一个与MNIST数据集相似的数据集！为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集，并且希望随着人们贡献更多样本来获得持续增长。目前，它包含以下特点：
- 3个录音者
- 1500条录音（每个人每个数字50遍）
- 英式发音
大小：10 MB
官网：https://github.com/Jakobovski/free-spoken-digit-dataset
数量：1500条音频
SOTA：Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2.Free Music Archive (FMA)

FMA是一个音乐分析数据集。数据集由音频（full-length and HQ），预先计算的特征（ pre-computed features）以及音轨和用户级元数据（metadata）组成。它是一个公开数据集，用来评估MIR中的多项任务。以下是其包含的csv文件列表：
- tracks.csv：包含所有（106,574首）曲目的基本信息–ID，标题，艺术家，流派，标签和播放次数。
- genres.csv：163种流派的ID（包含名称和之间的关系）
- features.csv：基本特征（使用librosa提取）。
- echonest.csv：由Echonest（现在的Spotify）为13129首曲目提供的音频特征。
大小：约1000 GB
官网：https://github.com/mdeff/fma
数量：约100,000曲目（tracks）
SOTA：Learning to Recognize Musical Genre from Audio

3.Ballroom

该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点：
- 总数：698
- 单个时长：约30秒
- 总时长：约20940秒
大小：14GB（压缩）
官网：http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
数量：约700个音频样本
SOTA： A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

4.Million Song Dataset

百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是：
- 鼓励对扩展到商业规模的算法进行研究
- 为评估研究提供参考数据集
- 作为使用API创建大型数据集的替代方法（e.g. The Echo Nest）
- 帮助新研究人员在MIR领域开始工作
- 数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频，只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码从7digital等服务器上获取。
大小：280 GB
官网：https://labrosa.ee.columbia.edu/millionsong/
代码：https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital
数量：一百万首歌曲哦！
SOTA： Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

5.LibriSpeech

该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物（audiobooks），且已经过分割、对齐处理。如果您恰好想入门这个领域，请查看已准备好的声学模型（已在kaldi-asr.org和语言模型上进行了训练且适合评估），网址为http://www.openslr.org/11/ 。
官网：http://www.openslr.org/12/
大小：约60 GB
数量：1000小时音频
SOTA： Letter-Based Speech Recognition with Gated ConvNets

6.VoxCeleb

VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡（男性占55％），名人跨越不同的口音、职业和年龄，训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用–区分和识别超级巨星。
大小：150 MB
数量：1,251位名人的100,000条话语
SOTA：VoxCeleb: a large-scale speaker identification dataset

五、Supplement

为了帮助练习，我们还提供了来自DataHack平台，三个更贴近生活的题目（包含问题+数据集）供练手。当然，肯定是深度学习相关，如下：

1.Twitter Sentiment Analysis

含有种族主义和性别歧视言论的推文的处理已成为twitter的难题，那么区分识别这些推文就成了twitter的重要任务。在这个实际问题中，我们提供正常推文与非正常推文两种Twitter数据。你的任务是正确区分这些推文。
官网：https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
大小：3 MB
数量：31,962条推文

2.Age Detection of Indian Actors

对于任何深度学习爱好者来说，这都是一个令人着迷的挑战。该数据集由数千个印度演员的图片组成，你的任务是确定他们的年龄。所有图像都是从视频帧中人工剪切的，这致使尺度，姿态，表情，亮度（illumination），年龄，分辨率，遮挡和妆容具有高度可变性。
官网：https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
大小：48 MB（压缩包）
数量：训练集19,906幅图像和测试集6636幅图像
SOTA： Hands on with Deep Learning – Solution for Age Detection Practice Problem

3.Urban Sound Classification

这个数据集包含超过8000个来自10个类别的城市声音片段。这个实际问题旨在向你介绍对常用分类场景的音频处理。
官网：https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
大小：训练集 - 3 GB（压缩），测试集 - 2 GB（压缩）
数量：10个类别，8732个城市声音片段（单个片段时长<= 4s，已标注）

结束语

如果您知道其他公开数据集，可以告诉我们（说明推荐原因、详细用途等等）。

如果理由充分，我会把它们列入清单。来评论里讨论你们的使用感受吧。深度学习万岁！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
圣诞节后的人气又回来了？好丽友、特斯拉们的生意却不好做| 每周热点汇总饭Sir看天下
新的一年来了大家好，今天是2022年12月26日，星期一，农历十二月初四。这个月，相信我们很多人都遇到了身体不适的情况，饭Sir上周也因为发烧不得不停更了一周，这几天才刚刚恢复，好在这一切最后都能过去。疫情之外，一些好消息也逐渐到来，例如北京等多座大城市在年底的圣诞节期间又恢复了生机，一些迹象也在预示着久违的热闹春节要回来了。但另一方面，明年不确定的经济形势又带来一些不利的消息，不禁让人有些担心。
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr