isuccess88

机器学习模型开发必读：开源数据库最全盘点

机器学习模型开发必读：开源数据库最全盘点

开发 AI 和机器学习系统从来没有像现在这样方便。类似于 TensorFlow、Torch 和 Spark 这样的开源工具，在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力，将来使用笔记本电脑来训练 ML 模型或许不再难以想象。

公众对 AI 的遐想，总忽视了数据的角色。但海量被标记、注解过的数据，是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构，均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型，是加速 AI 技术发展的必要措施。

但就雷锋网所知，大多数涉及机器学习和 AI 的产品依赖于专有数据库（ proprietary datasets）。它们大多是不被公开的，以保护知识产权以及防范安全风险。

即便你幸运地找到了相关公共数据库，判断后者的价值和可靠程度，又是一项让很多开发者头痛的问题。对于概念论证是如此；对于潜在的产品或者特性验证同样如此——在收集你的专有数据之前，决定该验证需要何种数据集。

有经验的开发者都知道，机器学习系统在样本数据集上展示出的优异性能，并不能保证其实际效果。许多 AI 从业人员似乎已经忘记了，数据采集和标记才是开发 AI 解决方案最难的一环。标准的数据集，可被用作验证集，或作为开发更偏向私人订制方案的起始点。

本周，Vai Technologies 的创始人、前斯坦福 SLAC 实验室 CNN 算法架构师 Luke de Oliveira，和其他几名机器学习专家谈到了这个问题。雷锋网了解到，他们最后决定做一张表单，把 AI 领域含金量最高的开源数据库罗列出来，与大家分享。

计算机视觉

MNIST

标签：学术基准经典较旧

合理性测试（sanity check）最常用的数据库。规格为 25x25、中心的、B&W 手写数字。用 MNIST 测试非常容易，但不要因为你的模型在 MNIST 运行良好，就认为它事实上可用。

地址：https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100

标签：经典较旧

32x32 彩色图像。虽然用得人比以前少了很多，但仍然能用它做有趣的合理性测试。

地址：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

标签：实用学术基准经典

这个用不着介绍，新算法的首选图像数据集。Luke de Oliveira 表示，许多图像 API 公司从 REST 交互界面搞来的标记，与 ImageNet 1000 目录中的 WordNet 层级很接近，让人怀疑。

地址：http://image-net.org/

LSUN

标签：无

场景理解，许多其它附加任务（比如房间布局预估，显着性预测 “saliency prediction”），以及与之关联的竞赛。

地址：http://lsun.cs.princeton.edu/2016/

PASCAL VOC

标签：学术基准

一般性的图像分割和分类。对于创建现实世界中的图像注解并不是十分有用，但作为基准很不错。

地址：http://host.robots.ox.ac.uk/pascal/VOC/

SVHN

标签：学术基准

谷歌街景视图中的住宅号。可以把它当做野生的递归（ recurrent） MNIST。

地址：http://ufldl.stanford.edu/housenumbers/

MS COCO

标签：无

一般性的图像理解/说明，有相关竞赛。

地址：http://mscoco.org/

Visual Genome

标签：实用

非常细致的视觉知识库，对超过十万张图像有深度注解。

地址：http://visualgenome.org/

Labeled Faces in the Wild

标签：实用学术基准经典较旧

修剪过的面部区域（使用 Viola-Jones），用一个 name identifier 做过标记。其中每一个展示的人在数据集中有两个图像，这是作为他的子集。开发者经常用它来训练面部匹配系统。

地址：http://vis-www.cs.umass.edu/lfw/

自然语言

Text Classification Datasets

标签：实用学术基准

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准，它是最常用的。样本大小为 120K 到 3.6M，包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!，搜狗和 AG 的数据集。

地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

标签：实用学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

标签：实用

Quora 发布的第一个数据集，包含副本/语义近似值标记。

地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

标签：实用学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span，或者一段文本。

地址：https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

标签：无

人工创建的仿真陈述问题/回答组合，还有维基百科文章的难度评分。

地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

标签：实用

为 NLP 研究人工创建的复杂数据集。

地址：https://datasets.maluuba.com/

Billion Words

标签：实用学术基准

大型、通用型建模数据集。时常用来训练散布音（distributed）的词语表达，比如 word2vec 或 GloVe。

地址：http://www.statmt.org/lm-benchmark/

Common Crawl

标签：实用学术基准

PB（拍字节）级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集，是一个比较有用的网络数据集。

地址：http://commoncrawl.org/the-data/

bAbi

标签：学术基准经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址：https://research.fb.com/projects/babi/

The Children's Book Test

标签：学术基准

Project Gutenberg（一项正版数字图书免费分享工程）儿童图书里提取的成对数据（问题加情境，回答）基准。对问答、阅读理解、仿真陈述（factoid）查询比较有用。

地址：https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

标签：学术基准经典较旧

标准的情绪数据集，对每一句话每一个节点的语法树，都有细致的情感注解。

地址：http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

标签：经典较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准，在这方面比较有用。

地址：http://qwone.com/~jason/20Newsgroups/

Reuters

标签：经典较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

标签：经典较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠，让位于更大的数据集。

地址：http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

标签：经典较旧

较老的、经典垃圾邮件数据集，源自于 UCI Machine Learning Repository。由于数据集的管理细节，在学习私人订制垃圾信息过滤方面，这会是一个有趣的基准。

地址：https://archive.ics.uci.edu/ml/datasets/Spambase

语音

大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签：学术基准较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

标签：学术基准

有声图书数据集，包含文字和语音。接近 500 个小时的清楚语音，来自于多名朗读者和多个有声读物，根据图书章节来组织。

地址：http://www.openslr.org/12/

VoxForge

标签：实用学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力，会比较有用。

地址：http://www.voxforge.org/

TIMIT

标签：学术基准经典

只含英语的语音识别数据集。

地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME

标签：实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音：真实，是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音；模拟，是通过把多个环境与语音结合来生成；清晰，是指没有噪音的清楚录音。

地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

标签：无

TED 演讲的音频转录。包含 1495 场 TED 演讲，以及它们的完整字幕文本。

地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推荐和排名系统

Netflix Challenge

标签：经典较旧

第一个 Kaggle 模式的数据挑战。由于盗版问题只能获得非官方版本。

地址：http://www.netflixprize.com/

MovieLens

标签：实用学术基准经典

不同大小的电影点评数据——一般作为协同过滤的基准。

地址：https://grouplens.org/datasets/movielens/

Million Song Dataset

标签：无

Kaggle 上的大型、富含原数据的开源数据集。对于试验混合推荐系统有价值。

地址：https://www.kaggle.com/c/msdchallenge

Last.fm

标签：实用

音乐推荐数据集，并关联相关社交网络和其他元数据。对混合系统有用处。

地址：http://grouplens.org/datasets/hetrec-2011/

网络和图

Amazon Co-Purchasing 和 Amazon Reviews

标签：学术基准

从亚马逊“买了这个的用户还买了XXX”功能抓取的数据，还有相关商品的评价数据。对于试验网络中的推荐系统有价值。

地址：http://snap.stanford.edu/data/#amazon

http://snap.stanford.edu/data/amazon-meta.html

Friendster 社交网络数据集

标签：无

在成为游戏网站之前，Friendster 发布了 103,750,348 名用户朋友名单的匿名数据。

地址：https://archive.org/details/friendster-dataset-201107

地理空间数据

OpenStreetMap

标签：实用

整个地球的矢量数据，处于免费协议下。它的旧版本包含美国人口统计部门的 TIGER 数据。

地址：http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8

标签：实用

整个地球表面的卫星拍照，每隔几周更新一次。

地址：https://landsat.usgs.gov/landsat-8

NEXRAD

标签：实用

多普勒天气雷达对美国大气情况的扫描。

地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

后话

人们经常认为，能在一个数据集上解决问题，就等同于有了一个能用的产品。开发者可以使用这些数据集作为验证集，或用作概念论证；但别忘了测试，或创建模拟产品运行的原型机。获取更新、更真实的数据来改善模型非常关键。雷锋网了解到，成功的数据驱动型公司，往往擅长收集新的专有数据，以及改善产品性能增强竞争优势。而这往往是竞争对手难以直接 copy 的。

原网站：http://www.toutiao.com/i6390620919512957441/

你可能感兴趣的:(机器学习,机器学习,开源数据)

【技海登峰】Kafka漫谈系列（一）Kafka服务集群的核心组件阿阿阿安【独家专栏】知识星球同步专享优质好文 kafka 分布式 java
【技海登峰】Kafka漫谈系列（一）Kafka服务端的核心组件一.Broker完整的Kafka服务是集群Cluster结构，其由多个Kafka服务节点组成，每个物理节点即称为Broker，在实际部署中，每个Broker节点都是一个Kafka实例的服务进程。Broker是Kafka实际的运行单元，负责请求处理、数据同步、存储主题/分区/消费偏移量等元数据信息，多个Broker分布式部署在不同机器上，
你怎么比较MongoDB、CouchDB及CouchBase?思维导图代码示例（java 架构) 用心去追梦 mongodb java 架构
MongoDB、CouchDB和Couchbase是三种流行的NoSQL数据库，它们各自有着独特的设计哲学和技术特点。以下是它们之间的比较，涵盖了架构、数据模型、查询语言、复制机制、扩展性以及其他关键特性。MongoDB、CouchDB及Couchbase比较-思维导图概要您可以创建一个以“MongoDBvs.CouchDBvs.Couchbase”为核心节点的思维导图，并根据以下分类展开：概述简
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
DeepSeek Janus-Pro：多模态AI模型的突破与创新大模型之路大模型（LLM）Deepseek deepseekr1 deepseek LLM 强化学习
近年来，人工智能领域取得了显著的进展，尤其是在多模态模型（MultimodalModels）方面。多模态模型能够同时处理和理解文本、图像等多种类型的数据，极大地扩展了AI的应用场景。DeepSeek(DeepSeek-V3深度剖析：下一代AI模型的全面解读)公司最新发布的Janus-Pro模型，正是在这一领域的一次重大突破。本文将深入探讨Janus-Pro的技术特点、创新之处以及其在多模态任务中的
数据结构：时间复杂度和空间复杂度星迹日数据结构数据结构时间空间复杂度算法
我们知道代码和代码之间算法的不同，一定影响了代码的执行效率，那么我们该如何评判算法的好坏呢？这就涉及到了我们算法效率的分析了。一、算法效率所谓算法效率的分析分为两种：第一种时间效率，又称时间复杂度。第二种空间效率，又称空间复杂度。其中，时间复杂度主要衡量的是一个算法的运行速度，而空间复杂度主要衡量一个算法所需要的额外空间。二、时间复杂度1、概念算法的时间复杂度其实是一个数学函数，它描述了该算法的运
新浪微博签到数据集可视化系列（一）：数据介绍雪山青木微博数据爬取新浪微博 python 爬虫
微博签到是指用户在发布微博内容的同时标记自身位置的行为。微博签到数据不仅反映了用户在特定时间的所处位置，还能体现其活动轨迹、兴趣偏好以及与周围环境的互动关系，具有高频性、实时性等特征，以及蕴含丰富的时间、空间和语义等多维信息，在社会科学、地理信息科学、城市研究、市场营销等领域应用广泛。微博签到数据主要由用户信息、地点（POI）信息与签到微博信息三部分组成，有用户昵称、性别、生日、注册地、IP归属地
密友破解版激活和使用方法 yangshuo1281 密友
前面一篇文章提到了微信密友的使用激活方法，很多网友咨询我具体的安装方法，今天详细介绍一下密友中用到的三个模块的安装方法。总结一下密友安装过程常见问题：1、apk不知道怎么安装解决方案：（1）通过QQ文件助手将微信发给你的三个apk包传输到qq助手里安装，以解决不是.apk结尾的问题（2推荐）这使用电脑用数据线连接手机，通过电脑版微信将三个apk文件保存到本地，然后复制到手机的存储目录里。最后通过手
在 Ubuntu 下通过 Docker 部署 PSQL 服务器明庭服务器 ubuntu docker
嗨，各位技术爱好者！今天我们要聊的是如何在Ubuntu系统中通过Docker部署PostgreSQL（简称PSQL）服务器。对于那些还不熟悉Docker和PSQL的小伙伴，Docker是一个开源的容器化平台，可以让你轻松构建、部署和管理应用。而PostgreSQL是一个功能强大的开源关系数据库管理系统，以其稳定性和强大的功能而闻名。Docker和PSQL简介Docker：通过容器技术，Docker
persistent_homology_cpu.cpython-37m-x86_64-linux-gnu.so: No such file or directory类似问题的解决思路蛐蛐蛐深度学习科研工具 Python技巧 linux 运维服务器
这篇博客也就是简单记录一下。由于工作需要，想尝试一下这篇论文的工作：https://github.com/ljj-cyber/TopoGDN发现很多人真是开源不用脑子，自己也不测试一下（当然不是针对这个作者），只是感觉大家都太不认真了（草台班子太严重）。总结一下遇到的问题：首先，看作者这里介绍：Toinstallthisproject,youneedtoinstallthefollowingPyt
数据结构——时间复杂度 Lamar Carpenter 数据结构计算机408考研数据结构
前言当你拿到一段代码时，你该如何判断这一段代码算法的好坏程度？有的人会说跑一下（运行一下），事后统计运行时间。当然这样确实能够直观的通过看运行程序所花费时间，但是这存在着一些问题：和机器性能有关超级计算机vs单片机（同样的一段代码一定是超级计算机运行的时间更快）和编程语言有关越高级的语言运行的效率越低编译程序产生的机器指令质量有关有些算法不能事后统计导弹控制算法（不能为了统计算法的效率发射一颗导弹
SpringEL 应用场景天狼1222 spring java spring
SpringEL应用场景目录场景一：计算值1，单位的转换把毫秒的值，转换为分钟把bytes的值转成Gb2，数值之间的计算场景：初始化话配置数据初始化数据：进行计算处理：输出：小结：场景二：替换值1，使用SpringEL进行替换：2，另一种替换方式：replaceByStrSubstitutor3，正则表达替换方式：为什么要使用SpringEL?SpringEL可以进行赋值再进行计算，功能还是很强大
Python学习笔记 - 探索正则表达式对象和对象匹配 Mr数据杨 Python 编程基础正则表达式 python 正则 re
在文本处理和数据清洗任务中，正则表达式无疑是一把锋利的“瑞士军刀”。它不仅能够简洁地表达复杂的字符串匹配规则，还可以在各种编程语言中实现高效的文本处理。在Python中，re库提供了强大的正则表达式功能，允许开发者轻松进行模式匹配、数据提取、验证等操作。本教程将深入探讨Python中正则表达式的高级功能，尤其是如何使用正则表达式对象及其方法来高效处理文本。我们将详细讲解如何通过re.compile
因果关系推断与机器学习 hhhh106 读书笔记大数据
因果关系定义设X和Y是两个随机变量。定义X是Y的因，即因果关系X→Y存在，当且仅当Y的取值一定会随X的取值变化而发生变化。两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况：X是Y的因、X是Y的果、X与Y有共同原因(commoncause)。对于第三种情况，我们把这种不是因果关系的相关性叫作虚假相关(spuriouscorrelation)。机器学习模型是强大的
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
Spring源码的模块结构指南冰糖心158 spring java 后端
Spring框架是一个广泛使用的开源框架，主要用于企业级应用开发，特别是在Java生态系统中。Spring的源码结构比较复杂，包含多个模块，每个模块有特定的功能。下面是Spring源码的主要模块结构详细输出：1.SpringCore（核心模块）spring-core:Spring的基础核心库，包含了Spring的核心功能，比如BeanFactory（bean的容器接口）和一些通用的类和工具类。sp
【llm对话系统】大模型 Llama 源码分析之并行训练方案 kakaZhui llama 人工智能 AIGC chatgpt
1.引言训练大型语言模型(LLM)需要巨大的计算资源和内存。为了高效地训练这些模型，我们需要采用各种并行策略，将计算和数据分布到多个GPU或设备上。Llama作为当前最流行的开源大模型之一，其训练代码中采用了多种并行技术。本文将深入Llama的训练代码，分析其并行训练方案，主要关注参数并行和部分结构参数共享。2.并行训练策略概述常见的并行训练策略包括：数据并行(DataParallelism,DP
使用Qdrant进行矢量相似性搜索的实践 hgSdaegva python windows linux
在今天的文章中，我将带你深入了解Qdrant，这是一个生产就绪的矢量相似性搜索引擎，并提供一个便利的API来存储、搜索和管理点。这篇文章重点展示如何使用Qdrant进行自我查询检索，并结合OpenAIEmbeddings进行矢量化处理。技术背景介绍Qdrant是一个专注于矢量相似性搜索的引擎，适用于需要快速检索和过滤的场景。它允许我们通过API轻松地存储和管理矢量数据点，并根据矢量相似性进行高效检
JCR一区级 | Matlab实现蜣螂算法DBO-Transformer-LSTM多变量回归预测 Matlab机器学习之心算法 matlab transformer
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍摘要:水质预测对于环境保护和资源管理至关重要。本文提出了一种基于蜣螂算法(DungBeetleOptimizer,DBO)、DBO-Transformer和LSTM的多变量水质回归预测模型，旨在提高水质参数
使用Elasticsearch和SelfQueryRetriever实现智能电影检索 hgSdaegva elasticsearch jenkins 大数据 python
在当今信息爆炸的时代，快速而准确地检索数据变得尤为重要。Elasticsearch是一个强大的分布式搜索和分析引擎，能够高效地处理大量数据。在这篇文章中，我们将结合Elasticsearch和SelfQueryRetriever，展示如何通过语言模型实现智能电影查询。技术背景介绍Elasticsearch提供多租户能力和无模式的JSON文档存储，广泛应用于全文搜索和分析场景。通过将其与语言模型结合
使用PGVector进行电影文档的向量搜索 hgSdaegva python 开发语言
在本文中，我们将演示如何使用Postgres数据库中的PGVector包来进行向量相似性搜索。具体而言，我们会展示如何使用PGVector创建一个向量存储，并结合自查询检索器（SelfQueryRetriever）来对电影文档集合进行检索。技术背景介绍PGVector是一个针对Postgres数据库的向量相似性搜索插件。它允许我们在数据库中存储向量并进行快速的相似性检索，非常适合于需要进行语义搜索
STLG_07_20_微信小程序开发 - 进阶阶段复习与总结魔都天健小程序微信小程序笔记开发语言
在微信小程序开发的进阶阶段，复习与总结是巩固知识的关键。重点回顾复杂交互设计、性能优化技巧、组件化开发、数据管理与缓存策略，以及与微信生态的深度结合（如支付、分享等）。同时，梳理项目实践中的问题与解决方案，总结框架选择与项目架构经验，关注代码规范与版本管理，提升开发效率与质量。1.核心知识点回顾1.1小程序框架小程序生命周期App生命周期：小程序全局的生命周期函数，例如onLaunch（小程序启动
《Kotlin核心编程》热身篇——Kotlin基础内容总结 Swuagg Kotlin kotlin 开发语言 android
1Kotlin设计哲学目标：更好的Java编程方式：面向对象命令式编程+函数式编程（Scala有包括宏）一些改良：单例模式，data数据类，NPE，可变性，更多的语法糖，类型推导2Kotlin基础语法2.1类型声明类型声明：类型名放在后面方法返回值类型，是否需要显示类型声明：表达式函数体（单行表达式与等号），代码块函数体。需要进行显示类型声明的情况：a、是函数的参数；b、是非表达式定义的函数，返回
OpenAI发布最新推理模型o3-mini Him__ 人工智能 chatgpt Deepseek
OpenAI于周五推出了新的AI"推理"模型o3-mini，这是该公司o系列推理模型家族的最新成员。OpenAI此前在12月份就预告过这个模型，同时还展示了一个能力更强的系统o3。此次发布恰逢OpenAI面临诸多机遇与挑战的关键时刻。目前，OpenAI正在应对外界对其在AI竞赛中可能落后于DeepSeek等中国企业的质疑。与此同时，该公司正在努力巩固与华盛顿的关系，推进其雄心勃勃的数据中心项目，据
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
Qpython+Flask监控添加发送语音中文信息功能 eybk flask python 后端
对Qpython+Flask实现对小孩学习的监控-CSDN博客中html页面进行改造，利用Ajax，提交一段文字，发送到数据库，再在服务器，发送该段文件给手机端，然手机端TTS朗读出来，增加了父母监控小孩学习，自定义提醒小孩的功能。一、index.html的更改。实时**学习情况图//设置定时器，每20秒（20000毫秒）刷新一次页面setInterval(function(){location.
Qwen 模型自动构建知识图谱，生成病例 + 评价指标优化策略 2301_79306982 ai 千问语言模型人工智能
关于数据库和检索方式的选择AIMedicalConsultantforVisualQuestionAnswering(VQA)系统：更适合在前端使用向量数据库（如FAISS）结合关系型数据库来实现图像和文本的检索与存储。因为在VQA场景中，你需要对患者上传的图像或文本症状进行语义向量化，以便快速查找相似病例或相关医学图像内容；同时用关系型数据库维护患者基础信息和简单的交互记录即可。AI-Power
不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码） 2301_79306982 机器学习人工智能 bert transformer
数据处理目标保留emoji和文本的原始形态。分词时不拆分emoji符号，让emoji成为一个完整的Token。确保分词结果与模型兼容，既能表达语义，也能保留emoji的特性。验证代码fromtransformersimportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base",#BERTweet"r
因果推断与机器学习—因果推断入门（1）樱花的浪漫因果推断机器学习人工智能计算机视觉搜索引擎深度学习算法
在机器学习被广泛应用于对人类产生巨大影响的场景（如社交网络、电商、搜索引擎等）的今天，因果推断的重要性开始在机器学习社区的论文和演讲中被不断提及。图灵奖得主YoshuaBengio在对系统2（system2，这个说法来自心理学家DanielKahneman的作品，人类大脑由两套系统构成：系统1负责快速思考，做出下意识的反应；系统2则负责比较耗时的思考，如理解事物之间的因果关系）的畅想中强调，在实现
Python 批量下载 ERA-5 Reanalysis 数据 zhe是我呀数据下载 ERA-5数据下载 python
ECMWF大气再分析数据集ERA-interim已被ERA-5数据集取代，ERA-5详细信息看这里下面介绍下载的具体步骤：1.要下载ERA-5数据集，需要先注册一个CDS账号。登录之后进入ClimateDataStoreAPI页面复制自己的key和url，如下图2.创建.cdsapirc文件，windows系统就是自己的用户目录下面，linux就是根目录，内容为自己的key和url，示例如下图
【MySQL】探索 MySQL 中的 NVL：使用 IFNULL 和 COALESCE 实现音乐学家方大刚 MySQL mysql android 数据库
缘分让我们相遇乱世以外命运却要我们危难中相爱也许未来遥远在光年之外我愿守候未知里为你等待我没想到为了你我能疯狂到山崩海啸没有你根本不想逃我的大脑为了你已经疯狂到脉搏心跳没有你根本不重要邓紫棋《光年之外》什么是NVL？NVL是SQL中常用的一个函数，最早出现在Oracle数据库中，用于替换NULL值。具体来说，NVL函数接受两个参数，如果第一个参数为NULL，则返回第二个参数；否则，返回第一个参数。
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他