夏天｜여름이다

数据集 | 基于计算机视觉的医学影像处理数据集

计算机视觉分支-医学影响相关数据集概况。

1.MIMIC-III (The Medical Information Mart for Intensive Care III)

重症监护医疗信息集市 III ( MIMIC-III ) 数据集是一个大型、去标识化和公开可用的医疗记录集合。数据集中的每条记录都包含 ICD-9 代码，用于识别诊断和执行的程序。每个代码都被划分为子代码，这些子代码通常包括特定的环境细节。该数据集由 112,000 条临床报告记录（平均长度 709.3 个标记）和 1,159 个顶级 ICD-9 代码组成。每个报告平均分配到 7.6 个代码。数据包括生命体征、药物、实验室测量值、护理提供者绘制的观察结果和注释、体液平衡、程序代码、诊断代码、成像报告、住院时间、生存数据等。

2.CheXpert

大型标记数据集推动了深度学习方法在各种医学成像任务上实现专家级性能。我们展示了 CheXpert，这是一个包含 65,240 名患者的 224,316 张胸片的大型数据集。我们设计了一个标记器来自动检测放射学报告中是否存在 14 个观察结果，从而捕获射线照片解释中固有的不确定性。我们研究了使用不确定性标签训练卷积神经网络的不同方法，这些网络在给定可用的正面和侧面射线照片的情况下输出这些观察的概率。在由 3 名董事会认证的放射科医师手动注释的 200 项胸部放射学研究的验证集上，我们发现不同的不确定性方法对不同的病理有用。然后，我们在一个测试集上评估我们的最佳模型，该测试集由 500 个胸部放射学研究组成，由 5 位董事会认证的放射科医师共识注释，并将我们的模型与另外 3 位放射科医师在检测 5 种选定病理方面的表现进行比较。在心脏肥大、水肿和胸腔积液中，模型 ROC 和 PR 曲线位于所有 3 个放射科医师操作点之上。我们将数据集作为标准基准向公众发布，以评估胸片判读模型的性能。该数据集可在 https://stanfordmlgroup.github.io/competitions/chexpert 免费获得。在心脏肥大、水肿和胸腔积液中，模型 ROC 和 PR 曲线位于所有 3 个放射科医师操作点之上。我们将数据集作为标准基准向公众发布，以评估胸片判读模型的性能。该数据集可在 https://stanfordmlgroup.github.io/competitions/chexpert 免费获得。在心脏肥大、水肿和胸腔积液中，模型 ROC 和 PR 曲线位于所有 3 个放射科医师操作点之上。我们将数据集作为标准基准向公众发布，以评估胸片判读模型的性能。该数据集可在 https://stanfordmlgroup.github.io/competitions/chexpert 免费获得。

3.DRIVE（用于血管提取的数字视网膜图像）

用于血管提取的数字视网膜图像( DRIVE ) 数据集是用于视网膜血管分割的数据集。它由总共 40 张 JPEG 彩色眼底图像组成；其中病理异常7例。这些图像来自荷兰的糖尿病视网膜病变筛查项目。图像是使用佳能 CR5 非散瞳 3CCD 相机获得的，FOV 等于 45 度。每个图像分辨率为 584*565 像素，每个颜色通道（3 个通道）有 8 位。

这组 40 幅图像平均分为 20 幅图像作为训练集和 20 幅图像作为测试集。在这两个集合中，对于每个图像，都有一个直径约为 540 像素的圆形视场 (FOV) 掩模。在训练集中，对于每张图像，已经应用了由眼科专家进行的一次手动分割。在测试集中，对于每个图像，两个不同的观察者应用了两个手动分割，其中第一个观察者分割被接受为性能评估的基本事实。

数据集下载地址：Introduction - Grand Challenge

数据

25_training：色素上皮改变，可能是蝶形黄斑病变伴中央凹色素性瘢痕，或脉络膜病变，无糖尿病视网膜病变或其他血管异常。
26_training：背景糖尿病视网膜病变、色素上皮萎缩、视盘周围萎缩
32_training：背景糖尿病视网膜病变

03_test：背景糖尿病视网膜病变
08_test：色素上皮变化、中央凹色素性瘢痕或脉络膜病变、无糖尿病视网膜病变或其他血管异常14_test：背景糖尿病视网膜病变 17_test：背景糖尿病视网膜病变

每个图像都经过 JPEG 压缩。

使用具有 45 度视场 (FOV) 的佳能 CR5 非散瞳 3CCD 相机获取图像。每个图像是使用 8 位每个颜色平面以 768 x 584 像素捕获的。每个图像的 FOV 是圆形的，直径约为 540 像素。对于此数据库，图像已在 FOV 周围裁剪。对于每个图像，都提供了一个描述 FOV 的掩码图像。

这组 40 张图像分为训练集和测试集，均包含 20 张图像。对于训练图像，可以对脉管系统进行单次手动分割。对于没有注释的测试用例，您将能够将您的预测提交到该站点并将它们与黄金标准进行比较。此外，每个视网膜图像都有一个掩模图像，指示感兴趣的区域。所有手动分割脉管系统的人类观察者均由经验丰富的眼科医生指导和培训。他们被要求标记他们至少 70% 确定它们是容器的所有像素。

4.fastMRI(快速磁共振成像)

fastMRI数据集包括两种类型的 MRI 扫描：膝关节 MRI 和大脑（神经）MRI，并包含训练、验证和掩蔽测试集。NYU Langone 提供的去识别成像数据集包含几个子数据集组中的原始 k 空间数据。这些数据的管理是 IRB 批准的研究的一部分。原始数据和 DICOM 数据已分别通过转换为与供应商无关的 ISMRMD 格式和 RSNA 临床试验处理器进行去识别化。此外，通过对元数据和图像内容的抽查，手动检查每个 DICOM 图像是否存在任何意外的受保护健康信息 (PHI)。 膝关节核磁共振：从 3 和 1.5 特斯拉磁体获得的 1,500 多个完全采样的膝关节 MRI 的数据和来自 3 或 1.5 特斯拉的 10,000 个临床膝关节 MRI 的 DICOM 图像的数据。原始数据集包括有和没有脂肪抑制的冠状质子密度加权图像。DICOM 数据集包含带和不带脂肪抑制的冠状质子密度加权、带脂肪抑制的轴向质子密度加权、矢状质子密度和带脂肪抑制的矢状 T2 加权。 脑核磁共振成像：来自 6,970 个完全采样的脑核磁共振成像数据，这些数据是在 3 和 1.5 特斯拉磁体上获得的。原始数据集包括轴向 T1 加权、T2 加权和 FLAIR 图像。一些 T1 加权采集包括造影剂的入院。

5.ChestX-ray14

ChestX-ray14是一个医学成像数据集，包含 30,805 名（从 1992 年到 2015 年收集的）独特患者的 112,120 张正面 X 射线图像，具有文本挖掘的 14 个常见疾病标签，这些标签是通过 NLP 从文本放射学报告中挖掘出来的技巧。它通过增加六种额外的胸部疾病来扩展 ChestX-ray8：水肿、肺气肿、纤维化、胸膜增厚和疝气。

6.LIDC-IDRI

LIDC -IDRI数据集包含来自四位经验丰富的胸部放射科医师的病变注释。LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

7.CORD-19

CORD-19 是一个免费资源，包含数万篇关于 COVID-19、SARS-CoV-2 和相关冠状病毒的学术文章，供全球研究界使用。

8.BraTS 2018

BraTS 2018是一个数据集，提供由医生注释的多模态 3D 脑 MRI 和地面实况脑肿瘤分割，每个病例由 4 种 MRI 模态（T1、T1c、T2 和 FLAIR）组成。注释包括 3 个肿瘤亚区——增强肿瘤、瘤周水肿、坏死和非增强肿瘤核心。注释被组合成 3 个嵌套的子区域——整个肿瘤 (WT)、肿瘤核心 (TC) 和增强肿瘤 (ET)。使用各种 MRI 扫描仪从 19 个机构收集数据

9.STARE（视网膜结构分析）

STARE（视网膜结构化分析）数据集是用于视网膜血管分割的数据集。它包含 20 个相同大小 (700×605) 的彩色眼底图像。对于每个图像，提供了两组注释。

10.GENIA

GENIA语料库是在 GENIA 项目范围内编译和注释的生物医学文献的主要集合。该语料库的创建是为了支持分子生物学领域信息提取和文本挖掘系统的开发和评估。

该语料库包含 1,999 个 Medline 摘要，使用 PubMed 查询选择了三个 MeSH 术语“人类”、“血细胞”和“转录因子”。语料库已经用不同级别的语言和语义信息进行了注释。

GENIA 语料库和相应子语料库中的主要注释类别是：

词性注释
选区（短语结构）句法注释
术语注释
事件注释
关系注解
共指注解

11.LUNA

LUNA挑战赛使用最大的公开可用的胸部 CT 扫描参考数据库 LIDC-IDRI 数据集为自动结节检测算法提供数据集。在LUNA16中，参与者开发他们的算法并在以下两个轨道之一上传他们对 888 CT 扫描的预测：1）应开发完整 CAD 系统的完整结节检测轨道，或 2）提供的一组假阳性减少轨道的结节候选者应分类。

12.HAM10000

HAM10000是一个包含 10000 张训练图像的数据集，用于检测色素性皮肤病变。作者收集了来自不同人群的皮肤镜图像，通过不同的方式获取和存储。

13.LUNA16

LUNA16 （肺结节分析）数据集是用于肺分割的数据集。它由 1,186 个肺结节组成，在 888 次 CT 扫描中进行了注释。

14.Kvasir-SEG

Kvasir-SEG 是一个开放获取的胃肠息肉图像和相应分割掩码的数据集，由医生手动注释，然后由经验丰富的胃肠病学家验证。

15.BraTS 2017

BRATS2017 数据集。它包含 285 次脑肿瘤 MRI 扫描，每次扫描有四种 MRI 模式，即 T1、T1ce、T2 和 Flair。该数据集还提供脑肿瘤的完整掩码，带有 ED、ET、NET/NCR 的标签。分割评估基于三个任务：WT、TC 和 ET 分割。

16.ChestX-ray8

ChestX-ray8是一个医学成像数据集，包含 32,717 名（从 1992 年到 2015 年收集的）独特患者的 108,948 张正面 X 射线图像，具有文本挖掘的八个常见疾病标签，通过 NLP 从文本放射学报告中挖掘出来技巧。

论文地址：2017 https://arxiv.org/pdf/1705.02315v5.pdf

数据集下载地址：https://nihcc.app.box.com/v/ChestXray-NIHCC

17.3D-ircadb-01

3D-IRCADb-01 数据库由 10 名女性和 10 名男性 75% 的肝肿瘤患者的 3D CT 扫描组成。 20个文件夹对应20个不同的患者，可以单独下载也可以联合下载。下表提供了图像信息，例如肝脏大小（宽度、深度、高度）或根据 Couninaud 分割的肿瘤位置。它还表明肝脏分割软件可能遇到的主要困难是由于与邻近器官的接触、肝脏的非典型形状或密度，甚至图像中的伪影。

这些文件夹被称为“ 3D-IRCADb-1- number ”（数字在 01 和 20 之间变化）。这些文件夹被称为“ 3D-IRCADb- 01- number ”（数字在 01 和 20 之间变化）。每个“ 3D-IRCADb-01- number ”文件夹包含 4 个子文件夹，分别称为“ PATIENT_DICOM ”、“ LABELLED_DICOM ”、“ MASKS_DICOM ”和“ MESHES_VTK ””。这些文件夹分别包含 DICOM 格式的匿名患者图像、对应于 DICOM 格式分割的各个感兴趣区域的标记图像、一组新的子文件夹，这些子文件夹对应于包含 DICOM 图像的各个分割感兴趣区域的名称每个掩码，最后是与 VTK 格式的各个感兴趣区域的表面网格对应的所有文件。

论文地址：http://www-sop.inria.fr/geometrica/events/wam/abstract-ircad.pdf

数据集下载地址：Liver segmentation – 3D-ircadb-01 - IRCAD

下载压缩后如图：

每个文件夹里包含

- LABLLED_DICOM.ZIP:

- LICENSE.txt

- liver_01.jpg

- MASKS_DICOM.zip

- MESHES_VTK.ZIP

- PATIENT_DICOM.zip

.vtk结尾的：VTK是使用C++编写的，一种3D文件类型

18.Bitewing Radiology 数据集

龋齿是一种可传播的牙齿细菌性疾病，会破坏牙齿的结构。牙医主要根据 X 光片来诊断和治疗龋齿。虽然龋齿是一种疾病过程，但该术语通常用于描述射线照相射线可透性。射线照相检查可以提高对龋齿脱矿的最早迹象的检测和诊断。自动龋病检测技术为牙科医生提供潜在的诊断数据，并帮助识别各种疾病的迹象。然而，用于放射照相龋齿诊断的准确和客观的方法却很少被探索。因此，这项挑战的目的是研究在咬翼射线照相中检测龋齿的可能的自动化方法。从 120 名患者中收集了 120 张咬翼图像。在第 1 阶段，我们将在研讨会前发布 40 张带有地面实况数据的图像作为训练数据和 40 张图像作为测试1 数据。在第 2 阶段，将发布 40 张 Test2 数据图像用于现场比赛。

数据集下载地址：Bitewing Radiology Dataset | Bifrost Data Search

参考文献

17.Soler, L., A. Hostettler, V. Agnus, A. Charnoz, J. Fasquel, J. Moreau, A. Osswald, M. Bouhadjar, and J. Marescaux. “3D image reconstruction for comparison of algorithm database: A patient specific anatomical and medical image database.” IRCAD, Strasbourg, France, Tech. Rep (2010)

深度学习模型：原理、应用与代码实践 accurater c++算法笔记人工智能深度学习
引言深度学习作为人工智能的核心技术，已在图像识别、自然语言处理、代码生成等领域取得突破性进展。其核心在于通过多层神经网络自动提取数据特征，解决复杂任务。本文将从基础理论、模型架构、优化策略、应用场景及挑战等多个维度展开，结合代码示例，系统解析深度学习模型的技术脉络与实践方法。一、深度学习基础理论神经网络基本原理神经网络由输入层、隐藏层和输出层构成，通过反向传播算法调整权重。以全连接网络为例，前向传
MySQL存储结构胖虎是只mao MySQL 数据库 mysql 哈希表数组二叉树
背景：为什么数据库存储使用b+树而不是二叉树，因为二叉树树高过高，每次查询都需要访问过多节点，即访问数据块过多，而从磁盘随机读取数据块过于耗时。1.表存储结构单位：表>段>区>页>行在数据库中，不论读一行，还是读多行，都是将这些行所在的页进行加载。也就是说存储空间的基本单位是页。一个页就是一棵树B+树的节点，数据库I/O操作的最小单位是页，与数据库相关的内容都会存储在页的结构里。2.B+树索引结构
Java面试专业技能怎么写_Java面试——专业技能靳天羽 Java面试专业技能怎么写
目录一、简单讲下Java的跨平台原理二、装箱与拆箱三、实现一个拷贝文件的工具类使用字节流还是字符流四、介绍下线程池五、JSP和Servlet有哪些相同点和不同点六、简单介绍一下关系数据库三范式七、Mysql数据库的默认的最大连接数八、说一下Mysql和Oracle的分页九、简单讲一下数据库的触发器的使用场景十、简单讲一下数据库的存储过程的使用场景十一、简单介绍一下Activiti十二、编写一个Se
用于网络安全的生成式 AI：利用 AI 增强威胁检测和响应云上笛暮 AI for Security 人工智能
一、引言技术的进步彻底改变了我们的生活、工作和交流方式。然而，随着这些技术的进步，保护它们免受网络威胁的挑战也随之而来。网络安全已成为任何组织的重要组成部分，随着网络攻击越来越复杂，传统的威胁检测和响应方法已不再足够。这导致了生成人工智能等新技术的发展，这些技术在增强网络安全方面显示出巨大潜力。在这篇博客中，我们将探讨生成式人工智能的概念、它在网络安全中的重要性，以及它如何用于增强威胁检测和响应。
【TVM 教程】使用元组输入（Tuple Inputs）进行计算和归约编译器编程后端人工智能深度学习
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：ZihengJiang若要在单个循环中计算具有相同shape的多个输出，或执行多个值的归约，例如argmax。这些问题可以通过元组输入来解决。本教程介绍了TVM中元组输入的用法。from__future__importabsolut
深度解构：DeepSeek大模型架构与前沿应用的未来探秘威哥说编程架构 ai
随着人工智能（AI）领域的快速发展，深度学习模型逐渐向着更加复杂和强大的方向演进。在这一波技术浪潮中，DeepSeek大模型作为一个重要代表，凭借其卓越的表现和广泛的应用，正在重新定义我们对AI的认知和期待。本篇文章将从架构到应用，全面解析DeepSeek大模型的技术特点，探索其在未来可能带来的创新与变革。1.DeepSeek大模型的架构设计DeepSeek大模型采用的是基于Transformer
RV1126笔记六：人脸识别方案＜四＞殷忆枫 RV1126项目实战人工智能
若该文为原创文章，转载请注明原文出处。一、介绍人脸识别方案设计逻辑流程图，方案代码分为分为三个业务流程，主体代码负责抓取、合成图像，算法代码负责人脸识别功能。通过摄像头实时采集数据，识别人脸，并提取人脸特征，把特征值和数据库对比后，把名字合合到图像上，通过自带的RTSP库推流，在PC端播放。二、流程图说明：程序初始化后，创建了三个线程：线程一、循环获取VI数据，实时检测人脸，识别人脸，提取特征值，
老榕树的Java专题：XA的二阶提交程序员_老榕树树哥java专题：从0到1 java 开发语言
XA（二阶提交）执行原理准备阶段（PreparePhase）事务协调者（TransactionCoordinator，TC）向所有参与事务的资源管理器（ResourceManager，RM）发送准备请求。例如，在一个包含数据库A和数据库B的分布式事务中，TC会分别向管理数据库A和数据库B的RM发送准备消息。RM接收到准备请求后，会执行本地事务操作，但并不提交。它会将事务执行过程中涉及的数据修改记录
老榕树的Java专题：如何连接达梦数据库到idea 程序员_老榕树树哥java专题：从0到1 java 数据库 intellij-idea
安装达梦数据库JDBC驱动下载驱动：首先需要从达梦官方网站下载适用于Java的JDBC驱动程序（一般是一个JAR文件，文件名类似dm-jdbc-driver.jar），确保下载的版本与你要连接的DM数据库版本相匹配。添加驱动到项目：在IDEA中，可以通过以下几种方式添加驱动到项目依赖中：项目结构配置：点击“File”->“ProjectStructure”->“Libraries”，在“Libra
T41LQ专为人工智能物联网（AIoT）应用设计，适用于智能安防、智能家居、机器视觉等领域软硬件资料+样品测试 li15817260414 君正人工智能物联网智能家居
君正（Ingenic）T系列芯片涵盖多个型号，每个型号根据不同应用需求提供了多个版本。以下是各型号及其主要版本：1.T23系列：T23N：标准版，适用于移动摄像机、安全监控、视频通话和视频分析等应用。T23ZN：佐罗标准版，功能与T23N类似，针对特定市场需求进行了优化。2.T31系列：T31L：简化版，适用于对成本和功耗有严格要求的应用场景。T31N：标准版，适用于广泛的智能视频应用。T31X：
PingCAP 连续两年入选 Gartner 云数据库管理系统魔力象限“荣誉提及” TiDB_PingCAP 数据库 tidb 开源分布式
近日，全球IT市场研究和咨询公司Gartner®发布最新报告《MagicQuadrant™forCloudDatabaseManagementSystems》（云数据库管理系统魔力象限），PingCAP因其企业级开源分布式数据库TiDB在全球市场的表现，连续两年入选“荣誉提及”。报告深入分析了云数据库的发展趋势和市场需求，聚焦于“愿景完整性”和“执行能力”两大关键维度，通过15项核心指标对全球领先
人工智能生成内容（AIGC）对程序员的影响 AmHardy AIGC 人工智能 AIGC 程序员 chatgpt kimi
人工智能生成内容（AIGC）对程序员的影响引言AIGC技术正在深刻影响软件开发行业，给程序员带来诸多机遇和挑战。程序员不仅需要适应这些新兴技术，还要有效利用它们来提升自己的工作效率和创新能力。AIGC技术的优势效率提升代码生成:AI工具如GitHubCopilot可以预测代码片段、自动完成代码和生成文档，从而显著提升编程效率。自动化测试:AI可以自动生成测试用例和检测代码中的潜在问题，减少了手动测
海量数据融合互通丨TiDB 在安徽省住房公积金监管服务平台的应用实践 TiDB_PingCAP tidb htap 分布式
导读安徽省住房公积金监管服务平台通过整合全省17家公积金中心的数据，致力于实现数据共享、规范化管理与高效数据分析。为了应对海量数据处理需求，安徽省选择TiDB作为底层数据库，利用其分布式架构和HTAP能力，实现了快速的数据分析与治理。TiDB的高效性能提升了平台的数据处理能力和查询效率，为全省公积金数据的统一管理与共享提供了有力支持。本文将详细介绍TiDB在平台中的应用与实际效果，以及TiDB如何
Redis 持久化配置：保障数据安全与可恢复性艾斯比的日常 redis 数据库缓存
Redis持久化配置：保障数据安全与可恢复性引言在现代的应用开发中，Redis作为一款高性能的内存数据库，被广泛应用于缓存、消息队列、分布式锁等场景。然而，由于数据存储在内存中，一旦服务器重启、断电或者出现其他异常情况，内存中的数据就会丢失。为了解决这个问题，Redis提供了持久化机制，允许将内存中的数据保存到磁盘上，以便在需要时进行恢复。本文将详细介绍Redis的持久化配置，帮助你更好地保障数据
【路径规划】基于A算法和Dijkstra算法的路径规划附Python代码天天Matlab科研工作室无人机matlab仿真电子资源算法 python 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍路径规划作为人工智能和机器人技术领域的核心问题之一，在导航、交通运输、游戏开发等领域有着广泛的应用。解决路径规划问题，旨在找到一条从起始点到目标点，并满足特定约束条件（如最短
【AI】如何理解与应对AI中的敏感话题：详细分析与实用指南丶2136 AI 人工智能 AI 敏感话题
引言随着人工智能（AI）技术的不断发展，我们在与AI交互时，可能会遇到敏感话题的讨论限制。在许多情况下，AI系统为了避免触及社会、政治或文化敏感点，会对用户输入进行一定的筛选和过滤。那么，这些敏感话题是如何定义的，AI如何识别并避免这些话题，以及作为开发者和用户，我们该如何应对这一问题？本文将详细探讨这些问题，并通过表格、图示等方式帮助大家更好地理解。目录引言一、AI中的敏感话题分类与处理策略1.
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
智能算法安全优化与关键技术实践智能计算研究中心其他
内容概要智能算法的安全优化与关键技术实践已成为人工智能发展的核心命题。在医疗影像分析、金融风控、自动驾驶等场景中，联邦学习的分布式协作机制有效解决了数据孤岛问题，而生成对抗网络通过对抗训练增强数据生成能力，为小样本场景提供技术支撑。与此同时，可解释性算法通过特征重要性分析与决策路径可视化，显著提升模型透明度，降低黑箱风险。在技术实现层面，特征工程的自动化筛选与超参数动态调整策略优化了模型性能，结合
NL2SQL技术方案系列(5)：金融领域NL2SQL技术方案以及行业案例实战讲解3--非LLM技术方案汀、人工智能 LLM工业级落地实践 prompt 人工智能大语言模型 NL2SQL Text2SQL
NL2SQL技术方案系列(5)：金融领域NL2SQL技术方案以及行业案例实战讲解3NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLco
NL2SQL技术方案系列(1)：NL2API、NL2SQL技术路径选择；LLM选型与Prompt工程技巧，揭秘项目落地优化之道汀、人工智能 LLM工业级落地实践 prompt 人工智能大语言模型 NL2SQL Text2SQL AI大模型自然语言处理
NL2SQL技术方案系列(1)：NL2API、NL2SQL技术路径选择；LLM选型与Prompt工程技巧，揭秘项目落地优化之道NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶
NL2SQL进阶系列(2)：DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL] 汀、人工智能 LLM工业级落地实践 gpt 人工智能深度学习大语言模型 sql NL2SQL Text2SQL
NL2SQL进阶系列(2)：DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL任务的目标是将用户对某个数据库的自然
Oracel DG安装指南一直在路上的码农运维数据库 #Oracle oracle 数据库运维
1.文档介绍本实施方案主要对OracleDataGuard实施部署作相应的说明。以便实施人员能根据当前业务特点，规划、建设符合高可用、高可靠的数据库集群系统。具体由OracleDG环境拓扑、Oracle单机数据库规划部分构成！2.OracleDataGuard介绍2.1DataGuard环境拓展2.2DataGuard特点数据库服务器采用DATAGUARD灾备模式，可以满足对可用性有特殊需求的应用
R语言获取数据——手工输入数据蜗牛数据分析 R语言从入门到实战 r语言开发语言
在R语言中获取数据集的方法有多种，例如读取Excel文件、数据库中的文件，而当我们没有这些渠道能够获取到数据集时，也可以手工输入数据，即通过键盘输入数据，它是获取数据集的最简单方法。另外，还可以在代码中直接输入数据，下面分别进行介绍。数据编辑器R提供了内置的数据编辑器，通过edit()函数调用该编辑器就可以实现手工输入数据。举例1：通过数据编辑器创建学生成绩表下面实现“学生成绩表”，具体步骤如下：
深度学习系列71：表格检测和识别 IE06 深度学习系列深度学习人工智能
1.pdf处理如果是可编辑的pdf格式，那么可以直接用pdfplumber进行处理：importpdfplumberimportpandasaspdwithpdfplumber.open("中新科技：2015年年度报告摘要.PDF")aspdf:page=pdf.pages[1]#第一页的信息text=page.extract_text()print(text)table=page.extract
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统 kakaZhui 解码前沿多模态大模型：认知分析和工业级实战 python 开发语言 AIGC 人工智能 chatgpt
写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。然而，传统的语音交互系统往往采用“语音识别（ASR）-自然语言理解（NLU）-对话管理（DM）-自然语言生成（NLG）-语音合成（TTS）”的级联式架构，这种架构存在着诸多弊端，如：错误累积：每个模块的错误都会传递到下一个模块，导致最终结果
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
修改mysql数据库远程访问 LongtengGensSupreme mysql
本文是docker部署的mysql8.0数据库，如果不是docker二部署的，则省略第一步直接使用下面修改即可1、使用docker容器，进入mysql8.0数据库的docker容器进行修改dockerexec-itmysqldocker/bin/bash2、登录MySQLmysql-uroot-p进入`mysql数据库：usemysql;修改user表中的host字段，将localhost改为%（
leetcode-sql数据库面试题冲刺（高频SQL五十题）我想吃烤肉肉 sql 测试面试数据库 leetcode sql
题目：1581.进店却未进行过交易的顾客表：Visits±------------±--------+|ColumnName|Type|±------------±--------+|visit_id|int||customer_id|int|±------------±--------+visit_id是该表中具有唯一值的列。该表包含有关光临过购物中心的顾客的信息。表：Transactions±
PyTorch 深度学习快速入门教程有人给我介绍对象吗 AI论文写作深度学习 pytorch 人工智能
PyTorch深度学习快速入门教程PyTorch是一个灵活且易用的深度学习框架，支持动态图计算，广泛用于学术研究和工业应用。本教程将带你快速掌握PyTorch的基本用法，涵盖张量（Tensor）操作、自动求导（Autograd）、构建神经网络以及模型训练。1.安装PyTorch在终端或命令行中运行以下命令安装PyTorch：pipinstalltorchtorchvisiontorchaudio安
解锁YashanDB高效查询的关键功能 Group by分组数据库
作者介绍黄靖东YashanDB资深研发工程师01前言在数据库领域，高效的数据处理能力是开发者的必备技能。Groupby分组操作的运用关系到SQL查询性能的优劣。面向不同的业务场景，会有不同的分组优化策略，本文旨在深度剖析各类复杂业务场景下，如何选择高效的Groupby分组策略，帮助突破数据处理瓶颈，实现分组效率的快速提升。02分组的概念Groupby子句是对一个表达式或者多个表达式进行分组，并对分
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1