长路漫漫2021

sklearn中的datasets数据集

        sklearn的数据集库datasets提供很多不同的数据集，主要包含以下几大类：
        1. 通用数据集
        2. 真实世界中的数据集
        3. 样本生成器
        4. 样本图片
        5. svmlight或libsvm格式的数据
        6. 从http://openml.org下载的数据
        7. 从外部加载的数据

用的比较多的就是1和3，这里进行主要介绍，其他的会进行简单介绍，但是不建议使用。

1 简介

1.1 加载数据集

加载获取流行数据集

datasets.load_*()

获取小规模数据集，数据包含在datasets里

datasets.fetch_*(data_home=None)

获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/

1.2 获取数据集返回的类型

load和fetch返回的数据类型datasets.base.Bunch(字典格式)

data：特征数据数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组
target：标签数组，是 n_samples 的一维 numpy.ndarray 数组
DESCR：数据描述
feature_names：特征名，新闻数据，手写数字、回归数据集没有
target_names：标签名，回归数据集没有

例子：

from sklearn.datasets import load_iris

iris_dataset = load_iris()
print("获取特征值")
print(iris_dataset.data[:5])
print("获取目标值")
print(iris_dataset.target[:5])
print('iris数据集的描述')
print(iris_dataset.DESCR)

1.3 数据集进行分割

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%
测试集：30% 20% 30%

sklearn.model_selection.train_test_split(arrays, *options)

x 数据集的特征值
y 数据集的标签值
test_size 测试集的大小，一般为float
random_state随机数种子，不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return 训练集特征值，测试集特征值，训练标签，测试标签(默认随机取)

from sklearn.model_selection import train_test_split
# 注意返回值 训练集 测试集顺序不能乱
x_train, x_test, y_train, y_test = train_test_split(iris_dataset.data, iris_dataset.target, test_size=0.25)
print('训练集特征值和目标值:',x_train,y_train)
print('测试集特征值和目标值:',x_test,y_test)

1.4 查看数据集分布

seaborn.lmplot()是一个非常有用的方法，它会在绘制二维散点图时，自动完成回归拟合

sns.lmplot() 里的 x, y 分别代表横纵坐标的列名,
data= 是关联到数据集,
hue=*代表按照 species即花的类别分类显示,
fit_reg=是否进行线性拟合。默认进行线性拟合

%matplotlib inline
# 内嵌绘图
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
iris_d = pd.DataFrame(iris_dataset['data'], columns=['Sepal_Length', 'Sepal_width', 'Petal_Length', 'Petal_Width'])     # 列名
iris_d['Species'] = iris_dataset.target

def plot_iris(iris, col1, col2):
    sns.lmplot(x = col1, y = col2, data = iris, hue = "Species", fit_reg = False)
    plt.xlabel(col1)
    plt.ylabel(col2)
    plt.title("鸢尾花种类分布图")
    plt.show()
plot_iris(iris_d, 'Petal_Width', 'Sepal_Length')

2 通用数据集

2.1 波士顿房价

波士顿房价数据集包含506组数据，每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此，波士顿房价数据集能够应用到回归问题上。

这里是波士顿房价数据集的部分房价数据信息展示：例如：NOX这个属性代表一氧化氮的浓度，RM这个属性代表的是住宅的平均房间数；

可以通过使用sklearn.datasets.load_boston即可加载相关的数据集；

重要参数：return_X_y：表示是否返回target(即价格)，默认为False, 只返回data(即属性)。

示例：

from sklearn.datasets import load_boston

boston = load_boston()
print(boston.data.shape)        # (506, 13)
print(boston.target.shape)      # (506,)

当return_X_y设置为True的时候：load_boston同时返回data和target

data, target = load_boston(return_X_y=True)
print(data.shape)       # (506, 13)
print(target.shape)     # (506,)

2.2 鸢尾花

鸢尾花数据集是数据挖掘任务常用的一个数据集；鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。

测量数据包括：萼片长度、萼片宽度、花瓣长度、花瓣宽度。

类别共分为三类：Iris Setosa,Iris Versicolour,Iris Virginica。该数据集可用于多分类问题。

使用sklearn.datasets.load_iris即可加载相关数据集

参数：return_X_y：若为True,则以(data,target)形式返回数据，默认为False，表示以字典形式返回数据全部信息(包含data和target)
示例：

from sklearn.datasets import load_iris

iris = load_iris()
print(iris.data.shape, iris.target.shape)       # (150, 4) (150,)
print(iris.feature_names)   # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

2.3 糖尿病

主要包括442个实例，每个实例10个属性值，分别是：Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标，Target为一年后患疾病的定量指标，适用于回归任务。

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()

2.4 手写数字

共有1797个样本，每个样本有64的元素，对应到一个8x8像素点组成的矩阵，每一个值是其灰度值， target值是0-9，适用于分类任务。

from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)
plt.imshow(X[0].reshape(8, 8), cmap='gray');# 下面完成灰度图的绘制
# 灰度显示图像
plt.axis('off')# 关闭坐标轴
print('The digit in the image is {}'.format(y[0]))  # 格式化打印 The digit in the image is 0

2.5 体能训练

兰纳胡德提供的体能训练数据，data和target都是20x3，data的特征包括Chins, Situps and Jumps.(引体向上仰卧起坐跳跃)，target的三维分别是Weight, Waist and Pulse。(体重腰围脉搏)，适用于多元回归问题，用的少。

from sklearn.datasets import load_linnerud
data, target = load_linnerud(return_X_y=True)
 
print(data.shape)           # (20, 3)
print(target.shape)         # (20, 3)

2.6 红酒

共178个样本，代表了红酒的三个档次（分别有59，71，48个样本），以及与之对应的13维的属性数据，适用于分类任务。

from sklearn.datasets import load_wine

wine = load_wine()

2.7 威斯康辛州乳腺癌

包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性（1/0）类别型数据，以及与之对应的30个维度的生理指标数据，适用于二分类问题。

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

数据集的详细介绍可以阅读：Toy datasets

3 真实世界中的数据集

调用	描述
`fetch_olivetti_faces()`	Olivetti 脸部图片数据集
`fetch_20newsgroups()`	用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器
`fetch_20newsgroups_vectorized()`	这是上面这个文本数据的向量化后的数据，返回一个已提取特征的文本序列，即不需要使用特征提取器
`fetch_lfw_people()`	打好标签的人脸数据集
`fetch_lfw_pairs()`	该任务称为人脸验证：给定一对两张图片，二分类器必须预测这两个图片是否来自同一个人
`fetch_covtype()`	森林植被类型，总计581012个样本，每个样本由54个维度表示（12个属性，其中2个分别是onehot4维和onehot40维），以及target表示植被类型1-7，所有属性值均为number，详情可调用
`fetch_covtype()`	[‘DESCR’]了解每个属性的具体含义
`fetch_rcv1()`	路透社新闻语料数据集
`fetch_kddcup99()`	KDD竞赛在1999年举行时采用的数据集，KDD99数据集仍然是网络入侵检测领域的事实Benckmark，为基于计算智能的网络入侵检测研究奠定基础，包含41项特征
`fetch_california_housing()`	加利福尼亚的房价数据，总计20640个样本，每个样本8个属性表示，以及房价作为target，所有属性值均为number，详情可调用
`fetch_california_housing()`	[‘DESCR’]了解每个属性的具体含义
`fetch_species_distributions()`	物种分布数据集

下面以sklearn.datasets.fetch_20newsgroups为例，加载数据集其参数有：

subset: ‘train’或者’test’,‘all’，可选，选择要加载的数据集：训练集的“训练”，测试集的“测试”，两者的“全部”
data_home: 可选，默认值：无。指定数据集的下载路径。如果没有，所有scikit学习数据都存储在〜/scikit_learn_data子文件夹中
categories: 选取哪一类数据集[类别列表]，默认20类
shuffle: 是否对数据进行随机排序
random_state: numpy随机数生成器或种子整数
download_if_missing: 可选，默认为True，如果没有下载过，重新下载
remove: (‘headers’,‘footers’,‘quotes’)删除部分文本

from sklearn.datasets import fetch_20newsgroups
data_test = fetch_20newsgroups(subset='test', shuffle=True, random_state=42)
data_train = fetch_20newsgroups(subset='train', shuffle=True, random_state=42)
print(dir(data_train))
# print(data_train.DESCR)
# print(data_test.data[0]) #测试集中的第一篇文档
print('训练集数据分类名称：{}'.format(data_train.target_names))
print(data_test.target[:10])
print('训练集数据：{} 条'.format(data_train.target.shape))
print('测试集数据:{} 条'.format(data_test.target.shape))

[‘DESCR’, ‘data’, ‘filenames’, ‘target’, ‘target_names’]
训练集数据分类名称：[‘alt.atheism’, ‘comp.graphics’, ‘comp.os.ms-windows.misc’, ‘comp.sys.ibm.pc.hardware’, ‘comp.sys.mac.hardware’, ‘comp.windows.x’, ‘misc.forsale’, ‘rec.autos’, ‘rec.motorcycles’, ‘rec.sport.baseball’, ‘rec.sport.hockey’, ‘sci.crypt’, ‘sci.electronics’, ‘sci.med’, ‘sci.space’, ‘soc.religion.christian’, ‘talk.politics.guns’, ‘talk.politics.mideast’, ‘talk.politics.misc’, ‘talk.religion.misc’]
[ 7 5 0 17 19 13 15 15 5 1]
训练集数据：(11314,) 条
测试集数据:(7532,) 条

sklearn.datasets.fetch_20newsgroups_vectorized加载20个新闻组数据集并将其转换为tf-idf向量，这是一个方便的功能; 使用sklearn.feature_ extraction.text.Vectorizer的默认设置完成tf-idf 转换。

from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split

bunch = fetch_20newsgroups_vectorized(subset='all')
X, y = shuffle(bunch.data, bunch.target)
print(X.shape)              # (18846, 130107)
# 数据集划分为训练集0.7和测试集0.3

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print(X_train.shape)        # (13192, 130107)
print(X_test.shape)         # (5654, 130107)

数据集的详细介绍可以阅读：Real world datasets

4 生成数据和生成分类数据

4.1 分类

sklearn.datasets.make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2,  
                    n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None,  
                    flip_y=0.01, class_sep=1.0, hypercube=True,shift=0.0, scale=1.0,   
                    shuffle=True, random_state=None)

通常用于分类算法。

n_features :特征个数= n_informative + n_redundant + n_repeated
n_informative：多信息特征的个数
n_redundant：冗余信息，informative特征的随机线性组合
n_repeated ：重复信息，随机提取n_informative和n_redundant 特征
n_classes：分类类别
n_clusters_per_class ：某一个类别是由几个cluster构成的

示例：

from sklearn import datasets
import matplotlib.pyplot as plt 
 
data,target = datasets.make_classification(n_samples=100,n_features=2,
                                           n_informative=2,n_redundant=0,n_repeated=0,
                                           n_classes=2,n_clusters_per_class=1)
print(data.shape)       # (100, 2)
print(target.shape)     # (100,)
 
plt.scatter(data[:,0],data[:,1],c=target)
plt.show()

4.2 其它生成分类样本的函数

make_blobs函数会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果。其中：

n_samples是待生成的样本的总数。
n_features是每个样本的特征数。
centers表示类别数。
cluster_std表示每个类别的方差，例如我们希望生成2类数据，

其中一类比另一类具有更大的方差，可以将cluster_std设置为[1.0,3.0]。

示例：

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs
from sklearn.datasets import make_gaussian_quantiles
from sklearn.datasets import make_hastie_10_2
 
plt.figure(figsize=(10,10))  # 创建一个10 * 10 英寸的图像
plt.subplots_adjust(bottom=.05,top=.9,left=.05,right=.95)
 
plt.subplot(421)
plt.title("One informative feature, one cluster per class",fontsize='small')
X1,Y1= make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=1,n_clusters_per_class=1)
plt.scatter(X1[:,0],X1[:,1],marker='o',c=Y1)
 
plt.subplot(422)
plt.title("Two informative features, one cluster per class", fontsize='small')
X2,Y2 = make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=2)
plt.scatter(X2[:,0],X2[:,1],marker='o',c=Y2)
 
plt.subplot(423)
plt.title("Two informative features, two clusters per class", fontsize='small')
X2,Y2 = make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=2)
plt.scatter(X2[:,0],X2[:,1],marker='o',c=Y2)
 
plt.subplot(424)
plt.title("Multi-class, two informative features, one cluster",fontsize='small')
X1,Y1= make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=2,n_clusters_per_class=1,n_classes=3)
plt.scatter(X1[:,0],X1[:,1],marker='o',c=Y1)
 
plt.subplot(425)
plt.title("Three blobs", fontsize='small')
# 1000个样本，2个属性，3种类别，方差分别为1.0,3.0,2.0
X1,Y1 = make_blobs(n_samples=1000,n_features=2,centers=3,cluster_std=[1.0,3.0,2.0])
plt.scatter(X1[:,0],X1[:,1],marker='o',c=Y1)
 
plt.subplot(426)
plt.title("Gaussian divided into four quantiles", fontsize='small')
# make_gaussian_quantiles函数利用高斯分位点区分不同数据
X1,Y1 = make_gaussian_quantiles(n_samples=1000,n_features=2,n_classes=4)
plt.scatter(X1[:,0],X1[:,1],marker='o',c=Y1)
 
# make_hastie_10_2函数利用Hastie算法，生成2分类数据
plt.subplot(427)
plt.title("hastie data ", fontsize='small')
X1,Y1 = make_hastie_10_2(n_samples=1000)   # 
plt.scatter(X1[:,0],X1[:,1],marker='o',c=Y1)
plt.show()

4.3 自定义生成圆形和月牙形分类数据

生成环形，factor ：外圈与内圈的尺度因子<1

sklearn.datasets.make_circles(n_samples=100, shuffle=True, noise=None, random_state=None, factor=0.8)

生成半环形

sklearn.datasets.make_moons(n_samples=100, shuffle=True, noise=None, random_state=None)

示例：

from sklearn.datasets import make_circles
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
 
fig = plt.figure(1)
x1,y1 = make_circles(n_samples=1000,factor=0.5,noise=0.1)
plt.subplot(121)
plt.title('make_circles function example')
plt.scatter(x1[:,0],x1[:,1],marker='o',c=y1)
 
plt.subplot(122)
x1,y1 = make_moons(n_samples=1000,noise=0.1)
plt.title('make_moons function example')
plt.scatter(x1[:,0],x1[:,1],marker='o',c=y1)
plt.show()

数据集的详细介绍可以阅读：Generated datasets

5 其他

5.1 样本图片

scikit 在通过图片的作者共同授权下嵌入了几个样本 JPEG 图片。这些图像为了方便用户对 test algorithms （测试算法）和 pipeline on 2D data （二维数据管道）进行测试，用datasets.load_sample_image()加载。

from sklearn.datasets import load_sample_image
import matplotlib.pyplot as plt
img = load_sample_image('china.jpg')
print(img.shape)        # (427, 640, 3)
print(img.dtype)        # uint8
plt.imshow(img)
plt.show()

5.2 svmlight或libsvm格式的数据

# 可以加载svmlight / libsvm格式的数据集。
from sklearn.datasets import load_svmlight_file,load_svmlight_files
# 加载单个文件
X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt")
# 加载多个文件
X_train, y_train, X_test, y_test = load_svmlight_files(("/path/to/train_dataset.txt", "/path/to/test_dataset.txt"))

svmlight / libsvm格式的公共数据集——https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets

5.3 从http://openml.org下载的数据

openml.org是一个用于机器学习数据和实验的公共存储库，它允许每个人上传开放的数据集，可以通过sklearn.datasets.fetch_openml()函数来从openml.org下载数据集。

例如，下载gene expressions in mice brains（老鼠大脑中的基因表达）数据集:

from sklearn.datasets import fetch_openml

mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)  # 查看详情

5.4 从外部加载的数据

建议除了玩具数据集和生成数据集以外，都在网上下载后用pandas导入。

kaggle：https://www.kaggle.com
天池：https://tianchi.aliyun.com/dataset
飞桨：https://aistudio.baidu.com/aistudio/datasetoverview
讯飞：http://challenge.xfyun.cn/
搜狗实验室：http://www.sogou.com/labs/resource/list_pingce.php
DC竞赛：https://www.pkbigdata.com/common/cmptIndex.html
DF竞赛：https://www.datafountain.cn/dataset

例如，导入iris文件：

import pandas as pd
import seaborn as sns  # 基于matplotlib和pandas的画图库 
import matplotlib.pyplot as plt

data = pd.read_csv("H:\\machine-learning\\Code\\seaborn-data-master\\seaborn-data-master\\iris.csv", encoding='gbk')  # 我把数据集列名改成了中文 所以用gbk解码
sns.relplot(x='petal_width', y='sepal_length', hue="species", data=data)  # seaborn库这里不做过多介绍
plt.rcParams['font.sans-serif'] = ['SimHei']  # 步骤一（替换sans-serif字体）
# plt.rcParams['axes.unicode_minus'] = False  # 步骤二（解决坐标轴负数的负号显示问题）
plt.show()

sklearn的数据集datasets库中，我们一般使用玩具数据集和样本生成器比较多，其他数据建议外部导入。

数据集的详细介绍可以阅读：Loading other datasets

参考

sklearn库中的标准数据集与基本功能：https://www.cnblogs.com/python-machine/p/6940578.html
Dataset loading utilities:https://scikit-learn.org/stable/datasets.html
sklearn中的datasets数据集：https://zhuanlan.zhihu.com/p/108393576
机器学习之sklearn生成数据和生成分类数据：https://blog.csdn.net/wangdong2017/article/details/81326341

你可能感兴趣的:(学习框架,Machine,Learning,sklearn,机器学习,datasets,数据集介绍,生成数据)

YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
分布式数据库解析 qcidyu 文章归档数据分片高可用架构云数据库共识算法全球一致性分布式事务 CAP定理
title:分布式数据库解析date:2025/2/20updated:2025/2/20author:cmdragonexcerpt:通过金融交易、社交平台、物联网等9大真实场景，结合GoogleSpanner跨洲事务、DynamoDB毫秒级扩展等38个生产级案例，揭示分布式数据库的核心原理与工程实践。内容涵盖CAP定理的动态权衡策略、Paxos/Raft协议的工程实现差异、TrueTime时钟
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
java竞赛优化输入输出效率 px不是xp 蓝桥准备 java 开发语言
在编程竞赛中，输入输出效率至关重要。Java的`Scanner`和`System.out.println`虽然简单，但在处理大规模数据时会严重拖慢速度。以下是**竞赛专用输入输出模板**及其原理详解，助你轻松应对高频I/O场景。---###⚡竞赛级输入输出模板（Java）importjava.io.*;importjava.util.*;publicclassMain{ publicstatic
快速复制A库表数据前10000行到B库 musk1212 数据库 sql mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录应用场景一、存储过程，快速复制A库表数据前10000行到B库二、使用优化点说明结构优化性能调整错误处理增强安全改进调用示例应用场景表结构可预先存在或不存在mysql5.7快速复制A库表数据前10000行到B库一、存储过程，快速复制A库表数据前10000行到B库/*设置自定义分隔符以处理存储过程中的分号*/DELIMITER$$
深入了解 CDN：概念、原理、过程、作用及工作场景羊村懒哥网络网络加速缓存
目录一、CDN的概念二、CDN的工作原理三、CDN的工作过程四、CDN的作用五、CDN可结合使用的技术六、CDN能够解决的网络问题七、CDN的工作场景在当今互联网飞速发展的时代，用户对于网页加载速度和内容获取的时效性要求越来越高。CDN（ContentDeliveryNetwork，⭐内容分发网络）应运而生，它在提升网络性能和用户体验方面发挥着关键作用。本文将详细介绍CDN的概念、工作原理、工作过
OpenLayers总结3 Super毛毛穗 WebGIS开发 OpenLayers GIS WebGIS
一、静态测距1.原理静态测距主要是针对地图上已有的矢量要素（如线要素），利用OpenLayers提供的几何计算函数来获取其长度。在实际操作中，先加载包含几何要素的GeoJSON数据到矢量图层，当鼠标指针移动到要素上时，获取该要素的几何信息，再调用getLength函数计算其长度。2.代码实现步骤及注释//引入必要的模块importVectorLayerfrom"ol/layer/Vector.js
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
位图（BitMap）实现小猫猫猫◍˃ᵕ˂◍ bitmap 算法
位图（BitMap）实现1.位图简介位图（BitMap）是一种高效的数据结构，用于存储和操作位（bit）数据。每个位可以表示一个布尔值（0或1），常用于去重、排序、快速查找等场景。2.核心功能⚙️设置位（Set）：将某一位设置为1。清除位（Clear）：将某一位设置为0。获取位（Get）：检查某一位是否为1。打印位图（Print）：以二进制形式打印位图。3.代码实现packageMyStruct;
Java 运行时常量池笔记（详细版小猫猫猫◍˃ᵕ˂◍ java 笔记 python
Java运行时常量池笔记（详细版）Java的运行时常量池（RuntimeConstantPool）是JVM方法区的一部分，用于存储编译期生成的字面量和符号引用。它是Java类文件常量池的运行时表示，具有动态性和共享性。运行时常量池的核心概念1.什么是运行时常量池？运行时常量池是JVM方法区的一部分，存储类文件中常量池的内容。它包含：字面量：如字符串、整数、浮点数等。符号引用：如类名、方法名、字段名
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
Mybatis判断问题：深入解析与实战案例 DTcode7 sql数据库相关数据库 mysql SQL 数据库开发 sql
Mybatis判断问题：深入解析与实战案例基础概念与作用说明``标签``,``,````示例一：基本的``标签使用说明示例二：``,``,``的使用说明示例三：使用``标签简化条件语句说明实际工作中的使用技巧自行拓展内容在现代企业级应用开发中，MyBatis作为一款优秀的持久层框架，以其灵活的SQL映射机制和强大的动态SQL功能，深受广大开发者的喜爱。然而，在使用过程中，如何准确地进行条件判断，特
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
【HarmonyOS NEXT】是否有监听键盘显隐的方法 Mayism123 harmonyos
关键字监听/键盘/输入法框架/窗口问题描述是否有监听键盘显隐的方法？解决方案可选择以下任一方案：方案一：通过输入法框架模块（@ohos.inputMethod）来监听软键盘状态。用InputMethodController实例的on('sendKeyboardStatus')方法来监听，直接在inputMethodController.on('sendKeyboardStatus',callbac
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
语聊房软件开发流程与基础功能 ALLSectorSorft java html5 javascript
开发一款语聊房软件需要系统的规划和多领域技术整合。以下是关键流程、基础功能及示例代码：---一、开发流程1.需求分析-明确目标用户（社交/游戏/教育）-竞品分析（Clubhouse/Discord/狼人杀）-核心功能优先级排序2.技术选型-实时语音：声网Agora（推荐）/腾讯云TRTC/WebRTC-即时通讯：Socket.io/Sendbird/Firebase-后端框架：Node.js/Sp
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
网络安全常识网络安全Ash web安全网络安全
一、网络安全常识什么是网络安全？网络安全是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭到破坏、更改、泄露，系统可以连续可靠正常地运行，网络服务不被中断。什么是计算机病毒？计算机病毒（ComputerVirus）是指编制者在计算机程序中插入的破坏计算机功能或者破坏数据，影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。什么是木马？木马是一种带有恶意性质的远程
SQL 注入攻击黄亚磊11 数据库
SQL注入攻击了解吗？攻击者在HTTP请求中注入恶意的SQL代码，服务器使用参数构建数据库SQL命令时，恶意SQL被一起构造，并在数据库中执行。用户登录，输入用户名lianggzone,密码123or1=1,如果此时使用参数构造的方法，就会出现select*fromuserwherename='lianggzone'andpassword='123'or'1'='1';不管用户名和密码是什么内容，
MVCC（多版本并发控制）机制讲解十五001 基础 oracle 数据库 mysql
MVCC（Multi-VersionConcurrencyControl，多版本并发控制）这是一个在数据库管理系统中非常重要的技术，尤其是在处理并发事务时。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的原理和作用。1.什么是MVCC？定义MVCC是一种数据库技术，用于通过保留数据的多个版本来提高并发性能，同时避免事务之间的冲突。简单来说，它允许数据库在读取和写入操作时，同时存在多个版本的数据
使用rknn进行yolo11-pose部署点PY 深度学习模型部署 pytorch 深度学习人工智能
文章目录概要生成ONNX生成RKNN实测效果概要使用RKNN进行YOLOv11Pose部署的必要性在于，RKNN能将YOLOv11Pose模型转化为适合Rockchip硬件平台（如RV1109、RV1126）执行的格式，充分利用其AI加速功能，显著提高推理速度和效率。此外，RKNN提供模型优化（如量化）功能，有助于减少计算资源消耗，提升实时处理能力，特别适合在嵌入式设备上进行高效、低功耗的姿态估计
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
SQL面试题集：累计值与1000差值最小的记录数星星的阿波罗 Sql能力通关 sql 算法数据库数据仓库大数据数据分析面试
一、题目描述司机累计收入首次接近目标值的订单定位，滴滴平台计划优化司机奖励策略的触发机制，需精准识别司机在接单过程中累计收入首次接近特定目标值1000元的订单节点。该分析用于动态调整奖励发放规则，提升司机接单积极性。样例数据假设表t_sales结构如下：driver_idorder_idincomeorder_time11012002025-02-1909:00:0011023002025-02-
安装与部署openeuler 的HA VX-IT BANG 服务器网络 linux
实现原理LinuxHA（HighAvailability，高可用性）是指利用Linux操作系统构建的高可用集群解决方案，旨在确保关键业务服务在面临硬件故障、软件错误、网络中断等各种异常情况时，依然能够持续、稳定地运行，尽量减少服务中断时间，提高系统的可靠性和可用性。以下从几个方面详细介绍：关键组件和技术心跳监测（Heartbeat）这是LinuxHA系统中最基础也是最重要的组件之一。它通过在节点之
B4158 [BCSP-X 2024 小学高年级组] 质数补全 wwjjjww 算法数据结构
题目描述Alice在纸条上写了一个质数，第二天再看时发现有些地方污损看不清了。在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数称为质数请你帮助Alice补全这个质数，若有多解输出数值最小的，若无解输出−1。例如纸条上的数字为1∗（∗代表看不清的地方），那么这个质数有可能为11,13,17,19，其中最小的为11。输入格式第一行1个整数t，代表有t组数据。接下来t行，每行1个字符串s代表
如何将Docker容器打包并在其他服务器上运行 IT小辉同学技巧性工具栏分布式云部署搜索引擎 docker 服务器容器
如何将Docker容器打包并在其他服务器上运行我会幻想很多次我们的相遇，你穿着合身的T恤，一个素色的外套，搭配一条蓝色的牛仔裤，干净的像那天空中的云朵，而我，还是一个的傻傻的少年，我们相识而笑，默默不语，如此甚好！Docker容器使得应用程序的部署和管理变得更加简单和高效。有时，我们可能需要将一个运行中的Docker容器打包，并在其他服务器上运行。本文将详细介绍如何实现这一过程。1.提交容器为镜像
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st