东写西读李老湿

机器学习超详细实践攻略(1)：盘点scikit-learn里那些有趣又有用的彩蛋级入门数据集

在机器学习算法的学习过程中，找到用来适合用来练手的数据集是我们面临的第一道门槛，毕竟俗话说得好，巧妇也难为无米之炊嘛。

为此，我在知乎上写过一篇回答：
机器学习需要的大量数据集从哪里找?

这篇回答主要是介绍了从各个比赛平台寻找机器学习相关实战数据集的方法，目前已经获得了1.5k个赞同，看来大家对于数据集的需求还是挺旺盛的。不过，虽然这些数据集都是从实际的业务场景抽离出来的，都有着实际的义务含义，但是这些数据集存在三个缺点：

1、这些数据集数据量相对庞大；

2、这些数据集包含了实际业务中的各种情况，而且主办方为了增加比赛的难度，甚至故意在数据集里加入一些异常的数据，探索明白这些数据集也需要很长的时间；

3、有些数据集随着比赛结束就关闭了下载通道，不好获得。
机器学习算法入门，最好能够自己亲手跑通SVM、LR、随机森林等常用的几个机器学习算法，能够直观地看看这些算法的表现效果，这和学编程做的第一件事就是让程序输出“hello world”一样。而在入门机器学习算法，对来自生活中的数据集进行加载、转换、清洗就是一个非常大的工作量，缺少数据集成为了阻碍很多初学者实践算法的不小的门槛。

其实，很多人不知道的是，机器学习领域经典的Python包scikit-learn已经将常用的数据集预置进去了，并封装成了‘’函数。这些数据集都是机器学习领域比较基础的数据集。他们由于数据量简单、数据含义直观等优点，常常混迹于各种课程中。最重要的是：对于自己直观地看到机器学习算法效果来说，足够了！下面，将具体介绍这些数据集。

一、如何使用简单数据集

这些数据集在安装好scikit-learn就已经存在于我们的电脑上了。主要包括以下几个数据集：

分类数据集：
1.1 鸢尾花数据集：load_iris()
1.2 手写数字识别数据集：load_digits()
1.3 葡萄酒识别数据集：load_wine()
1.4 乳腺癌诊断数据集：load_breast_cancer()
回归数据集：
2.1 波士顿房价数据集：load_boston()
2.2 糖尿病数据集：load_diabetes()
多变量回归数据集：
3.1 兰纳胡德体能数据集：load_linnerud()

使用他们的方法非常简单。只需要执行：

from sklearn import datasets
dataset = sklearn.datasets.load_数据集名字()

#数据集
X = dataset.data

#对应标签
Y = dataset.target

当然，如果你想详细了解一下这些数据集，也可以使用以下函数：

dataset.target_names：查看标签含义
dataset.DESCR：查看数据集的描述（包括数据集的来源、属性个数、各个属性的单位等）

二、各数据集详细介绍

在我们使用数据集之前，最好知道这些数据集是描述了一个什么问题，这样才能顺理成章地明白机器学习算法是怎么解决这个问题的。以下就是关于这些简单数据集的描述。

一）鸢尾花数据集

Iris 鸢尾花数据集是一个非常经典而且历史悠久的数据集，虽然只有150个样本，但是由于其属性简单、意义直观等特点，在统计学习和机器学习领域简直是大名鼎鼎的入门数据集。数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征判断鸢尾花卉属于 iris-setosa、 iris-versicolour、 iris-virginica这3个品种中的哪一品种。

二）手写数字识别数据集

其实这严格来说属于图像处理的范畴，不过最近传统图像处理领域被深度学习颠覆到内裤都保不住了，所以这个数据集被scikit-learn收录也是可以解释得通的。这个数据集里总共有5620个样本，每个样本是由于 8*8 = 64个像素点组成的图片。我们的目标，是根据这些像素点的，预测出其代表了0~9哪个数字。

三）葡萄酒识别数据集

这是从UCI葡萄酒识别数据集中摘录出来的一个子数据集，总共有178个样本，完整的数据集可以点击UCI葡萄酒识别数据集下载。
这个数据集产生的背景是：有个农民在意大利同一地区种植了三个不同品种的葡萄，待葡萄成熟之后分别将他们制成葡萄酒，然后科学家通过分析每种葡萄酒中13种成分的含量和特性，来判断某一杯葡萄酒是由哪种葡萄酿制的，这13种属性分别是：

Alcohol：酒精
Malic acid ：苹果酸
Ash Alcalinity of ash ：灰分
Magnesium ：碱性
Total phenols：镁
Flavanoids ：酚
Nonflavanoid phenols ：黄酮类化合物
Proanthocyanins ：非类黄酮酚
Color intensity ：原花青素
Hue：色度
OD280/OD315 of diluted wines： OD280/OD315
Proline：脯氨酸
这些化学成份不认识也无所谓。反正最后我们的目标是判断一杯葡萄酒是由三种葡萄中的哪一种酿制的。所以，标签自然就是三个代表三个葡萄品种的枚举值了。

四）乳腺癌诊断数据集

这个数据集由国外医疗中心肿瘤研究所提供，也可以在UCI数据库中找到。
该数据集总共有良心和恶心肿瘤2大类，良性肿瘤有357个样本，恶性肿瘤有212 个样本，共569个样本，我们通过乳房CT的30个属性来判断该乳房是否患有恶心肿瘤。
具体属性请去scikit-learn官网自行查看，由于属性太多，这里就不一一列出了。

五）波士顿房价数据集

想想我们在购房的时候，必然要考虑这个房子周围配套设施、是否是学区房、离地铁近不近，邻居是不是好相处等因素。这些因素共同决定了这个房子在我们心目中的价格。美国人民也不例外，所以，美国人口普查局就收集了美国马萨诸塞州波士顿住房价格的有关信息，没想到被聪明的机器学习专家应用到了回归预测中。
这个数据集只有506个样本，总共13个属性，属性含义如下：

CRIM：城镇人均犯罪率。
ZN：住宅用地超过 25000平方米的比例。
INDUS：城镇非零售商用土地的比例。
CHAS：周围是否有河流（有河流，则为1，否则为0）。
NOX：一氧化氮浓度。
RM：住宅平均房间数。
AGE：1940 年之前建成的房屋比例。
DIS：到波士顿五个中心区域的加权距离。
RAD：距离公路的距离。
TAX：当地税率。
PTRATIO：城镇师生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。
LSTAT：人口中底层人民的比例。
MEDV：自住房的平均房价，以千美元计
每个样本对应一个浮点数标签，代表某个房子的价格。看看这些影响房价的因素，是不是基本符合我们的购房考虑因素啊？看来全世界人民的心理都是相通的。

六）糖尿病病情预测数据集

随着生活水平的提高，越来越多的人在平常大量摄入高油高糖的食物。糖尿病的患者人数也在逐年上升。本数据集就是通过一个糖尿病人当前的基本情况和身体指标，预测其一年之后的病情发展情况。数据集总共有442个样本。通过10个属性维度来就行区分，分别是：

Age：年龄
Sex ：性别
Body mass index：BMI指数
Average blood pressure：平均血压
S1
S2
S3
S4
S5
S6
这些S代表了六种血清的化验数据，别问我具体的含义，只知道是医学方面的一些量化值就可以了。
属性值的取值范围在(-0.2,0.2)之间，标签的取值范围在[25,346]之间。

注意：为了便于输入算法模型中，这10个特征变量都以标准偏差时间为中心并按比例进行了缩放处理。

七）兰纳胡德体能数据集

数据集的名字有点拗口，不过你只要记住这是一个衡量体能的数据集就好了。
数据集的背景就是一个叫兰纳胡德（Linnerud）的人测量了某个健身俱乐部的 20 位中年男子的生理数据。被测变量分为两组子数据集。第一个子数据集包含三个生理特征：

Weight：体重
Waist：腰围
Pulse：脉搏
第二个子数据集包含了三个运动特征：
Chins:引体向上
Situps：仰卧起坐
Jumps：跳跃
我们要做的，就是寻找子数据一和子数据集二之间的因果关系，这就属于多变量回归问题。

我们解释一下多变量回归的概念：回归问题的本质就是去分析因变量与自变量之间的关系，从而为分析数据、预测数据提供科学的、合理的依据，但是通常我们所说的回归问题，是通过几个自变量得到一个结果，比如说上边提到的通过各种因素预测房价等问题。而多变量回归就是要分析多个自变量造成了多个因变量的变化规律。属于多对多的关系。

举个例子，比如现在，有一堆自变量（X1,X2,…Xn），这些因素可以导致（Y1,Y2,…Yn）这些因变量的变化，我们又完全不清楚自变量之间、因变量之间存在的关系。

顺便提一句，对于变量之间关系复杂、而样本量又很少的问题，用偏最小二乘回归解决是最个不错的选择。sklearn已经实现了偏最小二乘回归算法，有兴趣的可以参考sklearn文档。
最后，正因为这些数据集本身非常简单，而且已经被scikit-learn做了简化处理，用来入门可以，要想真正提高自己运用算法和数据挖掘的能力，还是要参加各种比赛或者从事实际的项目，毕竟两千多年前，大将军赵括已经用亲身经历告诉我们纸上谈兵的惨痛后果了哦。

三、自己构造数据集

如果玩腻了这些简单的数据集，sklearn还支持自己自定义创造数据集。
构造数据集的函数也在sklearn.datasets下，我们分别采用make_classification、 make_regression、make_blobs三个函数来构建分类、回归、聚类数据集。比如我们随便构建一个10个样本的分类数据集：

from sklearn.datasets import make_classification
X,Y = datasets.make_classification(n_samples = 10)
print('X:',X[:3])
print('Y:',Y[:3])
print('X维度:',X.shape)
print('Y维度:',Y.shape)

输出如下：

X: [[ 0.29690827 0.10576263 1.94658436 -1.3104142 -1.1185016 -1.40073829
-0.4096297 -1.86317979 0.64596297 0.75271884 0.35448096 -2.11235401
-2.40728032 -1.23424255 -3.43409603 -2.60231078 0.71952271 -0.40460211
0.88607677 0.21988113]
[-0.3822589 -0.82217221 0.81753074 0.24330878 1.47338236 -1.4133207
0.97520516 -0.12297019 0.19819793 -0.71166377 0.21027697 0.48598411
0.23083475 -0.46330706 -0.44026309 -0.10874537 0.63478363 0.29211047
-0.20734913 -0.7659504 ]
[-0.23784806 0.74146631 -0.49256622 0.77576281 1.16816195 -1.90326764
-1.02380523 0.23918916 -1.17025757 -0.44354062 -0.09143154 0.22992207
-0.60323483 -0.16646197 0.84068396 0.63071089 -1.83135902 0.37492177
-1.36216032 0.56710804]]
Y: [1 1 0]
X维度: (10, 20)
Y维度: (10,)

可以看到，以上函数生成了10个样本，每个样本有20个特征维度。

当然，在生成数据集的过程中，我们可以根据自己的需求自定义一些参数来调整生成的数据集。
在构造这些数据集时，所共同用到的参数有：

n_samples：样本个数 n_features ：特征总个数。
n_informative：有用的特征个数。也就是说，我们可以和n_features参数相结合生成一些无用特征，增加算法的预测难度。
n_redundant：无用的特征个数。 random_state ：随机数生成种子
n_repeated：重复特征数【这个一般无需指定】

这里可能有人会疑惑：指定n_features和n_informative之后，n_redundant不就确定了？其实不然。如果我们指定的n_features大于n_informative +n_redundant 的个数，那么程序会从这两个特征里随机重复挑选一些特征，直到达到特征总个数的数量。这样，我们在实际用算法进行预测的时候，就需要用一些降维算法筛掉冗余特征所以说，scikit-learn为了帮我我们设置复杂的数据集真是操碎了心。

当然，总特征数(n_features)一定要大于n_informative、n_redundant之和，否则会报错：

Number of informative, redundant and repeated features must sum to less than the number of total features
当然，以上这些参数都有默认值，可以不用自己指定。

一）构造分类数据集

构造分类数据集完整的范例：

from sklearn.datasets import make_classification
features2,target2 = datasets.make_classification(n_samples = 10,
                                                 n_features = 3,
                                                 n_informative = 3,
                                                 n_redundant = 0,
                                                 n_classes = 2,
                                                 weights = [0.25,0.75],
                                                 random_state = 1)

构造分类数据集特有的参数的解释：

n_calss ：分类个数
weights ：每个类别占的样本比例，这里数组维数要和分类数相对应

二）构造回归数据集

构造回归数据集完整的范例：

from sklearn.datasets import make_regression
features,target,cofficients = datasets.make_regression(n_samples = 10,
                                                       n_features = 3,
                                                       n_informative = 3,
                                                       n_targets = 3
                                                       ,noise = 0.0,
                                                       coef = True,
                                                       random_state = 1)

构造回归数据集特有的参数解释：

n_target ：默认为1，如果指定多个回归值，那就是构造了类似于兰纳胡德体能数据集的多变量回归数据集
noise =0.0：给数据集制造一些噪声，noise越大的话，点就会越来越离散，就越不好拟合回归曲线。
coef ：默认为False，如果为真，则返回基础线性模型的系数。

三）构造聚类数据集

构造聚类数据集完整的范例：

from sklearn.datasets import make_blobs
features,target = make_blobs(n_samples = 10,
                             n_features = 3,
                             centers = 3,
                             cluster_std = 0.5,
                             shuffle = True,
                             random_state = 1)

构造聚类数据集特有的参数解释：

centers = 3：要生成的样本聚类中心数。
cluster_std = 0.5：每个类别的方差，例如我们希望生成2类数据，其中一类方差为0.1，另一类方差为0.2，可以将cluster_std设置为[0.1,0.2]
shuffle = True：布尔值，控制是否随机打乱样本。
虽然这样有着自己出题自己做的嫌疑，但是，因为我们对自己构造的数据集非常了解，通过这些数据集来看各个算法的表现，完全能够进一步加深对算法的理解。

三、总结

除此之外，sklearn还提供了一些更加接近现实的入门数据集，有人脸识别数据集、新闻文本数据集、森林类型数据集等。他们占用存储空间较大，需要的话可以用Python命令把他们下载下来，这里不做赘述。

本系列相关文章：

机器学习超详细实践攻略(8)：使用scikit-learn构建模型的通用模板【万字长文】

扩展阅读

make_classification参数解释
make_regression参数解释
make_blobs参数解释

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
剧本杀《鲸鱼马戏团》剧本杀剧透+真相答案复盘解析攻略 VX搜_奶茶剧本杀
本文为剧本杀《鲸鱼马戏团》剧本杀测评+部分真相复盘，获取完整真相复盘只需两步：①、关注微信公众号【奶茶剧本杀】→②、回复剧本杀《鲸鱼马戏团》即可获取查看剧本杀《鲸鱼马戏团》剧本杀真相答案复盘+凶手剧透：以下是玩家评测+部分关键证据，凶手，时间线，复盘解析，推理逻辑--------------------------------------------------------------------
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
发现荞麦过敏这件事怪小泊
荞麦在我这里不是常用的谷物。所以前二十年，我以为自己是很正常的，从街头小吃到包装零食到每日三餐，从来没有不能吃的。可是有天我突然病倒了，喉咙火辣辣的肿痛，口水都咽不下去，舌头发麻。当时我以为吃太多零食所致，因为那天我吃了很辣的泡椒凤爪。其实我是不怎么吃辣的。而那个泡椒凤爪真的超辣。当时我以为自己吃多了，并不知道自己对哪个食物过敏。因为不舒服我早早睡了，结果并没有睡着。肚子一阵一阵疼，非常痛苦，终于
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
mac 备份android 手机通讯录导入iphone,iphone如何导出通讯录（轻松教你iPhone备份通讯录的方法）... weixin_39762838 mac 备份android 手机通讯录导入iphone
在日新月异的手机更替中，换手机已经成为一个非常稀松平常的事情，但将旧手机上面的通讯录导入到新手机还是让不少小伙伴为难，本篇将给大家详细讲解这方面的知识：“苹果手机通讯录怎么导入到新手机”及“安卓手机通讯录导入到新手机”的方法。一、苹果手机通讯录导入到新手机常用方法(SIM卡导入)在苹果手机主频幕上找到“设置”，单击进入设置菜单，下拉菜单列表，点击“邮件、通讯录、日历”，然后找到“导入SIM卡通讯录
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&