AI 研习社

机器学习模型的数据预处理和可视化

本文为 AI 研习社编译的技术博客，原标题：

Data Pre-processing and Visualization for Machine Learning Models

作者 |* Natasha Sharma*

翻译 | Dddda、Gelel、AI小山编辑 | 邓普斯•杰弗、约翰逊·李加薪

原文链接：

https://heartbeat.fritz.ai/data-preprocessing-and-visualization-implications-for-your-machine-learning-model-8dfbaaa51423

数据科学工程的目标是向那些仅对数据内在本质感兴趣的人展示这些数据的含义。要达到这个目标，数据科学家/机器学习工程师要遵循若干个步骤。对于更精确地建立机器学习模型来说，数据预处理（清洗，格式化，缩放，正规化）和多种图表的数据可视化是两个非常重要的步骤。

前言

此帖的目的在于解释这些方法以及它们的机器学习建模上的作用，并且讨论它们对于不同商业应用的影响。

我们将使用“巧克力糖”数据集（听起来味道不错吧？）。这个数据集包括巧克力等级，产地，可可粉百分比，以及所使用的豆子的种类的多寡和豆子的生产地。

数据集信息量巨大，我打赌，你们绝大多数都会想：我们到底要拿这些数据集干嘛？从中能获得什么样的信息？我们能对数据做很多事，但是针对目前这个练习，我们将用不同的的可视化工具，例如分布图，方框图，KDE，以及小提琴图等，来分析数据，并回答以下问题：

混合巧克力和纯巧克力的平均评分是多少？
哪个国家出产评价最高的巧克力糖？
在全部数据集（不同的数据点）中找出可可粉含量的分布规律。

在回答上述问题之前，我们需要做一些数据预处理工作：清洗，格式化等等，以便更清晰地呈现数据。

数据准备：清洗及格式化数据

数据处理流程起始于收集数据，终结于提交结果。整个过程说起来容易，做起来难。在其中的多个步骤里，数据预处理是最重要的步骤之一。

数据预处理本身就包含多个步骤，而且很多步骤取决于数据文件的类型，数据的本质，不同的取值类型，等等。

学习一下数据预处理

维基定义：数据预处理是一种数据挖掘技术，它是指把原始数据转换成可以理解的格式。真实世界数据往往不完整，不一致，和/或缺乏一定的动态或趋势，并且很可能有错漏。数据预处理是解决这些问题的一个有效手段。数据预处理整理原始数据，以便进一步处理。数据预处理用于数据库驱动的应用，比如，客户关系管理和基于规则的应用（如神经网络）。

那么，到底是什么使得数据预处理在机器学习或其它数据科学领域变得如此重要呢？

数据预处理的重要性

举个简单的例子：一对夫妇去医院做孕检，夫妻双方都要做检查。检查结果出来后，医院宣布丈夫怀孕了。很奇怪，是吧？

我们可以由此想想机器学习的问题：分类。我们有一千多对夫妻的孕检数据，其中的60%，我们知道谁怀孕了，剩下的40%，我们需要从以往的数据里推测结果。我们假设，在这60%的案例里，有1%表明男人怀孕。

在机器学习建模时，如果我们没有做预处理，比如修正异常数据，处理缺失数据值，规整化，数据缩放，或者特征工程等，我们也许会把那1%的错误数据当成正常值了。

机器学习模型无非是一段代码，工程师或数据科学家用数据进行训练，使之智能化。所以，如果你给模型输入垃圾，你得到的也是垃圾。即，模型会对那些结果未知的40%的人给出错误的判断。

这仅仅是错误数据的一个例子。人们也可能采集到不正常的数据值（如，员工工资为负数），有时也会漏采数据值。这些都会导致对结果的预测/回答造成偏差。

开始进行数据预处理

数据预处理包括清洗、实例选择、归整化、变换、特征抽取和选择等。数据预处理的输出结果是最终的训练集。 Kostsiantis et al. (2006) 提出了一个著名的算法，用于数据预处理的每一个步骤。

import pandas as pd
import numpy as np

#load the chocolate data - Keep the data file in the same folder as #your python code
chocolate_data = pd.read_csv("flavors_of_cacao.csv")

#have a look at the data
chocolate_data.head()

我们现在加载巧克力数据，然后看看是不是需要数据预处理。

巧克力数据

# Let's have a look how many values are missing.
chocolate_data.isnull().sum()

列值缺失

似乎我们可以忽略bean类型列中缺少的值。所以不需要插补（插入值）。

让我们先暂停，看看上面图片中的列名。具体来说，我们正在研究数据集的结构：

#Lets have a look at the data and see identify Object/Categorical values and Continuous values
chocolate_data.dtypes

数据的结构

数据列的名称里包含了“\n”，会让数据分析产生错误。我们先格式化列的名称：

original_col = chocolate_data.columns
new_col = ['Company', 'Species', 'REF', 'ReviewDate', 'CocoaPercent','CompanyLocation', 'Rating', 'BeanType', 'Country']
chocolate_data =chocolate_data.rename(columns=dict(zip(original_col, 
new_col)))
chocolate_data.head()

更改后的列的名称

数据列CocoaPercent包含“%”号，这也会导致错误。所以我们也需要将它格式化。

#Remove % sign from CocoaPercent column 
chocolate_data['CocoaPercent'] = chocolate_data['CocoaPercent'].
str.replace('%','').astype(float)/100
chocolate_data.head()

数据格式化

我们添加一个新的列BlendNotBlend。这个列将记录巧克力是混合口味还是纯口味。下一节我们将讨论添加这个列的原因。

chocolate_data['BlendNotBlend'] = np.where(np.logical_or(         np.logical_or(chocolate_data['Species'].str.lower().str.contains(',|(blend)|;'),chocolate_data['Country'].str.len() == 1), chocolate_data['Country'].str.lower().str.contains(','))
    , 1
    , 0)
    
chocclate_date.head()

数据中的新列

我们已经清洗并格式化了数据。现在我们要通过一些可视化工具看看数据是什么样子的，并回答前言中所讨论的问题。

数据可视化

数据可视化是任何数据科学项目不可或缺的一部分。当数据集增加时，用excel电子表格或者文档来理解内在联系变更加困难。毫无疑问地说，用上下滚动的方式分析数据变得很无趣。让我们一起理解可视化和它对机器学习模型的重要性。我们将会尝试用一些工具来探索巧克力棒的数据集。

将数据可视化

维基百科的定义：许多学科将数据可视化视为视觉传达的现代等价物。它涉及创建和研究数据的可视化表示。为了清晰有效地传递信息，数据可视化使用统计图形，图表，信息图形和其他工具。可以使用点，线或条来编码数字数据，以在视觉上传达定量消息。

在数据可视化中，我们使用不同的图形和曲线来可视化复杂数据，以便于发现数据模式。这种可视化如何帮助机器学习建模，甚至在我们开始建模之前？

可视化的重要性

CSV数据（panda dataframes）可能真的难以让您获得一些启发。这和您的数据是否格式化或格式不正确无关。根据 SaS Data Visualization：人类大脑处理信息的方式，使用图表或图形可视化大量复杂数据比研究电子表格或报告更容易。数据可视化是一种以通用方式传达概念的快速，简便的方法，因为你可以通过稍作调整来尝试不同的方案。

数据可视化还有助于识别需要注意的区域，例如异常值，这些区域可能会影响我们的机器学习模型。它还有助于我们了解对您的结果产生更大影响的因素：例如，在房价预测中，房屋价格将受房屋大小的影响而不是房屋风格。

可视化不仅在建模之前有所帮助，甚至在它之后也是如此。例如，它可以帮助识别数据集中的不同聚类，这显然很难通过没有适当可视化的简单文件发现。

可视化以多种方式影响建模，但在EDA（探索性数据分析）阶段尤其方便，它可以让您理解数据中的模式。对于这个特定的练习，我们将使用一些流行的技术可视化巧克力棒数据的分布。

可视化工具

巧克力棒数据集具有不同类型的值 - 分类和连续/数字。我们只关注可视化连续变量的分布。让我们看看绘图。

1.直方图

维基百科定义：直方图是数值数据分布的精确表示。它是连续变量（定量变量）的概率分布的估计。

这里的主要问题是我们应该检索哪些数据并确认分布？读完上面的定义后，人们可能会说：“哦！除了对象或分类变量/值之外，我们可以对任何事物绘制直方图。“这是一个有效观点，但我们是否确定所有连续值都能说出有意义的故事？

让我们从rating列开始。

#Let's see the distribution of continuous variables
sb.distplot(chocolate_data['Rating'],kde = False)
plt.show()

rating列的直方图

给出不同rating列的数量并绘制。条形图彼此相邻显示，因为被测量的变量是连续的并且在x轴上。这个图背后的故事是什么？我们可以看到约390人为巧克力提供3.5评级。

下面时REF列：

sb.distplot(chocolate_data['REF'],kde = False)
plt.show()

REF直方图

REF列是收到的评级的参考编号。较高的参考编号是最新的参考编号。

下一个连续变量是CocoaPercent。很多人喜欢黑巧克力（我不是），所以我们希望看到巧克力中包含的黑暗分布。

sb.distplot(chocolate_data['CocoaPercent'],kde = False)
plt.show()

Cocoal百分分布直方图

2.箱型图

维基百科定义：在描述性统计中，箱形图是用于通过其四分位数图形描绘数值数据组的方法。箱形图也可以具有从箱子（胡须）垂直延伸的线，指示上下四分位数之外的可变性。（不完整，建议大家自己去维基或者百度查查）

箱形图给出了基础分布的印象。但这也是直方图所做的。那为什么我们需要箱形图？在直方图中，当您对比许多分布时，它们不能很好地叠加并占用大量空间来并排显示它们。

这里，我们将为巧克力生产设施和客户提供的评级创建一个盒子图。

# Look at boxplot over the countries, even Blends
fig, ax = plt.subplots(figsize=[6, 16])
sns.boxplot(
    data=chocolate_data,
    y='Country',
    x='Rating'
)
ax.set_title('Boxplot, Rating for countries (+blends)')

巧克力地区和评价

在上图中，您可以清楚地看到每个国家/地区的巧克力棒的评级。这种可视化可以帮助我们了解每个国家/地区在整个数据集中的评级分布，并进一步帮助我们找到哪个国家/地区比其他国家更受欢迎。

它还解释了哪个国家对卖方和潜在地区更有利可图。我们可以进一步计算平均评级并在框图绘制之前对数据进行排序。但对于这篇文章，我们在这里不会涉及太多细节。

3.小提琴图

最近我偶然发现小提琴图，确实看起来像乐器图。现在我们看看小提琴图能告诉我们哪些数据

维基百科定义：小提琴图是一种绘制数字数据的方法。它类似于每边都有旋转的核密度图的盒子图。

相当难理解，对吧？为了简化这个定义，让我们来根据以下步骤来画一下。

还记得我们之前新船舰得一列BlendNotBlend。在这里，我们将使用这个。我们将通过比较收到的评分来了解混合巧克力或纯巧克力的效果。

箱型图（不想上文中的箱型图）：以下的图反映了混合巧克力的效果比纯巧克力的效果要好。因此从数据中，我们可以得知人们更倾向于不同口味的巧克力或者不同口味混合而成的。

sns.boxplot(
    data=chocolate_data,
    x='BlendNotBlend',
    y='Rating',
)
ax.set_title('Boxplot, Rating by Blend/Pure')

KDE (kernel density plot)-让我们尝试使用KDE来绘制同类的图

Blended = chocolate_data.loc[chocolate_data.BlendNotBlend == 1]
NotBlended = chocolate_data.loc[chocolate_data.BlendNotBlend == 0]
ax = sns.kdeplot(Blended.Rating,
                  shade=True,shade_lowest=False, label = "Blend")
ax = sns.kdeplot(NotBlended.Rating,
                  shade=True,shade_lowest=False, label = "Pure")

维基百科定义：KDE是一种估计变量概率密度函数的非参数方法。柱状图可以看作是一种简单的非参数密度估计。这里，用一个矩形来表示每个观测值，它越大，观测值越多。

因此以上的图包含了观察的面积/列的值，并且数据点越多区域面积越大。这种图可以被认为是代表每个观察到的较大的值。我们可以把所有的核都加起来来给出平滑的分布。

小提琴图-我们将把箱型图和核密度图放在一起。

ax = sns.violinplot(x=”BlendNotBlend”, y=”Rating”, data=chocolate_data, hue=”BlendNotBlend”)

小提琴图

小提琴图清晰的展示了平滑的曲线，例如，箱型图和和密度图结合。有了上面的图，你可以很轻易的判断“混合”味的有着很高的评价，例如，混合味能得到很多评论并且能收到很多不同的评分相比于纯巧克力。使用这种图的优点就是不用读很多的点来理解数据。

总结

通过这篇，我们探索了数据如何让进行预处理，并且探索了数据可视化是如何影响复杂的机器学习模型建立环节。我们知道了不同的数据预处理技巧，并且用巧克力数据集进行了一些尝试

关于这些数据，假设我们希望了解更多关于当前和未来评级/评论的分布，以便公司能够改进其生产和制作的策略。如果我们没有处理丢失的数据，没有校正不正确的数据，在建模阶段这将会导致不正确的决策。

我们也探索可一些数据可视化的工具，谈论了可视化如何影响模型本身。每个可视化的工具都有自己讲述故事的方式，并且也是非常重要的，在特定的数据类型使用哪种工具。

参考

Violin plot
Kaggle Dataset
Motivation — Blazing fast EDA
GitHub repo
Data Pre-processing

想要继续查看该篇文章相关链接和参考文献？

点击机器学习模型的数据预处理和可视化即可访问

今日资源推荐：

卡内基梅隆大学的 Russ Salakhutdinov 教授在第十三届年度机器学习研讨会（13th Annual Machine Learning）上完成一场题为"Integrating domain-knowledge into deep learning"的学术报告，详细介绍了各种类型的“知识（knowledge）”在阅读理解、问答、图像生成等领域，RNN、GCN等算法中的相关应用方式。该资源为 Russ 教授的演讲 PPT。扫描下方二维码获取噢~

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

机器学习模型的数据预处理和可视化

前言

数据准备：清洗及格式化数据

数据可视化

总结

参考

你可能感兴趣的:(机器学习模型的数据预处理和可视化)