初飞墨

数据科学学习之探索性数据分析（EDA）

前言

本文为笔者学习图灵系列程序设计丛书的《面向数据科学家的使用统计学》的一些感悟和总结，本文撰写主要参考了该书目，希望本文对接触，学习和研究数据科学的各位能有所帮助。
首先，第一篇介绍探索性数据分析（EDA）的相关内容。

- 前言
- 1.什么是结构化数据
- 2.矩形数据
- 3.位置估计
- 4.变异性估计
- 5.探索数据分布
- - 5.1 百分位数和箱形图
  - 5.2 频数表和直方图
  - 5.3 密度估计
- 6.探索分类数据
- - 6.1 众数和期望值
  - 6.2 条形图和饼图
- 7.相关性
- - 7.1 相关系数
  - 7.2 相关矩阵
  - 7.3 散点图
- 8.探索多个变量
- - 8.1 双变量分析的可视化
  - - 8.1.1 六边形图、等势线和热力图
    - 8.1.2 箱形图和小提琴图
  - 8.2 多个变量的可视化
- 后记

1.什么是结构化数据

在现代，尤其是这个大数据时代，我们获取数据的途径非常丰富，各种仪器（例如各种传感器）的测量值、事件、文本、图像和视频等都属于可获取的数据来源，整个物联网无时无刻不在涌出大量的信息流。如何将这些大量的原始数据转化为可操作的信息，这才是当今数据科学所面对的主要挑战。首先，就需要将非结构化的原始数据结构化，或是处于研究目的采集有效数据集。

结构化数据有两种基本类型：数值型数据(numeric data)和分类数据(categorical data)。其中，数值型数据还分为连续型和离散型两种形式，连续型数据又称区间数据和浮点型数据，即表示该数据可在一个区间内取任何值；离散型数据通常只能取整数，例如计数，所以一般又称计数型数据。分类数据（因子数据）只能从特定集合中取值，这些值表示这种数据一系列可能的分类，例如：计算机编程语言主要包括汇编语言、机器语言以及高级语言三种（类别）；中国的直辖市有北京市，上海市，天津市和重庆市。二元数据是一种特殊的分类数据，数据值只能从两个之中取其一（例如0或1，True或False），也就是一般所称的布尔型数据和逻辑性数据。有序数据（有序因子数据）是具有明确排序的分类数据，例如数值排序（1，2，3，4或5）。

注：连续型数据和离散型数据的区别：1.离散型变量是通过计数方式取得的，即是对所要统计的对象进行计数，增长量非固定的；连续型变量不是单独的整十整百的数字，其包含若干位小数且取值密集，增长量可以划分为固定的单位。2.域不同。离散型变量：离散型变量的域(即对象的集合)是离散的；连续型变量的域(即对象的集合)是连续的。3.分组方式不同。离散型变量：如果变量值的变动幅度小，就可以一个变量值对应一组，称单项式分组。如果变量值的变动幅度很大，变量值的个数很多，则把整个变量值依次划分为几个区间，各个变量值则按其大小确定所归并的区间，区间的距离称为组距，这样的分组称为组距式分组，在组距式分组中，相邻组既可以有确定的上下限，也可将相邻组的组限重叠。连续型变量：连续型变量由于不能一一列举其变量值，只能采用组距式的分组方式，且相邻的组限必须重叠。

我们为什么要关心数据类型的分类呢？
首先，数据类型对于确定可视化类型、数据分析或统计模型是非常重要的。再者，更为重要的是，变量的数据类型决定了软件处理变量计算的方法。
因子数据或说有序因子数据也只是一组文本值或数值，那么为什么我们也需要在数据分析种明确提出它们的概念呢？
相比于文本表示，将数据显示地标识为因子数据具有如下优点：
如果我们明确输入的是分类数据，那么软件就可以据此确定统计过程的工作方式，例如图表生成或模型拟合。
可以优化存储或索引。
限定了给定分类变量在软件中的可能取值，例如枚举类型。

总结：

在软件中，数据通常按类型分类。
数据类型包括连续型数据、离散型数据、分类数据和有序数据。
数据分类为软件指明了数据的处理方式。

2.矩形数据

矩形数据对象是数据科学分析中的典型引用结构，矩形数据对象包括电子表格、数据库表等。
矩形数据本质上是一个二维矩阵，通常称数据表中的一行为一条记录（事例、样本），一列为一个特征（属性、变量）。数据并非一开始就是矩阵形式的，非结构化数据必须先经过处理和操作才能表示为矩阵数据形式。
除了矩形数据之外，还有一些其它类型的数据：例如：时序数据，空间数据和图形（或网络）数据。（此处的空间和图形同矩形一样，均指一种数据结构。）

3.位置估计

面对大量数据的记录和特征，对它们有一个大致的了解，即总结数据特征的特性是很有必要的。其中，探索数据的一个基本步骤就是获取每个特征的“典型值”，典型值是指对数据最常出现位置的估计，即数据的集中趋势。

平均值(mean)，是最基本的位置估计量，它等于所有值的和除以值的个数，给出计算公式：
$\bar x=\frac{\Sigma_{i=1}^n x_i} n$
对于某些数据集，我们需要对值赋予权重，进行位置估计时便需取加权均值(weighted mean)，它等于加权值的总和除以权重的总和，给出计算公式：
$\bar x_w=\frac{\Sigma_{i=1}^n w_ix_i}{\Sigma_{i=1}^n w_i}$
均值虽然易于计算且方便使用，但在数据集中有离群值（极值）影响时便无法较为准确地进行位置估计，此时，中位数(median)是更好的选择。中位数是位于有序数据集中间位置的数值，是对位置更为稳健的估计量，但不同于使用所有观测值计算得到的均值，中位数仅取决于有序数据集中间位置处的值。与加权均值相似，加权中位数(weighted median)也有广泛的应用，它使得排序数据集中分别有一半的权重之和位于该值之上或之下。

若想尽可能使用所有观测值对位置有一个较为稳健的估计，我们可以使用切尾均值(trimmed mean)。它是指在数据集剔除一定数量的极值后再求均值，这样就能消除极值对均值的影响，例如在国际体育赛事中，通常会去掉一个最高分和一个最低分，就是使用了切尾均值。给出计算公式：
$\bar x=\frac{\Sigma_{i=p+1}^{n-p} x_i}{n-2p}$
对于小规模的数据集，还有很多其他更为稳健和高效的位置估计量，在此不做介绍。

4.变异性估计

位置只是总结特性的一个维度，另一个维度是变异性(variability)，也称离差（dispersion)，它是数据集关于某个中心值偏离或散布的离散程度的一种标志，测量了数据值是紧密聚集的还是发散的。使用最广泛的变异性估计量是基于位置估计值和观测数据值之间的偏差(deviation)或者说残差(residual)，在这里，给出多种计算偏差的方式。

首先是平均绝对偏差(mean absolute deviation)，即对数据值和均值之间的偏差的绝对值计算均值。给出公式:
$平均绝对偏差=\frac{\Sigma_{i=1}^n \lvert x_i-\bar x \rvert}{n-2p}$
更广为人知的变异性估计量是方差(variance)和标准偏差(standard deviation)，它们基于偏差的平方。方差是偏差平方值的均值，而标准偏差是方差的平方根。给出公式：
$方差=s^2=\frac{\Sigma (x-\bar x)^2}{n-1}$
$标准偏差=s=\sqrt\frac{\Sigma (x-\bar x)^2}{n-1}$

注：在统计模型中，使用平方值比使用平均值更为方便，所以标准偏差比平均绝对偏差使用更为广泛，而式中使用除数n-1是因为我们使用自由度进行无偏估计。

无论是方差，标准偏差还是绝对平均偏差对离群值都是不稳建的，尤其是方差和标准偏差对极值更为敏感，为此，我们提出更为稳健的变异性估计量，中位数绝对偏差(median absolute deviation)，通常简写为MAD。给出计算公式：
$MAD=中位数(\lvert x_1-m \rvert,\lvert x_2-m \rvert,…,\lvert x_n-m \rvert)$
我们还可以参考切尾均值计算切尾标准偏差。

注：即使数据符合正态分布，方差、标准偏差、平均绝对偏差以及中位数绝对偏差也并非是等价的估计量。事实上，标准偏差总是大于平均绝对偏差，而平均绝对偏差总是大于中位数绝对偏差。有时，中位数绝对偏差会乘上一个常数比例因子（通常是1.4826），使得在正态分布下，中位数绝对偏差与标准偏差具有相同的尺度。

另一种估计离差的方法基于对有序数据分布情况的查看。其中最基本的是测量极差(range)，或称为全距，但极差对离群值非常敏感，为避免这种情况，我们可以删除有序数据两端的值，然后再查看数据的极差，即估计百分位数(percentiles)之间的差异。其中常用的测量方法是估计第25分位数和第75分位数之间的差值，称为四分位距(interquartile range, IQR)，在此不做过多介绍。

5.探索数据分布

5.1 百分位数和箱形图

百分位数对于总结数据的整体分布十分有用，四分位数和十分位数有着广泛的应用，尤其是在总结数据尾部情况（外延范围）时，百分位数十分有用。

箱形图(boxplot)是一种快速可视化绘图，它基于百分位数来可视化数据的分布，能显示出一组数据的最大值、最小值、中位数、及上下四分位数。

import numpy as np
import pandas as pd
data=pd.Series(np.arange(0,16)).append(pd.Series(25))
data.plot(kind='box')

使用python绘出一个简单的箱形图，其中，箱子的顶部和底部分别是第75百分位数和第25百分位数。箱内的水平线表示的是中位数。从箱顶或箱底延伸的线段称为须(whisker)，须从最大值一直延伸到最小值，显示了数据的极差，而箱外的圈（或说点）表示的则是离群值。

5.2 频数表和直方图

变量（特征）的频数表可以将该变量的极差均匀地分割为多个等距分段，并给出落在每个分段中地数值个数。

import numpy as np
import pandas as pd
data=pd.Series(np.random.rand(10))
data.plot(kind='hist')

使用python绘出一个简单的直方图，可以观察到其中有两个组距是空的，添加空组距也是有必要的，空组距中没有值通常是很有价值的信息。尝试不同大小的组距也是非常有用的，如果组距过大，可能就会隐藏掉分布的一些重要特性；如果组距过小，那么结果就会过于颗粒化，失去查看整体图的能力。

绘制直方图需注意：1.空组距也应在直方图中。2.各组距是相等的。3.组距的数量（或组距的大小）是自定的。4.各条块相互紧邻，条块间没有任何空隙，除非存在空组距。

注：频数表和百分位数都是通过创建组距总结数据。一般情况下，四分位数和十分位数在每个组距中具有相同的计数，但每个组距的大小不同，将其称之为等计数组距，相反地，频数表中每个组距的大小相同，但其中的计数可以不同，将其称之为等规模组距。
统计学中的矩（moment）：在统计学理论中，位置和变异性分别称为分布的一阶矩和二阶矩，而分布的三阶矩和四阶矩分别被称为偏度(skewness)和峰度(kurtosis)。偏度显示了数据是偏向较小的值还是较大的值；峰度则显示了数据中具有极值的倾向性。通常情况下，我们不使用度量去测定偏度和峰度，而是通过可视化方法来发现他们。

5.3 密度估计

密度图用一条连续的线显示数据值的分布情况。可以将密度图看作由直方图平滑得到的，尽管它通常是使用一种核密度估计量从数据中直接计算得到的。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data=pd.Series(np.random.normal(0, 1, 1000))
plt.figure()
plt.subplots_adjust(wspace=0.2)
plt.subplot(1,2,1)
data.plot(kind='hist',bins=14,density=True)
data.plot(kind='kde')
plt.xlim(-4,4)
plt.subplot(1,2,2)
data.plot(kind='kde')
plt.xlim(-4,4)
plt.rcParams['figure.figsize']=(12.0,4.0)

使用python绘出一个正态分布数值集的密度图和直方图的情况，可清晰的看出核密度图与直方图之间的关系，而当数据量越大时，核密度图和直方图平滑得到的曲线越相似。

data=pd.Series(np.random.normal(0, 1, 100)) #右图为data=pd.Series(np.random.normal(0, 1, 10000))
y=data.plot(kind='hist',bins=14,density=True,alpha=0.3,label='hist')
data.plot(kind='kde',label='kde')
plt.plot(np.arange(-3.6,4,0.4)-0.2,frequency_each,label='hist_line')
plt.xlim(-4,4)
plt.legend()
plt.show()

如图，分别为选取100个数据和10000个数据核密度图与取直方图组距中点的值得到的平滑曲线拟合的情况。

6.探索分类数据

6.1 众数和期望值

众数是数据集中出现次数最多的类别或值，是分类数据的一个基本汇总统计量，通常不用于数值型数据。

有些数据类别可以表示成或映射到同一尺度的离散值，也就是可以与一系列的数值相关联，那么就可以根据类别出现的概率计算出一个平均值，称之为期望值，它是一种加权均值，权重使用的是类别出现的概率。

6.2 条形图和饼图

条形图和饼图是常用来可视化分类数据的方法，条形图以条形表示每个类别出现的频数或占比情况，饼图是条形图的一种替代形式，以圆饼中的一个扇形部分表示每个类别出现的频数或占比情况。

要特别注意的是，虽然条形图与直方图非常相似，但二者之间仍存在着一些差异。在条形图中，x轴表示因子变量的不同类别，而在直方图中，x轴以数值度量的形式表示某个变量的值。另外，在直方图中，通常各个条形是相互紧邻的，条形间的间隔表示空组距（即数据中未出现的值），而在条形图中，各个条形的显示是相互独立的。

data=pd.Series(np.random.randint(1,11,20))
data.plot(kind='bar')
data.plot(kind='pie')

使用python绘出一些离散变量的条形图和饼图。

7.相关性

相关性，是指两个变量的关联程度。无论是在数据科学还是研究中，很多建模项目的探索性数据分析都要检查预测因子之间的相关性，以及预测因子和目标变量之间的相关性。

如果一个变量的高值随另一个变量的高值的变化而变化，并且它的低值随另一个变量的低值的变化而变化，那么称这两个变量正相关。如果一个变量的高值随另一个变量的低值的变化而变化，且反之亦然，那么称这两个变量负相关。如果一个变量的变化对另一变量没有明显影响，那么称这两个变量不相关。

首先介绍三个重要概念：

相关系数(Correlation coefficient)：一种标准化的度量，用于测量数值变量之间的相关程度，取值范围在-1（完全负相关）和+1（完全正相关）之间。若其值为0，则表示两个变量之间没有相关性，需注意，数据的随机排列将会随机生成正的或负的相关系数。
相关矩阵(Correlation Matrix)：将变量在一个表格中按行和列显示，表格中每个单元格的值是对应变量之间的相关性。
散点图(scatter-plot)：在绘图中，x轴表示一个变量（特征）的值，y轴表示另一个变量的值，可以反映出y随x的变化而变化的大致趋势。

7.1 相关系数

皮尔逊相关系数公式：
$r=\frac{\Sigma_{i=1}^ N{(x_i-\bar x)(y_i-\bar y)}}{(n-1)s_xs_y}$
当变量的相关性是非线性的时候，相关系数就不再是一种有用的度量，此时需计算非线性相关系数来对变量的相关性来做出判断。而反映一个因变量与一组自变量(两个或两个以上)之间相关程度的指标称为复相关系数，在此不做过多介绍。

7.2 相关矩阵

在可视化方法上，我们可以使用热力图（见8.1.1）来可视化相关矩阵。

import seaborn as sns
import warnings
warnings.filterwarnings("ignore") 
from pyforest import *
wine=pd.read_csv('wine.csv')
corr = wine.corr() #相关矩阵计算方法
fig, ax = plt.subplots(figsize=(16, 12))
ax = sns.heatmap(corr,square=True,ax=ax,annot=True)
ax.set_title('Correlation coefficient')

以sklearn库中的wine数据集（笔者使用时已将数据集导入到了csv文件中）为例，计算该数据集各变量（特征）之间的相关系数。

7.3 散点图

散点图是一种可视化两个测量数据变量间关系的标准方法。在散点图中，x轴表示一个变量，y轴表示另一个变量，图中的每个点对应于一条记录。

plt.scatter(wine.Alcohol,wine.Proline)

再以wine数据集中Alcohol与Proline两列为例绘出散点图。

8.探索多个变量

对一个变量进行分析称为单变量分析；对两个变量及其关系进行分析称为双变量分析，例如（线性）相关性分析；而对两个以上的变量进行分析称为多变量分析。与单变量分析一样，双变量分析不仅计算汇总统计量，而且生成可视化的展示。双变量或多变量分析的适用类型取决于数据本身，即数据是数值型数据还是分类数据。

8.1 双变量分析的可视化

多个变量的分析与可视化完全可以由双变量分析加上条件(conditioning)这个概念扩展得到，所以首先介绍几种关于两种变量的可视化方法，它们有六边形图、等势线、热力图、箱形图、小提琴图等。事实上，这些可视化方法本质上对应的都是直方图和密度图。

8.1.1 六边形图、等势线和热力图

六边形图、等势线和热力图均适用于两个数值型变量，它们所给出的都是二维密度的可视化表示。现再以wine数据集为例使用python实现可视化，简单地展示三种图像。

plt.hexbin(wine.Alcohol,wine.Proline,gridsize=30,cmap='Blues')
plt.colorbar()

六边形图绘制的并非数据点，而是将记录（样本）分组为六边形的组距，并用不同的颜色绘制各个六边形，以显示每组中的记录数。

wine_AP=wine.loc[:,['Alcohol','Proline']]
sns.kdeplot(wine_AP)
plt.scatter(wine['Alcohol'],wine['Proline'])

上图在散点图上绘制了一个等势线图（二维密度图），可视化了两个数值型变量之间的关系，等势线在本质上就是两个变量的地形图，每条等势线表示特定的密度值，并随着接近“顶峰”而增大。

wine_AP.set_index('Alcohol',inplace=True)
wine_AP_part=wine_AP.iloc[0:10]
sns.heatmap(wine_AP_part)

当然，一种可视化方法可以有多种用途，例如热力图还可以展现两个离散变量之间的组合关系或进行分类变量中数值型数据的相关性分析等。

8.1.2 箱形图和小提琴图

一些数值型数据是根据分类变量进行分组的，或者要同时比较多个变量的分布，可视化这类数据通常使用箱形图或小提琴图。

wine_BV=wine.loc[:,['Malic acid','Total phenols','Flavanoids','Proanthocyanins','Hue']]
sns.boxplot(data=wine_BV)

箱形图可以很直观的比较不同类别的（或不同特征的）数据分布。

sns.violinplot(data=wine_BV)

小提琴图是箱形图的一种增强表示，它以y轴为密度来绘制密度估计量的情况。绘图中对密度做镜像并反转（即核密度函数），并填充所生成的形状，由此生成了一个类似小提琴的图形。

sns.violinplot(data=wine_box,inner='quartile')

如果规定inner=‘quartile’，那么绘出的小提琴图相当图结合了箱形图，在某些情况下会有更好的效果。

8.2 多个变量的可视化

例如可视化上述数据集wine_AP（取特征Alcohol,Proline）时加入条件分别可视化不同等级（wine中的特征class,class=1,2,3）的数据，这就变成了一个多变量分析的可视化问题，我们通过建立多个子图来对比它们。例如：

wine_class1=wine.loc[wine['class']==1]
wine_class2=wine.loc[wine['class']==2]
wine_class3=wine.loc[wine['class']==3]
plt.figure()
plt.subplots_adjust(wspace=0.3)
plt.subplot(1,3,1)
plt.hexbin(wine_class1.Alcohol,wine_class1.Proline,gridsize=30,cmap='Blues')
plt.colorbar()
plt.subplot(1,3,2)
plt.hexbin(wine_class2.Alcohol,wine_class2.Proline,gridsize=30,cmap='Blues')
plt.colorbar()
plt.subplot(1,3,3)
plt.hexbin(wine_class3.Alcohol,wine_class3.Proline,gridsize=30,cmap='Blues')
plt.colorbar()
plt.rcParams['figure.figsize']=(13,3)

后记

到这里，对于探索性数据分析的简要介绍就结束了。对于任意基于数据的项目，最重要的第一步都是查看数据，这正是探索性数据分析的关键理念所在。通过总结并可视化数据，我们可以对项目获得有价值的洞悉和理解。从位置估计和变异性估计等简单度量，到探索多个变量之间的关系，我们可以借助各种技术和工具并结合python这样的语言强大的表达能力来建立丰富多样的数据探索和分析方式。

在最后，希望本文能够帮助到阅读的各位，也请大家多多关注，笔者会在后续介绍更多有关数据科学的内容以及使用python等语言进行数据分析的方法。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后