DRAmonster

利用python数据分析（2）

利用python数据分析

这是自己在练习的时候，一些用到的知识，所以会持续更新……

数据分析的目的一般是用于预测。
利用python进行数据分析首先要导入数据，一般导入数据使用的是下面命令：

import pandas as pd
# 通过pd读取的文件是Dataframe格式的文件
pd.read_csv('文件路径')

当然实际应用中的问题是非常复杂的，数据源的获取也要花费很多时间。

当实际中的数据是文本数据，这时候可能需要进行文本的处理：
当前最流行的一种文本处理过程：

在处理文本之前，对文本进行分词操作，将为本切分为一个个单元（token），最简单的情况是一个单词一个token。但直接对单词进行切分可能会损失一些信息，比如Santa Barbara应该是一个整体，但被分为2个token。
接下来需要正则化数据。对于文本而言，涉及到词干提取（stemming）和词形还原（lemmatization）方法。这两个方法是词形规范化的两类重要方式，都能够达到有效归并词形的目的。
当文档被转换为单词序列之后就可以使用向量表示，最简单的方法是（Bag of Words）模型：创建一个长度等于字典的向量，计算每个单词出现在文本中的次数，然后将次数放入到向量对应的位置中。

词袋模型：

import numpy as np
import pandas as pd
texts = ['i have a cat',
         'you have a dog',
         'you and i have a cat and a dog']

# 使用当前文本信息中的所有单词生成一个字典
vocabulary = list(enumerate(set([word for sentence in texts for word in sentence.split()])))
print('Vocabulary:', vocabulary)
# Vocabulary: [(0, 'and'), (1, 'i'), (2, 'cat'), (3, 'a'), (4, 'you'), (5, 'dog'), (6, 'have')]

# 生成文本向量
def vectorize(text):
    vector = np.zeros(len(vocabulary))
    for i, word in vocabulary:
        num = 0
        for w in text:
            if w == word:
                num += 1
        if num:
            vector[i] = num
    return vector


print('Vectors:')
for sentence in texts:
	print(vectorize(sentence.split()))
# Vectors:
# [0. 1. 1. 1. 0. 0. 1.]
# [0. 0. 0. 1. 1. 1. 1.]
# [2. 1. 1. 2. 1. 1. 1.]

当使用词袋模型，只是知道这一段文本中有这几个单词，但是丢失了文本的模型信息，为了避免这一问题，可以使用N-Gram模型：

 # CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。 CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。
 from sklearn.feature_extraction.text import CountVectorizer
# ngram_range=(1, 1)可以对该参数进行改变，从而改变生成的字典
vect = CountVectorizer(ngram_range=(1, 1))
# fit_transform等价于先对模型进行fit，再进行transform函数操作
vect.fit_transform(['no i have cows', 'i have no cows']).toarray()
vect.vocabulary_
# {'no': 2, 'have': 1, 'cows': 0}

vect = CountVectorizer(ngram_range=(1, 2))
vect.fit_transform(['no i have cows', 'i have no cows']).toarray()
vect.vocabulary_
# {'no': 4, 'have': 1, 'cows': 0, 'no have': 6, 'have cows': 2, 'have no': 3, 'no cows': 5}

有时候，在语料库中罕见但在当前文本中出现的专业词汇可能会非常重要。因此，通过增加专业词汇的权重把它们和常用词区分开是很合理的，这一方法称为TF-IDF（词频-逆向文档频率）。

图像数据
现在图像的处理，可以直接使用卷积神经来处理。不需要从头设计网络架构，从头训练网络，下载一个当前最先进的预训练网络及其权重，“分离”网络的最后一个全连接层，增加针对特定任务的新层，接着再新数据上训练网络即可。这一让预训练网络适应特定任务的过程被称为微调（fine-tuning）。
通过调用Keras中的预训练网络进行图像特征抽取：

from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input
from tensorflow.keras.preprocessing import image
from scipy.misc import face
import numpy as np

# 由于原 ResNet50 模型托管在外网上，速度较慢。可以直接从阿里云下载模型。
# 通过ResNet50()函数来加载模型，并通过include_top参数来舍弃模型顶部的全连接层，这一层用于将图像分类，
# 如果舍弃这一层，可以用来自定义的功能
resnet_settings = {'include_top': False, 'weights': 'imagenet'}
resnet = ResNet50(**resnet_settings)
resnet.summary()

# 抽取图片的特征矩阵，所以这里的x表示输入网络的张量（batch_size、width、height、n_channels）
features = resnet.predict(x)

地理空间数据
地理空间数据相对于文本和图像并不常见，地理空间数据常常以地址或坐标（经纬度）的形式保存。根据任务的不同，可能需要两种互逆的操作：地理编码（由地址重建坐标点）和逆地理编码（由坐标点重建地址）。在实际项目中，这两个操作可以使用访问外部API（谷歌地图或OpenStreetMap）来使用。不同的地理编码器各有其特性，不同编码质量也不一样，GeoPy类封装了这些操作。如果有大量数据，很快便会达到外部API的限制。所以可是考虑使用本地版的OpenStreetMap。
如果只有少量的数据，可以考虑使用reverse_geocoder：

import reverse_geocoder as revgc
latitude = 40.74482
longitude = -73.94875
revgc.search((latitude, longitude))
# OrderedDict([('lat', '40.74482'), ('lon', '-73.94875'),
#              ('name', 'Long Island City'), ('admin1', 'New York'),
#              ('admin2', 'Queens County'), ('cc', 'US')])]

web数据
web数据通常有用户的User Agent信息，这个信息非常重要，可以从中提取操作系统信息，可以创建[is_mobile]特征，还可以查看浏览器类别。
现在浏览器中的User_agent值格式一般如下：

 Mozilla/[version] ([system and browser information]) [platform] ([platform details]) [extensions]

import user_agents
ua = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/56.0.2924.76 Chrome/56.0.2924.76 Safari/537.36'
# parse()函数对字段进行语法分析
ua = user_agents.parse(ua)

除了操作系统和浏览器之外，还可以查看referrer（网站来源）和Accept-Language 和其他元信息。

特征标准化
在进行数据分析之前，通常要将数据进行标准化处理。通常使用以下方法：

z值标准化（Z-score normalization）：

z值标准化的目的是将不同量级的数据统一转化为同一量级，以保证数据之间的可比性。

from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(data)

极大极小缩放（MinMaxScaling），目的是将所有数据点纳入一个预先规定的区间（通常是[0，1]）：

from sklearn.preprocessing import MinMaxScaler

MinMaxScaler().fit_transform(data)

特征缩放和极大极小缩放应用类似，常常可以相互替换。然而，当涉及到计算数据点或向量之间的距离时，默认使用特征缩放，而在可视化时，极大极小缩放很有用，因为它可以将特征纳入[0，255]区间。

特征选择

收集到了数据，要分析数据并选取所需的特征向量，特征选择的重要性如下：

数据越多，计算的复杂度越高。
部分算法会将噪声（不含信息量的特征）加入计算，导致过拟合。
选择特征向量的时候可以利用matplotlib、seaborn等可视化库分析每个变量与结果之间是否有线性关系，来自行选取特征向量。

import matplotlib.pyplot as plt
plt.subplot(221)
# TS是我的数据集，dataframe类型
plt.scatter(x=TS['G'], y=TS['Rk'])
plt.subplot(222)
plt.scatter(x=TS['MP'], y=TS['Rk'])
plt.show()

那么如下图这样的样本点就不是很好的样本点，可以考虑选择删去：

一些方差较低的特征可能不如方差较高的特征重要，有时可以考虑删除方差低于特定阈值的特征。

特征选择还可以使用某个模型评估特征重要性，常用的两类模型是：随机森林和搭配Lasso正则的线性模型。（sklearn.feature_selection库的应用）

from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

rf = RandomForestClassifier(n_estimators=10, random_state=17)
s_feature = SelectFromModel(estimator=rf)

分析日期型变量：可以将数据用以下命令转换成日期格式（在上一个文章的时间序列章节讲过）

import pandas as pd
x = pd.to_datetime(x)
# 可利用datetime类型的strftime函数截取小时和分钟
x = [a.strftime('%H:%M') for a in x]
# 新建figure对象
fig = plt.figure()
# 新建子图
ax = fig.add_subplot(1, 1, 1)
plt.plot(x, y)
# 设置x轴的数据格式
plt.xticks(rotation=30, fontsize='small')
plt.show()

效果如下：

如果要在一个子图上划多条曲线图，可以使用如下方式：

ax.plot(x1, y1, 'r', x2, y2, 'r', x3, y3, 'r')
ax.plot(x4, y4, 'b', x5, y5, 'b', x6, y6, 'b')

效果如下：

选定了要选取的特征向量之后，就要进行数据清洗，
一般要进行的操作有：

去除不需要的特征值，或者是缺失值太多的值的特征值
缺失值的填补，采用中值，平均值等方法填补缺失数据
非数值数据的转换为数值。
如果原始数据是多表，可能还涉及到多表合并的操作。

去除不需要的特征值，使用的是之前介绍的：

# axis=1，列方向
TS = TS.drop(['Rk', 'G', 'MP'], axis=1)

使用之前文章中介绍的Dataframe连接，pandas库中的merge函数：

X = pd.merge(TS, OS, how='left', on='Team')

重置索引（注意两种重置索引方法的区别）：

# reindex方法返回的是一个新表，值填充为NaN
print(X.reindex(X['Team']).head())

输出如下：

print(X.set_index('Team', drop=True, inplace=False).head())

输出如下：

Elo等级分，Elo最初用于国际象棋中更好地对不同的选手进行等级划分。简单介绍一下Elo等级划分制度，pk双方对各自的胜率的期望计算公式。假设A和B的当前等级分为R_A和R_B，则A对B的胜率期望值为：

B对A的胜率期望为：

如果棋手在比赛中的真实得分S_A（胜1分，和0.5分，负0分）和他的期望值不同，则它的等级要根据以下公式重新调整：

在国际象棋中，根据等级分的不同K值也会做相应的调整（基础elo等级分）：

大于等于2400，K=16
2100~2400分，K=24
小于等于2100，K=32

CART算法在生成树的过程中，分类树采用了基尼指数（Gini index，和熵的概念很类似，数值相近但不同基尼指数在运算时速度会更快一点）最小化原则，而回归树选择了平方损失函数最小化原则。
CART算法也包含了树的修剪，CART算法从完全生长的决策树底端剪去一些子树，使得模型更加简单。而修剪这些子树时，是每次去除一棵，逐步修剪直到根节点，从而形成一个子树序列，最后，对该子树序列进行交叉验证，再选出最优的子树作为最终决策树。

UCI 机器学习数据集网站：https://archive.ics.uci.edu/ml/datasets.php

一般实验所用数据集是按照顺序进行排列的，这时最好的选择是在划分训练集和测试集之前打乱数据集，因为直接划分容易导致某一分类在训练集中一次都未出现过，这样训练的模型永远不会预测出这种分类：

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(dataSet_feature, dataSet_target, test_size=0.33, random_state=42)
# 这样分类的结果直接就是乱序的，而且已经分好组了

利用pandas进行数据探索

pandas的info()方法可以输出Dataframe的一些总体信息

df.info()

astype()方法可以修改列的类型

df['Churn'] = df['Churn'].astype('int64')

describe()方法可以显示数值的基本统计学特性，

通过显式指定包含的数据类型，可以查看非数值特征的统计数据：

df.describe(include=['object', 'bool'])

value_counts()可以查看object类型和布尔类型的特征：

df['Churn'].value_counts()

调用 value_counts() 函数时，加上 normalize=True 参数可以显示比例。

df['Churn'].value_counts(normalize=True)

DataFrame可以根据某个变量的值排序，（ascending=False倒序排序）

# 非原地操作
df.sort_values(by='Total day charge', ascending=False).head()

还可以根据多个列的值进行排序。比如先按Churn升序排列，再按Total day charge进行降序排列：

df.sort_values(by=['Churn', 'Total day charge'], ascending=[True, False]).head()

索引和获取数据
布尔索引的使用：

# 布尔索引获得的结果是符合条件的整行数据
df[df['Churn'] == 1].

DataFrame可以通过列名、行名、行号进行索引。loc方法通过行名索引，iloc方法通过数字（行号）索引

df.loc[0:5, 'State':'Area code']
df.iloc[0:5, 0:3]
# df[:1] 和 df[-1:] 可以得到 DataFrame 的首行和末行。

应用函数到单元格、列、行
通过apply方法应用函数至每一列或者每一行（默认是axis=0，跨行；axis=1，跨列）

df[df['State'].apply(lambda state: state[0] == 'W')].head()

map()方法可以通过字典来替换数据：

d = {'No': False, 'Yes': True}
df['International plan'] = df['International plan'].map(d)
df.head()

replace()方法也可以达到同样的效果：

d = {'No': False, 'Yes': True}
df = df.replace({'Voice mail plan': d})
df.head()

分组（groupby）

# grouping_columns分组依据，
# columns_to_show展现效果的一列，如果没有这一项，则会选择除grouping_columns外的每一列
# function()所要应用的函数
# df.groupby(by=grouping_columns)[columns_to_show].function()
columns_to_show = ['Total day minutes', 'Total eve minutes',
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

汇总表

透视表是电子表格程序和其他数据探索软件中一种常见的数据汇总工具。他根据一个或多个键对数据进行聚合，并根据行和列上的分组将数据分配到各个矩阵中。

通过pivot_table()方法可以建立透视表，其参数如下：

values表示要统计的数据列表
index表示分组依据列表
aggfunc表示需要计算哪些统计数据

df.pivot_table(['Total day calls', 'Total eve calls', 'Total night calls'],
               ['Area code'], aggfunc='mean')

交叉表：是一种用于计算分组频率的特殊透视表，在pandas中使用crosstab()方法构建交叉表

pd.crosstab(df['Churn'], df['International plan'])

pd.crosstab(df['Churn'], df['International plan'], normalize=True)

增减DataFrame的行列
新增列的方法：insert()

total_calls = df['Total day calls'] + df['Total eve calls'] + \
    df['Total night calls'] + df['Total intl calls']
# loc 参数是插入 Series 对象的指定列数
df.insert(loc=len(df.columns), column='Total calls', value=total_calls)
df.head()

也可采用如下方法直接添加一列：

df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + \
    df['Total night charge'] + df['Total intl charge']
df.head()

使用drop()方法删除列和行（默认删除行，axis=1是删除列）：

# 移除先前创捷的列
# inplace 参数表示是否修改原始 DataFrame （False 表示不修改现有 DataFrame，返回一个新 DataFrame，True 表示修改当前 DataFrame）。
df.drop(['Total charge', 'Total calls'], axis=1, inplace=True)
# 删除行
df.drop([1, 2]).head()

python数据可视化

直方图和密度图：

# 设置画布的大小
plt.figure(figsize=(10, 8))
# df是Dataframe型数据
# 绘制直方图
df.hist()
# 密度图（density plots），（也叫核密度图KDE）。可以看做直方图的平滑版本。
df.plot(kind='density')
# 使用seaborn的displot()方法观测数值变量分布，默认情况下，该方法将同时显示直方图和密度图
sns.distplot(df)

箱型图：箱型图的主要组成部分是箱子（box），须（whisker）和一些单独的数据点（离群点），箱子显示了分布的四分位距，它的长度有25th（Q1，下四分位数）和75th（Q3，上四分位）决定。箱中的水平线表示中位数（50%）。须是从箱子中延伸出来的线，他们表示数据点的总体分布，具体而言，是位于区间（Q1-1.5IQR， Q3+1.5IQR）的数据点，其中IQR=Q3-Q1，也就是四分位距。离群值是须之外的数据点，他们作为单独的数据点，沿着中轴绘制。

# 使用seaborn的boxplot()方法绘制箱型图
sns.boxplot(x='column_name', data=df)

提琴型图（violin plot）：提琴型图和箱型图的区别是，提琴型图聚焦于平滑后的整体分布，而箱型图显示了单独样本的特定统计数据。

sns.violinplot(data=df['columns_name'])

类别特征和二元特征
类别特征（categorical features take）反映了样本的所属的类别（category）

频率表：可以使用value_counts()方法获得频率表
条形图：频率表的图形化表示是条形图。

# 创建条形图
sns.countplot(x='column_name', data=df)

条形图和直方图的区别：

直方图适合查看数值变量的分布，而条形图用于查看类别特征。
直方图的X轴是数值；条形图的X轴可能是任何类型，如数字、字符串、布尔值。
直方图的X轴是一个笛卡尔坐标轴；条形图的顺序没有事先定义。

多变量可视化：多变量图形可以再单张图像查看两个以上变量的联系。
相关矩阵
相关矩阵可揭示数据集中变量的相关性，这一信息很重要，因为一些机器学习算法（比如线性回归和逻辑回归）不能很好地处理高度相关的输入变量。
首先，使用Dataframe的corr()方法计算每对特征间的相关性。接着，将所得的相关矩阵（correlation matrix）传给seaborn的heatmap()方法，该方法根据提供的数值，渲染出一个基于色彩编码的矩阵（热力图）。

# 丢弃非数值变量， 因为相关型矩阵要计算的数值型数据之间的相关性
numerical = list(set(df.columns)-set(['非数值变量']))
# 计算、绘图，在绘制热力图之前首先要进行相关型矩阵的计算 
# corr()函数的参数说明：
# method：可选值为：{‘pearson’, ‘kendall’, ‘spearman’}
corr_matrix=df[numerical].corr()
# 创建Mask来隐藏相关矩阵的上三角形
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
# 绘制图形
sns.heatmap(corr, mask=mask,vmax=1,center=0,annot=True,\
           fmt='.1f',square=True,linewidths=.5,cbar_kws={'shrink':.5})

散点图（scatter plot）：将两个数值变量的值显示为二维空间中的笛卡尔坐标。

# 绘制散点图
plt.scatter(x,y)

seaborn的jointplot()方法在绘制散点图的同时绘制两张直方图，在某些情形下可能会更有用：

sns.jointplot(x,y,data=df,kind='scatter')

jointplot()方法还可以绘制平滑过的散点直方图。

sns.jointplot(x,y,data=df.kind='kde',color='g')

散点图矩阵（scatterplot matrix）：它的对角线包含变量的分布，并且每对变量的散点图填充了矩阵的其余部分。

sns.pairplot(df)

数量和类别：可以尝试从数值和类别特征的相互作用中得到预测Churn的新信息。查看输入变量和目标变量的关系。使用lmplot()方法的hue参数来指定感兴趣的类别特征。

# lmplot在进行二维散点图的绘图时，会自动完成回归拟合fit_reg
sns.lmplot('column_name1', 'column_name2', data=df, hue='Churn', fit_reg=False)

利用箱型图来分析比较重要的分类特征变量

# 有时我们可以将有序变量作为数值变量分析
numerical.append('Customer service calls')

fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))
for idx, feat in enumerate(numerical):
    ax = axes[int(idx / 4), idx % 4]
    sns.boxplot(x='Churn', y=feat, data=df, ax=ax)
    ax.set_xlabel('')
    ax.set_ylabel(feat)
fig.tight_layout()

当想要一次性分析两个类别维度下的变量时，可以使用seaborn库的catplot函数：

# catplot()函数的参数 ，col指定按哪一列分成子图，height指定图片的宽度， kind指定绘图类型，这里是指定绘制箱型图
sns.catplot(x='Churn', y='Total day minutes', col='Customer service calls',
            data=df[df['Customer service calls'] < 8], kind="box",
            col_wrap=4, height=3, aspect=.8)

类别与类别：某一变量的重复值很多，因此，即可以看成数值变量，也可以看成有序类别变量，现在感兴趣的是有序特征和目标变量变量之间的关系。使用countplot()方法查看客服呼叫数的分布，再加上hue来区分不同的类别（或者说感兴趣的分类特征）：

sns.countplot(x='Customer service calls', hue='Churn', data=df)

交叉表：
除了使用图形进行类别分析之外，还可以使用统计学的传统工具：交叉表，即使用表格形式表示多个类别变量的频率分布。通过它可以查看某一列或某一行以了解某个变量在另一变量条件下的分布情况：

pd.crosstab(df['column_name1', 'columns_name2']).T

全局数据集可视化数据降维与可视化
上面一直在研究数据集的不同方面（facet），通过猜测有趣的特征并一次选择少量的特征进行可视化。如果想一次性显示所有特征并仍能解释生成可视化，可以采用如下的一些方法。
降维：每一个特征都可以被看成数据空间的一个维度。因此，我们经常需要处理高维数据集，然而可视化整个高维度数据集相当难，因此要在不损失很多数据信息的前提下，降低用于可视化的维度。之一任务成为降维。降维是无监督学习问题，因此它需要在不借助任何监督输入的前提下，从自身数据得到新的低维特征。主成分分析（PCA）是一个著名的降维方法，局限性在于，它是线性算法，这意味着对数据有某些特定的限制。
与现行方法相对的，有许多非线性的方法，统称流行学习，著名的方法之一是t-SNE。
t-SNE：为高维特征空间在二维平面（或三维平面）上寻找一个投影，使得在原本的n维空间中的数据之间的相对距离不变（原来相距较远的现在仍然相距较远）。
在降维之前要进行均值归一化处理：

from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler
# 使用StandardScaler()方法来完成归一化处理
scaler = StandardScaler()
# 除以标准值
# X表示数据集
x_scaled = scaler.fit_transform(X)
# 构建t-SNE表示
tsne = TSNE(random_state=17)
tsne_repr = tene.fit_transform(X_scaled)
# 以图形的方式可视化
plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=.5)

t-SNE是目前来说最好的数据降维与可视化方法，但是它的缺点也很明显：计算复杂高，随机种子不同会导致形状大不相同，给解释带来了困难，这种方法可以给我们提供一个思路。但当我们想要对高维数据进行分类，有不清楚这个数据集有没有很好的可分性，可以通过t-SNE投影到二维或三维空间中观察一下。如果在低维空间中具有可分性，则数据是可分的，如果在低维空间中不可分，可能是数据不可分，也可能仅仅是因为不能能投影到低维空间。

TSNE将数据点之间的相似度转化为概率。原始空间中的相似度

seaborn绘图
seaborn将matplotlib参数分成两个独立的组。第一组设定了美学风格，第二组则是不同的度量元素。操作这些参数的接口是两对函数，为了控制样式，使用axesstyle()和setstyle()函数。为了扩展绘图，使用plotting_contex()和set_context()函数。第一个函数返回参数字典，第二个函数则设置matplotlib默认属性。
样式控制：axes_style() and set_style()
有5个seaborn主题：

darkgrid 黑色网格（默认）
whitegrid 白色网格
dark 黑色背景
white 白色背景
ticks：和white展示出来的效果好像一样

如果想要定制seaborn的样式可以将参数字典传给axes_style()和set_style()的rc参数，只能通过该方法覆盖‘样式定义’一部分参数（更高层次的ste()可以接受任何matplotlib参数的字典）。

通过plotting_context()和set_context()调整绘图元素
首先，可以通过sns.set()重置参数

import seaborn as sns
# 表明通过sns.set()重置参数
sns.set()
# 调整线条粗细（越来越粗）：paper,notebook,talk,poster
sns.set_context("paper")
# 使用rc属性来自定义覆盖参数的字典
sns.set_context('notebook', font_scale=1.5, rc={"lines.linewidth": 2.5})

参数scale
参数hue

构建结构化多绘图风格（FaceGrid()、map()）

sns.FacetGrid(df, hue='gender',height=12).map(sns.kdeplot,'height')

numpy.meshgrid()：生成网格点坐标矩阵
pcolormesh绘制分类图：

# xx表示网格矩阵的x轴，yy表示网格矩阵的y轴，
# plt.pcolormesh()会根据predicted（预测）的结果在cmap中选择颜色
plt.pcolormesh(xx, yy, predicted, cmap='autumn')

数据清洗的思路

分类问题的目标值是非数值型，如下是二分类问题(可用如下方法，具体还是根据实际情况分析)：

df['goal'].map({'classifi_zero': 0,'classifi_one': 1})

检查数据集中变量的数据类型，如果有不对的，要改正

df.dtypes
# 如age的数据类型是object，但它应该是int型的
# 要注意这个操作是非原地操作
df['age'].astype(int)

缺失数据的填充，数据一般分为连续特征和离散特征（又叫分类特征），那么不同数据要有不同的填补缺失值得方法，比如离散值可以用众数填充。

# 首先进行不同类型值的区分
categorical_columns = [c for c in df.columns if df[c].dtype.name == object]
numerical_columns = [c for c in data_train.columns if data_train[c].dtype.name != 'object']

# 分类特征用众数填充，连续特征用中位数填补
for i in categorical_columns:
	df[i].fillna(df[i].mode, inplace=True)
for i in numerical_columns :
	df[i].fillna(df[i].median, inplace=True)

对类别特征进行独热编码处理，使得特征变量都变成数值型

# get_dummies 是利用pandas实现one hot encode的方式
df = pd.concat([df[numerical_columns ], pd.get_dummies(df[categorical_columns])], axis=1)

你可能感兴趣的:(学习笔记,数据分析)

【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
lxml学习笔记 weixin_33843409 python
问题1：有一个XML文件，如何解析问题2：解析后，如果查找、定位某个标签问题3：定位后如何操作标签，比如访问属性、文本内容等fromlxmlimportetree->导入模块，该库常用的XML处理功能都在lxml.etree中requests+lxml解析小from lxml import etree import requests page = 1 url = 'http://www.
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
美容院如何通过数据分析降低顾客流失率 shboka920702 信息可视化
美容行业的竞争日益激烈，顾客流失率居高不下已成为许多美容院面临的共同难题。根据《美容行业经营分析报告》的数据，美容行业的平均顾客流失率高达40%，这意味着每10位顾客中就有4位在一年内不再光顾。如何通过数据分析降低顾客流失率，成为美容院经营者亟需解决的问题。顾客流失的原因多种多样，主要包括服务质量、价格、环境、竞争对手等。根据《消费者行为研究》期刊的调查，超过50%的顾客流失是由于服务质量不达标，
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
ArcGIS无插件加载（无偏移）在线天地图高清影像与街道地图指南橘飞侠 arcgis
在地理信息系统（GIS）的应用中，加载高清影像与街道地图对于地图制图、影像查阅、空间数据分析等工作至关重要。天地图作为官方出品的地图服务，以其标准的数据、较快的影像更新速度等特点受到广泛欢迎。以下是如何在ArcGIS中无插件加载（无偏移）天地图高清影像与街道地图的具体步骤。第一步：申请天地图Key访问天地图官方网站的地图服务API页面：http://lbs.tianditu.gov.cn/serv
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁「已注销」数据库分布式 redis java 多线程
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁一、性能压测我们希望通过压测发现其他测试更难发现的错误：内存泄漏、并发与同步。1、性能指标吞吐量、响应时间QPSTPS、错误率RT:ResponseTime响应时间HPS:hitspersecond每秒点击次数TPS：Transactionpersecond系统每秒处理交易数QPS：querypersecond每秒处理查询次数2、JMeter下载地
STM32学习笔记李兆源—电子工程师 stm32 学习笔记
STM32系列(HAL库)——内部FLASH读写实验_简约版在此篇文章前，写过另外一篇关于STM32内部FLash读写的文章——点击跳转。之前那篇文章的代码是移植于正点原子的，比较复杂，因为它考虑了写入字节大于1K或2K时需要换页写入的问题。但是在实际使用过程中，我们需要写入的数据常常远小于1K，因此本篇文章的代码适用于写入小量数据使用(即小于1K或2K——取决于单片机最小写入页)。本次代码是借鉴
分布式电商项目谷粒商城学习笔记＜4＞怎么又有bug单 SpringBoot 分布式 java 开发语言阿里压力测试
文章目录十五、压力测试1.一些基本概念2.JVM内存机制3.压测记录4.Nginx动静分离5.优化三级分类查询十六、redisson分布式锁与缓存1.概念2.redis3.缓存失效缓存穿透缓存雪崩缓存击穿互斥锁：4.缓存击穿如何复制微服务：5.分布式缓存概念原则基本流程6.Redisson环境搭建可重入锁锁的续期读写锁信号量（Semaphore）闭锁7.缓存和数据库一致性十五、压力测试这里是使用j
【Unity入门教程】第一章游戏引擎基础【中国大学MOOC游戏引擎原理及应用】晴夏。 unity游戏开发游戏 unity 游戏开发 unity3d
以下均为来自中国大学mooc游戏引擎原理及应用时的学习笔记，不含商用，仅供学习交流使用，如果侵权请联系作者删除。第一章都很简单没什么好讲的，简单的介绍一下（其实是学习的时候第二章才开始记笔记）https://www.icourse163.org/course/CUC-1450317378?tid=1450731676才不会说是为了规格整齐每章都有才水了个第一章的
edger多组差异性分析_R语言统计分析微生物组数据 weixin_39961636 edger多组差异性分析
我在学习这本书记了一些笔记，如果你有学习，欢迎分享你的笔记或者教程。我的已有笔记汇总如下：宏基因组学习笔记宏基因组学习笔记2宏基因组笔记(第二章)R语言宏基因组学统计分析学习笔记(第三章-1)R语言宏基因组学统计分析学习笔记(第三章-2)https://link.springer.com/book/10.1007/978-981-13-1534-3下载方法，sci-hub大法啦。出版日期：2018
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
Java学习笔记（二十二）路上阡陌 java 学习笔记
1Redis是单线程的那如何处理多个客户端发送的命令Redis虽然是单线程的，但它能够高效地处理多个客户端发送的命令，这主要得益于其内部使用的I/O多路复用技术和事件驱动模型。以下是Redis处理多个客户端命令的详细解释：1.1I/O多路复用技术Redis通过使用I/O多路复用技术，能够同时监听多个客户端连接上的I/O事件。当任何一个客户端连接上有读、写或异常等I/O事件发生时，I/O多路复用机制
Java~二叉树进阶练习题：根据先序遍历和中序遍历构建二叉树与根据后序遍历和中序遍历构建二叉树 Java墨言程序员 java 面试算法
《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》，点击传送门，即可获取！先序遍历中第一个一定是根结点。中序遍历中根结点左子树的所有结点一定在根结点的左边，右子树的所有结点一定在根结点的右边。所有中序遍历的序列组成可以表示为：左子树结点+根结点+右子树结点。后序遍历中最后一个结点一定是根结点。****根据先序遍历和中序遍历构建二叉树解题细想：**设置变量inedx方便从p
【Python学习笔记】一些关于多线程，xls文件读取，PyQt5，PyInstaller打包等问题的解决方案记录百里香酚兰 Python自学笔记 python 学习笔记 pyinstaller xls文件 PyQt5 多线程
背景：最近利用休息时间写了个小型exe程序，主要涉及的技术点有：多线程，读取xls文件，基于PyQt5的简单GUI页面，利用PyInstaller打包成exe。虽然有ChatGPT等协助，但难免还是在开发过程中遇到了一些疑难问题，所以开个记录贴刊登解决方式。问题&解决方式：1.PyQt+PyInstaller：tqdm报错AttributeError:‘NoneType‘objecthasnoat
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
智能租赁系统助力数字化转型提升管理效率与服务质量红点租赁系统开发其他
内容概要在当今快速发展的商业环境中，智能租赁系统正如一位得力助手，帮助企业以数字化的方式提升管理效率与服务质量。想象一下，传统的租赁管理就像是一场需要精确时间安排的舞蹈，而智能租赁系统则提供了高科技的音响设备，让整个表演流畅无比。通过先进的数字技术，比如云计算和大数据分析，这些系统能够优化资源配置，让企业的每一分钱都花得物有所值。更妙的是，智能租赁系统不仅高效处理日常事务，还能提供精确的数据分析，
金融租赁系统智慧风控实践探索红点租赁系统开发其他
内容概要当传统金融租赁还在和纸质合同较劲时，兴业金融租赁系统已经玩起了"变形金刚式"的智慧风控。这套系统就像给资产装上了GPS定位器+心电图监测仪，通过物联网传感器实时捕捉设备运行数据，配合卫星定位追踪车辆轨迹，再让大数据分析引擎消化海量场景信息——从工地的混凝土搅拌频率到物流车队的急刹车次数，全被转化成可量化的风险坐标。技术手段业务指标提升应用场景案例物联网传感器异常响应速度提升70%工程机械油
【MySQL基础-9】深入理解MySQL中的聚合函数 AllenBright #MySQL mysql 数据库
在数据库操作中，聚合函数是一类非常重要的函数，它们用于对一组值执行计算并返回单个值。MySQL提供了多种聚合函数，如COUNT、SUM、AVG、MIN和MAX等。这些函数在数据分析和报表生成中扮演着关键角色。本文将深入探讨这些聚合函数的使用方法、注意事项以及一些高级技巧。1.聚合函数概述聚合函数主要用于对一组值进行计算，并返回一个单一的值。常见的聚合函数包括：COUNT()：计算行数。SUM()：
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
Python数据可视化与地理空间分析 CrMylive. 信息可视化 python 开发语言
数据可视化是数据分析的一个关键环节，它将数据转化为可视化的图形和图表，帮助人们更好的理解和分析数据。Python作为一种通用的编程语言，也可以用于数据可视化和地理空间分析。本文将深入探讨Python在数据可视化和地理空间分析方面的应用。一、Python数据可视化Python数据可视化的核心工具是matplotlib，它是一个开源的绘图库，可以帮助用户创建高质量的静态、动态和交互式图形。除了matp
VBA和Python到底哪个比较难学？ cda2024 python windows 开发语言
开头：引人入胜的对比在当今数字化的时代，编程语言的选择对于许多从事数据分析、自动化办公或软件开发的人来说至关重要。如果你曾经在Excel中使用过宏功能，或者尝试过编写简单的Python脚本来处理数据，那么你可能已经接触到了两种非常流行的编程工具：VBA（VisualBasicforApplications）和Python。两者都具有强大的功能，但学习难度却有所不同。那么，VBA和Python到底哪
2024年HarmonyOS鸿蒙最新鸿蒙应用开发当前支持的颜色枚举值(2)，2024年最新社招面试题目 2401_84850323 程序员鸿蒙面试学习
深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上鸿蒙开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化的资料的朋
侯捷 C++ 课程学习笔记：C++常用标准库 Three～stone c++学习笔记
标准库#include万能头是一个简写方式，用来一次性包含C++标准库中的许多常用部分，比如输入输出流（iostream）、算法（algorithm）、向量（vector）、列表（list）、队列（queue）、栈（stack）、映射（map）、集合（set）等。使用它可以让程序员在编写解决特定问题的代码时，不必一一列出所需的所有头文件，简化了代码的编写过程。在实际的工程项目或更专业的编程实践中，
Node.js和webpack入门-个人学习笔记 ksmswq node.js webpack 学习
Node.js-入门Node.js基础概念Node.js是一个跨平台JavaScript运行环境，是开发者可以搭建服务器端的JavaStript应用程序。作用1.编写服务端程序2.编写数据接口，提供网页浏览资源等等3.实现“前端工程化”，为Vue和React等框架做铺垫前端工程化-概念开发项目直到上线，过程中集成的所有工具和技术。（Node.js是前端工程化的基础（因为Node.js可以主动读取前
Node.js入门(学习笔记) 唐小艾学习笔记 node.js
文章目录简介NodeJS下载安装下载安装NodeJS与WebStorm整合JS文件运行CommonJS规范模块模块化定义模块引用模块标识node中的对象globalexports和module.exports属性方法引用包packageNPM(NodePackageManager)NPM命令NPM包引用NPM注意下载速度慢Nodejs核心模块Buffer模块buffer类方法buffer实例的属性
Golang学习笔记_49——解释器模式 LuckyLay Golang学习笔记 golang 学习笔记解释器模式设计模式
Golang学习笔记_46——状态模式Golang学习笔记_47——访问者模式Golang学习笔记_48——中介者模式文章目录一、核心概念1.定义2.解决的问题3.核心角色4.类图二、特点分析三、适用场景1.金融公式引擎2.智能合约解析3.业务规则引擎四、Go语言实现示例完整实现代码执行结果五、高级应用1.表达式缓存优化2.并行解释器六、与其他模式对比七、实现建议八、典型应用一、核心概念1.定义解
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户