IT从业者张某某

数据导入与预处理-课程总结-01~03章

第1章数据预处理概述
- 1.1 基本概念
- - 1.1.1 大数据项目开发流程
  - 1.1.2 什么是数据预处理
  - 1.1.3 数据质量
  - 1.1.4 常见的数据问题
- 1.2 数据预处理
- - 1.2.1 数据预处理流程
  - 1.2.2 数据清理的处理方法
  - - 1.缺失值的处理方法
    - 2. 异常值的处理方法
    - 3. 重复值的处理方法
  - 1.2.3 数据集成
  - - 1. 集成过程中需要处理的问题
    - 2. 数据集成——实体识别
    - 3. 数据集成——冗余属性识别
    - 4. 数据冲突的检测与处理
  - 1.2.4 数据变换
  - - 1. 规范化：
    - 2. 数据变换——属性构造
  - 1.2.5 数据规约
  - - 1.数据规约目的
    - 2.数据规约方法
第2章 numpy库
- 2.1 数组对象
- 2.2 创建数组
- 2.3 访问数组元素
- - 2.3.1 通过整数索引
  - 2.3.2 使用花式索引访问元素
  - 2.3.3 使用布尔索引访问元素
  - 2.3.4 使用切片访问元素
- 2.4 数组运算
- - 2.4.1 形状相同的数组运算
  - 2.4.2 数组与常量运算
- 2.5 Numpy的约减即操作
- - 2.5.1 约减操作
  - 2.5.2 数组排序操作
  - 2.5.3 数组转置
  - 2.5.4 随机数生成
  - - 1. numpy的random库
第3章 pandas基础
- 3.1 series
- - 3.1.1 创建series对象
  - 3.1.2 Series属性
  - 3.1.3 Series索引
  - - 1. 位置索引
    - 2. 标签索引
    - 3. 切片索引
    - 4. 布尔索引
  - 3.1.5 Series基本操作技巧
- 3.2 DataFrame
- - 3.2.1 Dataframe简介
  - 3.2.2 创建DataFrame对象
  - 3.2.3 Dataframe：索引
  - - 1.选择行与列
    - 2. df.loc[] - 按index选择行
    - 3. df.iloc[] - 按照整数位置（从轴的0到length-1）选择行
    - 4. 布尔型索引
  - 3.2.4 DataFrame基本操作技巧
  - - 1. 数据查看、转置
    - 2. 添加、修改、删除值
    - 3. 排序
  - 3.2.5 Index索引对象
  - - 1.索引对象概述
    - 2. 索引对象操作
    - 3. 使用索引对象操作数据
- 3.3 统计计算与统计描述

备注：本文主要是课程总结，不做过多的拓展，如果需要详细了解，可以查看本专栏系列内容，专栏链接直达

数据导入与预处理-课程总结-资料汇总贴

第1章数据预处理概述

1.1 基本概念

1.1.1 大数据项目开发流程

数据采集
数据预处理
数据存储
数据分析挖掘
数据可视化

1.1.2 什么是数据预处理

从初始数据到得出分析或挖掘结果的整个过程中对数据经过的一系列操作称为数据预处理，它主要通过一系列的方法来清理脏数据、抽取精准的数据、调整数据的格式，从而得到一组符合准确、完整、简洁等标准的高质量数据，保证该数据能更好地服务于数据分析或数据挖掘工作。

据统计发现，数据预处理的工作量占据整个数据挖掘工作的60%，由此可见，数据预处理在数据挖掘中扮演着举足轻重的角色

1.1.3 数据质量

相关性：数据的相关性是指数据与特定的应用和领域有关。

准确性：数据是正确的，数据存储在数据库中的值对应于真实世界的值。

时效性：是指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。

完整性：指信息具有一个实体描述的所有必需的部分，在传统关系型数据库中，完整性通常与空值（NULL）有关。一般包括记录的缺失和记录属性的缺失。

一致性：在数据库中是指在不同地方存储和使用的同一数据应当是等价的，表示数据有相等的值和相同的含义。

可信性：• 数据来源的权威性；• 数据的规范性；• 数据产生的时间。

可解释性：反映数据是否容易理解

1.1.4 常见的数据问题

数据缺失：数据缺失是一类属性值为空的问题。

数据重复：数据重复是一类同一条数据多次出现的问题。

数据异常：数据异常是一类个别数据远离数据集的问题

数据冗余：数据冗余是指数据中存在一些多余的、无意义的属性。

数据值冲突：数据值冲突是一类同一属性存在不同值的问题。

数据噪声：数据噪声是一类属性值不符合常理的问题。

1.2 数据预处理

1.2.1 数据预处理流程

初始数据–>数据清理–>数据集成–>数据变换–>数据规约。这些流程的顺序不是完全固定的，往往是相互交叉的。

初始数据获取是预处理的第一步，该步骤主要负责从文件、数据库、网页等众多渠道中获取数据，以得到预处理的初始数据，为后续的处理工作做好数据准备。

数据清理主要是将"脏"数据变成"干净"数据的过程，该过程中会通过一系列的方法对“脏”数据进行处理，以达到清除冗余数据、规范数据、纠正错误数据的目的。

数据集成主要是把多个数据源合并成一个数据源的过程，以达到增大数据量的目的。

数据变换主要是将数据转换成适当形式的过程，以降低数据的复杂度。

数据规约指在尽可能保持数据原貌的前提下，最大限度地精简数据量，其方法包括降低数据的维度、删除与分析或挖掘主题无关的数据等。

1.2.2 数据清理的处理方法

1.缺失值的处理方法

忽略元组
填充（人工，全局常量，平均值，插值）
删除

2. 异常值的处理方法

删除：异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。
把异常值当作缺失值，删除或填充。
忽略。

3. 重复值的处理方法

删除：异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。
忽略。

1.2.3 数据集成

1. 集成过程中需要处理的问题

实体识别
冗余与相关分析
数据冲突和检测

2. 数据集成——实体识别

实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。如：

同名异义：数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。

异名同义：数据源A中的sales_dt和数据源B中的sales_date都是是描述销售日期的，即A. sales_dt= B. sales_date。

单位不统一：描述同一个实体分别用的是国际单位和中国传统的计量单位

3. 数据集成——冗余属性识别

数据集成往往导致数据冗余，如：

同一属性多次出现

同一属性命名不一致导致重复

不同源数据的仔细整合能减少甚至避免数据冗余与不一致，以提高数据挖掘的速度和质量。对于
冗余属性要先分析检测到后再将其删除。

有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B，根据其属性值，可以用相
关系数度量一个属性在多大程度上蕴含另一个属性。

4. 数据冲突的检测与处理

对现实世界的同一实体，来自不同数据源的属性定义不同。

原因：表示方法，度量单位、编码或比例的差异

1.2.4 数据变换

**目的：**将数据转换或统一成易于进行数据挖掘的数据存储形式，使得挖掘过程可能更有效。

方法策略：

光滑：去掉数据中的噪音；

属性构造：由给定的属性构造新的属性并添加到属性集中，帮助数据分析和挖掘；

聚集：对数据进行汇总或聚集；

规范化：将属性数据按比例缩放，使之落入一个小的特定区间；

离散化：数值属性用区间标签或概念标签替换；

由标称数据产生概念分层：属性，如street，可以泛化到较高的概念层，如city或country。

1. 规范化：

最小-最大规范化；
$V^{'} = \frac{V-min_A}{max_A - min_A}$
零-均值规范化（z-score规范化）；
$V^{'} = \frac{V-mean_A}{standard\_dev_A}$

其中， $mean_A$ 、 $standard\_dev_A$ 分别为属性A取值的均值和标准差。

小数定标规范化
$V^{'} = \frac{V}{10^{j}}$
其中 $j$ 是使 $Max(|V^{'}|)<1$ 的最下整数。

2. 数据变换——属性构造

在数据挖掘的过程中，为了帮助提取更有用的信息、挖掘更深层次的模式，提高挖掘结果的精度，

需要利用已有的属性集构造出新的属性，并加入到现有的属性集合中。

比如进行防窃漏电诊断建模时，已有的属性包括进入线路供入电量、该条线路上各大用户用电量

之和，记为供出电量。理论上供入电量和供出电量应该是相等的，但是由于在传输过程中的电能

损耗，会使得供入电量略大于供出电量，如果该条线路上的一个或多个大用户存在窃漏电行为，

会使供入电量远大于供出电量。反过来，为了判断是否存在有窃漏电行为的大用户，需要构造一

个新的关键指标–线损率，该过程就是构造属性，由线户关系图。新构造的属性线损率计算公式

如下：

线损率＝（供入电量-供出电量）/供入电量

线损率的范围一般在3%~15%，如果远远超过该范围，就可以认为该条线路的大用户很大可能

存在窃漏电等用电异常行为。

1.2.5 数据规约

1.数据规约目的

用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

2.数据规约方法

维归约-主成分分析，属性子集选择

数量归约

第2章 numpy库

具体参考：
猿创征文｜数据导入与预处理-第2章-numpy

2.1 数组对象

秩（rank）：NumPy 数组的维数称为秩（rank），一维数组的秩为 1，二维数组的秩为 2，以此类推。
axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；
axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

NumPy 的数组中比较重要 ndarray 对象属性有：

numpy的常用数据类型

2.2 创建数组

创建二维数组

# 创建二维数组
array_2d = np.array([[1, 2, 3], 
                  [4, 5, 6]])  
print(array_2d)

创建其它数组
numpy中使用zeros()、ones()、empty()函数创建一个基于指定数值的数组，其中zeros()函数用于创建一个元素值都为0的数组；ones()函数用于创建一个元素值都为1的数组；empty()函数用于创建一个元素值都为随机数的数组。

2.3 访问数组元素

2.3.1 通过整数索引

import numpy as np
array_2d = np.arange(1, 7).reshape(2, 3)   
print(array_2d[1]) # 获取索引为1的一行元素
print(array_2d[1, 2]) # 获取行索引为1、列索引为2的元素

2.3.2 使用花式索引访问元素

访问一维数组

import numpy as np
array_1d = np.arange(1, 10)    
print(array_1d[[2, 5, 8]]) # 访问索引为[2,5,8]的元素

使用花式索引访问二维数组

array_2d = np.arange(1, 10).reshape((3, 3))    
print(array_2d[[0, 2]]) # 访问索引为[0, 2]的元素

2.3.3 使用布尔索引访问元素

布尔索引指以布尔值组成的数组或列表为索引。当使用布尔索引访问数组时，会将布尔索引对应的数组或列表的元素作为索引，以获取索引为True时对应位置的元素。

array_2d = np.arange(1, 10).reshape((3, 3))    
print(array_2d > 5) # 使用布尔索引访问数组

2.3.4 使用切片访问元素

一维数组的切片操作

array_1d = np.array([10, 20, 30, 40, 50, 60])
print(array_1d[1:3])                   # 访问索引为1、2的元素
print(array_1d[:3])                    # 访问前两个元素
print(array_1d[:-1])                   # 访问除末尾元素之外的元素
print(array_1d[:])                     # 访问全部的元素
print(array_1d[::2])                   # 访问开头到末尾、步长为2的元素

二维数组的切片操作

arr_2d = np.array([[1, 2, 3], 
              [4, 5, 6], [7, 8, 9]])

print(arr_2d[:2]) # 使用切片访问前两行的元素

print(arr_2d[:2, 0:1]) # 使用切片访问前两行、第一列的元素

2.4 数组运算

2.4.1 形状相同的数组运算

无论是形状相同的数组，还是形状不同的数组，它们之间都可以执行算术运算。与Python列表不同，数组在参与算术运算时无需遍历每个元素，便可以对每个元素执行批量运算，效率更高。

In [1]: import numpy as np

In [2]: a = np.array(10)

In [3]: b = np.linspace(1,10,10) # 一维，长度为10

In [5]: a = np.arange(10)

In [6]: a
Out[6]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]: b
Out[7]: array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [8]: a + b # 数组加法
Out[8]: array([ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19.])

In [9]: a - b # 数组减法
Out[9]: array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1.])

In [10]: a * b
Out[10]: array([ 0.,  2.,  6., 12., 20., 30., 42., 56., 72., 90.])

In [11]: a / b # 数组除法
Out[11]: 
array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ,
       0.83333333, 0.85714286, 0.875     , 0.88888889, 0.9       ])

In [12]: a % b # 数组取余
Out[12]: array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [13]: a ** 2 # 数组元素平方
Out[13]: array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [14]: np.multiply(a , b)
Out[14]: array([ 0.,  2.,  6., 12., 20., 30., 42., 56., 72., 90.])

2.4.2 数组与常量运算

数组与常量的运算

形状相同的数组之间的任何算术运算都会应用到各元素，同样地，数组与标量执行算术运算时也会将标量应用到各元素，以方便各元素与标量直接进行相加、相减、相乘、相除等基础操作。

import numpy as np
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
num = 10
print(arr_2d + num)        # 数组与标量相加

输出为：

[[11 12 13]
[14 15 16]]

2.5 Numpy的约减即操作

2.5.1 约减操作

约减：表示将众多数据按照某种规则合并成一个或几个数据。
约减之后，数据的个数在总量上是减少的。
在这里，“约减”的“减”并非减法之意，而是元素的减少。比如说，数组的加法操作就是一种“约减”操作，因为它对众多元素按照加法指令实施操作，最后合并为少数的一个或几个值。

axis=0表示按照垂直方向约减
axis=1表示按照水平方向约减

In [43]: a = np.ones((2, 3))
In [45]: 

In [45]: a.sum(axis=0)
Out[45]: array([2., 2., 2.])

In [46]: a.sum(axis=1)
Out[46]: array([3., 3.])

In [47]: a.sum()
Out[47]: 6.0

2.5.2 数组排序操作

numpy中使用sort()方法实现数组排序功能，数组的每行元素默认会按照从小到大的顺序排列，返回排序后的数组。

In [68]: a = np.array([[1,2,3],[4,5,6],[9,8,7],[5,3,1]])

In [69]: a
Out[69]: 
array([[1, 2, 3],
       [4, 5, 6],
       [9, 8, 7],
       [5, 3, 1]])

In [70]: a.sort(axis = 1)

In [71]: a
Out[71]: 
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [1, 3, 5]])

In [72]: a = np.array([[1,2,3],[4,5,6],[9,8,7],[5,3,1]])

In [73]: a.sort(axis = 0)

In [74]: a
Out[74]: 
array([[1, 2, 1],
       [4, 3, 3],
       [5, 5, 6],
       [9, 8, 7]])

In [75]:

axis：表示排序的轴编号，默认为-1，代表沿着末尾的轴排序。
kind：表示排序的算法，默认为’quicksort’（快速排序）。
order：表示按哪个字段排序。

2.5.3 数组转置

熟悉数组的转置，可以通过T属性、transpose()方法、swapaxes()方法实现数组转置操作

2.5.4 随机数生成

1. numpy的random库

python里随机数生成主要有两种方式，一种是random库，另一种是numpy.random。我目前后一种用的比较多，因此就先介绍后一种中一些(我)可能常用的，第一种等有时间了再整理。

返回数据在[0,1)之间，具有均匀分布
语法：rand(d0,d1,d2…)

In [23]: np.random.rand(3,4)
Out[23]: 
array([[0.58496659, 0.10987918, 0.73306144, 0.84831449],
       [0.17575706, 0.03498951, 0.17905576, 0.58961677],
       [0.66099259, 0.26250776, 0.2900706 , 0.16465037]])

返回具有标准正态分布，均值为0，方差为1
语法：randn(d0,d1,d2…)

In [24]: np.random.randn(3,4)
Out[24]: 
array([[ 1.65273029,  0.73261963,  0.83941063, -0.52498145],
       [-2.06807352,  0.20780148,  1.57492915,  0.98535171],
       [ 0.76163315,  0.29797001,  0.79840516,  1.81377089]])

第3章 pandas基础

猿创征文｜数据导入与预处理-第3章-pandas基础

3.1 series

3.1.1 创建series对象

In [1]: import pandas as pd
In [2]: ser_obj = pd.Series(['Python', 'Java', 'PHP'], index = ['one', 'two', 'three'])   
In [3]: ser_obj

输出为：

Out[4]:
one Python
two Java
three PHP
dtype: object

3.1.2 Series属性

Series的index和values属性

In [5]: print(ser_obj.index,type(ser_obj.index))
Index(['one', 'two', 'three'], dtype='object') <class 'pandas.core.indexes.base.Index'>

In [6]: print(ser_obj.values,type(ser_obj.values))
['Python' 'Java' 'PHP'] <class 'numpy.ndarray'>

3.1.3 Series索引

包括：位置下标 / 标签索引 / 切片索引 / 布尔型索引

1. 位置索引

# 位置下标，类似序列
s = pd.Series(np.random.rand(5))
s

输出为：

Out[18]:
0 0.453055
1 0.208872
2 0.917167
3 0.238751
4 0.720561
dtype: float64

2. 标签索引

s = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
s

输出为：

Out[22]:
a 0.037435
b 0.536072
c 0.051238
d 0.906477
e 0.474856
dtype: float64

3. 切片索引

# 切片索引
s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print('-----')    
print(s1[1:4],s1[4])
print(s2['a':'c'],s2['c'])
print(s2[0:3],s2[3])
print('-----')

输出为：

-----
1 0.792143
2 0.876208
3 0.542396
dtype: float64 0.3478167781738142
a 0.338142
b 0.314807
c 0.716646
dtype: float64 0.7166457177011984
a 0.338142
b 0.314807
c 0.716646
dtype: float64 0.7435841750851758
-----

4. 布尔索引

s = pd.Series(np.random.rand(3)*100)
s[4] = None  # 添加一个空值
s

输出为：

Out[28]:
0 10.7214
1 72.9608
2 23.8594
4 None
dtype: object

bs1 = s > 50
print(bs1, type(bs1), bs1.dtype)

输出为：

0 False
1 True
2 False
4 False
dtype: bool <class ‘pandas.core.series.Series’> bool

3.1.5 Series基本操作技巧

本部分主要包括数据查看 / 重新索引 / 对齐 / 添加、修改、删除值等。
数据查看

# 数据查看
s = pd.Series(np.random.rand(50))
s.head(10)
s.tail()

重新索引reindex

# 重新索引reindex
# .reindex将会根据索引重新排序，如果当前索引不存在，则引入缺失值
s = pd.Series(np.random.rand(3), index = ['a','b','c'])
s1 = s.reindex(['c','b','a','d'])

数据对齐

# Series对齐 数据对齐
s1 = pd.Series(np.random.rand(3), index = ['Jack','Marry','Tom'])
s2 = pd.Series(np.random.rand(3), index = ['Wang','Jack','Marry'])
s1 + s2

输出为：

Out[41]:
Jack 0.954397
Marry 1.388826
Tom NaN
Wang NaN
dtype: float64

Series 和 ndarray 之间的主要区别是，Series 上的操作会根据标签自动对齐
index顺序不会影响数值计算，以标签来计算
空值和任何值计算结果仍然为空值

数据删除

In [44]: 
# 删除：.drop
s = pd.Series(np.random.rand(5), index = list('ngjur'))
s1 = s.drop(['g','j'])

输出为：

Out[46]:
n 0.820846
u 0.321654
r 0.560360
dtype: float64

数据修改

# 修改
s = pd.Series(np.random.rand(3), index = ['a','b','c'])
s[['b','c']] = 200
s

输出为：

Out[58]:
a 0.933075
b 200.0
c 200.0
dtype: float64

3.2 DataFrame

3.2.1 Dataframe简介

DataFrame是一个结构类似于二维数组或表格的对象，与Series类对象相比，DataFrame类对象也由索引和数据组成，但该对象有两组索引，分别是行索引和列索引。
DataFrame类对象的行索引位于最左侧一列，列索引位于最上面一行，且每个列索引对应着一列数据。DataFrame类对象其实可以视为若干个公用行索引的Series类对象的组合。

3.2.2 创建DataFrame对象

demo_arr = np.array([['a', 'b', 'c'],['d', 'e', 'f']])
df_obj = pd.DataFrame(demo_arr,index = ['row_01','row_02'],columns=['col_01', 'col_02', 'col_03'])
df_obj

输出为：

      	col_01 col_02 col_03
row_01 	a 		b 		c
row_02 	d 		e 		f

3.2.3 Dataframe：索引

Dataframe既有行索引也有列索引，可以被看做由Series组成的字典（共用一个索引）
选择列 / 选择行 / 切片 / 布尔判断

1.选择行与列

# 选择行与列
df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
                   index = ['one','two','three'],
                   columns = ['a','b','c','d'])
print(df)

data1 = df['a']
data2 = df[['a','c']]
print(data1,type(data1))
print(data2,type(data2))
print('-----')
# 按照列名选择列，只选择一列输出Series，选择多列输出Dataframe

data3 = df.loc['one']
data4 = df.loc[['one','two']]
print(data2,type(data3))
print(data3,type(data4))
# 按照index选择行，只选择一行输出Series，选择多行输出Dataframe

输出为：

2. df.loc[] - 按index选择行

# df.loc[] - 按index选择行

df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
df2 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   columns = ['a','b','c','d'])
print(df1)
print(df2)
print('-----')

data1 = df1.loc['one']
data2 = df2.loc[1]
print(data1)
print(data2)
print('单标签索引\n-----')
# 单个标签索引，返回Series

# data3 = df1.loc[['two','three','five']] #不再支持不存在的index，本例为'five'
data4 = df2.loc[[3,2,1]]
#print(data3)
print(data4)
print('多标签索引\n-----')
# 多个标签索引，如果标签不存在，则返回NaN
# 顺序可变

data5 = df1.loc['one':'three']
data6 = df2.loc[1:3]
print(data5)
print(data6)
print('切片索引')
# 可以做切片对象
# 末端包含

# 核心笔记：df.loc[label]主要针对index选择行，同时支持指定index，及默认数字index

输出为：

3. df.iloc[] - 按照整数位置（从轴的0到length-1）选择行

# df.iloc[] - 按照整数位置（从轴的0到length-1）选择行
# 类似list的索引，其顺序就是dataframe的整数位置，从0开始计

df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
print(df)
print('------')

print(df.iloc[0])
print(df.iloc[-1])
#print(df.iloc[4])
print('单位置索引\n-----')
# 单位置索引
# 和loc索引不同，不能索引超出数据行数的整数位置

print(df.iloc[[0,2]])
print(df.iloc[[3,2,1]])
print('多位置索引\n-----')
# 多位置索引
# 顺序可变

print(df.iloc[1:3])
print(df.iloc[::2])
print('切片索引')
# 切片索引
# 末端不包含

输出为：

4. 布尔型索引

# 布尔型索引
# 和Series原理相同

df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   index = ['one','two','three','four'],
                   columns = ['a','b','c','d'])
print(df)
print('------')

b1 = df < 20
print(b1,type(b1))
print(df[b1])  # 也可以书写为 df[df < 20]
print('------')
# 不做索引则会对数据每个值进行判断
# 索引结果保留 所有数据：True返回原数据，False返回值为NaN

b2 = df['a'] > 50
print(b2,type(b2))
print(df[b2])  # 也可以书写为 df[df['a'] > 50]
print('------')
# 单列做判断
# 索引结果保留 单列判断为True的行数据，包括其他列

b3 = df[['a','b']] > 50
print(b3,type(b3))
print(df[b3])  # 也可以书写为 df[df[['a','b']] > 50]
print('------')
# 多列做判断
# 索引结果保留 所有数据：True返回原数据，False返回值为NaN

b4 = df.loc[['one','three']] < 50
print(b4,type(b4))
print(df[b4])  # 也可以书写为 df[df.loc[['one','three']] < 50]
print('------')
# 多行做判断
# 索引结果保留 所有数据：True返回原数据，False返回值为NaN

输出为：

3.2.4 DataFrame基本操作技巧

数据查看、转置 / 添加、修改、删除值 / 对齐 / 排序

1. 数据查看、转置

# 数据查看、转置

df = pd.DataFrame(np.random.rand(16).reshape(8,2)*100,
                   columns = ['a','b'])
print(df.head(2))
print(df.tail())
# .head()查看头部数据
# .tail()查看尾部数据
# 默认查看5条

print(df.T)
# .T 转置

2. 添加、修改、删除值

# 添加与修改
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
                   columns = ['a','b','c','d'])

# 新增列/行并赋值
df['e'] = 10
df.loc[4] = 20

# 索引后直接修改值
df['e'] = 20
df[['a','c']] = 100

# del语句 - 删除列
del df['a']

# drop()删除行，inplace=False → 删除后生成新的数据，不改变原数据
df.drop([1,2])

# drop()删除列，需要加上axis = 1，inplace=False → 删除后生成新的数据，不改变原数据
df.drop(['d'], axis = 1)

3. 排序

排序1 - 按值排序 .sort_values
pandas中可以使用sort_values()方法将Series、DataFrmae类对象按值的大小排序。

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False,
   kind='quicksort', na_position='last', ignore_index=False)

by：表示根据指定的列索引名（axis=0或’index’）或行索引名（axis=1或’columns’）进行排序。
axis：表示轴编号（排序的方向），0代表按行排序，1代表按列排序。
ascending：表示是否以升序方式排序，默认为True。若设置为False，则表示按降序方式排序。
na_position：表示缺失值的显示位置，可以取值为’first’（首位）或’last’（末位）。

排序2 - 索引排序 .sort_index
pandas中提供了一个sort_index()方法，使用sort_index()方法可以让Series类对象DataFrame类对象按索引的大小进行排序。

sort_index(axis=0, level=None, ascending=True, inplace=False,
                  kind='quicksort', na_position='last', sort_remaining=True, 
                  ignore_index: bool = False)

axis：表示轴编号（排序的方向），0代表按行排序，1代表按列排序。
level：表示按哪个索引层级排序，默认为None。
ascending：表示是否以升序方式排序，默认为True。若设置为False，则表示按降序方式排序。
kind：表示排序算法，可以取值为’quicksort’、 'mergesort’或’heapsort’，默认为‘quicksort’。

3.2.5 Index索引对象

1.索引对象概述

Index类的常见子类，包括MultiIndex、Int64Index、DatetimeIndex等
掌握分层索引，可以通过多种方式熟练地创建分层索引。
在创建Series类对象或DataFrame类对象时，既可以使用自动生成的整数索引，也可以使用自定义的标签索引。无论哪种形式的索引，都是一个Index类的对象。
Index是一个基类，它派生了许多子类。

2. 索引对象操作

设置索引

In [8]: 
info = pd.DataFrame([('William', 'C'), ('Smith', 'Java'), ('Parker', 'Python'), ('Phill', np.nan)], index=[1, 2, 3, 4], columns=('name', 'Language'))
info

输出为：

Out[8]: 
      name Language
1  William        C
2    Smith     Java
3   Parker   Python
4    Phill      NaN

set_index() 将已存在的列标签设置为 DataFrame 行索引。除了可以添加索引外，也可以替换已经存在的索引。比如您也可以把 Series 或者一个 DataFrme 设置成另一个 DataFrame 的索引。示例如下：

In [6]: 
import pandas as pd
import numpy as np
info = pd.DataFrame({'Name': ['Parker', 'Terry', 'Smith', 'William'],  'Year': [2011, 2009, 2014, 2010], 'Leaves': [10, 15, 9, 4]})
info.set_index('Name')

输出为：

Out[6]: 
         Year  Leaves
Name                 
Parker   2011      10
Terry    2009      15
Smith    2014       9
William  2010       4

重置索引
您可以使用 reset_index() 来恢复初始行索引，示例如下：

info = pd.DataFrame([('William', 'C'), ('Smith', 'Java'), ('Parker', 'Python'), ('Phill', np.nan)], index=[1, 2, 3, 4], columns=('name', 'Language'))
info

输出为：

Out[11]: 
      name Language
1  William        C
2    Smith     Java
3   Parker   Python
4    Phill      NaN

In [13]: info.reset_index()

输出为：

Out[13]: 
   index     name Language
0      1  William        C
1      2    Smith     Java
2      3   Parker   Python
3      4    Phill      NaN

3. 使用索引对象操作数据

使用单层索引访问数据

无论是创建Series类对象还是创建DataFrame类对象，根本目的在于对Series类对象或DataFrame类对象中的数据进行处理，但在处理数据之前，需要先访问Series类对象或DataFrame类对象中的数据。
pandas中可以使用[]、loc、iloc、at和iat这几种方式访问Series类对象和DataFrame类对象的数据。

使用[]访问数据

变量[索引]

需要说明的是，若变量的值是一个Series类对象，则会根据索引获取该对象中对应的单个数据；若变量的值是一个DataFrame类对象，在使用“[索引]”访问数据时会将索引视为列索引，进而获取该列索引对应的一列数据。

使用loc和iloc访问数据
pandas中也可以使用loc和iloc访问数据。

变量.loc[索引]
变量.iloc[索引]

以上方式中，"loc[索引]"中的索引必须为自定义的标签索引，而"iloc[索引]"中的索引必须为自动生成的整数索引。需要说明的是，若变量是一个DataFrame类对象，它在使用"loc[索引]"或"iloc[索引]"访问数据时会将索引视为行索引，获取该索引对应的一行数据。

使用at和iat访问数据
pandas中还可以使用at和iat访问数据，与前两种方式相比，这种方式可以访问DataFrame类对象的单个数据。

变量.at[行索引, 列索引]   
变量.iat[行索引, 列索引]

以上方式中，"at[行索引, 列索引]"中的索引必须为自定义的标签索引，"iat[行索引, 列索引]"中的索引必须为自动生成的整数索引。

使用分层索引访问数据

掌握分层索引的使用方式，可以通过[]、loc和iloc访问Series类对象和DataFrame类对象的数据
pandas中除了可以通过简单的单层索引访问数据外，还可以通过复杂的分层索引访问数据。与单层索引相比，分层索引只适用于[]、loc和iloc，且用法大致相同。

使用[]访问数据
由于分层索引的索引层数比单层索引多，在使用[]方式访问数据时，需要根据不同的需求传入不同层级的索引。

变量[第一层索引]	
变量[第一层索引][第二层索引]

以上方式中，使用

变量[第一层索引]

可以访问第一层索引嵌套的第二层索引及其对应的数据；
使用

变量[第一层索引][第二层索引]

可以访问第二层索引对应的数据。

使用loc和iloc访问数据
使用iloc和loc也可以访问具有分层索引的Series类对象或DataFrame类对象。

变量.loc[第一层索引]                 	# 访问第一层索引对应的数据
变量.loc[第一层索引][第二层索引]   	# 访问第二层索引对应的数据
变量.iloc[整数索引]   		# 访问第二层索引对应的数据

3.3 统计计算与统计描述

常见的统计计算函数

你可能感兴趣的:(数据处理与数据分析,python,数据分析,数据挖掘)

python中报错“ModuleNotFoundError: No module named ‘openpyxl‘” wang151038606 python中bug python中的安装包 python
python中报错“ModuleNotFoundError:Nomodulenamed‘openpyxl’”importopenpyxl时报错“ModuleNotFoundError:Nomodulenamed‘openpyxl’”在Python中遇到ModuleNotFoundError:Nomodulenamed'openpyxl'这个错误，通常意味着你的Python环境中没有安装openpy
系统建模语言 (SysML) CoderIsArt 架构设计研究 SysML
系统建模语言(SysML)是一种通用的建模语言，用于支持复杂系统的需求分析、设计、验证和验证等系统工程活动。SysML是由UML（统一建模语言）扩展而来的，专门用于描述系统的需求、行为、结构和参数化特性。以下是有关SysML和相关工具的详细信息以及软件下载建议。SysML的核心特点专注于系统工程：比UML更适合跨学科的系统建模。支持硬件、软件、人、信息和过程等系统要素的建模。视图与建模：SysML
实现实时通信：使用Python WebSocket与服务器进行交互清水白石008 Python题库 python python websocket 交互
实现实时通信：使用PythonWebSocket与服务器进行交互在现代网络应用中，实时通信变得越来越重要。无论是在线聊天、股票交易还是游戏，能够即时交换数据是提升用户体验的关键。WebSocket协议作为一种实现双向通信的标准，提供了有效的解决方案。本文将带你深入理解如何使用Python编写一个简单的WebSocket客户端，与服务器进行实时通信。一、WebSocket协议概述1.1WebSock
API接口到底是什么小Mie不吃饭分布式笔记 API microsoft
目录一、API概述二、API接口的定义与基本概念（一）什么是API接口（二）API接口的组成要素（三）API接口的类型WebAPI库API远程API三、API接口的工作原理（一）请求与响应机制（二）数据传输与格式JSON格式XML格式二进制格式（三）认证与授权机制基本认证令牌认证一、API概述在当今数字化时代，无论是我们日常使用的手机应用，还是企业间复杂的业务协同，背后都离不开一个看似神秘却又无处
神经网络初始化 (init) 介绍迷路爸爸180 神经网络人工智能深度学习初始化 init
文章目录引言1.初始化的重要性1.1打破对称性1.2控制方差1.3加速收敛与提高泛化能力2.常见的初始化方法及其应用场景2.1Xavier/Glorot初始化2.2He初始化2.3正交初始化2.4其他初始化方法3.如何设置初始化4.基于BERT的文本分类如何进行初始化4.1项目背景4.2模型构建4.3模型训练与评估4.4结果分析结论参考资料引言在深度学习的世界中，构建一个高效且性能优异的神经网络模
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Python中常见关键字及其用法介绍 xiaoweids 编程语言 Python python 开发语言
这篇文章主要介绍了Python中有哪些关键字及关键字的用法,分享python中常用的关键字，本文结合示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下Python有哪些关键字Python常用的关键字1and,del,from,not,while,as,elif,global,or,with,assert,else,if,pass,yield,break,e
Python使用QQ邮箱发送邮件提示高质量海王哦 python python
python发送qq邮件htmlimportbase64importsmtplibimporttimefromemail.mime.textimportMIMETextdefsend_QQ_mail_HTML():user='[email protected]'#发送方的邮箱账号passwd='xruuwiyxdcouddjg'#授权码receiver='[email protected]
python无人飞机 python无人驾驶医学芯片 python 开发语言
这是一个简单的无人飞机代码示例：classDrone:def__init__(self):self.flying=Falsedeftakeoff(self):ifnotself.flying:print("无人机起飞")self.flying=Trueelse:print("无人机已在空中")defland(self):ifself.flying:print("无人机降落")self.flying
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念(3.1-3.2)------内存地址、创建对象、对象的类型及对象的划分问题 thefg Python基础详解教程对象的类型创建对象 in is id 内存地址逻辑地址
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念本章讲述编程中对象、变量、地址的基本概念及其之间的关系，可迭代对象、可变对象、不可变对象的特点。
基于flask框架高校学生宿舍管理系统 (python+mysql+论文) 真纯Django毕设程序 python flask mysql
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：
vue3 + ts + vite 工程化开发Tampermonkey【油猴、篡改猴】脚本雷特130 #vue vue.js 前端 javascript
项目概述vue3+ts+vite工程化开发Tampermonkey【油猴、篡改猴】脚本。编译后生成Tampermonkey脚本，导入到Tampermonkey插件中直接使用。项目背景在与后端用Swagger联调API时，或者后端在用Swagger自测API时，一刷新Swagger页面时就需要输入Token，非常麻烦。于是想实现自动填充Token，从而实现自动授权。没有自动授权时的效果如下图所示：在
3.ChatClient&Chat Model简化与AI模型的交互 laopeng301 Spring AI 人工智能交互
1.ChatModel对话模型是一种利用人工智能技术，能够生成类似人类对话响应的工具。通过向预训练语言模型（如GPT等）发送提示词或部分对话内容，模型依据自身训练数据及对自然语言模式的理解，生成对话的延续或完整回复，并返回给应用程序。应用程序可以将其呈现给用户或用于进一步处理。SpringAIChatModelAPI设计目标为简单且可移植的接口，用于与各种人工智能模型进行交互，使开发人员能够在不同
Python中global的用法叉选手 python python
global是python中的一个关键字，作用在变量上，该关键字通常放在函数块中，用来声明该变量为全局变量。例如下面变量a，定义在函数外面的是全局变量a，定义在fun函数里面的a是另一个a，是局部变量a，两者没有任何关系。好比这个地区有个叫张三的人，公办室里有个另一个叫张三的人。他们是两个不同的人。a=10deffun():a=2fun()print(a)#输出10如果想要函数里面的那个a就代表外
【1.3计算机组成与体系结构】CISC与RISC Leo❀ 系统分析师程序人生学习方法软考系统分析师
目录1.CISC与RISC的含义2.区别对比3.例题1.CISC与RISC的含义CISC复杂指令集计算机，（CISC:ComplexInstructionSetComputer）简称CISCRISC精简指令集计算机，（RISC:ReducedInstructionSetComputer）是一种指令长度较短的计算机，其运行速度比CISC要快2.区别对比指令系统类型指令寻址方式实现方式其它CISC(复
高级java每日一道面试题-2025年01月17日-JDBC篇-JDBC 编程有哪些步骤? java我跟你拼了 java每日一道面试题 java 加载驱动程序建立数据库连接创建SQL 语句调用执行查询或更新处理结果集关闭资源
如果有遗漏,评论区告诉我进行补充面试官:JDBC编程有哪些步骤?我回答:在Java高级面试中，关于JDBC（JavaDatabaseConnectivity）编程的讨论通常会围绕如何使用JDBC进行数据库操作以及最佳实践展开。以下是JDBC编程的基本步骤及其详解：1.加载驱动程序为了与特定类型的数据库通信，首先需要加载相应的JDBC驱动程序。这是通过调用Class.forName()方法来实现的，
win11 此应用无法在你的电脑上运行若要找到适用于你的电脑的版本，请咨询软件发布者 java我跟你拼了其他 win11 系统兼容性系统架构管理员工具常见问题
在Windows11上遇到“此应用无法在你的电脑上运行”的问题，通常意味着该应用程序与Windows11不兼容，或者你的系统设置阻止了应用程序的运行。以下是一些解决这个问题的步骤：操作系统不支持某些应用程序可能尚未更新以支持Windows11，或者开发者明确表示该软件不支持新的操作系统版本。解决方法：检查软件的官方网站或联系软件发布者，了解是否有适用于Windows11的新版本。如果没有新版本，可
巨潮PDF年报下载01——python request库圣道寺 python学习笔记 python
目录标题背景代码块背景(70条消息)迅雷API批量下载巨潮年报_无敌的前任的博客-CSDN博客代码块fromwin32com.clientimportDispatch#pipinstallwin32compat#pipinstallpywin32importosimportreimportopenpyxlimportrequestsimporturllib.requestimporttimedef
python中global的用法 Jqlender python python
python变量的作用域：Local局部作用域Enclosing闭包函数外的函数中Global全局作用域查找规则：以Local->Enclosing->Global规则查找，即：同名变量，优先引用的是局部变量，在局部找不到，便会去局部外的局部找（例如闭包），再找不到就会去全局找。global关键字x=5deffun_a():print(x)deffun_b():x=x+1print(x)fun_a
[2847]基于JAVA的蜂蜜销售智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 开发语言毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的蜂蜜销售智慧管理系统的设计与实现指导老师（一）选题的背景和意义在当前信息化高速发展的时代，企业管理方式也在不断更新和进步。其中，企业销售管理是企业运营管理的重要环节，对于企业的持续发展具有重要的影响。传统的销售管理模式已经不能满足现代企业的需求，因此，基于Java的蜂蜜销售智慧管理系统的设计与实现应运而生。首先，从背景上来看，随着信息技术
QT Web UI设计与实现 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QTWebUI设计与实现补天云火鸟博客创作软件补天云网站1Qt_Web_UI概述1.1Qt_Web框架基础1.1.1Qt_Web框架基础Qt_Web框架基础Qt_Web框架基础引言,跨平台UI开发的利器在当前软件开发领域中，跨平台应用的需求日益增长，这不仅限于操作系统之间的兼容性，更多的是对多终端设备（如桌面、移动设备、Web）的统一用户体验追求。QtFramework作为一款功能全面、易于上手且
QML音视频实时通信 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++音视频
QML音视频实时通信使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QML与音视频实时通信概述1.1QML音视频技术发展背景1.1.1QML音视频技
QML Web云应用开发 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QMLWeb云应用开发使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QML与Web技术概述1.1QML与Web技术简介1.1.1QML与Web技术
QT硬件接口设计 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QT硬件接口设计使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QT硬件接口设计概述1.1QT硬件接口设计简介1.1.1QT硬件接口设计简介QT硬件
【QT教程】QML音视频效果实现 QT音视频 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 c++QT教程
QML音视频效果实现使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QML与音视频效果1.1QML简介1.1.1QML简介QML简介QML简介QML
WebClient和RestTemplate的差异 master_chenchengg 能力提升面试宝典技术 IT信息化
WebClient和RestTemplate的差异引言RestTemplate的历史背景与适用场景WebClient的诞生背景及其优势编程模型对比错误处理机制的区别性能考量未来发展方向实际应用案例分享引言在当今互联网时代，服务间的通信是构建分布式系统不可或缺的一部分。Spring框架作为Java生态系统中最受欢迎的企业级开发框架之一，提供了多种工具来简化HTTP请求的处理。其中，WebClient
深入理解 MySQL 中的锁和MVCC机制 master_chenchengg 能力提升面试宝典技术 IT信息化
深入理解MySQL中的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本并发控制（MVCC）原理幻读问题及解决方法死锁检测与预防策略事务隔离级别对锁和MVCC的影响实际应用场景下的锁优化技巧事务的概念与ACID特性在任何数据库操作中，事务都是一个核心概念。事务是指作为一个单位的一组有序的数据库操作，这些操作要么全部执行，要么全部不执行，确保数据的完整性和一致性。M
K8s组件全解析，你需要知道的一切秘密 master_chenchengg 能力提升面试宝典技术 IT信息化
K8s组件全解析，你需要知道的一切秘密K8s架构概览APIServer：K8s的门面担当控制平面组件详解etcd：高可用的数据存储基石工作负载管理与调度策略网络模型与服务发现机制存储编排与持久化解决方案日志监控与故障排查工具链K8s架构概览Kubernetes（简称K8s）作为现代云原生应用部署的主流平台，其核心在于简化容器化应用的管理和扩展。K8s的基本架构围绕着集群、节点和Pod等概念构建。一
iOS：精致雕琢的移动操作系统 ios
在移动操作系统的领域中，iOS以其独特的设计理念、出色的用户体验和强大的生态系统脱颖而出，成为了众多用户追捧的对象。自2007年第一代iPhone发布，搭载iOS操作系统惊艳亮相，它便开启了移动设备的新时代，持续引领着行业的发展潮流。iOS系统的设计理念，始终秉持着简洁与优雅的原则。从系统界面到交互方式，都体现了对简约美学的极致追求。主屏幕上，图标排列整齐有序，采用简洁明了的设计风格，色彩搭配和谐
【MySQL】深入解析“Data too long”错误：原因、解决方案与优化策略 master_chenchengg sql数据库 mysql 数据库
【MySQL】深入解析“Datatoolong”错误：原因、解决方案与优化策略一、引言二、技术概述错误定义核心特性与优势三、技术细节原理分析难点四、实战应用应用场景问题与解决方案五、优化与改进潜在问题改进建议六、常见问题问题列举解决方案七、总结与展望一、引言MySQL作为世界上最受欢迎的开源关系型数据库管理系统之一，其稳定性和灵活性使其在Web应用、数据仓库和其他需要高性能数据存储的场景中占据主导
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

数据导入与预处理-课程总结-01~03章