像夏天一样热

Pandas笔记

pandas笔记

Pandas 基础处理
- 4.1Pandas介绍
- - 4.1.1 Pandas介绍 - 数据处理工具
  - 4.1.2 为什么使用Pandas
  - 4.1.3 DataFram 对象
  - 4.1.4 MultiIndex与pannel
  - - **1.MultiIndex**
    - **2 Panel**
    - **3 Series**
- 4.2 基本数据操作
- - 4.2.1 索引操作
  - 4.2.2赋值
  - 4.2.3 排序
- 4.3 DataFrame运算
- - 4.3.1 算术运算
  - 4.3.2 逻辑运算
  - - 逻辑运算函
  - 4.3.3统计运算
  - 4.3.4 累计统计函数：
  - 4.3.5 自定义运算
- 4.4 Pandas画图
- 4.5 文件读取与存储
- - 4.5.1 CSV
  - 4.5.2 HDF5(二进制文件)
  - 4.5.3 JSON
Pandas高级处理
- 4.6 高级处理-缺失值处理
- - 4.6.1 如何处理nan
  - 4.6.2 不是缺失值nan，有默认标记的
- 4.7 高级处理-数据离散化
- - 4.7.1 什么是数据的离散化
  - 4.7.2 为什么要离散化
  - 4.7.3 如何实现数据的离散化
- 4.8 高级处理-合并
- - - 1）concat拼接（按方向拼接）
    - 2）按索引拼接--merge
    - 1）内连接
    - 2)左连接
    - 3)右连接
    - 3)外连接
- 4.9 高级处理-交叉表与透视表
- - 4.9.1 交叉表与透视表什么作用
  - 4.9.2 使用crosstab(交叉表)实现
  - - pandas日期类型
  - 4.9.3 使用pivot_table（透视表）
- 4.10 高级处理-分组与聚合
- - 4.10.1 什么是分组与聚合
  - 4.10.2 分组与聚合API

Pandas 基础处理

    Pandas是什么？为什么用？
    核心数据结构
        DataFrame
        Panel
        Series
    基本操作
    运算
    画图
    文件的读取与存储
高级处理

pandas 安装：

#升级pip(选做)
python -m pip install --upgrads pip
#阿里镜像安装pandas
pip install pandas -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com/pypi/simple

4.1Pandas介绍

4.1.1 Pandas介绍 - 数据处理工具

panel + data + analys
panel面板数据 - 计量经济学三维数据

核心数据结构
DataFrame
Pannel
Series

4.1.2 为什么使用Pandas

便捷的数据处理能
读取文件方便
封装了Matplotlib、Numpy的画图和计算

4.1.3 DataFram 对象

结构：

既有行索引，又有列索引的二维数组

import  numpy as np
import pandas as pd


#创建一个符合正态分布的10个股票5天的涨幅数据
stock_change=np.random.normal(loc=0,scale=1,size=(10,5))

#添加行索引
stock=["股票{}".format(i) for i in range(10)]
#添加列索引
#pd.date_range() --用来生成日期
date=pd.date_range(start="20211224",periods=5,freq="B")

data_stocks=pd.DataFrame(stock_change,index=stock,columns=date)
data_stocks

属性：

shape #形状
index #行索引列表
columns #列索引列表
values #直接获取其中array的值
T #转置

data_stocks.shape
>>> (10, 5)

data_stocks.index
>>>Index(['股票0', '股票1', '股票2', '股票3', '股票4', '股票5', '股票6', '股票7', '股票8', '股票9'], dtype='object'

data_stocks.columns
>>>DatetimeIndex(['2021-12-24', '2021-12-27', '2021-12-28', '2021-12-29''2021-12-30'] dtype='datetime64[ns]', freq='B'

data_stocks.values
>>>array([[ 0.53382629,  0.05785681, -0.37013912, -0.10991607, -0.34161015],
       [ 0.03759558,  0.95196327,  0.49609403,  0.35469635,  0.89827462],
       [-0.89009782, -0.70126025,  2.11514223, -0.68367804, -1.84225813],
       [ 1.26574084,  0.81638033,  1.16768865,  0.13239209,  0.16807341],
       [-0.2608384 ,  0.0825122 ,  0.15498428, -1.8234721 ,  0.0957601 ],
       [ 0.53628063,  0.33689679, -0.51092882, -0.03727799, -1.2336869 ],
       [ 0.34550794,  0.24099083, -0.38695422, -1.76550244, -0.53625289],
       [ 0.75655038, -1.0583886 , -0.48195212, -0.03734291,  0.36727743],
       [-1.61212811, -0.58084113,  0.97282033, -0.72031483,  1.28364436],
       [ 0.09598993,  0.94673641, -1.74923158, -1.65604889, -0.8564206 ]]

data_stocks.T

方法：

head() #开头几行，默认返回前5行
tail() #最后几行，默认返回后5行

data_stocks.head()

data_stocks.tail(3)

DataFrame索引的设置：

1）修改行、列索引值（只能整体修改）
2）重设索引
3）设置新索引（以某列值设置为新索引）

1）修改股票索引：
不能单独修改一个索引。

stock_=["股票_{}".format(i) for i in range(10)]
>>>stock_
['股票_0',
 '股票_1',
 '股票_2',
 '股票_3',
 '股票_4',
 '股票_5',
 '股票_6',
 '股票_7',
 '股票_8',
 '股票_9']
 
data_stocks.index=stock_
data_stocks

2)重设索引

data_stocks.reset_index()

data_stocks.reset_index(drop=True)

3）设置新索引

##创建数组
df=pd.DataFrame({'month':[1,4,7,10],
               'year':[2001,2014,2020,2021],
               'sale':[55,30,8,65]})
df

将月份设置为新的索引：

df.set_index("month",drop=False)

设置多个索引：

#设置多个索引
new_df=df.set_index(["year","month"])

此时index变为多个：

new_df.index

4.1.4 MultiIndex与pannel

1.MultiIndex

new_df.index.names
>>>FrozenList(['year', 'month']

new_df.index.levels
>>>FrozenList([[2001, 2014, 2020, 2021], [1, 4, 7, 10]]

2 Panel

    DataFrame的容器

注：Pandas从版本0.20.0开始弃用，推荐的用于表示3D数据的方法是DataFrame上的MultiIndex方法

items - axis 0，每个项目对应于内部包含的数据帧(DataFrame)。
major_axis - axis 1，它是每个数据帧(DataFrame)的索引(行)。
minor_axis - axis 2，它是每个数据帧(DataFrame)的列。

p = pd.Panel(np.arange(24).reshape(4,3,2),
                 items=list('ABCD'),
                 major_axis=pd.date_range('20130101', periods=3),
                 minor_axis=['first', 'second'])
p["A"]
p.major_xs("2013-01-01")
p.minor_xs("first")

3 Series

带索引的一维数组

属性：

index
values

data1=data_stocks.iloc[1,:]
data1

data1.index
》》》DatetimeIndex(['2021-12-24', '2021-12-27', '2021-12-28', '2021-12-29',
               '2021-12-30'],
              dtype='datetime64[ns]', freq='B')

data1.values
》》》array([0.03759558, 0.95196327, 0.49609403, 0.35469635, 0.89827462]
type(data1.values)
》》》numpy.ndarray

Series创建：

通过已有数据创建

pd.Series(range(10))
》》》0    0
	1    1
	2    2
	3    3
	4    4
	5    5
	6    6
	7    7
	8    8
	9    9
dtype: int64

创建数据指定索引

pd.Series(range(3,9,2),index=("a","b","c"))
》》》a    3
	b    5
	c    7
	dtype: int64
pd.Series(np.arange(3, 9, 2), index=["a", "b", "c"])
》》》a    3
	b    5
	c    7
	dtype: int32

用字典创建Series:

#用字典创建
pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})

总结：
    DataFrame是Series的容器
    Panel是DataFrame的容器

4.2 基本数据操作

4.2.1 索引操作

读取csv文件数据：

#读取csv文件数据
data=pd.read_csv("F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_day/stock_day.csv")
data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","v_ma20"], axis=1) # 去掉一些不要的列
data

#numpy的索引
stock_change[2,2]
#data[2,2]    #×pandas不可像numpy一样直接进行索

1）直接索引
先列后行

#  1）直接索引---先列后行
data["open"]["2018-02-26"]
》》》22.8

索引一列：

#取所有open列属性
data.open
data["open"]

2）按名字索引
loc

#  2) 使用loc按名字进行索引---先行后列
data.loc["2018-02-26"]["open"]
》》》22.8

data.loc['2018-02-26','open']
》》》22.8

3）按数字索引
iloc

# 3) 使用iloc 按数字进行索引
data.iloc[1,0]
》》》22.8

4）ix组合索引（ix已不能用）
数字、名字

data.index[0:4]
>>>Index(['2018-02-27', '2018-02-26', '2018-02-23', '2018-02-22'], dtype='object')
data.loc[data.index[0:4], ['open', 'close', 'high', 'low']

#查询多个
df_neg.loc[[1,2]]
df_neg = df_neg.loc[df_neg['文本'].str.len() >= SENTENCE_MIN_COUNT].reset_index(drop=True)  # 丢弃句子太少的数据

data.columns.get_indexer(['open', 'close', 'high', 'low'])
>>array([0, 2, 1, 3], dtype=int64)
data.iloc[0:4, data.columns.get_indexer(['open', 'close', 'high', 'low'])]

4.2.2赋值

#整列赋值

data.open=10
data["open"]=100

#单个属性赋值
data.iloc[1,0]=1000

4.2.3 排序

对内容排序

datafram
series

#对high属性列进行升序排序
data.sort_values(by="high")
#对high属性列进行降序排序
data.sort_values(by="high",ascending=False)

#先对high进行排序，high值相等，根据p_change进行排序
data.sort_values(by=["high","p_change"],ascending=False)

对索引排序
```
    dataframe
    series
```

#根据索引进行排序
data.sort_index()

带索引的的一维数组series排序和DataFrame原理相同：

#构建一个serics序列
series1=data["price_change"]
series1

#升序排序
series1.sort_values()

#降序排序
series1.sort_values(ascending=False）

#对索引进行排序
series1.sort_index()
#排序后取头5个
series1.sort_index().head()

4.3 DataFrame运算

4.3.1 算术运算

#整列数据+3
data["open"]+3
data.open.add(3)
data["open"].add(3)


》》》2018-02-27    26.53
2018-02-26    25.80
2018-02-23    25.88
2018-02-22    25.25
2018-02-14    24.49
              ...  
2015-03-06    16.17
2015-03-05    15.88
2015-03-04    15.80
2015-03-03    15.52
2015-03-02    15.25
Name: open, Length: 643, dtype: float64

#数据整体+10
data+10

#两列数据相减---收盘价-开盘价
data["close"]-data["open"]
data["close"].sub(data["open"])


》》》2018-02-27    0.63
2018-02-26    0.73
2018-02-23   -0.06
2018-02-22    0.03
2018-02-14    0.43
              ... 
2015-03-06    1.11
2015-03-05    0.28
2015-03-04    0.10
2015-03-03    0.18
2015-03-02    0.27
Length: 643, dtype: float64

data["open"]-10

》》》2018-02-27    13.53
2018-02-26    12.80
2018-02-23    12.88
2018-02-22    12.25
2018-02-14    11.49
              ...  
2015-03-06     3.17
2015-03-05     2.88
2015-03-04     2.80
2015-03-03     2.52
2015-03-02     2.25
Name: open, Length: 643, dtype: float64

4.3.2 逻辑运算

逻辑运算符

data>20

data["p_change"]>2   #data["p_change"]  p_change的serics的序列
data.p_change>2

》》》2018-02-27     True
2018-02-26     True
2018-02-23     True
2018-02-22    False
2018-02-14     True
              ...  
2015-03-06     True
2015-03-05     True
2015-03-04    False
2015-03-03    False
2015-03-02     True
Name: p_change, Length: 643, dtype: bool

布尔索引

#返回data数据中所有p_change>2的
data[data.p_change>2]
data[data.p_change>2]

#组合逻辑运算符
(data["p_change"]>2) & (data["low"]>20)

》》》2018-02-27     True
2018-02-26     True
2018-02-23     True
2018-02-22    False
2018-02-14     True
              ...  
2015-03-06    False
2015-03-05    False
2015-03-04    False
2015-03-03    False
2015-03-02    False
Length: 643, dtype: bool


#组合逻辑运算符的布尔索引
data[(data["p_change"]>2) & (data["low"]>20)]

逻辑运算函

query()
isin() #判断一组组书中是否有某个值

query()


#组合运算符查询数据
data.query("p_change>2 & close>20")

isin()

data["turnover"].isin([4.19,2.39])

》》》2018-02-27     True
2018-02-26    False
2018-02-23    False
2018-02-22    False
2018-02-14    False
              ...  
2015-03-06    False
2015-03-05    False
2015-03-04    False
2015-03-03    False
2015-03-02    False
Name: turnover, Length: 643, dtype: bool

data[data["turnover"].isin([4.19,2.39])]

4.3.3统计运算

min max mean median var( 方差) std(标准差)

describe()
综合分析：能够直接得出很多统计结果，count,mean,std,min,max等

data.describe()

50%中位数

#获取最大值（默认按列获取axis=0,按行获取axis=1）
data.max()

》》》open                34.99
	high                36.35
	close               35.21
	low                 34.01
	volume          501915.41
	price_change         3.03
	p_change            10.03
	turnover            12.56
	dtype: float64

在numpy中获取最大值最小值的位置：
np.argmax()
np.argmin()

在pandas中获取最大值最小值位置：
idxmax()
idxmin()


#获取最大值的索引（默认按列获取axis=0,按行获取axis=1）
data.idxmax()

》》》open            2015-06-15
	high            2015-06-10
	close           2015-06-12
	low             2015-06-12
	volume          2017-10-26
	price_change    2015-06-09
	p_change        2015-08-28
	turnover        2017-10-26
	dtype: object

4.3.4 累计统计函数：


#累计统计p_change列
data["p_change"].cumsum()

》》》2018-02-27      2.68
	2018-02-26      5.70
	2018-02-23      8.12
	2018-02-22      9.76
	2018-02-14     11.81
	               ...  
	2015-03-06    114.70
	2015-03-05    116.72
	2015-03-04    118.29
	2015-03-03    119.73
	2015-03-02    122.35
	Name: p_change, Length: 643, dtype: float64


#pandas直接画图（需要先安装好matplotlib）
data["p_change"].sort_index().cumsum().plot()  

#先排序后画图
data["p_change"].sort_index().cumsum().plot()

4.3.5 自定义运算

apply(func, axis=0)
func: 自定义函数
axis=0: 默认按列运算，axis=1按行运算

data.apply(lambda x:x.max()-x.min(),axis=0)#   ：左边是参数，右边是运算

4.4 Pandas画图

pandas.DataFrame.plot
DataFrame.plot(x=None, y=None, kind=‘line’)

x: label or position, default None
y: label, position or list of label, positions, default None
Allows plotting of one column versus another
kind: str

‘line’: line plot(default)
''bar": vertical bar plot
“barh”: horizontal bar plot
“hist”: histogram
“pie”: pie plot
“scatter”: scatter plot


#用散点图展示open列和close列的关系
data.plot(x="open",y="close",kind="scatter")

pandas.Series.plot
sr.plot()

data["open"].sort_values().plot(kind="line")

4.5 文件读取与存储

4.5.1 CSV

（1）读取CSV文件
pd.read_csv(path)
usecols=
names=

import pandas as pd
#读取csv文件数据
data=pd.read_csv("F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_day/stock_day.csv",usecols=['high','low','open','close'])
data

当所读取文件没有列名，所读取的文件会把第一列数据当作列名，用names属性添加列名。

pd.read_csv('F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_day2.csv')

pd.read_csv('F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_day2.csv',names=["open", "high", "close", "low", "volume", "price_change", "p_change", "ma5", "ma10", "ma20", "v_ma5", "v_ma10", "v_ma20", "turnover"])

（2）写入CSV文件
dataframe.to_csv(path)
columns=[]
index=False
header=False

#保存open列数据的前10行
data[:10].to_csv("./open.csv",columns=['open'])

对保存的进行读取：

pd.read_csv("./open.csv")

#不保存索引列
data[:10].to_csv("./open.csv",columns=['open'],index=False)


# 保存opend列数据，index=False不要行索引，mode="a"追加模式|mode="w"重写，header=False不要列索引
data[:10].to_csv("test.csv", columns=["open"], index=False, mode="a", header=False)

4.5.2 HDF5(二进制文件)

hdf5 存储 3维数据的文件
key1 dataframe1二维数据
key2 dataframe2二维数据

pd.read_hdf(path, key=)
df.to_hdf(path, key=)

day_close =pd.read_hdf('F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_data/day/day_close.h5')


》》》报错：ImportError: Missing optional dependency 'tables'.  Use pip or conda to install tables.


day_close.to_hdf("test.h5", key="close")
pd.read_hdf("test.h5", key="close").head()

day_open=read_hdf('F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/stock_data/day/day_open.h5')
day_close.to_hdf("test.h5", key="open")
#一个文件下存储了两个键的文件，读取时必须指定key名称
pd.read_hdf("test.h5", key="close").head()

4.5.3 JSON

pd.read_json(path)

orient=“records”
lines=True

df.to_json(patn)

orient=“records”
lines=True

(1)读取

data_json=pd.read_json("F:/b站视频资料/Python数据挖掘基础教程资料/day3资料/02-代码/Sarcasm_Headlines_Dataset.json",orient="records",lines=True)

（2）写入

#lines=True ----显示为一行一行的json数据
data_json.to_json("test.json",orient="records",lines=True)

Pandas高级处理

缺失值处理
数据离散化
合并
交叉表与透视表
分组与聚合
综合案例

4.6 高级处理-缺失值处理

1）如何进行缺失值处理
    两种思路：
        1）删除含有缺失值的样本
        2）替换/插补----计算平均值/中位数...替换到缺失值位置

4.6.1 如何处理nan

1）判断数据中是否存在NaN

pd.isnull(df)
pd.notnull(df)

2）删除含有缺失值的样本

df.dropna(inplace=False）
替换/插补
df.fillna(value, inplace=False)

import pandas as pd
import numpy as np
#读取数据
data_move=pd.read_csv('F:\\b站视频资料\\Python数据挖掘基础教程资料\\day4资料\\02-代码\\IMDB\\IMDB-Movie-Data.csv')
data_move

# 1）判断是否存在NaN类型的缺失值
##判断是否存在缺失值
data_move.isnull()
pd.isnull(data_move)

##判断是否存在缺失值
np.any(pd.isnull(data_move))   #np.any()存在# 返回True，说明数据中存在缺失值
np.any(data_move.isnull())
np.all(pd.notnull(movie)) # 返回False，说明数据中存在缺失值

#利用pandas判断是否存在缺失值
pd.isnull(data_move).any()
pd.notnull(data_move).all()
>>>Rank                  False
	Title                 False
	Genre                 False
	Description           False
	Director              False
	Actors                False
	Year                  False
	Runtime (Minutes)     False
	Rating                False
	Votes                 False
	Revenue (Millions)    False
	Metascore             False
	dtype: bool

# 2）缺失值处理
# 方法1：删除含有缺失值的样本
data_move1=data_move.dropna()#默认inplace=False会返回一个新的DataFrame，原始DataFrame不会发生改变
pd.isnull(data_move1).any()
>>>Rank                  False
	Title                 False
	Genre                 False
	Description           False
	Director              False
	Actors                False
	Year                  False
	Runtime (Minutes)     False
	Rating                False
	Votes                 False
	Revenue (Millions)    False
	Metascore             False
	dtype: bool

# 方法2：替换
# 含有缺失值的字段
# Revenue (Millions)    
# Metascore
data_move["Revenue (Millions)"].fillna(data_move["Revenue (Millions)"].mean(),inplace=True)
data_move["Metascore"].fillna(data_move["Revenue (Millions)"].mean(),inplace=True)

#查看是否还存在缺失值
pd.isnull(data_move).any()

》》》Rank                  False
	Title                 False
	Genre                 False
	Description           False
	Director              False
	Actors                False
	Year                  False
	Runtime (Minutes)     False
	Rating                False
	Votes                 False
	Revenue (Millions)    False
	Metascore             False
	dtype: bool

4.6.2 不是缺失值nan，有默认标记的

1）替换 ？-> np.nan
            df.replace(to_replace="?", value=np.nan)
2）处理np.nan缺失值的步骤

缺失值处理实例


# 读取数据
path = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data"
name = ["Sample code number", "Clump Thickness", "Uniformity of Cell Size", "Uniformity of Cell Shape", "Marginal Adhesion", "Single Epithelial Cell Size", "Bare Nuclei", "Bland Chromatin", "Normal Nucleoli", "Mitoses", "Class"]

data = pd.read_csv(path, names=name)
# 1）替换
data_new = data.replace(to_replace="?", value=np.nan)
# 2）删除nan
data_new.dropna(inplace=True)
#查看
data_new.isnull().any()
》》》Sample code number             False
	Clump Thickness                False
	Uniformity of Cell Size        False
	Uniformity of Cell Shape       False
	Marginal Adhesion              False
	Single Epithelial Cell Size    False
	Bare Nuclei                    False
	Bland Chromatin                False
	Normal Nucleoli                False
	Mitoses                        False
	Class                          False
	dtype: bool

4.7 高级处理-数据离散化

性别 年龄
A    1   23
B    2   30
C    1   18

物种 毛发
A    1
B    2
C    3

    男 女 年龄
A   1  0  23
B   0  1  30
C   1  0  18

	狗  猪  老鼠 毛发
A   1   0   0   2
B   0   1   0   1
C   0   0   1   1

one-hot编码&哑变量

4.7.1 什么是数据的离散化

4.7.2 为什么要离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。

4.7.3 如何实现数据的离散化

1）分组
自动分组sr=pd.qcut(data, bins) #bins组数
自定义分组sr=pd.cut(data, []) #[]列表区间
2）将分组好的结果转换成one-hot编码
pd.get_dummies(sr, prefix=) #

# 1）准备数据
data = pd.Series([165,174,160,180,159,163,192,184], index=['No1:165', 'No2:174','No3:160', 'No4:180', 'No5:159', 'No6:163', 'No7:192', 'No8:184']) 
data


# 2）分组
# 自动分组
sr=pd.qcut(data,3)
sr
》》》No1:165      (163.667, 178.0]
	No2:174      (163.667, 178.0]
	No3:160    (158.999, 163.667]
	No4:180        (178.0, 192.0]
	No5:159    (158.999, 163.667]
	No6:163    (158.999, 163.667]
	No7:192        (178.0, 192.0]
	No8:184        (178.0, 192.0]
dtype: category
Categories (3, interval[float64]): [(158.999, 163.667] < (163.667, 178.0] < (178.0, 192.0]]

sr.count()  #查看总数据数
sr.value_counts()  # 看每一组有几个数据

# 3）转换成one-hot编码
pd.get_dummies(sr, prefix="height")

自定义分组

# (2)自定义分组
bins = [150, 165, 180, 195]
sr = pd.cut(data,bins)
sr

# 3）转换成one-hot编码
pd.get_dummies(sr, prefix="身高")

4.8 高级处理-合并

numpy
    np.concatnate((a, b), axis=)  #水平/ 竖直拼接
    水平拼接
        np.hstack()
    竖直拼接
        np.vstack()
        
pandas
    1）按方向拼接
        pd.concat([data1, data2], axis=1)   #axis=0列（默认）--竖直拼接，axis=1行--水平拼接
    2）按索引拼接
        pd.merge实现合并
        pd.merge(left, right, how="inner", on=[索引])

1）concat拼接（按方向拼接）

#水平拼接
pd.concat([data,data_new],axis=1)

#竖直拼接
pd.concat([data,data_new],axis=0)

2）按索引拼接–merge

#准备数据
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                        'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                        'key2': ['K0', 'K0', 'K0', 'K0'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

1）内连接

只保留索引中，共同含有的。

pd.merge(left,right,how='inner',on=['key1','key2'])

2)左连接

以左表为主

pd.merge(left,right,how='left',on=['key1','key2'])

3)右连接

以右表为主

pd.merge(left,right,how='right',on=['key1','key2'])

3)外连接

保留两表的数据

pd.merge(left,right,how='outer',on=['key1','key2'])

4.9 高级处理-交叉表与透视表

找到、探索两个变量之间的关系

4.9.1 交叉表与透视表什么作用

4.9.2 使用crosstab(交叉表)实现

pd.crosstab(value1, value2)

pandas日期类型

#pandas 日期类型
date=pd.to_datetime(stock_data.index)
date
》》》DatetimeIndex(['2018-02-27', '2018-02-26', '2018-02-23', '2018-02-22',
               '2018-02-14', '2018-02-13', '2018-02-12', '2018-02-09',
               '2018-02-08', '2018-02-07',
               ...
               '2015-03-13', '2015-03-12', '2015-03-11', '2015-03-10',
               '2015-03-09', '2015-03-06', '2015-03-05', '2015-03-04',
               '2015-03-03', '2015-03-02'],
              dtype='datetime64[ns]', length=643, freq=None)


date.year
》》》Int64Index([2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018, 2018,
            ...
            2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015],
           dtype='int64', length=643)


date.weekday
》》》Int64Index([1, 0, 4, 3, 2, 1, 0, 4, 3, 2,
            ...
            4, 3, 2, 1, 0, 4, 3, 2, 1, 0],
           dtype='int64', length=643)

#准备星期数据列
stock_data["week"]=date.weekday
#准备涨跌幅数据列
stock_data["pona"]=np.where(stock_data["p_change"]>0,1,0)
#交叉表
data_cross=pd.crosstab(stock_data["week"],stock_data["pona"])
data_cross

data_cross.div(data_cross.sum(axis=1),axis=0)

data_cross.div(data_cross.sum(axis=1),axis=0).plot(kind='bar',stacked=True)

4.9.3 使用pivot_table（透视表）

stock_data.pivot_table(["pona"], index=["week"])

4.10 高级处理-分组与聚合

4.10.1 什么是分组与聚合

例子：

4.10.2 分组与聚合API

    dataframe
    sr


#创建数据
col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})
col

DataFrame:

# 进行分组，对颜色分组，price1进行聚合
# 用dataframe的方法进行分组
col.groupby(by="color")["price1"].max()#对颜色进行分组，根据price1进行聚合

》》》color
	green    2.75
	red      4.20
	white    5.56
	Name: price1, dtype: float64

Serics：

# 或者用Series的方法进行分组聚合
col["price1"].groupby(col["color"]).max()


》》》color
	green    2.75
	red      4.20
	white    5.56
	Name: price1, dtype: float64

哔哩哔哩

你可能感兴趣的:(python,数据挖掘,数据分析,pandas)

大数据学习（82）-数仓详解 viperrrrrrr 大数据学习数仓
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据
Linux的权限巷子里的童年ya linux 运维服务器 centos
基本权限与归属读取：允许查看内容-readr写入：允许修改内容-writew可执行：允许运行和切换-excutex1、对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限：vim、>、>>x可执行权限：Shell与Python\Go2、对于目录：r读取权限：ls命令查看目录内容w写入权限：能够创建、删除、修改等目录的内容x执行权限：能够cd切换到此目录下（进入此目录）
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
费控系统是做什么的费控系统
费控系统主要用于费用监控**、成本控制、风险预警。其中费用监控通过实时采集和精细数据分析，帮助企业实时掌握资金流向和支出情况，从而确保预算执行与资金使用的准确性。企业借助该系统可以提前预警异常支出、降低运营风险，并借助数据反馈不断优化管理策略，从而提升整体财务透明度和管理效率。一、费控系统的概念与基本功能费控系统是企业在财务管理中的重要工具，主要用于对企业各项费用进行实时监控和管理。它通过对各部门
电商精准营销—数据预处理概述 Ssaty. python
第1关：数据预处理-数据清洗任务描述本关任务：对指定样本数据进行预处理，掌握数据预处理的技巧。相关知识为了完成本关任务，你需要掌握：1.数据样本抽取的方法；2、数据清洗的技巧。数据分析的基本流程：在数据分析中，通常着眼于需求，围绕着分析的目的进行数据分析工作。在大数据时代，数据量众多，数据信息质量不同，只有围绕这分析目的才能快速选择出有用的数据。原因很简单，从错误的数据里，肯定找不出正确的分析结论
Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
MySQL中处理JSON数据小村学长毕业设计 mysql json 数据库
MySQL中处理JSON数据已成为大数据分析领域的一个新方向，这一功能自MySQL5.7版本引入以来，为数据库管理系统在处理非结构化数据方面提供了强大的支持。以下是对MySQL中处理JSON数据的详细探讨，包括其引入的背景、特性、函数与操作符、性能优化以及在大数据分析中的应用等方面。一、JSON数据类型引入的背景随着大数据技术的迅猛发展和普及，数据量的爆炸性增长对数据处理能力提出了前所未有的挑战。
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23