lseaJK

Python数据分析笔记（上）

文本文件的读取

Pandas读取官方文档查阅地址 Input/Output — pandas 0.24.2 documentation (pydata.org)

read_csv\read_table(filepath_or_buffer,sep=’\t’,header=’infer’,names=None,index_col=None,usecols=None,dtype=None,converters=None,skiprows=None,skipfooter=None,nrows=None,na_values=None,skip_blank_lines=True,parse_dates=False,thousands=None,comment=None,encoding=None)
读取txt，注意到以下问题：如何忽略其他不相关内容，手动添加#；如何添加变量名称；如何避免编号中’00’的消失。

import pandas as pd

data1=pd.read_table(filepath_or_buffer=r'D:\Projects\Python\Doing\pythonProject\data\data1.txt',
                   sep=',',# 指定分隔符
                   header=None, # 不需要将原始数据中的第一行读作表头
                   names=['id','name','gender','occupation'], # 为各列起变量名称
                   skiprows=2, #跳过起始的两行数据
                   skipfooter=2, #跳过末尾的两行数据
                   comment='#', # 不读取'#'开头的数据行
                   converters={
     'id':str}, #对工号变量进行类型转换，避免开头的00消失
                   encoding='gbk'
                   )
print(data1)
'''
      id name gender occupation
0  00446   张敏      女      前端工程师
1  00483   李琴      女  Java开发工程师
2  00552  赵东来      男      数据分析师
3  00589  丁顺昌      男      数据分析师
'''

电子表格的读取

read_excel(io,sheetname=0,header=0,skiprows=Nne,skip_footer=0,index_col=None,names=None,parse_cols=None,parse_dates=False,na_values=None,thousands=None,convert_float=True)

import pandas as pd

data2=pd.read_excel(io=r'D:\Projects\Python\Doing\pythonProject\data\data2.xlsx',
                   header=None, # 不需要将原始数据中的第一行读作表头
                   names=['id','date','prod_name','color','price'], # 为各列起变量名称
                   converters={
     '0':str}, #字典中的键必须为0，因为原始表中没有列名称
                    na_values='未知' # 原数据表中“未知”转换为缺失值
                   )
print(data2)
'''
        id       date prod_name  color price
0    23146 2016-03-18       连衣裙    237    白色
1  1344527 2017-06-12       牛仔裤    368    蓝色
2   223685 2018-02-10        皮鞋    589   NaN
3    37249 2017-07-17        寸衫    299    白色
4   368241 2016-03-23        板鞋    299    蓝色
5  1127882 2018-09-17        西装   1599    黑色
'''

数据库数据的读取

读入SQL Server需要使用pymssql模块，在jupyter中输入“!pip install pymssql”；
读入MySQL需要使用Pymysql模块，在jupyter中输入“!pip install pymysql”。
然后基于两个模块各自的connect函数构建数据库与python之间的桥梁，最后在搭建好连接的基础上使用pandas模块中的read_sqll函数实现数据库数据的读取。
1.connect函数
(1)pymssql.connect(server=None,user=None,password=None,database=Nonesharset=None)

(2)pymysql.connect(host=None,user=None,password=’’,database=None,port=0,charset=’’)

2.read函数
pd.read_sql(sql,con,index_col=None,coerce_float=True,parse_dates=None,columns=None)

SQL SERVER连接

import pymssql
import pandas as pd
# 连接SQL Server数据库
connect=pymssql.connect(server='localhost',# 指定服务器名称
                        user='', # 指定访问数据库的用户名
                        password='', # 指定访问数据库的密码
                        database='train', # 指定数据所在数据库的名称
                        charset='utf8' # 指定UTF-8字符集，避免中文乱码
                        )
# 读取数据
data=pd.read_sql("select * from sec_buildings where direction='朝南'",con=connect)
# 关闭连接
connect.close()
# 数据输出
data.head()

MySQL连接

import pymysql
import pandas as pd
# 连接MySQL数据库
connect=pymysql.connect(host='localhost',# 指定服务器名称
                        user='root', # 指定访问数据库的用户名
                        password='123456', # 指定访问数据库的密码
                        database='wx', # 指定数据所在数据库的名称
                        port=3306, # 指定数据库连接的端口号
                        charset='utf8' # 指定UTF-8字符集，避免中文乱码
                        )
# 读取数据
data=pd.read_sql("select * from wx_gift",connect)
# 关闭连接
connect.close()
# 数据输出
print(data)
'''
   gift_id    name  point_needed  num_released                    img
0        1  党员学习笔记           100             3  /static/photo/礼品1.jpg
1        2    古典书签            50            23  /static/photo/礼品2.jpg
2        3   古风扇书签           300             4  /static/photo/礼品5.jpg
3        4   党建纪念品          1000            10  /static/photo/礼品4.jpg
'''

import pandas as pd
# 读取数据
data3=pd.read_excel(io=r'D:\Projects\Python\Doing\pythonProject\data\data3.xlsx')
# 查看数据规模
print(data3.shape
# (3000, 6)
# 查看表中各变量的数据类型
print(data3.dtypes)
'''
id              int64
gender         object
age           float64
edu            object
custom_amt     object
order_date     object
dtype: object
'''

数据的概览与清洗

从外部环境将数据读入到Python中后，首先要了解数据，数据规模、各变量的数据类型、是否存在重复值、缺失值等。
1.数据类型的判断和转换，读取数据，了解数据规模、各变量的数据类型

astype用于数据类型的强制转换，常用转换类型包括str、float、int。
由于消费金额custom_amt变量中带有‘￥’，所以数据类型转换之前必须将包其删除（通过字符串切片方法删除，[1:]表示从字符的第二个元素开始截断）。
对于字符转日期问题，推荐使用更加灵活的pandas的to_datetime方法，在format参数的调解下，可以识别任意格式的字符型日期值。

import pymysql
import pandas as pd
# 读取数据
data3=pd.read_excel(io=r'D:\Projects\Python\Doing\pythonProject\data\data3.xlsx')
# 查看数据规模
# print(data3.shape
# (3000, 6)3000行6列
# 查看表中各变量的数据类型
# print(data3.dtypes)
'''
id              int64
gender         object
age           float64
edu            object
custom_amt     object
order_date     object
dtype: object
'''
# 数值型转字符型
data3['id']=data3['id'].astype(str)
# 字符型转数值型
data3['custom_amt']=data3['custom_amt'].str[1:].astype(float)
# 字符型转日期型
data3['order_date']=pd.to_datetime(data3['order_date'],format='%Y年%m月%d日')

# 重新查看数据集的各变量类型
# print(data3.dtypes)
'''
id                    object
gender                object
age                  float64
edu                   object
custom_amt           float64
order_date    datetime64[ns]
dtype: object
'''
# 预览数据的前五行
print(data3.head())
'''
     id  gender   age  edu  custom_amt order_date
0   890  female  43.0  NaN     2177.94 2018-12-25
1  2391    male  52.0  NaN     2442.18 2017-05-24
2  2785    male  39.0  NaN      849.79 2018-05-15
3  1361  female  26.0  NaN     2482.22 2018-05-16
4   888  female  61.0   本科     2027.90 2018-01-21
'''

2.冗余数据的判断和处理，监控数据表中是否存在“脏”数据，如冗余的重复观测值和缺失值等
可以通过duplicated方法进行“脏”数据的识别和处理，没有重复值返回False。若发现了重复值，可使用drop_duplicates方法将冗余信息删除。
在duplicated方法对数据行作重复性判断时，会返回一个与原数据行数相同的序列，如果数据行没有重复则对应False，否则对应True，为了得到最终的判断结果，需要再用any方法，即序列中只要存在一个true则返回true。

# 判断是否存在重复观测值
print(data3.duplicated().any())
# False

3.缺失数据的判断预处理，通常从两个方面入手：
①变量的角度，即判断每个变量中是否包含缺失值；
②数据行的角度，即判断每行数据中是否包含缺失值。
关于缺失值NaN的判断可以使用isnull方法，它会返回与原数据行列数相同的矩阵，并且矩阵的元素为bool类型的值。
为了得到每一列的判断结果，仍然需要使用any方法且设置axis参数为0；
统计各变量的缺失值个数可以在isnull的基础上使用sum方法，同样需要设置axis参数为0；
计算缺失比例就是在缺失数量的基础上除以总的样本量（shape方法返回数据集的行数和列数，[0]表示取出对应的数据行数）。
说明：axis=0行数增多，axis=1列数增多
对于缺失值的处理，最常用的方法无外乎删除法、替换法和插补法。

删除法指将缺失值所在的观测行删除，前提缺失行比例非常低如在5%以内；或者删除缺失值所对应的变量，前提是改变量中包含的缺失值比例非常高如70%左右。
替换法是指直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值，其好处是处理速度快，弊端是容易产生有偏估计，导致缺失值替换的准确性下降。
插补法是指利用有监督的机器学习方法（如回归模型、树模型、网络模型等）对缺失值做预测，其优势在于预测的准确性高，缺点是需要大量的计算，导致缺失值的处理速度大打折扣。

# 判断各变量中是否存在缺失值
print(data3.isnull().any(axis=0))
'''
id            False
gender         True
age            True
edu            True
custom_amt    False
order_date    False
dtype: bool
'''
# 各变量中缺失值的数量
print(data3.isnull().sum(axis=0))
'''
id               0
gender         136
age            100
edu           1927
custom_amt       0
order_date       0
dtype: int64
'''
# 各变量中缺失值的比例
print(data3.isnull().sum(axis=0)/data3.shape[0])
'''
id            0.000000
gender        0.045333
age           0.033333
edu           0.642333
custom_amt    0.000000
order_date    0.000000
dtype: float64
'''
# 判断各数据行中是否存在缺失值
print(data3.isnull().any(axis=1))
'''
0        True
1        True
2        True
3        True
4       False
        ...  
2995     True
2996    False
2997     True
2998    False
2999     True
Length: 3000, dtype: bool
'''
# 缺失观测值的行数
print(data3.isnull().any(axis=1).sum())
# 2024
# 缺失观测值的比例
print(data3.isnull().any(axis=1).sum()/data3.shape[0])
# 0.6746666666666666
# 删除变量，如删除缺失率非常高的edu变量
data3.drop(labels='edu',axis=1,inplace=True)
print(data3.head())
'''
     id  gender   age  custom_amt order_date
0   890  female  43.0     2177.94 2018-12-25
1  2391    male  52.0     2442.18 2017-05-24
2  2785    male  39.0      849.79 2018-05-15
3  1361  female  26.0     2482.22 2018-05-16
4   888  female  61.0     2027.90 2018-01-21
'''
# 删除观测值，如删除age变量中所对应的缺失观测值
data3_new=data3.drop(labels=data3.index[data3['age'].isnull()],axis=0)
print(data3_new.shape)
# (2900, 5)
# 替换法处理缺失观测值
data3.fillna(value={
     'gender':data3['gender'].mode()[0],# 使用性别的众数替换缺失性别
                    'age':data3['age'].mean() # 使用年龄的平均值替换缺失年龄
                    },
            inplace=True # 原地修改数据
             )
print(data3.isnull().sum(axis=0))
'''
id            0
gender        0
age           0
custom_amt    0
order_date    0
dtype: int64
'''

数据的引用

在pandas模块中，可以使用iloc、loc或ix方法既可以筛选也可以对变量进行挑选，他们的语法相同，可以表示成[rows_select,cols_select]。

iloc只能通过行号和列号进行数据的筛选，可以将iloc中的’i’理解为integer，即只能向[rows_select,cols_select]指定整数列表。对于这种方式的索引，第一行货第一列必须用0表示，既可以向rows_select或cols_select指定连续的整数编号（即切片用法startstep，end的值取不到），也可以指定简短的整数编号。
loc可以将’l’理解为label，即可以向[rows_select,cols_select]指定具体的行标签（行名称）和列标签（变量名）。注意，这里是标签而不再是整数索引。除此之外loc方法还可以将索引中的rows_select指定为数据的筛选条件，但在iloc中是不允许这样使用的。
ix是iloc和loc的混胡，可以将ix理解为mix。

import pandas as pd
# 构造数据框
df1=pd.DataFrame({
     'name':['甲','乙','丙','丁','戊'],
                  'gender':['男','女','女','女','男'],
                  'age':[23,26,22,25,27],
                  'edu':['本科','本科','硕士''本科','硕士']
                  },
                 columns=['name','gender','edu','age']
                 )
# 查看数据预览
# print(df1)

# 取出数据集的中间三行（即所有女性），并且返回姓名、年龄和受教育水平三列
# iloc方法，切片上限无法取到
df1.iloc[1:4,[0,3,2]]
# loc方法,，通过名字索引
df1.loc[1:3,['name','age','edu']]
# ix方法，既可以指定位置索引，也可以指定名称索引
df1.ix[1:3,[0,3,2]]

1.假如数据集没有数值行号，而是具体的行名称应如何筛选
对于iloc来说，不管什么形式的数据集都可以使用，他始终需要指定目标数据所在的位置索引；
loc就不能使用数值表示标签栏，因为此时数据集的行标签是姓名，所以需要写入中间三行所对应的用户姓名；
对于ix方法，即可以使用行索引如1:4，也可以使用行名称表示。
另外，’:’表示取出数据集的所有变量。

# 将员工的姓名用作行标签
df2=df1.set_index('name')
# 查看数据预览
print(df2)

# iloc方法取出数据的中间三行
df2.iloc[1:4,:]
# loc方法取出数据的中间三行
df2.loc[['乙','丙','丁'],:]
# ix方法取出数据的中间三行
df2.ix[1:4,:]

2.显然在实际操作中很少通过指定具体的行索引或行名称尽心，而是基于列的条件表达式获得目标子集。
条件筛选只能使用在loc和ix两种方法中。
对变量的筛选loc方法必须指定具体的变量名称，而ix方法既可以指定变量名称，也可以指定变量所在的位置索引。

# 删除观测，如删除age变量中所对应的缺失观测
data3_new2=data3.loc[~data3['age'].isnul(),]
# 查看数据规模
print(data3_new2.shape)
#(2900,5)

注意：’~’表示逻辑非，如果不进行非操作，得到的将是缺失值所对应的行。

多表合并与连接314

SQL中多表合并采用UNION | UNION ALL；多表连接采用INNER JOIN | LEFT JOIN。
对Python来说，pandas模块提供了concat函数和merge函数实现多表之间的合并和连接。
1.合并函数concat
pd.concat(objs,axis=0,join=’outer’,join_axes=None,ignore_index=False,keys=None)

如果纵向合并多个数据集，name和Name是不同的；
对于join_axes参数的使用，例如纵向合并两个数据集df1和df2，可以写成pd.concat([df1,df2])。
如果该参数等于[df1.index]，则表示保留与df1行标签值一样的数据，但需要配合axis=1一起使用（即实现变量横向合并操作）；
如果等于[df1.columns]，则保留与df1中所有变量值一样的数据，但不需要添加axis=1的约束。

import pandas as pd
# 构造数据框
df1=pd.DataFrame({
     'name':['张三','李四','王二'],
                  'age':[21,25,22],
                  'gender':['男','女','男']
                  })
df2=pd.DataFrame({
     'name':['丁一','赵五'],
                  'age':[23,22],
                  'gender':['女','女']
                  })
# 数据集的纵向合并
df3=pd.concat([df1,df2], # 需将被合并的数据集组合到列表中，否则报错
              keys=['df1','df2'] # 借助于该参数区分不同的数据源
              )
print(df3)
'''
      name  age gender
df1 0   张三   21      男
    1   李四   25      女
    2   王二   22      男
df2 0   丁一   23      女
    1   赵五   22      女
'''

# 将第一列索引列转换为变量
df3.reset_index(level=0, #level用于指定第几个索引列需要转换，0表示第一个索引列
                inplace=True
                )
# 变量重命名
df3.rename(columns={
     'level_0':'tab_name'},inplace=True)
# 重新调整行索引值
df3.index=range(df3.shape[0])

print(df3)
'''
  tab_name name  age gender
0      df1   张三   21      男
1      df1   李四   25      女
2      df1   王二   22      男
3      df2   丁一   23      女
4      df2   赵五   22      女
'''

2.连接函数merge
merge(left,right,how=’inner’,on=None,left_on=None,right_on=None,
left_index=False,right_index=False,sort=False,suffixes=(‘_x’,’_y’))

该函数最大的缺点是每次只能操作两张数据表，如果有n张表需要连接，必须经过n-1次的merge函数使用。NaN为缺失值，表示无法匹配的值。

import pandas as pd
# 构造数据框
df3=pd.DataFrame({
     'id':[1,2,3,4,5],
                  'name':['张三','李四','王二','丁一','赵五'],
                  'age':[21,25,22,23,22],
                  'gender':['男','女','男','女','女']
                  })
df4=pd.DataFrame({
     'Id':[1,2,2,4,4,4,5],
                  'score':[83,81,87,75,86,74,88],
                  'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1']
                  })
df5=pd.DataFrame({
     'id':[1,3,5],'name':['张三','王二','赵五'],'income':[13500,18000,15000]})

# 首先将df3和df4连接，再将结果1 merge1和df5连接
merge1=pd.merge(left=df3,right=df4,how='left',left_on='id',right_on='Id')
print(merge1)
'''
   id name  age gender   Id  score kemu
0   1   张三   21      男  1.0   83.0  科目1
1   2   李四   25      女  2.0   81.0  科目1
2   2   李四   25      女  2.0   87.0  科目2
3   3   王二   22      男  NaN    NaN  NaN
4   4   丁一   23      女  4.0   75.0  科目1
5   4   丁一   23      女  4.0   86.0  科目2
6   4   丁一   23      女  4.0   74.0  科目3
7   5   赵五   22      女  5.0   88.0  科目1
'''
merge2=pd.merge(left=merge1,right=df5,how='right')
print(merge2)
'''
   id name  age gender   Id  score kemu  income
0   1   张三   21      男  1.0   83.0  科目1   13500
1   3   王二   22      男  NaN    NaN  NaN   18000
2   5   赵五   22      女  5.0   88.0  科目1   15000
'''

数据的汇总319

pandas模块既提供了Excel中的透视表功能，也提供了数据库中的分组聚合功能。
1.透视表功能pivot_table函数
pd.pivot_table(data,values=None,index=None,columns=None,aggfunc=’mean’,
fill_value=None,margins=False,dropna=True,margins_name=’All’)

import pandas as pd
diamonds=pd.read_table(r'D:\Projects\Python\Doing\pythonProject\data\diamonds.csv',sep=',')
# 单个分组变量的均值统计
print(pd.pivot_table(data=diamonds,index='color',values='price',margins=True,margins_name='总计'))
'''
             price
color             
D      3169.954096
E      3076.752475
F      3724.886397
G      3999.135671
H      4486.669196
I      5091.874954
J      5323.818020
总计     3932.799722
'''

import pandas as pd
import numpy as np
diamonds=pd.read_table(r'D:\Projects\Python\Doing\pythonProject\data\diamonds.csv',sep=',')
# 两个分组变量的列联表
print(pd.pivot_table(data=diamonds,index='clarity',columns='cut',values='carat',aggfunc=np.size,margins=True,margins_name='总计'))
'''
cut        Fair    Good    Ideal  Premium  Very Good       总计
clarity                                                      
I1        210.0    96.0    146.0    205.0       84.0    741.0
IF          9.0    71.0   1212.0    230.0      268.0   1790.0
SI1       408.0  1560.0   4282.0   3575.0     3240.0  13065.0
SI2       466.0  1081.0   2598.0   2949.0     2100.0   9194.0
VS1       170.0   648.0   3589.0   1989.0     1775.0   8171.0
VS2       261.0   978.0   5071.0   3357.0     2591.0  12258.0
VVS1       17.0   186.0   2047.0    616.0      789.0   3655.0
VVS2       69.0   286.0   2606.0    870.0     1235.0   5066.0
总计       1610.0  4906.0  21551.0  13791.0    12082.0  53940.0
'''

2.分组聚合操作，使用pandas模块中的groupby方法和aggregate方法。

import pandas as pd
import numpy as np
diamonds=pd.read_table(r'D:\Projects\Python\Doing\pythonProject\data\diamonds.csv',sep=',')
# 通过groupby方法，指定分组变量
grouped=diamonds.groupby(by=['color','cut'])
# 对分组变量进行统计汇总
result=grouped.aggregate({
     'color':np.size,'carat':np.min,'price':np.mean,'face_width':np.max})
# print(result)
'''
                 color  carat        price  face_width
color cut                                             
D     Fair         163   0.25  4291.061350        73.0
      Good         662   0.23  3405.382175        66.0
      Ideal       2834   0.20  2629.094566        62.0
      Premium     1603   0.20  3631.292576        62.0
      Very Good   1513   0.23  3470.467284        64.0
E     Fair         224   0.22  3682.312500        73.0
      Good         933   0.23  3423.644159        65.0
      Ideal       3903   0.20  2597.550090        62.0
      Premium     2337   0.20  3538.914420        62.0
      Very Good   2400   0.20  3214.652083        65.0
F     Fair         312   0.25  3827.003205        95.0
      Good         909   0.23  3495.750275        66.0
      Ideal       3826   0.23  3374.939362        63.0
      Premium     2331   0.20  4324.890176        62.0
      Very Good   2164   0.23  3778.820240        65.0
G     Fair         314   0.23  4239.254777        76.0
      Good         871   0.23  4123.482204        66.0
      Ideal       4884   0.23  3720.706388        62.0
      Premium     2924   0.23  4500.742134        62.0
      Very Good   2299   0.23  3872.753806        66.0
H     Fair         303   0.33  5135.683168        73.0
      Good         702   0.25  4276.254986        65.0
      Ideal       3115   0.23  3889.334831        62.0
      Premium     2360   0.23  5216.706780        62.0
      Very Good   1824   0.23  4535.390351        65.0
I     Fair         175   0.41  4685.445714        70.0
      Good         522   0.30  5078.532567        66.0
      Ideal       2093   0.23  4451.970377        62.0
      Premium     1428   0.23  5946.180672        62.0
      Very Good   1204   0.24  5255.879568        65.0
J     Fair         119   0.30  4975.655462        68.0
      Good         307   0.28  4574.172638        65.0
      Ideal        896   0.23  4918.186384        62.0
      Premium      808   0.30  6294.591584        62.0
      Very Good    678   0.24  5103.513274        63.0
'''

# 数据集重命名
result.rename(columns={
     'color':'counts','carat':'min_weight','price':'avg_price','face_width':'max_face_width'},
              inplace=True)
print(result)
'''
                 counts  min_weight    avg_price  max_face_width
color cut                                                       
D     Fair          163        0.25  4291.061350            73.0
      Good          662        0.23  3405.382175            66.0
      Ideal        2834        0.20  2629.094566            62.0
      Premium      1603        0.20  3631.292576            62.0
      Very Good    1513        0.23  3470.467284            64.0
E     Fair          224        0.22  3682.312500            73.0
      Good          933        0.23  3423.644159            65.0
      Ideal        3903        0.20  2597.550090            62.0
      Premium      2337        0.20  3538.914420            62.0
      Very Good    2400        0.20  3214.652083            65.0
F     Fair          312        0.25  3827.003205            95.0
      Good          909        0.23  3495.750275            66.0
      Ideal        3826        0.23  3374.939362            63.0
      Premium      2331        0.20  4324.890176            62.0
      Very Good    2164        0.23  3778.820240            65.0
G     Fair          314        0.23  4239.254777            76.0
      Good          871        0.23  4123.482204            66.0
      Ideal        4884        0.23  3720.706388            62.0
      Premium      2924        0.23  4500.742134            62.0
      Very Good    2299        0.23  3872.753806            66.0
H     Fair          303        0.33  5135.683168            73.0
      Good          702        0.25  4276.254986            65.0
      Ideal        3115        0.23  3889.334831            62.0
      Premium      2360        0.23  5216.706780            62.0
      Very Good    1824        0.23  4535.390351            65.0
I     Fair          175        0.41  4685.445714            70.0
      Good          522        0.30  5078.532567            66.0
      Ideal        2093        0.23  4451.970377            62.0
      Premium      1428        0.23  5946.180672            62.0
      Very Good    1204        0.24  5255.879568            65.0
J     Fair          119        0.30  4975.655462            68.0
      Good          307        0.28  4574.172638            65.0
      Ideal         896        0.23  4918.186384            62.0
      Premium       808        0.30  6294.591584            62.0
      Very Good     678        0.24  5103.513274            63.0
'''

# 将行索引变换为数据框的变量
result.reset_index(inplace=True)
print(result)
'''
   color        cut  counts  min_weight    avg_price  max_face_width
0      D       Fair     163        0.25  4291.061350            73.0
1      D       Good     662        0.23  3405.382175            66.0
2      D      Ideal    2834        0.20  2629.094566            62.0
3      D    Premium    1603        0.20  3631.292576            62.0
4      D  Very Good    1513        0.23  3470.467284            64.0
5      E       Fair     224        0.22  3682.312500            73.0
6      E       Good     933        0.23  3423.644159            65.0
7      E      Ideal    3903        0.20  2597.550090            62.0
8      E    Premium    2337        0.20  3538.914420            62.0
9      E  Very Good    2400        0.20  3214.652083            65.0
10     F       Fair     312        0.25  3827.003205            95.0
11     F       Good     909        0.23  3495.750275            66.0
12     F      Ideal    3826        0.23  3374.939362            63.0
13     F    Premium    2331        0.20  4324.890176            62.0
14     F  Very Good    2164        0.23  3778.820240            65.0
15     G       Fair     314        0.23  4239.254777            76.0
16     G       Good     871        0.23  4123.482204            66.0
17     G      Ideal    4884        0.23  3720.706388            62.0
18     G    Premium    2924        0.23  4500.742134            62.0
19     G  Very Good    2299        0.23  3872.753806            66.0
20     H       Fair     303        0.33  5135.683168            73.0
21     H       Good     702        0.25  4276.254986            65.0
22     H      Ideal    3115        0.23  3889.334831            62.0
23     H    Premium    2360        0.23  5216.706780            62.0
24     H  Very Good    1824        0.23  4535.390351            65.0
25     I       Fair     175        0.41  4685.445714            70.0
26     I       Good     522        0.30  5078.532567            66.0
27     I      Ideal    2093        0.23  4451.970377            62.0
28     I    Premium    1428        0.23  5946.180672            62.0
29     I  Very Good    1204        0.24  5255.879568            65.0
30     J       Fair     119        0.30  4975.655462            68.0
31     J       Good     307        0.28  4574.172638            65.0
32     J      Ideal     896        0.23  4918.186384            62.0
33     J    Premium     808        0.30  6294.591584            62.0
34     J  Very Good     678        0.24  5103.513274            63.0
'''

import matplotlib.pyplot as plt
import pandas as pd

sunspots=pd.read_csv(r'D:\Projects\Python\Doing\pythonProject\data\sunspots.csv')
# 绘制箱线图（1.5倍的四分位差，如需绘制3倍的四分位差，只需调整whis参数）
plt.boxplot(x=sunspots.counts, # 指定绘制箱线图的数据
            whis=1.5, # 指定1.5倍的四分位差
            widths=0.7, # 指定箱线图的宽度为0.8
            patch_artist=True, # 指定需要填充箱体颜色
            showmeans=True, # 指定需要显示均值
            boxprops={
     'facecolor':'steelblue'}, # 指定箱体的填充色为铁蓝色
            # 指定异常点的填充色、边框色和大小
            flierprops={
     'markerfacecolor':'red','markeredgecolor':'red','markersize':4},
            # 指定均值点的标记符号（菱形）、填充色和大小
            meanprops={
     'marker':'D','markerfacecolor':'black','markersize':4},
            medianprops={
     'linestyle':'--','color':'orange'}, # 指定中位数的标记符号（虚线）和颜色
            labels=[''] # 去除箱线图的x轴刻度值
            )
plt.show()

2.基于正态分布特性识别异常值——以某公司的支付转化率分析为例
(1)正态分布的基本概念
根据正态分布的定义可知，数据点落在偏离均值正负1倍标准差（即δ值）内的概率为68.2%；数据点落在偏离均值正负2倍标准差内的概率为95.4%；数据点落在偏离均值正负3倍标准差内的概率为99.6%。
也就是说，如果数据点落在偏离均值正负2倍标准差之外的概率就不足5%，它属于小概率事件，即认为这样的数据点为异常点。同理，如果数据点落在偏离均值正负3倍标准差
之外的概率将会更小，可以认为这些数据点为极端异常点。
(2)plot函数
plot(x,y,linestyle,linewidth,color,marker,markersize,markeredgecolor,markerfactcolor,
markeredgewidth,label,alpha)

(3)正态分布实例——某公司的支付转化率分析
如果待判断的变量近似服从正态分布，建议选择正态分布的参考线法识别异常点，否则使用分位数法识别异常点。

import matplotlib.pyplot as plt
import pandas as pd

pay_ratio=pd.read_excel(r'D:\Projects\Python\Doing\pythonProject\data\pay_ratio.xlsx')
# print(pay_ratio.head())
'''
        date    login     pay     ratio
0 2019-07-01  2234185  965957  0.432353
1 2019-07-02  1308983  598254  0.457038
2 2019-07-03  1395809  455764  0.326523
3 2019-07-04  1655896  522631  0.315618
4 2019-07-05  1141110  586891  0.514315
'''

# 绘制单条折线图，并在折线图的基础上添加点图
plt.plot(pay_ratio.date,pay_ratio.ratio, # x,y 轴数据
         linestyle='-',linewidth=2,color='steelblue', # 设置折线类型、宽度和颜色
         marker='o',markersize=4, # 往折线图中添加圆点，设置点的大小
         markeredgecolor='black',markerfacecolor='black' # 设置点的边框色和填充色
         )
# plt.show()

# 添加上下界的水平参考线（便于判断异常点，如下面判断极端异常点，只需将2改为3）
plt.axhline(y=pay_ratio.ratio.mean()-2*pay_ratio.ratio.std(),linestyle='--',color='gray')
plt.axhline(y=pay_ratio.ratio.mean()+2*pay_ratio.ratio.std(),linestyle='--',color='gray')

# 导入模块用于日期刻度的修改（因为默认格式下的日期刻度标签并不是很友好）
import matplotlib as mpl
# 获取图的坐标信息
ax=plt.gca()
# 设置日期的显示格式
date_format=mpl.dates.DateFormatter("%m-%d")
ax.xaxis.set_major_formatter(date_format)
# 设置x轴每个刻度的间隔天数
xlocator=mpl.ticker.MultipleLocator(7)
ax.xaxis.set_major_locator(xlocator)
# 为了避免x轴刻度标签的紧凑，将刻度标签旋转45°
plt.xticks(rotation=45)
# plt.show()

# 计算判断异常点和极端异常点的临界值
outlier_ll=pay_ratio.ratio.mean()-2*pay_ratio.ratio.std()
outlier_ul=pay_ratio.ratio.mean()+2*pay_ratio.ratio.std()
extreme_outlier_ll=pay_ratio.ratio.mean()-3*pay_ratio.ratio.std()
extreme_outlier_ul=pay_ratio.ratio.mean()+3*pay_ratio.ratio.std()

# 寻找异常点和极端异常点
print(pay_ratio.loc[(pay_ratio.ratio>outlier_ul)|(pay_ratio.ratio<outlier_ll),['date','ratio']])
'''
         date     ratio
10 2019-07-11  0.147000
32 2019-08-02  0.849452
34 2019-08-04  0.948245
45 2019-08-15  0.103448
63 2019-09-02  0.146569
67 2019-09-06  0.905321
79 2019-09-18  0.145246
89 2019-09-28  0.136075
'''
print(pay_ratio.loc[(pay_ratio.ratio>extreme_outlier_ul)|(pay_ratio.ratio<extreme_outlier_ll),['date','ratio']])
'''
         date     ratio
34 2019-08-04  0.948245
67 2019-09-06  0.905321
'''

3.异常值的处理方法
如果数据集中存在异常点，为避免异常点对后续分析或挖掘的影响，通常需要对异常点
做相应的处理，比较常见的处理办法有如下几种：
直接从数据集中删除异常点。
使用简单数值（均值或中位数）或者距离异常值最近的最大值（最小值）替换异常值，也可以使用判断异常值的临界值替换异常值。
将异常值当作缺失值处理，伸用插补法估计异常值，或者根据异常值衍生出表示是否异常的哑变量。

你可能感兴趣的:(#,数据分析,python,r语言,java)

【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Spring 如何干预 Bean 的生命周期？冰糖心书房 Spring IOC Ioc spring Bean 生命周期
Spring提供了多种机制让我们能够在Bean生命周期的不同节点“插入”自己的逻辑，这些机制可以分为两大类：针对单个Bean的干预和针对所有/多个Bean的全局干预。一、针对单个Bean的干预（最常用）这些方法让你为一个特定的Bean类定义其初始化和销毁逻辑。1.使用JSR-250注解（推荐方式）这是现在最优雅、也是Spring官方推荐的方式。它使用Java的标准注解，与Spring框架解耦。@P
Likeshop单商户高级版对接拉卡拉支付收银台接入全流程详解肥仔全栈开发拉卡拉支付拉卡拉支付小程序
一、前期准备（1-3个工作日）商户认证在拉卡拉官网注册企业商户账号，提交营业执照、法人身份证等材料，完成实名认证并获取商户号（MCHID）和API密钥。在拉卡拉开发者后台下载API文档（含接口参数说明）和SDK工具包（支持Java/PHP等语言）。配置参数在Likeshop后台设置拉卡拉支付参数：商户号、API密钥、异步通知地址（如https://yourdomain.com/notify）。将拉
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
2025年的RAG技术发展趋势与演进码农Q！云计算人工智能 ai agi 自然语言处理语言模型
本文将分享作为大模型应用创业者的经历与观察，讨论RAG技术和市场环境在2024年的变化。一、RAG技术的演进RAG（检索增强生成）由“检索”和“大模型生成”两部分组成，而检索之前的索引创建（如chunking、embedding等）是核心基础。我们早在2021年便通过Java技术栈实现了RAG的“RA”部分。2023年中，RAG概念突然走红，并迅速在企业应用中显示出更强的实用性。1.主流架构的变化
Android开发中RxJava的使用与原理你过来啊你 android rxjava
RxJava是ReactiveExtensions在JVM上的实现，专为处理异步事件流和基于观察者模式的编程而设计。在Android开发中，它极大地简化了异步操作（如网络请求、数据库访问、UI事件处理）的管理、组合和线程调度，有效解决了回调地狱问题。一、RxJava核心概念Observable(可观察者)：数据源或事件源。它负责发出数据项(onNext)或事件（成功完成onComplete/发生错
Java多线程吴鹰飞侠 java 开发语言
多线程是指一个程序中有多个执行路径（线程），每个线程并发运行，彼此独立，执行不同的任务。一个线程是程序中的基本执行单位。创建和启动线程1.通过继承Thread类classMyThreadextendsThread{@Overridepublicvoidrun(){System.out.println("线程正在执行...");}}publicclassMain{publicstaticvoidma
【JS三兄弟谁是谁】搞懂 splice、slice、split，只需一杯奶茶的时间！ dorabighead 前端八股总结 javascript 前端开发语言
JavaScript有三兄弟，经常一起“切人”。他们名字相似、功能相关，但性格迥异，常被搞混。今天，就带你喝着奶茶，笑着剖析，帮你彻底搞懂：splice、slice、split到底是谁？干了啥？凭啥这么火？一、三兄弟登场：不同对象，不同任务名称作用对象是否修改原对象返回类型功能简述splice数组✅是被删除元素数组原地删除元素并可插入新元素slice数组/字符串❌否副本（子集）复制选中部分，原体不
前端面试题总结——JS篇又又呢前端 javascript 开发语言
一、说说JavaScript中的数据类型？存储上有什么差别？1、数据类型基本类型number：数值类型十进制：letintNum=55八进制（零开头）：letnum1=070十六进制（0x开头）：lethexNum1=0xANaN：特殊数值，意为“不是数值”string：字符串类型boolean：布尔值，true或falseundefined：表示未定义null：空值symbol：是原始值，且符号
前端面试题——5.AjAX的缺点？浅端前端面试题前端面试题
①传统的web交互是：用户一个网页动作，就会发送一个http请求到服务器，服务器处理完该请求再返回一个完整的HTML页面，客户端再重新加载，这样极大地浪费了带宽。②AJAX的出现解决了这个问题，它只会向服务器请求用户所需要的数据，并在客户端采用JavaScript处理返回的数据，操作DOM更新页面。③AJXA优点：无刷新更新页面异步服务器通信前端后端负载均衡④AJAX缺点：干掉了Back和Hist
JavaScript知识归纳——面试题 Dream_Lee_1997 JavaScript js面试题
JavaScript面试题总结JavaScript知识点1、JavaScript中settimeout与setinteval两个函数的区别？2、编写JavaScript脚本生成1-6之间的整数？3、在JavaScript脚本中，isNaN的作用是什么？4、JavaScript中获取某个元素有哪几种方式？5、Ajax的优缺点都有什么？6、简述一下Ajax的工作原理。7、JavaScript中的数据类
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Java异常处理吴鹰飞侠 java 开发语言
Java异常处理是编程中的重要一环，它能让程序在遇到错误时不中断，而是优雅地处理异常，继续执行或给出合理的反馈。掌握异常处理是编写健壮程序的基础。异常是指程序运行过程中发生的错误情况，通常会导致程序的中断。Java中的异常分为两类：1.编译时异常（CheckedException）：必须显式处理（如IOException、SQLException等）。2.运行时异常（UncheckedExcept
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
配置Nginx实现静态资源访问 Gappsong874 nginx 运维网络安全 web安全安全架构运维开发
Nginx是一款高性能的HTTP和反向代理服务器，常用于处理静态资源请求。通过合理配置，可以显著提升静态资源的访问速度和服务器性能。以下内容将详细介绍如何配置Nginx以实现静态资源的高效访问。基本静态资源配置静态资源通常包括HTML文件、CSS样式表、JavaScript脚本、图片、视频等。Nginx通过简单的配置即可处理这些请求。在Nginx的配置文件中，通常位于/etc/nginx/ngin
Apache Dubbo实战：JavaSDK使用秃了也弱了。 Dubbo apache dubbo
文章目录一、写在前面二、基于zookeeper：快速创建dubbo应用1、maven包（客户端+服务端）（注意spring版本）2、application.yml配置文件（客户端+服务端）3、定义公共接口4、启动类添加注解@EnableDubbo5、服务端6、客户端7、启动试试吧8、拓展：使用JavaConfig代替注解三、拓展配置1、注册中心2、版本与分组3、传递调用参数4、泛化调用5、泛化实现
Python 实战：构建本地多线程定时任务调度器 xiaocainiao881 python 开发语言
引言在企业自动化流程、数据周期更新、本地脚本执行等场景中，定时任务调度器是不可或缺的一类工具。尽管Linux有crontab，Windows有任务计划，但它们不够灵活，缺乏图形界面，不适合动态启停、可视化控制等需求。本文将带你实现一个本地运行的多线程定时任务调度器，具备以下功能：一、项目功能说明1.1功能亮点多任务并行运行（非阻塞）每个任务支持独立间隔设置支持任务启动/停止/删除/修改支持即时日志
mac下java的安装地址linux /usr/libexec/解释 Alien.L linux 服务器运维
在Linux系统中，/usr/libexec/目录通常包含一些不应由用户直接运行的系统服务和工具，而是由其他系统进程调用。这些工具和服务是由操作系统和软件包开发人员创建的，通常不是用户直接运行的。例如，一些守护进程和系统服务可能位于/usr/libexec/目录下，它们被设计为在系统启动时自动启动，以便在后台运行以提供某些功能或服务。通常，用户应该避免直接在/usr/libexec/目录下创建或修
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Mac上的java_home命令的作用
https://my.oschina.net/shishaomeng/blog/537444摘要:刚上手Mac还是有些别扭的，尤其安装个JDK都跟Windows不一样，而且是完全的不同本文仅针对macosx10.5+,其他版本有可能出现不适.JDK安装JDK1.6安装系统默认自带jdk1.6，如因意外被卸载，可从如下地址下载安装：https://support.apple.com/kb/DL157
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
Windows系统python安装教程 I`m 程序媛 windows python 开发语言
一、准备工作访问Python官网：打开浏览器，进入Python官网。选择安装包：在官网的下载页面，根据自己的操作系统位数（32位或64位）选择对应的安装包。大多数现代电脑都是64位的，因此选择64-bit的安装包。建议选择“StableReleases”（稳定发布版本），这些版本已经经过测试，相对稳定。二、下载与安装下载Python安装包：点击选定的安装包链接，下载Python的安装程序。运行安装
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l