青盏

Python pandas数据分析中常用方法

官方教程

读取写入文件

官方IO
读取写入
read_csv 　　　　　　to_csv
read_excel 　　　　　to_excel
read_hdf 　　　　　　to_hdf
read_sql 　　　　　　to_sql
read_json　　　　　　to_json
read_msgpack (experimental) 　　to_msgpack (experimental)
read_html 　　　　　　to_html
read_gbq (experimental) 　　　　to_gbq (experimental)
read_stata 　　　　　 to_stata
read_sas
read_clipboard 　　　to_clipboard
read_pickle 　　　　　to_pickle／／速度比csv快
读取CSV文件：

pd.read_csv('foo.csv')   //读取CSV
# header参数指定从第几行开始生成，且将header行的数据作为列的name（键），header行以前的数据将不会处理。取值为None表示csv中行不做为列的name（键），取值为0表示将csv的第0行作为列的name。| 如果没有传递参数names那么header默认为0；如果传递参数names，那么header默认为None。

存储为csv文件：

submission = pd.DataFrame({ 'PassengerId': test_df['PassengerId'],'Survived': predictions })
submission.to_csv("submission.csv", index=False)
# index参数是否写入行names键

从dict生成：

pd.DataFrame.from_dict(df, orient='index')

选择数据

官方选择教程
官方多index选择教程

[]:

df['A']  通过列name（键）选择列
df[['A', 'B']]  通过list选择列
df[0:3]  通过隐含的序列（index所在行值）选择行
df['20130102':'20130104']   通过行index（键）选择行
dataset[(dataset['Sex'] == i) & (dataset['Pclass'] == j+1)]['Age']        #布尔运算选择数据，以其他列为条件筛选数据，注意做布尔运算时最好将每个运算用括号括起来，像以下这种就会容易出问题：dataset[dataset['TARGET'].notnull() & dataset['need_pre']!=1 ]

加不加[]，生成的类型是不同的
type(data["A1"])
pandas.core.series.Series
type(data[["A1"]])
pandas.core.frame.DataFrame

loc:

dataset.loc[ dataset.Age.isnull(),'BB']  //age不是null的数据中选择BB列
train_df.loc[:, ['Age*Class', 'Age', 'Pclass']].head(10)
dataset.loc[ EID,'Age']  //根据index（注意这个是index的取值，而不是index所在行）选取列Age单元数据

iloc:
iloc是选择DataFrame第几行第几列（类似于数组，数值下标从0开始）

df.iloc[3:5,0:2]
df.iloc[1:3,:]
df.iat[1,1]

Multi-index索引：

In [536]: result_df = df.loc[(df.index.get_level_values('A') > 1.7) & (df.index.get_level_values('B') < 666)]

In [537]: result_df
Out[537]: 
          C
A   B      
3.3 222  43
    333  59
5.5 333  56

In [17]: df.query('0 < A < 4 and 150 < B < 400')                            
Out[17]:                                                                    
          C                                                                 
A   B                                                                       
1.1 222  40                                                                 
3.3 222  20                                                                 
    333  11

x = df.reset_index()
In [16]: x.loc[(x.B>=111.0)&(x.B<=500.0)].set_index(['A','B'])
Out[16]: 
          C
A   B      
1.1 111  81
    222  45
3.3 222  98
    333  13
5.5 333  89

循环行数据：

for i, row in colTypes.iterrows():
# i为dataFrame的index，row为一行数据

使用另一series作为dataframe的筛选条件：

import numpy as np
import pandas as pd
df = pd.DataFrame({ 'A' : [1,2,3,4],
                     'B' : [4,5,6,7]
                  })  
a = pd.Series([1,2,3,1])

# 对series进行筛选
(a==1).sum()
>>>2

# 对dataframe进行筛选
df[a==1].sum(0)
>>>
A     5
B    11
dtype: int64

判断是否在序列中筛选：

meta_df = meta_df[meta_df['asin'].isin( reviews_df['asin'].unique() )]
new_rate = new_rate[~new_rate['reviewerID'].isin(low_index)]  # not in，取反

计算数据

重复数值个数统计：

Series.value_counts() //统计重复重现的数据的个数。返回以数据作为key，以重复个数为value的对象。
X[c].value_counts().index[0] //最多的那个数

中值计算：

Series.median() //计算某个轴的中值

计算均值和偏差：

age_mean = guess_df.mean()
# 计算均值
age_std = guess_df.std()
# 计算标准差

计算众值：

# freq_port = train_df.Embarked.dropna().mode()[0]
# mode返回出现最多的数据，可能出现多个，因此返回数组

其他：
方法　　　　　　　　　　　说明
count　　　　　　　　　非NA值得数量
describe　　　　　　　针对series或各dataframe列计算汇总统计
min max 　　　　　　　计算最小值和最大值
argmin，argmax 　　　计算能够获取到最小值和最大值的索引位置（整数）

much_nuclei = df_img['nuclei'].argmax()
plt.imshow(imgs[much_nuclei])

idxmin , idxmax 　　　　计算获取到最小值和最大值索引值

df.idxmax()   //按列
df.idxmax(axis=1)  //按行

quantile 　　　　　　　计算样本的分位数（0到1）
sum 　　　　　　　　　　值得总和

df.sum()   //按列求和
df.sum(axis=1)  //按行求和

mean 　　　　　　　　　值得平均数

df.mean(axis=1) //按行求和，注意，如果存在Nan值会忽略，如果整个都为nan，则取nan
df.mean(axis=1, skipna = False) //禁止忽略nan值

median 　　　　　　　　值的算数中位数
mad 　　　　　　　　　　根据平均值计算平均绝对离差
var 　　　　　　　　　　　样本值得方差
std 　　　　　　　　　　　样本值得标准差
skew 　　　　　　　　　样本值得偏度（三阶矩）
kurt 　　　　　　　　　　样本值的峰度（四阶矩）
cumsum 　　　　　　　　样本值的累计和，累计累积，也就是说从开始位置到当前位置的总和

df.cumsum()   //按列求累积和，如果当前位置为nan，直接返回nan，如果不是，而前面某个位置是，则忽略前面位置的nan
df.cumsum(axis=1)  //按行求累积和

cummin,cummax 　　　样本值的累计最大值和累计最小值
cumprod 　　　　　　　　　样本值的累计积
diff 　　　　　　　　　　计算一阶差分（对时间序列很有用）
pct_change 　　　　　　　　计算百分数变化
isin 　　　　　　　　　　判断series，dataframe数据是否在另一个变量其中

缺失值处理

性质：
np.nan == np.nan
>>> False
 
np.isnan(np.nan)
>>> True
 
np.nan is None
>>> False
 
type(np.nan)
>>> float

检测：
np.isnan(df)
pd.isnull(df)

方法　　　　　　说明
count 　　　　　非NA值得数量
dropna 　　　　　根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值得容忍度
fillna 　　　　　用指定值或插值方法（如ffill或bfill）填充确实数据
isnull 　　　　　返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值/NA，该对象的类型与源类型一样
notnull 　　　　　isnull的否定式

存在三种方法来完善连续数字特征：
1、简单方式：在中值和标准偏差间产生一个随机数
2、准确方式：通过相关特征猜测缺失值
3、联合1、2基于特征组合，在中值和偏差间产生一个随机数
显示缺失值行列：

train_cat[train_cat.isnull().values==True]

判断某列是否包含nan：

df.isnull().any() # 判断列是否有 NaN
df.isnull().all()  # 判断列是否全部为NaN

删除缺失行：

df.dropna(axis=0, how='any', inplace=True)

缺失值填充：

dataset['E'] = dataset['E'].fillna(f)

# 对缺失值处进行填充0，参数value可为 scalar, dict, Series, 或者DataFrame，但不能是list；Series应用于每个index，DataFrame应用于每个列。如果不在dict/Series/DataFrame中，将不会被填充

清除空值：.dropna()

dataset.loc[ (dataset.Age.isnull()) & (dataset.Sex == i) & (dataset.Pclass == j+1),'Age'] = guess_ages[i,j]
# 多条件填充

方法1：

for dataset in full_data:
    age_avg 	   = dataset['Age'].mean()
    age_std 	   = dataset['Age'].std()
    age_null_count = dataset['Age'].isnull().sum()
    
    age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
    dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list
    dataset['Age'] = dataset['Age'].astype(int)

方法3：

# 生成一个空数组来存储Age的猜测值：
        # guess_ages = np.zeros((2,3))
        # guess_ages
# 遍历Sex和Pclass来猜测Age猜测值：
        # for dataset in combine:
        #     for i in range(0, 2):
        #         for j in range(0, 3):
        #             guess_df = dataset[(dataset['Sex'] == i) & (dataset['Pclass'] == j+1)]['Age'].dropna()
        # 根据相关特征值Pclass，Sex选取数据并除空值
                #     age_mean = guess_df.mean()
                # 计算均值
                #     age_std = guess_df.std()
                # 计算标准差
                #     age_guess = rnd.uniform(age_mean - age_std, age_mean + age_std)
				# 产生随机值
                #     age_guess = guess_df.median()
				# 或计算中值
                #     Convert random age float to nearest .5 age
                #     guess_ages[i,j] = int( age_guess/0.5 + 0.5 ) * 0.5   
for i in range(0, 2):
      for j in range(0, 3):
            dataset.loc[ (dataset.Age.isnull()) & (dataset.Sex == i) & (dataset.Pclass == j+1),'Age'] = guess_ages[i,j]
            # 赋值
            dataset['Age'] = dataset['Age'].astype(int)

填充众值：

# freq_port = train_df.Embarked.dropna().mode()[0]
# mode返回出现最多的数据，可能出现多个，因此返回数组
# 填充：
# for dataset in combine:
#     dataset['E'] = dataset['E'].fillna(freq_port)

查看数据

查看键和值：

train_data = pd.read_csv('train.csv')
# 查看数据的行键index（index.values）、列键columns(columns.values)、值values
print(train_data.index)
print(train_data.index.values)

查看数据统计：

train_data.info()
# 主要统计有各列键非空数据数量（便于后面填充空值）、各列数据类型、及数据类型统计（一般object表示字符串对象数量）。

print(train_data.describe())
# 默认统计数值型数据每列数据平均值，标准差，最大值，最小值，25%，50%，75%比例。
print(train_data.describe(include=['O']))
# 统计字符串型数据的总数，取不同值数量，频率最高的取值。其中include参数是结果数据类型白名单，O代表object类型，可用info中输出类型筛选。

print("Before", train_data.shape)
# 数据行数和列数

查看部分数据内容：

# 查看前五条和后五条数据，大致了解数据内容
print(train_data.head())
print(train_data.tail())
# 选取三条数据
data_train.sample(3)

排序：

features.sort_values(by='EID', ascending=True)
features.sort_index(axis=1, ascending=True)

python原生排序list和dict
sorted([wifi for wifi in line[5]], key=lambda x:int(x[1]), reverse=True)[:5]  // 默认从小到大
sorted(dict.items(),key=lambda x:x[1],reverse=True)[0][0]
sorted(L, cmp=lambda x,y:cmp(x[1],y[1])) //x，y代表前后两个元素

输出格式控制：

pandas dataframe数据全部输出，数据太多也不用省略号表示。
pd.set_option('display.max_columns',None)
或者
with option_context('display.max_rows', 10, 'display.max_columns', 5):

某列字符长度统计

lens = train.comment_text.str.len()
lens.mean(), lens.std(), lens.max()

print('mean text len:',train["comment_text"].str.count('\S+').mean())
print('max text len:',train["comment_text"].str.count('\S+').max())

分析数据相关性

groupby数据：

train_data[['Pclass','Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived',ascending=False)
# 选取数据中两列，以Pclass分组，计算每个分组内平均值，最后根据Survived平均值降序排列。其中as_index=False不以Pclass做结果行键。

分组后，可以通过size()分组内数据数量,sum()分组内数据和,count()分组内：

df = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})  
df  
#[Out]#       data1     data2 key1 key2  
#[Out]# 0  0.439801  1.582861    a  one  
#[Out]# 1 -1.388267 -0.603653    a  two  
#[Out]# 2 -0.514400 -0.826736    b  one  
#[Out]# 3 -1.487224 -0.192404    b  two  
#[Out]# 4  2.169966  0.074715    a  one
group2 = df.groupby(['key1','key2'])

group2.size()   
#[Out]# key1  key2  
#[Out]# a     one     2     //注意size返回的对象2，1，1，1没有列键
#[Out]#       two     1  
#[Out]# b     one     1  
#[Out]#       two     1  
#[Out]# dtype: int64  
group2.count()  
#[Out]#            data1  data2    
#[Out]# key1 key2                
#[Out]# a    one       2      2    //注意count返回的对象2，1，1，1有列键data1，data2
#[Out]#      two       1      1  
#[Out]# b    one       1      1  
#[Out]#      two       1      1
group2.sum()
		                data1	data2
key1	key2		
a	    one	          0.222249	1.188488
        two	          0.627373	0.406101
b	    one	         -2.527461	0.267850
        two	         -0.594238	-0.137129

自定义组内统计函数：
BRA_CLOSE_DECADE = branch2[['EID', 'B_ENDYEAR']].groupby('EID').agg(lambda df:df[df['B_ENDYEAR']>2007].count())

分组后循环：
for reviewerID, hist in reviews_df.groupby('reviewerID'):
  pos_list = hist['asin'].tolist()

crosstab数据：

pd.crosstab(train_data['Title'], train_data['Sex'])
# 分别以Title（Mrs，Mr等）为行，Sex（female，male）为例，计算出现频数。观察二者的对应关系。

Pivot数据：

impute_grps = data.pivot_table(values=["LoanAmount"], index=["Gender","Married","Self_Employed"], aggfunc=np.mean)

COV()，CORR()计算
协方差cov()：表示线性相关的方向，取值正无穷到负无穷。协方差为正值，说明一个变量变大另一个变量也变大；协方差取负值，说明一个变量变大另一个变量变小，取0说明两个变量咩有相关关系。
相关系数corr()：不仅表示线性相关的方向，还表示线性相关的程度，取值[-1,1]。也就是说，相关系数为正值，说明一个变量变大另一个变量也变大；取负值说明一个变量变大另一个变量变小，取0说明两个变量没有相关关系。同时，相关系数的绝对值越接近1，线性关系越显著。
corrwith()：计算DataFrame的列（axis=0，默认）或行（axis=1)跟另外一个Series或DataFrame之间的相关系数。

删除数据

print(df.drop(0,axis=0)) #删除行，注意原数据不变，返回一个新数据
print(df.drop(['col1'],axis=1,inplace=True)) #删除列，inplace=True表示直接在原数据修改而不新建对象

合并数据

对于不同列名，但是内容相同时，可以先修改表的列名。
concat:
相同字段的表首尾相接

result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z']) //keys给合并的表来源加一个辨识号

注意多张表concat后可能会出现index重复情况，这是最好使用reset_index重新组织下index。

result.reset_index(drop=True)

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)

append方式：

# append方式
result = df1.append([df2, df3])  //将df2，df3追加到df1后返回
# [官方合并教程](http://pandas.pydata.org/pandas-docs/stable/merging.html#)

merge方式：
merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(’_x’, ‘_y’), copy=True, indicator=False)
merge方式用于通过一个或多个键将两个数据集的行连接起来，类似于 SQL 中的 JOIN
on=None 用于显示指定列名（键名），如果该列在两个对象上的列名不同，则可以通过 left_on=None, right_on=None 来分别指定。或者想直接使用行索引作为连接键的话，就将left_index=False, right_index=False 设为 True。如果没有指定且其他参数也未指定则以两个DataFrame的列名交集做为连接键.
how=‘inner’ 参数指的是当左右两个对象中存在不重合的键时，取结果的方式：inner 代表交集；outer 代表并集；left 和 right 分别为取一边。
suffixes=(’_x’,’_y’) 指的是当左右对象中存在除连接键外的同名列时，结果集中的区分方式，可以各加一个小尾巴。
对于多对多连接，结果采用的是行的笛卡尔积。

# merge方式
# 其中how取值 : {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’类似于SQL中 left outer join，right outer join， full outer join，inner join
>>> A              >>> B
    lkey value         rkey value
0   foo  1         0   foo  5
1   bar  2         1   bar  6
2   baz  3         2   qux  7
3   foo  4         3   bar  8
>>> A.merge(B, left_on='lkey', right_on='rkey', how='outer')
   lkey  value_x  rkey  value_y
0  foo   1        foo   5
1  foo   4        foo   5
2  bar   2        bar   6
3  bar   2        bar   8
4  baz   3        NaN   NaN
5  NaN   NaN      qux   7

join方式：
其中参数的意义与merge方法基本相同,只是join方法默认为左外连接how=left。默认按索引合并，可以合并相同或相似的索引。主要用于索引上的合并

join(self, other, on=None, how='left', lsuffix='', rsuffix='',sort=False):

修改数据

从数据中提取数据：

dataset['Title'] = dataset.Name.str.extract(' ([A-Za-z]+)\.', expand=False)
# 左边dataset['Title']为DataFrame添加一列，右边dataset.Name取出DataFrame的name列，然后对于该Series里的string匹配正则，返回匹配到的正则子集。[官方api](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.extract.html)

# 对列使用函数处理
meta_df['categories'] = meta_df['categories'].map(lambda x: x[-1][-1])

data['sum_Times']=data['Times'].groupby(['userID']).cumsum()     //统计单个userid组内到当前行之前的所有time和

替换数据：

dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
dataset['Title'].replace('Ms', 'Miss')
#将一列中数据Ms替换Miss，[详解](https://jingyan.baidu.com/article/454316ab4d0e64f7a6c03a41.html)

将分类数据数值化：

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}
for dataset in combine:
     dataset['Title'] = dataset['Title'].map(title_mapping)
# dataset['Sex'] = dataset['Sex'].map( {'female': 1, 'male': 0} ).astype(int)

转成矩阵：

big_X_imputed[0:train_df.shape[0]].as_matrix()  //将DataFrame对象转成numpy矩阵

将连续值分成几部分：

# 自动
pd.cut(np.array([.2, 1.4, 2.5, 6.2, 9.7, 2.1]), 3,
           labels=["good","medium","bad"])
[good, good, good, medium, bad, good]

# 手动，一般手动前先自动分析一波。
# train_df['AgeBand'] = pd.cut(train_df['Age'], 5)
# train_df[['AgeBand', 'Survived']].groupby(['AgeBand'], as_index=False).mean().sort_values(by='AgeBand', ascending=True)
# 手动区分
# for dataset in combine:    
#     dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0
#     dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
#     dataset.loc[ dataset['Age'] > 64, 'Age'] = 4

对每一行或每一列应用函数：

def num_missing(x):
  return sum(x.isnull())
#应用列:
print data.apply(num_missing, axis=0)
#应用行:
print data.apply(num_missing, axis=1).head()

def get_title(name):
	title_search = re.search(' ([A-Za-z]+)\.', name)
	# If the title exists, extract and return it.
	if title_search:
		return title_search.group(1)
	return ""

for dataset in full_data:
    dataset['Title'] = dataset['Name'].apply(get_title)

df.Cabin = df.Cabin.apply(lambda x: x[0])

将字符型数据转成数值型数值：

from sklearn import preprocessing
def encode_features(df_train, df_test):
    features = ['Fare', 'Cabin', 'Age', 'Sex', 'Lname', 'NamePrefix']
    df_combined = pd.concat([df_train[features], df_test[features]])
    
    for feature in features:
        le = preprocessing.LabelEncoder()
        le = le.fit(df_combined[feature])
        df_train[feature] = le.transform(df_train[feature])
        df_test[feature] = le.transform(df_test[feature])
    return df_train, df_test
    
data_train, data_test = encode_features(data_train, data_test)

除去离群点：
通过画图如果发现数据中出现一些离群点，应将其除去，使用pandas布尔运算即可：

train = train[abs(train['length'])<10]

categorial无序特征哑编码one-hot：
星期为无序特征，如果该特征有三种取值：星期一、星期二、星期三，那么可用三维向量分别表示（1，0，0）（0，1，0）（0，0，1）。使用pd.get_dummies()，如果特征取值过多就应根据数据分布规律将不重要的几个取值归为一类。

去重相同行：

alter.duplicated()   //返回每行是否重复的bool值，frame.duplicated(['state'])可选择指定列进行查重。
alter.duplicated().value_counts()
alter2 = alter.drop_duplicates()  //除去相同行，注意返回新数据，而不是在旧有的上面修改
df.drop_duplicates(subset='column A', keep='last') //根据特定列去重，且保留最后一个

修改index名，列键名：

df.columns = ['a', 'b', 'c', 'd', 'e']
df.columns = df.columns.str.strip('$')
df.columns = df.columns.map(lambda x:x[1:])

df.rename(columns=('$a': 'a', '$b': 'b', '$c': 'c', '$d': 'd', '$e': 'e'}, inplace=True) 
df.rename(columns=lambda x:x.replace('$',''), inplace=True)

investFeature.index.rename('EID', inplace=True)

列转index、index转列：

 df.set_index('date', inplace=True)

df['index'] = df.index
df.reset_index(level=0, inplace=True)
df.reset_index(level=['tick', 'obs'])
df['si_name'] = df.index.get_level_values('si_name') # where si_name is the name of the subindex.

删除index

df_load.reset_index(inplace=True)
del df_load['index']

合并列名不同的列：
先修改列名

train_cat = train[[0,1,2,3,4]]
col = train_cat.columns
for i in range(5,20,4):
    tem = train[[0,i,i+1,i+2,i+3]]
    tem.columns = col
    train_cat = pd.concat([train_cat,tem])
train_cat.head()

设置一列类型：

df[[column]] = df[[column]].astype(str)

深浅复制：
Shallow copy shares data and index with original.
Deep copy has own copy of data and index.
Updates to the data shared by shallow copy and original is reflected in both; deep copy remains unchanged.

deep = s.copy()
shallow = s.copy(deep=False)

apply返回series数据：
这样组合成的仍然是dataframe类型

def mer(x):
    sss = []
    for i,line in x.iterrows():
        sss.extend([line[1],line['pre']])
    return pd.Series(sss)
merged = sub_cat.groupby([0]).apply(mer)

根据键值和列名合并：

save.merge(merged, left_on=['a'], right_index=True)

groupby后筛选数据：
使用filter或transform

np.random.seed(130)
df=pd.DataFrame(np.random.randint(3, size=(10,2)), columns=['item_id_copy','sales_quantity'])
print (df)
   item_id_copy  sales_quantity
0             1               1
1             1               2
2             2               1
3             0               1
4             2               0
5             2               0
6             0               1
7             1               2
8             1               2
9             1               2

df1 = df.groupby('item_id_copy').filter(lambda x: len(x["asin"].unique()) >= 4)
print (df1)
   item_id_copy  sales_quantity
0             1               1
1             1               2
7             1               2
8             1               2
9             1               2

df1 = df[df.groupby('item_id_copy')['sales_quantity'].transform('size') >= 4]
print (df1)
   item_id_copy  sales_quantity
0             1               1
1             1               2
7             1               2
8             1               2
9             1               2

pandas进行one-hot编码：

import pandas as pd
df = pd.DataFrame([  
            ['green' , 'A'],   
            ['red'   , 'B'],   
            ['blue'  , 'A']])  
df.columns = ['color',  'class'] 
df = pd.get_dummies(df)

one-hot后：

apply返回多列：

def myfunc1(row):
    C = row['A'] + 10
    D = row['A'] + 50
    return pd.Series([C, D])

df[['C', 'D']] = df.apply(myfunc1 ,axis=1)

def sizes(s):    
    return locale.format("%.1f", s / 1024.0, grouping=True) + ' KB', \
        locale.format("%.1f", s / 1024.0 ** 2, grouping=True) + ' MB', \
        locale.format("%.1f", s / 1024.0 ** 3, grouping=True) + ' GB'
df_test['size_kb'],  df_test['size_mb'], df_test['size_gb'] = zip(*df_test['size'].apply(sizes))

按列最大最小值归一化

In [11]: df
Out[11]:
    a    b
A  14  103
B  90  107
C  90  110
D  96  114
E  91  114

In [12]: df -= df.min()

In [13]: df /= df.max() 

In [14]: df
Out[14]:
          a         b
A  0.000000  0.000000
B  0.926829  0.363636
C  0.926829  0.636364
D  1.000000  1.000000
E  0.939024  1.000000

判断一列数据是不是类型混合：

sorted(sad["size"].unique())

'<' not supported between instances of 'str' and 'float'

对df的某一行的某些值进行修改：

aad.loc[aad["type"]==2,"cdate"] = aad.loc[aad["type"]==2,"adid"].map(lambda x: cdate_map[x] if x in cdate_map.keys() else -1)

groupby 后提取前多少数据，并生成pandas

orgin = reviews_map.sort_values(["reviewerID","unixReviewTime"]).groupby("reviewerID",group_keys=False)
print(orgin.get_group(1))
history = orgin.apply(lambda df: df[:-2])
ads = orgin.apply(lambda df: df[-2:])

你可能感兴趣的:(machine,learning)

强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别钟小宇 LLM 人工智能语言模型
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上
阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记饮长安千年月物联网安全安全机器学习学习
前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications智能交通系统（ITS）和计算系统的快速发展为智能交通安全提供了新的科学研究，并提供了舒适和高效的解决方案。人工智能（AI）已被广泛用于优化不同研究领域的传统数据驱动方法
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
机器学习和线性回归、softmax回归小名叫咸菜人工智能线性回归
监督学习监督学习（supervisedlearning）擅⻓在“给定输⼊特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。我们的目标是生成一个模型，能够将任何输⼊特征映射到标签（即预测）。回归——平方误差损失函数回归（regression）是最简单的监督学习任务之一。分类——交叉熵样本属于“哪一类”的问题称为分类问题回归是训练一个回归函数来输出一个数值；分类是训练一个分
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
Android-Amlogic-GPIO shizhong2006 system BSP android 驱动开发 linux
问题显示外设供电电压是19V，通过GPIO控制上下电，下面以此为例，梳理基于Amlogic平台，在Android系统里对GPIO的控制过程。Linuxversion5.4.125-android11-2-g05a36b0e5a09-dirtyMachinemodel:AmlogicT5DT950D4AM3011.5G分析过程原理图通过原理图，确定对显示外设供电的GPIO是GPIOH_13Andro
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习 idol_watch 围棋与深度学习
本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候，最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论，“你下了30步后已经远远落后了”或“在下了110步后，你有一个获胜的局面，但你的对手在130时扭转了局面。”为什么这种反馈是有帮助
ORAM （Oblivious random access machine) 不经意随机访问机库卡卡啦开发语言密码学算法网络安全安全
一、定义目的是隐藏对真实数据块的访问,使得攻击者不能区分每一次访问是真实还是随机的。是一种可以用来完全隐藏IO操作的数据访问模式的加密方案。访问模式是指IO操作访问文件的顺序、访问文件的频率、读写顺序等，当用户把数据存储在不可信的第三方时，即使数据是加密的，第三方仍能通过收集用户访问模式信息推断出用户隐私，在ORAM方案中，若两次访问序列长度相同，则其访问模式是相同的，使得第三方无法通过访问模式获
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
宇树G1嵌入式软件架构及技术实现爱吃青菜的大力水手架构 fpga开发机器人算法
Opensourcedatacollection:https://github.com/unitreerobotics/avp_teleoperateOpensourcelearningalgorithms:https://github.com/unitreerobotics/unitree_IL_lerobotOpensourcedatasetsandmodels:https://hugging
JVM内存模型与Java线程内存模型的区别我心向阳iu 面试-场景应用题 #JVM #Java多线程 jvm java 开发语言
文章目录JVM内存模型与Java线程内存模型的区别JVM内存模型1.程序计数器（ProgramCounterRegister）2.Java虚拟机栈（JavaVirtualMachineStacks）3.本地方法栈（NativeMethodStack）4.Java堆（JavaHeap）5.方法区（MethodArea）6.运行时常量池（RuntimeConstantPool）7.直接内存（Direc
探索Redux：构建可预测、可测试的JavaScript应用黎杉娜Torrent
探索Redux：构建可预测、可测试的JavaScript应用learn-redux:boom:ComprehensiveNotesforLearning(howtouse)ReduxtomanagestateinyourWeb/Mobile(React.js)Apps.项目地址:https://gitcode.com/gh_mirrors/le/learn-redux项目介绍在现代Web开发中，J
【学习笔记】李宏毅2021春机器学习课程第2.3节：Adaptive Learning Rate Harryline-lx 机器学习机器学习人工智能深度学习
文章目录Trainingstuck≠SmallGradientDifferentparametersneedsdifferentlearningrateRootmeansquareAdagradRMSPropAdamLearningRateSchedulingTrainingstuck≠SmallGradient首先要明确的一点是，目前当我们用gradientdescend来做optimizati
Go 语言的协程（goroutine） yymagicer go golang 算法
Go语言的协程（goroutine）是轻量级的并发机制，可以理解为Go中的线程，但它比线程更轻量，且由Go语言的运行时调度器管理。下面详细说明Go协程的原理、使用方法以及应用场景。1.协程原理Go协程（goroutine）在运行时由Go调度器管理，其运行时模型不同于传统的操作系统线程。Go的调度器采用M模型，即多个goroutine由少量的线程管理和调度。它依赖于两个关键组件：M（Machine）
Windows 11 安装 Docker mrljw docker 容器运维
1.以管理员身份打开WindowsPowerShell2.执行下面三行命令来启动WSL和虚拟机平台dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-Linux/all/norestartdism.exe/online/enable-feature/featurename:VirtualMachinePlat
Oracle DBA日常任务——查杀死锁薛定谔之死猫脚本语言编程 oracle 任务 session object kill access
Oracle的锁分为两大类，一类就是极为常见的DML事务锁，是为保障数据库系统数据一致性而存在的锁，其中分共享锁、排它锁等，不同的DBMS对这类锁的实现参差不齐；另一大类锁就是DDL级锁，这类锁一般出现在开发或发布时候，一旦出现比较棘手。下面就两类所的锁查找和灭杀做一个阐述。1、查找DML锁selectp.spid,s.sid,s.serial#,s.username,s.machine,s.os
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
ECE 219 Models and Algorithms 后端
Large-ScaleDataMining:ModelsandAlgorithmsECE219Winter2025Project2:DataRepresentationsandClusteringDueFebruary07,2025by11:59pmIntroductionMachinelearningalgorithmsareappliedtoawidevarietyofdata,includi
论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data thorn_r 论文阅读深度学习人工智能
论文地址：https://arxiv.org/pdf/2106.11959.pdf项目地址：GitHub-yandex-research/rtdl-revisiting-models:(NeurIPS2021)RevisitingDeepLearningModelsforTabularData相关数据：https://www.dropbox.com/s/o53umyg6mn3zhxy/2024年2
零基础入门机器学习 -- 第一章什么是机器学习？山海青风 #机器学习机器学习人工智能 python
1.1机器学习的定义机器学习（MachineLearning,ML）是让计算机从数据中学习，然后在没有明确编程的情况下进行预测或决策的技术。传统编程：程序员写出明确的规则，例如“如果温度低于0℃，显示‘结冰’”。机器学习：计算机分析历史天气数据，自行找出“低温→可能结冰”的规律，然后对新数据进行预测。机器学习的核心思想是：数据+算法=经验+预测能力。1.2机器学习vs传统编程特点传统编程机器学习规
【开发语言】层次状态机(HSM)介绍 CSUC qt 开发语言
层次状态机（HierarchicalStateMachine,HSM），从基本原理、结构设计、实现方法以及如何结合Qt进行具体实现等方面进行分析。1.层次状态机的基本原理层次状态机是一种用于管理复杂系统行为的状态机模型，它通过将状态组织成层次结构来简化设计和维护。这种结构使得复杂的逻辑可以分解为更小、更易于管理的部分。关键概念：状态（State）:系统在某一时刻所处的条件或模式。事件（Event）
HAMIL-QA：心房 LGE MRI 质量评估的多实例学习分层方法小杨小杨1 #全监督学习
文章目录HAMIL-QA:HierarchicalApproachtoMultipleInstanceLearningforAtrialLGEMRIQualityAssessment摘要方法实验结果HAMIL-QA:HierarchicalApproachtoMultipleInstanceLearningforAtrialLGEMRIQualityAssessment摘要背景：通过高质量的3D晚
Python 中如何 import 绝对路径的模块斐硕人僧旅 python 开发语言后端
问题：jupter-lab使用时用到其他文件夹下的一个自定义模块，试图使用绝对路径导入解决方式：importsyssys.path.append('模块所在路径')import路径下需要的模块使用场景：importsyssys.path.append('/Users/feishuoren/Projects/pytorch_learning/')#自定义模块fromtorchLearningimpo
DeepSeek底层揭秘——知识图谱与语料库的联邦学习架构 9命怪猫知识图谱架构人工智能
目录1.知识图谱与语料库的联邦学习架构2.技术要素3.技术难点与挑战4.技术路径5.应用场景6.最新研究与技术进展7.未来趋势8.实际案例猫哥说1.知识图谱与语料库的联邦学习架构(1)定义“知识图谱与语料库的联邦学习架构”是一种结合知识图谱（KnowledgeGraph,KG）、语料库（Corpus）和联邦学习（FederatedLearning,FL）的分布式学习框架。其核心目标是通过联邦学习技
书籍-《机器学习数学基础》机器学习深度学习数学
书籍：MathematicsforMachineLearning作者：MarcPeterDeisenroth，A.AldoFaisal，ChengSoonOng出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习数学基础》01书籍介绍理解机器学习所需的基本数学工具包括线性代数、解析几何、矩阵分解、向量微积分、最优化、概率论和统计学。这
opencv交叉编译月光下的麦克 opencv 人工智能计算机视觉
适用于瑞芯微，海思，酷芯等ARM平台。采用编译脚本配置编译选项，方便编译。目录一、创建目录二、工具链配置三、编译脚本四、编译一、创建目录mike@mike-virtual-machine:opencv-4.12/opencv/opencv$tree.-L1.├──3rdparty├──apps├──armlinux.toolchain.cmake├──build├──build.sh├──cmak
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f