lm_y

pandas的应用

http://blog.csdn.net/pipisorry/article/details/18010307

pandas的数据结构：Series、DataFrame、索引对象
pandas基本功能：重新索引，丢弃指定轴上的项，索引、选取和过滤，算术运算和数据对齐，函数应用和映射，排序和排名，带有重复值的轴索引

Pandas介绍

pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具。它是基于NumPy构建的，让以NumPy为中心的应用变得更加简单。

通常建议你先学习NumPy，一个支持多维数组的库。但因为NumPy越来越成为一个被其他库所使用核心库，这些库通常具有更优雅的接口。使用NumPy（或者笨重的Matlab）达到同样的目的会很麻烦。

pandas可以以各种格式（包括数据库）输入输出数据、执行join以及其他SQL类似的功能来重塑数据、熟练地处理缺失值、支持时间序列、拥有基本绘图功能和统计功能，等等还有很多。

pandas常量

pandas空值的表示(None, np.NaN, np.NaT, pd.NaT)

NaN: not a number, NaN is the default missing value marker forreasons of computational speed and convenience, we need to be able to easilydetect this value with data of different types: floating point, integer,boolean, and general object.

None: treats None like np.nan. In many cases, however, the Python None will arise and we wish to also consider that “missing” or “null”.

NaT: Datetimes, For datetime64[ns] types, NaT represents missing values. This is a pseudo-native sentinel value that can be represented by numpy in a singular dtype (datetime64[ns]). pandas objects provide intercompatibility between NaT and NaN.

inf: Prior to version v0.10.0 inf and -inf were also considered to be “null” in computations. This is no longer the case by default; use the mode.use_inf_as_null option to recover it.

Note: 缺失值的判断要用np.isnan(),而不能使用a[0] == np.NaN.[numpy教程：逻辑函数Logic functions ]

[Working with missing data]

pandas安装

pip install pandas

好像如果使用pd.read_excel要安装xlrd：pip install xlrd

引入相关包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

皮皮blog

pandas数据结构

pandas中的主要数据对象是Series和DataFrame。虽然它们不是没一个问题的通用解决方案，但提供了一个坚实的，易于使用的大多数应用程序的基础。

Series

Series是一个一维的类似的数组对象，包含一个数组的数据（任何NumPy的数据类型）和一个与数组关联的数据标签，被叫做索引。Seriers的交互式显示的字符串表示形式是索引在左边，值在右边。

lz通过使用series自带的函数，发现它和python dict类型太像了，基本一样！就如下所述：Series是一个定长的，有序的字典，因为它把索引和值映射起来了。它可以适用于许多需要一个字典的函数。

总结说就是，他像一个数组，你可以像数组那样索引，他也想一个字典，你可以像字典那样索引。

series对象创建

如果不给数据指定索引，一个包含整数0到 N-1 （这里N是数据的长度）的默认索引被创建。你可以分别的通过它的values 和index 属性来获取Series的数组表示和索引对象：

最简单的Series是由一个数组的数据构成：

 
     In [4]: obj = Series([4, 7, -5, 3])
In [5]: obj
Out[5]:
0 4
1 7
2 -5
3 3
 
    

 
     In [6]: obj.values
Out[6]: array([ 4, 7, -5, 3])
In [7]: obj.index
Out[7]: Int64Index([0, 1, 2, 3])

通常，需要创建一个带有索引来确定每一个数据点的Series：

 
     In [8]: obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
In [9]: obj2
Out[9]:
d 4
b 7
a -5
c 3
 
    

Note: pandas对象（series和dataframe）的index是可以修改的

df.index = range(len(df))重新将index的值修改成了从0开始。这也许是和dict的一个不同吧。

[Start index at 1 when writing Pandas DataFrame to CSV]

另一种思考的方式是，Series是一个定长的，有序的字典，因为它把索引和值映射起来了。它可以适用于许多需要一个字典的函数：

 
     In [18]: 'b' in obj2
Out[18]: True
In [19]: 'e' in obj2
Out[19]: False

如果你有一些数据在一个Python字典中，你可以通过传递字典来从这些数据创建一个Series：

 
     In [20]: sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
In [21]: obj3 = Series(sdata)

只传递一个字典的时候，结果Series中的索引将是排序后的字典的建。

In [23]: states = [‘California’, ‘Ohio’, ‘Oregon’, ‘Texas’]
In [24]: obj4 = Series(sdata, index=states)

In [25]: obj4

Out[25]:California NaNOhio 35000Oregon 16000Texas 71000

在这种情况下， sdata 中的3个值被放在了合适的位置，但因为没有发现对应于 ‘California’ 的值，就出现了NaN （不是一个数），这在pandas中被用来标记数据缺失或NA 值。我使用“missing”或“NA”来表示数度丢失。

Series的字典也以嵌套的字典的字典格式的方式来处理：

 
     In [62]: pdata = {'Ohio': frame3['Ohio'][:-1],
  ....: 'Nevada': frame3['Nevada'][:2]}

In [63]: DataFrame(pdata)
Out[63]:
     Nevada Ohio
2000    NaN  1.5
2001    2.4  1.7
 
    

series对象转换为字典dict

从series的字典构建中可以看出他们互相转换的机制了：将series对象的index作为keys，对应的值作为dict的value。

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
d    4
b    7
a   -5
c    3
dtype: int64
In[27]: dict(obj2)
{'a': -5, 'b': 7, 'c': 3, 'd': 4}

series对象转换为tuple列表

list(se.items())

pandas中用函数isnull 和notnull 来检测数据丢失：

 
     In [26]: pd.isnull(obj4) In [27]: pd.notnull(obj4)
Out[26]:                 Out[27]:
California True          California False
Ohio False               Ohio True
Oregon False             Oregon True
Texas False              Texas True
 
    

Series也提供了这些函数的实例方法：

 
     In [28]: obj4.isnull()
Out[28]:
California True
Ohio False
Oregon False
Texas False
 
    

series对象操作

series对象迭代

Series.iteritems()

Lazily iterate over (index, value) tuples

[i.split(',') for _, i in df['VenueCategory'].iteritems()]

与正规的NumPy数组相比，你可以使用索引里的值来选择一个单一值或一个值集：

 
     In [11]: obj2['a']
Out[11]: -5
In [12]: obj2['d'] = 6
In [13]: obj2[['c', 'a', 'd']]
Out[13]:
c 3
a -5
d 6
 
    

NumPy数组操作，例如通过一个布尔数组过滤，纯量乘法，使用数学函数，将会保持索引和值间的关联：

 
     In [14]: obj2
Out[14]:
d 6
b 7
a -5
c 3
In [15]: obj2[obj2 > 0]   In [16]: obj2 * 2       In [17]: np.exp(obj2)
Out[15]:                  Out[16]:                Out[17]:
d 6                       d 12                    d 403.428793
b 7                       b 14                    b 1096.633158
c 3                       a -10                   a 0.006738
                          c 6                     c 20.085537
 
    

在许多应用中Series的一个重要功能是在 算术运算中它会自动对齐不同索引的数据：

 
     In [29]: obj3        In [30]: obj4
Out[29]:             Out[30]:
Ohio 35000           California NaN
Oregon 16000         Ohio 35000
Texas 71000          Oregon 16000
Utah 5000            Texas 71000
In [31]: obj3 + obj4
Out[31]:
California NaN
Ohio 70000
Oregon 32000
Texas 142000
Utah NaN
 
    

Series对象本身和它的索引都有一个 name 属性，它和pandas的其它一些关键功能整合在一起：

 
     In [32]: obj4.name = 'population'
In [33]: obj4.index.name = 'state'
In [34]: obj4
Out[34]:
state
California NaN
Ohio 35000
Oregon 16000
Texas 71000
Name: population
 
    

Series索引更改

可以通过赋值就地更改：

 
     In [35]: obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
In [36]: obj
Out[36]:
Bob 4
Steve 7
Jeff -5
Ryan 3
 
    

series值替换

ser.replace(1, 11)

可以使用字典映射：将1替换为11，将2替换为12
ser.replace({1:11, 2:12})

series列分割转换成dataframe

s = pd.Series(['15,15', '17,17', '36,36', '24,24', '29,29'])
print(type(s))
print(s)
s = s.apply(lambda x: pd.Series(x.split(',')))
print(type(s))
print(s)

0    15,15
1    17,17
2    36,36
3    24,24
4    29,29
dtype: object

    0   1
0 15 15
1 17 17
2 36 36
3 24 24
4 29 29

Note: series对象直接应用apply方法是不会改变原series对象的，要赋值修改。

[series属性和方法参考pandas.Series]

皮皮blog

DataFrame

一个Datarame表示一个表格，类似电子表格的数据结构，包含一个经过排序的列表集，它们没一个都可以有不同的类型值（数字，字符串，布尔等等）。Datarame有行和列的索引；它可以被看作是一个Series的字典（每个Series共享一个索引）。与其它你以前使用过的（如R 的data.frame )类似Datarame的结构相比，在DataFrame里的面向行和面向列的操作大致是对称的。在底层，数据是作为一个或多个二维数组存储的，而不是列表，字典，或其它一维的数组集合。

因为DataFrame在内部把数据存储为一个二维数组的格式，因此你可以采用分层索引以表格格式来表示高维的数据。分层索引是pandas中许多更先进的数据处理功能的关键因素。

构建DataFrame

可能的传递到DataFrame的构造器
二维ndarray	一个数据矩阵，有可选的行标和列标
数组，列表或元组的字典	每一个序列成为DataFrame中的一列。所有的序列必须有相同的长度。
NumPy的结构/记录数组	和“数组字典”一样处理
Series的字典	每一个值成为一列。如果没有明显的传递索引，将结合每一个Series的索引来形成结果的行索引。
字典的字典	每一个内部的字典成为一列。和“Series的字典”一样，结合键值来形成行索引。
字典或Series的列表	每一项成为DataFrame中的一列。结合字典键或Series索引形成DataFrame的列标。
列表或元组的列表	和“二维ndarray”一样处理
另一个DataFrame	DataFrame的索引将被使用，除非传递另外一个
NumPy伪装数组（MaskedArray）	除了蒙蔽值在DataFrame中成为NA/丢失数据之外，其它的和“二维ndarray”一样

字典或NumPy数组

最常用的一个是用一个相等长度列表的字典或NumPy数组：

 
     data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

由此产生的DataFrame和Series一样，它的索引会自动分配，并且对列进行了排序：

 
     In [38]: frame
Out[38]:
  pop    state year
0 1.5     Ohio 2000
1 1.7     Ohio 2001
2 3.6     Ohio 2002
3 2.4   Nevada 2001
4 2.9   Nevada 2002
 
    

如果你设定了一个列的顺序，DataFrame的列将会精确的按照你所传递的顺序排列：

DataFrame(data, columns=['year', 'state', 'pop'])

和Series一样，如果你传递了一个行，但不包括在 data 中，在结果中它会表示为NA值：

 
     In [40]: frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
   ....: index=['one', 'two', 'three', 'four', 'five'])
In [41]: frame2
Out[41]:
       year state   pop debt
one    2000 Ohio    1.5  NaN
two    2001 Ohio    1.7  NaN
three  2002 Ohio    3.6  NaN
four   2001 Nevada  2.4  NaN
five   2002 Nevada  2.9  NaN
 
    

Creating a DataFrame by passing a numpy array, with a datetime indexand labeled columns:

 
     In [6]: dates = pd.date_range('20130101', periods=6)

In [7]: dates
Out[7]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [9]: df
Out[9]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988
 
    

嵌套的字典的字典格式

 
     In [57]: pop = {'Nevada': {2001: 2.4, 2002: 2.9},
   ....: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

如果被传递到DataFrame，它的外部键会被解释为列索引，内部键会被解释为行索引：

 
     In [58]: frame3 = DataFrame(pop)
In [59]: frame3
     Nevada Ohio
2000    NaN  1.5
2001    2.4  1.7
2002    2.9  3.6
 
    

当然，你总是可以对结果转置：

 
     In [60]: frame3.T
2000 2001 2002
Nevada NaN 2.4 2.9
Ohio 1.5 1.7 3.6

内部字典的键被结合并排序来形成结果的索引。如果指定了一个特定的索引，就不是这样的了：

 
     In [61]: DataFrame(pop, index=[2001, 2002, 2003])
        Nevada Ohio
  2001     2.4  1.7
  2002     2.9  3.6
  2003     NaN  NaN
 
    

通过series对象创建

df.median()就是一个series对象

pd.DataFrame([df.median(), df.mean(), df.std()], index=['median', 'mean', 'std'])

dataframe数据转换成其它格式

dataframe转换为字典

简单可知从字典构建dataframe就知道dataframe是如何转换为字典的了，dataframe会转换成嵌套dict。

如果只是选择一列进行转换，就相当于是将series对象转换成dict。

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = pd.DataFrame(data, index = [2,3,4,5, 6])
   pop   state year
2 1.5    Ohio 2000
3 1.7    Ohio 2001
4 3.6    Ohio 2002
5 2.4 Nevada 2001
6 2.9 Nevada 2002
In[23]: dict(frame['year'])
{2: 2000, 3: 2001, 4: 2002, 5: 2001, 6: 2002}
In[24]: dict(frame[['pop', 'year']])
{'pop': 2    1.5
3    1.7
4    3.6
5    2.4
6    2.9
Name: pop, dtype: float64,

'year': 2    2000
3    2001
4    2002
5    2001
6    2002
Name: year, dtype: int64}
Note: 上面是一个嵌套dict，通过dict['pop'][2]可以得到1.5。

dataframe转换成嵌套list

ltu_list = [col.tolist() for _, col in ltu_df.iterrows()]

也就是对数据进行遍历的方法
for index, row in data.iterrows()
Note: 也对index进行了遍历。

pandas.dataframe转换成numpy.ndarray

rat_array = rat_mat_df.values

存在的坑：

l_array = df['VenueLocation'].map(lambda s: np.array(s.split(','))).values

print(type(l_array))

print(l_array.shape)

(483805,)而不是(483805, 2)

原因在于转换后array中的元素不是当成两列，而是一列，也就是将两个元素当成了一个列表或者array元素，只有一列了。进行数据转换时l_array.astype(float)就会出错：ValueError: setting an array element with a sequence。这里最好使用l_array = np.array([s.split(',') for s in l_array]).astype(float)。

dataframe数据类型转换

使用 DataFrame.dtypes 可以查看每列的数据类型，Pandas默认可以读出int和float64，其它的都处理为object，需要转换格式的一般为日期时间。

DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换，支持Python和NumPy的数据类型。

df['Name'] = df['Name'].astype(np.datetime64)

查看数据

See the top & bottom rows of the frame

 
     In [14]: df.head()
Out[14]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401

In [15]: df.tail(3)
Out[15]: 
                   A         B         C         D
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988
 
    

Display the index, columns, and the underlying numpy data

dataframe数据遍历和迭代iteration

for i in obj 方式，对不同数据结构不同；遍历的只是df的columns names
- Series : 代表值
- DataFrame : 代表列label，即列名
- Panel : item label
.iteriems()，对DataFrame相当于对列迭代。
- Series: (index, value)
- DataFrame : (column, Series)
- Panel : (item, DataFrame)
df.iterrow()，对DataFrame的每一行进行迭代，返回一个Tuple (index, Series)
df.itertuples()，也是一行一行地迭代，返回的是一个namedtuple，通常比iterrow快，因为不需要做转换

for idx, row in df.iterrows():
    print idx, row

for row in df.itertuples():
    print row

for c, col in df.iteritems():
    print c, col

查看数据行数

pandas返回dataframe行数可能最快的方式：df.shape[0]

[how to get row count of pandas dataframe?]

数据类型

Having specific dtypes

 
     In [12]: df2.dtypes
Out[12]: 
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object
 
    

[Data Structure Intro section]

列columns和行index的名字及数据值的查看values

在R语言中，数据列和行的名字通过colnames和rownames来分别进行提取。在Python中，我们则使用columns和index属性来提取。

In [16]: df.index
Out[16]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [17]: df.columns
Out[17]: Index([u'A', u'B', u'C', u'D'], dtype='object')

像Series一样， values 属性返回一个包含在DataFrame中的数据的二维ndarray：

In [18]: df.values
Out[18]: 
array([[ 0.4691, -0.2829, -1.5091, -1.1356],
       [ 1.2121, -0.1732,  0.1192, -1.0442],
       [-0.8618, -2.1046, -0.4949,  1.0718],
       [ 0.7216, -0.7068, -1.0396,  0.2719],
       [-0.425 ,  0.567 ,  0.2762, -1.0874],
       [-0.6737,  0.1136, -1.4784,  0.525 ]])

如果DataFrame各列的数据类型不同，则值数组的数据类型就会选用能兼容所有列的数据类型：

 
     In [67]: frame2.values
Out[67]:
array([[2000, Ohio, 1.5, nan],
       [2001, Ohio, 1.7, -1.2],
       [2002, Ohio, 3.6, nan],
       [2001, Nevada, 2.4, -1.5],
       [2002, Nevada, 2.9, -1.7]], dtype=object)
 
    

index 和 columns 的 name

如果一个DataFrame的 index 和 columns 有它们的 name ，也会被显示出来：

 
     In [64]: frame3.index.name = 'year'; frame3.columns.name = 'state'
In [65]: frame3
Out[65]:
state Nevada Ohio
year
2000     NaN  1.5
2001     2.4  1.7
2002     2.9  3.6
 
    

在列名修改

s_group.columns = ['#user']

dataframe值的修改setting

修改方法有：

df['F'] = s1
df.at[dates[0],'A'] = 0
df.iat[0,1] = 0
df.loc[:,'D'] = np.array([5] * len(df))

列的修改和赋值

列可以通过赋值来修改。例如，空的 ‘debt’ 列可以通过一个纯量或数组来赋值：

 
     In [46]: frame2['debt'] = 16.5
In [47]: frame2
Out[47]:
      year state  pop debt
one   2000 Ohio   1.5 16.5
two   2001 Ohio   1.7 16.5
three 2002 Ohio   3.6 16.5
four  2001 Nevada 2.4 16.5
five  2002 Nevada 2.9 16.5
In [48]: frame2['debt'] = np.arange(5.)
In [49]: frame2
Out[49]:
      year state  pop debt
one   2000 Ohio   1.5 0
two   2001 Ohio   1.7 1
three 2002 Ohio   3.6 2
four  2001 Nevada 2.4 3
five  2002 Nevada 2.9 4
#没有第6列，增加第6列
 
     df[6] = np.select([y_score < 0.0, y_score > 1.0, True], [0.0, 1.0, y_score]) 
    

通过列表或数组给一列赋值时，所赋的值的长度必须和DataFrame的长度相匹配。

如果你使用Series来赋值，它会代替在DataFrame中精确匹配的索引的值，并在说有的空洞插入丢失数据：

 
     In [50]: val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
In [51]: frame2['debt'] = val
In [52]: frame2
Out[52]:
      year state  pop  debt
one   2000 Ohio   1.5  NaN
two   2001 Ohio   1.7  -1.2
three 2002 Ohio   3.6  NaN
four  2001 Nevada 2.4  -1.5
five  2002 Nevada 2.9  -1.7
 
    

给一个不存在的列赋值，将会创建一个新的列。

 
     In [53]: frame2['eastern'] = frame2.state == 'Ohio'
In [54]: frame2
Out[54]:
      year  state pop   debt eastern
one   2000   Ohio 1.5    NaN    True
two   2001   Ohio 1.7   -1.2    True
three 2002   Ohio 3.6    NaN    True
four  2001 Nevada 2.4   -1.5   False
five  2002 Nevada 2.9   -1.7   False
 
    

像字典一样 del 关键字将会删除列：

In [55]: del frame2['eastern']
In [56]: frame2.columns
Out[56]: Index([year, state, pop, debt], dtype=object)

将dataframe的一列column分割成两列column

ltu_df = ltu_df['VenueLocation'].apply(lambda s: pd.Series([float(i) for i in s.split(',')])).join(ltu_df).drop('VenueLocation', axis=1)

[pandas: How do I split text in a column into multiple rows?]

或者

df = pd.concat([df, dates.apply(lambda x: pd.Series(json.loads(x)))], axis=1, ignore_index=True)

[ Python pandas.read_csv split column into multiple new columns using comma to separate]

或者

lista = [item.split(' ')[2] for item in df['Fecha']]
listb = p.Series([item.split(' ')[0] for item in df['Fecha']])
df['Fecha'].update(listb)
df['Hora'] = lista

[ How split a column in two colunms in pandas]

将dataframe的两列column合并成一列column

In [10]: df
          A         B       lat      long
0  1.428987  0.614405  0.484370 -0.628298
1 -0.485747  0.275096  0.497116  1.047605
In [11]: df['lat_long'] = df[['lat', 'long']].apply(tuple, axis=1)
In [12]: df
          A         B       lat      long                             lat_long
0  1.428987  0.614405  0.484370 -0.628298      (0.484370195967, -0.6282975278)
1 -0.485747  0.275096  0.497116  1.047605      (0.497115615839, 1.04760475074)

Note: apply里面如果使用list来合并会失败，df并不会有任何改变，目前lz还没发现什么原因。
合并两列当然还可以使用np.dstack和zip等等方法。
[ How to form tuple column from two columns in Pandas]

pandas.dataframe值替换

DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None)

参数to_replace : str, regex, list, dict, Series, numeric, or None

dict: Nested dictionaries, e.g., {‘a’: {‘b’: nan}}, are read asfollows: look in column ‘a’ for the value ‘b’ and replace itwith nan. You can nest regular expressions as well. Note thatcolumn names (the top-level dictionary keys in a nesteddictionary) cannot be regular expressions.
Keys map to column names and values map to substitutionvalues. You can treat this as a special case of passing twolists except that you are specifying the column to search in.

ui_rec_df.replace({0: item_names_dict}, inplace=True)

不过字典的方法只能一列一列的将某个值替换为另一个值。

所以还可以这样：

for key in item_names_dict:
    ui_rec_df.replace(key, item_names_dict[key], inplace=True)

要替换的值还可以是正则表达式regex : bool or same types as to_replace, default False
Whether to interpret to_replace and/or value as regular expressions. If this is True then to_replace must be a string. Otherwise, to_replace must be None because this parameter will be interpreted as a regular expression or a list, dict, or array of regular expressions.

[pandas.DataFrame.replace]

[pandas教程：[26]值替换]

pandas基本功能

本节将带你穿过Series或DataFrame所包含的数据的基础结构的相互关系。

从一个坐标轴删除条目drop

对于Series

丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象：

 
     In [94]: obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
In [95]: new_obj = obj.drop('c')
In [97]: obj.drop(['d', 'c'])
Out[97]:
a   0
b   1
e   4
 
    

对于DataFrame

可以从任何坐标轴删除索引值：axis 参数告诉函数到底舍弃列还是行，如果axis等于0，那么就舍弃行。

 
     In [98]: data = DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
In [99]: data.drop(['Colorado', 'Ohio'])
Out[99]:
         one two three four
Utah       8   9    10   11
New York  12  13    14   15
测试了一下，也可以使用df.drop(1)来删除行1。

In [100]: data.drop('two', axis=1)      In [101]: data.drop(['two', 'four'], axis=1) #等价于date.drop(date.columns[[1, 3]], axis = 1)
Out[100]: Out[101]:
       one   three four                            one three
Ohio     0   2        3                 Ohio         0     2
Colorado 4   6        7                 Colorado     4     6
Utah     8   10      11                 Utah         8    10
New York 12  14       15                New York    12    14 
    

算术和数据对齐

算术运算及NA值

pandas的最重要的特性之一是在具有不同索引的对象间进行算术运算的行为。当把对象加起来时，如果有任何的索引对不相同的话，在结果中将会把各自的索引联合起来。

对于Series

>>>s1 = Series([7.3, -2.5, 3.4, 1.5],index=['a', 'c', 'd', 'e'])
>>>s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

>>>s1+s2
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

内部数据对其，在索引不重合的地方引入了NA值。数据缺失在算术运算中会传播。

对于DataFrame

对其在行和列上都表现的很好：

把这些加起来返回一个DataFrame，它的索引和列是每一个DataFrame对应的索引和列的联合：

带填充值的算术方法

在不同索引对象间的算术运算，当一个轴标签在另一个对象中找不到时，你可能想要填充一个特定的值，如0：

把它们加起来导致在不重合的位置出现NA值。

在 df1 上使用 add 方法，我把 df2 传递给它并给fill_value 赋了一个参数：

>>>df1.add(df2, fill_value=0)

与此类似，在对Series或DataFrame重新索引时，也可以指定一个填充值:

灵活的算术方法
add	加法(+)
sub	减法(-)
div	除法(/)
mul	乘法(*)

DataFrame 和 Series 间的操作

与NumPy数组一样，很好的定义了DataFrame和Series间的算术操作。

首先，作为一个激发性的例子，考虑一个二维数组和它的一个行间的差分，这被称为广播 (broadcasting)。

在一个DataFrame和一个Series间的操作是类似的：

默认的，DataFrame和Series间的算术运算Series的索引将匹配DataFrame的列，并在行上扩展：

如果一个索引值在DataFrame的列和Series的索引里都找不着，对象将会从它们的联合重建索引：

如果想在行上而不是列上进行扩展，你要使用一个算术方法。例如：

你所传递的坐标值是将要匹配的坐标。这种情况下是匹配DataFrame的行，并进行扩展。

函数应用和映射

NumPy的ufuncs (元素级数组方法）用于操作pandas对象

np.abs(frame)

dataframe函数应用

apply()将一个函数作用于DataFrame中的每个行或者列，而applymap()是将函数做用于DataFrame中的所有元素(elements)。

函数应用到由各列或行所形成的一维数组上apply

DataFrame的 apply方法即可实现此功能。许多最为常见的数组统计功能都被实现成DataFrame的方法（如sum和mean)，因此无需使用apply方法。

默认对列操作（axis=0），如传入np.sum()是对每列求和。

返回标量值

>>>f = lambda x: x.max() - x.min()
>>>frame.apply(f)
>>>frame.apply(f, axis=1)

df.apply(np.cumsum)

除标量值外，传递给apply的函数还可以返回由多个值组成的Series
>>>def f(x):
return Series([x.min(), x.max()], index=['min', 'max'])
>>>frame.apply(f)

dataframe应用元素级的Python函数applymap

假如想得到frame中各个浮点值的格式化字符串，使用applymap即可。

>>>format = lambda x: '%.2f' % x
>>>frame.applymap(format)

之所以叫做applymap，是因为Series有一个用于应用元素级函数的map方法：

>>>frame['e'].map(format)

只对df的某列进行变换就取那一列的series进行变换就好了

如将时间转换成只有日期date没有时间time

user_pay_df['time']=user_pay_df['time'].apply(lambda x:x.date())

Series函数应用

Series.apply(func, convert_dtype=True, args=(), **kwds): Invoke function on values of Series. Can be ufunc (a NumPy functionthat applies to the entire Series) or a Python function that only workson single values

Series.map(arg, na_action=None)

Map values of Series using input correspondence ( which can be a dict, Series, or function)
与apply的区别可能就只是应用的函数更多一点吧，如示例中series map到series上。

示例

>>> x
one   1
two   2
three 3
>>> y
1 foo
2 bar
3 baz
>>> x.map(y)
one   foo
two   bar
three baz

s3 = s.map(lambda x: 'this is a string {}'.format(x),
               na_action='ignore')
0    this is a string 1.0
1    this is a string 2.0
2    this is a string 3.0
3                     NaN

排序（sorting）

根据条件对数据集排序(sorting)也是一种重要的内置运算。

对行或列索引进行排序 (按字典顺序）sort_index

sort_index方法，它将返回一个已排序的新对象：
>>>obj = Series(range(4), index=['d', 'a', 'b', 'c'])
>>>obj.sort_index()
a    1
b    2
c    3
d    0
dtype: int64

按值对Series进行排序order

>>>obj = Series([4, 7, -3, 2])
>>>obj.order()
2   -3
3    2
0    4
1    7
>>>obj = Series([4, np.nan, 1, np.nan, -3, 2])
>>>obj.order() #在排序时，缺失值默认都会被放到Series的末尾.
4    -3
2     1
5     2
0     4
1   NaN
NaN

DataFrame任意轴上索引进行排序

>>>frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d','a','b','c'])
>>>frame.sort_index()
>>>frame.sort_index(axis=1)
数据默认是按升序排序的，但也可以降序排序:
>>>frame.sort_index(axis=1, ascending=False)

DataFrame列的值排序

将一个或多个列的名字传递给by选项即可达到该目的：
>>>frame = DataFrame({'b': [4,7,-3,2], 'a':[0, 1, 0, 1]})
>>> frame.sort_index(by='b') #或者df.sort_values(by='b')

要根据多个列进行排序，传入名称的列表即可:>>>frame.sort_index(by=['a', 'b'])

或者syntax of sort:

DataFrame.sort(columns=None, axis=0, ascending=True, inplace=False, kind='quicksort',na_position='last')
we will sort the data by “2013” column
Insurance_rates.sort(['2013','State'],ascending=[1, 0])

[Data Analysis with Pandas]

排名（ranking)

跟排序关系密切，且它会增设一个排名值（从1开始，一直到数组中有效数据的数量）。

它跟numpy.argsort产生的间接排序索引差不多，只不过它可以根据某种规则破坏平级关系。

Series和DataFrame的rank方法:默认情况下，rank是通过“为各组分配一个平均排名”的方式破坏平级关系的：
>>> obj = Series([7,-5,7,4,2,0,4])
>>>obj
0    7
1   -5
2    7
3    4
4    2
5    0
6    4
>>> print obj.rank()
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
>>> obj.rank(method='first') #根据值在原数据中出现的顺序给出排名:
0    6
1    1
2    7
3    4
4    3
5    2
5
>>> obj.rank(ascending=False, method='max') # 按降序进行排名:
0    2
1    7
2    2
3    4
4    5
5    6
6    4

排名时用于破坏平级关系的method选项

Method                           说明
‘average’            默认：在相等分组中，为各个值分配平均排名
‘min’              使用整个分组的最小排名
‘max’             使用整个分组的最大排名
‘first’                     按值在原始数据中的出现顺序分配排名

DataFrame在行或列上计算排名

>>> frame =DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
'c':[-2, 5, 8, -2.5]})
>>> frame.rank(axis=1)

from: http://blog.csdn.net/pipisorry/article/details/18010307

ref:《利用Python进行数据分析》*

官网pandas: Python Data Analysis Library: API Reference* 10 Minutes to pandas*十分钟搞定pandas pandas 0.18.1 documentation Essential Basic Functionality

API Reference

[Input/Output

General functions

Series

DataFrame

Panel

Panel4D

Index

CategoricalIndex

MultiIndex

DatetimeIndex

TimedeltaIndex

Window

GroupBy

Resampling

Style

General utility functions

]

pandas-cookbook

Python For Data Analysis*pandas入门 Errata for Python for Data Analysis

pandas学习笔记.md

pandas 基础

14 BEST PYTHON PANDAS FEATURES

[Python数据处理：Pandas模块的 12 种实用技巧]

[Pandas 中的坑：index操作遍历操作]

你可能感兴趣的:(pandas的应用)

FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
拯救者机型背光键盘无法开启 famous_pengfei 计算机外设笔记本电脑
如果你是联想拯救者系列笔记本电脑的用户，想必对背光键盘这一酷炫功能十分喜爱。然而，当背光键盘突然无法开启时，这无疑会让人感到困惑和沮丧。别担心，联想官方知识库已经为你准备好了详细的解决方案。文章中提到，Windows10系统下，用户可以通过开始菜单进入LenovoSettings来开启背光键盘。这个方法简单易懂，即使是电脑小白也能轻松上手。此外，文章还提供了详细的图文说明，帮助用户更直观地理解操作
PSINS工具箱函数介绍——ggnss（ggpsvars+gbdvars+gglovars） MATLAB卡尔曼 PSINS函数 matlab PSINS
文章目录关于工具箱工具箱概述学习路径指南GNSS参数初始化函数`ggnss`函数功能参数体系结构典型应用场景系统参数初始化操作指南执行流程运行结果解析函数源码深度解析代码架构扩展开发建议关于工具箱kfinit是kf的参数初始化函数，用于初始化滤波参数本文所述的代码需要基于PSINS工具箱，工具箱的讲解：PSINS初学指导：https://blog.csdn.net/callmeup/article
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
Node.js 中的 Event 模块详解小灰灰学编程 Node.js node.js 前端
Node.js中的Event模块是实现事件驱动编程的核心模块。它基于观察者模式，允许对象（称为“事件发射器”）发布事件，而其他对象（称为“事件监听器”）可以订阅并响应这些事件。这种模式非常适合处理异步操作和事件驱动的场景。1.概念1.1事件驱动编程事件驱动编程是一种编程范式，程序的执行流程由事件（如用户输入、文件读取完成、网络请求响应等）决定。Node.js的核心设计理念就是基于事件驱动的非阻塞I
[附源码]计算机毕业设计基于SpringBoot的小说阅读系统计算机毕设程序设计 spring boot java 后端
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.ID
ZT2 小美的因子查询 bingw0114 算法数据结构
描述小美对偶数因子很感兴趣，她将进行T次询问，每次都会给出一个正整数x，请你告诉她x是否存在至少一个偶数因子。也就是说x是否存在某个因子[注1]是偶数。注1：y是x的因子，当且仅当xmody=0。输入描述：每个测试文件均包含多组测试数据。第一行输入一个整数T(1≤T≤10^5)代表数据组数，每组测试数据描述如下：在一行
瑞芯微平台RK3568系统开发（9）移远EC20 4G模块驱动调试龙猫不是猫！瑞芯微平台开发嵌入式硬件瑞芯微 RK
1.在RK3568开发板上调试4G(EC20)驱动1.1查看RK3568关于4G模块的原理图，获取需要配置的信息1.2需要配置的信息如下14G模块电源使能引脚GPIO4_C324G模块W_DISABLE1引脚GPIO4_B534G模块复位引脚GPIO4_B41.3DTS配置如下{rk_modem:rk-modem{compatible="4g-modem-platdata";pinctrl-nam
基于 Spring Boot 的社区居民健康管理系统部署说明书小星袁毕业设计原文 spring boot 后端 java
目录1系统概述2准备资料3系统安装与部署3.1数据库部署3.1.1MySQL的部署3.1.2Navicat的部署3.2服务器部署3.3客户端部署4系统配置与优化5其他基于SpringBoot的社区居民健康管理系统部署说明书1系统概述本系统主要运用了SpringBoot框架，前端页面的设计主要依托Vue框架来构建，实现丰富且交互性强的用户界面，后台管理功能则采用SpringBoot框架与MySQL数
Spring IoC容器的两大功能 Mr_Zerone SpringFramework spring java 后端
1.控制反转（1）没有控制反转的情况下常规思路下，也就是在没有控制反转的情况下，程序员需要通过编写应用程序来创建（new关键字）和使用对象。（2）存在控制反转的情况下控制反转主要是针对对象的创建和调用控制而言的。应用程序需要使用一个对象时，不再是由程序员写的应用程序通过new关键字来直接创建该对象，而是由SpringIoC容器来创建和管理，即创建和管理对象的控制权由应用程序转移到IoC容器。我们的
远程桌面的端口号是多少? 阿7_QuQ 网络 windows 服务器
远程桌面（RemoteDesktop）是一种用于远程访问和控制计算机的技术，它允许用户通过网络连接到远程计算机并以图形化界面进行操作。远程桌面使用的端口号通常是3389。在Windows操作系统中，远程桌面协议（RemoteDesktopProtocol，简称RDP）默认使用3389端口。当您启用远程桌面功能并允许其他计算机通过网络连接时，远程桌面会监听3389端口，等待远程连接的请求。需要注意的
【k8s应用管理】kubernetes HPA+rancher Karoku066 kubernetes rancher 容器运维云原生
文章目录KubernetesHPA部署指南概述部署metrics-server部署HPARancher管理Kubernetes集群指南实验环境安装及配置RancherKubernetesHPA部署指南概述KubernetesHPA（HorizontalPodAutoscaling）可以根据Pod的CPU利用率自动调整Deployment、ReplicationController或ReplicaS
SMBJ20A 二极管的作用揭秘 GR6692 二极管数据库管理员 eclipse python
30KPA84A单向TVS瞬态抑制二极管二极管产品已经跟我们的生活有着密不可分的联系了，TVS瞬态抑制二极管，是一种高效能保护二极管，产品体积小、功率大、响应快等诸多优点，产品应用广泛。TVS瞬态抑制二极管30KPA84A，是一种二极管形式的高效能被动保护器件贴片TVS瞬态抑制二极管详情简介TVS瞬态抑制二极管30KPA84A极性(单双向)：单向VRWM(V)电压84V最大箝位电压@IPP：139
GenAI 平台，3 分钟即可构建基于 Claude、DeepSeek 的 AI Agent DO_Community 人工智能
DigitalOcean云服务在前不久发布了GenAI平台——一个让任何团队都能在几分钟内构建和部署AI代理的平台。DigitalOcean的GenAI平台持续扩展，让人工智能驱动的开发变得更加易用、灵活且强大。近日，Digitalocean宣布将Anthropic的Claude模型和DeepSeekR1引入Digitalocean的生态系统，为你提供更多构建和部署AI应用的选择。通过Anthro
想品客老师的第十三天：宏任务、微任务--js任务调度流程 Au_ust js javascript 前端开发语言
同步->微任务->宏任务->同步......定时器的任务是宏任务，无论等待时间短还是长，都先进行同步任务，进行同步任务的时候定时器正常计时，等到同步任务结束，宏任务被放到宏任务队列里，就可以直接执行定时器内的任务如果有两个定时器，在等完同步任务结束后，这两个定时器谁定的时间短，也就是计时的快，就先把谁放进宏任务队列里微任务的执行举个例子就是：例如这段代码会怎么输出setTimeout(()=>{
工控安全双评合规：等保测评与商用密码共铸新篇章网安导师小李安全网络 web安全等保评测安全能力建设网络安全
01.双评合规概述2017年《中华人民共和国网络安全法》开始正式施行，网络安全等级测评工作也在全国范围内按照相关法律法规和技术标准要求全面落实实施。2020年1月《中华人民共和国密码法》开始正式施行，商用密码应用安全性评估也在有序推广和逐步推进。网络安全等级测评和密码应用安全性评估已经成为我国网络运营者必须依法开展的两项合规测评活动。《密码法》第二十七条明确提出，商用密码应用安全性评估应当与关键信
线性回归理论狂踹瘸子那条好脚 python
###线性回归与Softmax回归####线性回归线性回归是一种用于估计连续值的回归方法。它的应用场景非常广泛，比如在房地产市场中，参观一个房子后，我们可以通过线性回归模型来估计房子的价格，从而决定出价。线性回归的核心思想是通过训练数据来学习参数，使得模型的预测值与真实值之间的差异最小化。在神经网络中，线性回归可以看作是一个单层神经网络。通过损失函数来衡量预测值与真实值之间的差异，常用的损失函数包
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！ V__17671155793 人工智能
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！在科技飞速发展的当下，人工智能正以前所未有的态势重塑着各个行业的格局。直播领域，作为信息传播与商业交互的前沿阵地，也在AI技术的赋能下迎来了颠覆性的变革。其中，马斯克旗下的智享AI直播三代系统宛如一颗璀璨的新星，横空出世，以其卓越的性能和创新的理念，迅速在竞争激烈的直播市场中崭露头角，甚至被业界誉为可媲美DeepSeek的
网络安全等级保护制度详解，一文掌握核心要点！_等级保护相关政策和法律法规～小羊没烦恼～ web安全安全网络服务器数据库
一、等级保护制度发展情况等级保护制度的法律依据Ø《计算机信息系统安全保护条例》（1994年GeneralOfficeoftheStateCouncil第147号令）公安部主管全国计算机信息系统安全保护工作。计算机信息系统实行安全等级保护，安全等级的划分标准和安全等级保护的具体办法，由公安部会同有关部门制定。Ø《中华人民共和国警察法》（1995，2012）人民警察履行“监督管理计算机信息系统的安全保
蓝队基础：企业网络安全架构与防御策略重生之物联网转网安网络安全安全
声明学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，此文章为对视频内容稍加整理发布，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/35032
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全人工智能
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】白帽黑客2659 学习 web安全安全网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包大家都知道网络安全行业很火，这个行业因为国家政策趋势正在大力发展，大有可为!但很多人对网络安全工程师还是不了解，不知道网络安全工程师需要学什么?知了堂小编总结出以下要点。网络安全工程师是一个概称，学习的东西很多，具体学什么看自己以后的职业定位。如果你以后想成为安全产品工程师，学的内容侧重点就和渗透测试工程师不一样，如果你想成为安全开发
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
在项目中调用本地Deepseek（接入本地Deepseek） mr_cmx AI ai 前端 DeepSeek AI
前言之前发表的文章已经讲了如何本地部署Deepseek模型，并且如何给Deepseek模型投喂数据、搭建本地知识库，但大部分人不知道怎么应用，让自己的项目接入AI模型。文末有彩蛋哦！！！要接入本地部署的deepseek，我就要利用到我们之前部署时安装的ollama服务，并调用其API本地API接口1、生成文本（GenerateText）url:POST/api/generate功能：向模型发送提示
一键安装KES-RWC读写分离集群 banjin kingbase 人大金仓
一、KES-RWC读写分离集群介绍金仓数据库读写分离集群软件在金仓数据守护集群软件的基础上增加了对应用透明的读写负载均衡能力。该类集群中所有备库均可对外提供查询能力，从而减轻了主库的读负载压力，可实现更高的事务吞吐率；该软件支持在多个备库间进行读负载均衡。其成员可能包括主节点（primarynode）、备节点（standbynode）、辅助节点（witnessnode）、备份节点（reponode
【后端】k8s 骑鱼过海的猫123 kubernetes 容器云原生
1.命令1.1获取service服务获取集群内所有命名空间的service服务sudokubectlgetservice--all-namespaces获取集群内指定命名空间的service服务sudokubectlgetservice-n命名空间当权限限制到一个命名空间时,只能使用下面这个sudokubectl-n命名空间getservice获取集群内当前命名空间的service服务sudoku
DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命云边有个稻草人热门文章 chatgpt 搜索引擎人工智能 DeepSeek
云边有个稻草人-CSDN博客在众多创新技术中，DeepSeek和ChatGPT无疑是最为引人注目的。它们通过强大的搜索和对话生成能力，能够改变我们与计算机交互的方式，帮助我们高效地获取信息，增强智能服务。本文将深入探讨这两项技术如何结合使用，为用户提供更精准、更流畅的对话和搜索体验。目录一、介绍1.1什么是DeepSeek？1.2什么是ChatGPT？1.3DeepSeek与ChatGPT的结合：
redis的主从复制配置 zhaikaiyun redis
通过持久化功能，redis保证了即使在服务器重启的情况下也不会丢失或少量丢失数据，但是由于数据存储在一台服务器上，如果这台服务器出现故障，比如磁盘坏了，也会导致数据丢失。为了避免这个单点故障，可以使用主从复制的方式，将主更新的数据，自动更新同步到其他服务器上。主从节点配置[root@k8smasterconfig]#moreredis6380.confinclude/data/redis/redi
Rust 中使用 :: 这种语法的几种情况 yujunlong3919 rust rust 区块链
文章目录1.访问模块成员：2.访问关联函数或静态方法：3.访问trait的关联类型或关联常量4.指定泛型类型参数1.访问模块成员：modutils{pubfndo_something(){/*...*/}}letresult=utils::do_something();2.访问关联函数或静态方法：structMyStruct;implMyStruct{fnnew()->Self{MyStruct}
flutter pigeon gomobile 插件中使用go工具类 yujunlong3919 flutter golang swift kotlin
文章目录为什么flutter要用go写工具类1.下载pigeon插件模版2.编写go代码3.生成greeting.aar，Greeting.xcframework4.ios5.android6.dart中使用为什么flutter要用go写工具类在Flutter应用中，有些场景涉及到大量的计算，比如复杂的加密算法、数据压缩/解压缩或者图形处理中的数学计算等1.下载pigeon插件模版base_plu
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C