TRHX • 鲍勃

Python 数据分析三剑客之 Pandas（八）：数据重塑、重复数据处理与数据替换

CSDN 课程推荐：《迈向数据科学家：带你玩转Python数据分析》，讲师齐伟，苏州研途教育科技有限公司CTO，苏州大学应用统计专业硕士生指导委员会委员；已出版《跟老齐学Python：轻松入门》《跟老齐学Python：Django实战》、《跟老齐学Python：数据分析》和《Python大学实用教程》畅销图书。

Pandas 系列文章：

Python 数据分析三剑客之 Pandas（一）：认识 Pandas 及其 Series、DataFrame 对象
Python 数据分析三剑客之 Pandas（二）：Index 索引对象以及各种索引操作
Python 数据分析三剑客之 Pandas（三）：算术运算与缺失值的处理
Python 数据分析三剑客之 Pandas（四）：函数应用、映射、排序和层级索引
Python 数据分析三剑客之 Pandas（五）：统计计算与统计描述
Python 数据分析三剑客之 Pandas（六）：GroupBy 数据分裂、应用与合并
Python 数据分析三剑客之 Pandas（七）：合并数据集
Python 数据分析三剑客之 Pandas（八）：数据重塑、重复数据处理与数据替换
Python 数据分析三剑客之 Pandas（九）：时间序列
Python 数据分析三剑客之 Pandas（十）：数据读写

另有 NumPy、Matplotlib 系列文章已更新完毕，欢迎关注：

NumPy 系列文章：https://itrhx.blog.csdn.net/category_9780393.html
Matplotlib 系列文章：https://itrhx.blog.csdn.net/category_9780418.html

推荐学习资料与网站（博主参与部分文档翻译）：

NumPy 官方中文网：https://www.numpy.org.cn/
Pandas 官方中文网：https://www.pypandas.cn/
Matplotlib 官方中文网：https://www.matplotlib.org.cn/
NumPy、Matplotlib、Pandas 速查表：https://github.com/TRHX/Python-quick-reference-table

文章目录

【01x00】数据重塑

【01x01】stack
【01x02】unstack

【02x00】重复数据处理

【02x01】duplicated
【02x02】drop_duplicates

【03x00】数据替换

【03x01】replace
【03x02】where
【03x03】mask

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106900748
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

【01x00】数据重塑

有许多用于重新排列表格型数据的基础运算。这些函数也称作重塑（reshape）或轴向旋转（pivot）运算。重塑层次化索引主要有以下两个方法：

stack：将数据的列转换成行；
unstack：将数据的行转换成列。

【01x01】stack

stack 方法用于将数据的列转换成为行；

基本语法：DataFrame.stack(self, level=-1, dropna=True)

官方文档：https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html

参数	描述
level	从列转换到行，指定不同层级的列索引或列标签、由列索引或列标签组成的数组，默认-1
dropna	bool 类型，是否删除重塑后数据中所有值为 NaN 的行，默认 True

单层列（Single level columns）：

>>> import pandas as pd
>>> obj = pd.DataFrame([[0, 1], [2, 3]], index=['cat', 'dog'], columns=['weight', 'height'])
>>> obj
     weight  height
cat       0       1
dog       2       3
>>> 
>>> obj.stack()
cat  weight    0
     height    1
dog  weight    2
     height    3
dtype: int64

多层列（Multi level columns）：

>>> import pandas as pd
>>> multicol = pd.MultiIndex.from_tuples([('weight', 'kg'), ('weight', 'pounds')])
>>> obj = pd.DataFrame([[1, 2], [2, 4]], index=['cat', 'dog'], columns=multicol)
>>> obj
    weight       
        kg pounds
cat      1      2
dog      2      4
>>> 
>>> obj.stack()
            weight
cat kg           1
    pounds       2
dog kg           2
    pounds       4

缺失值填充：

>>> import pandas as pd
>>> multicol = pd.MultiIndex.from_tuples([('weight', 'kg'), ('height', 'm')])
>>> obj = pd.DataFrame([[1.0, 2.0], [3.0, 4.0]], index=['cat', 'dog'], columns=multicol)
>>> obj
    weight height
        kg      m
cat    1.0    2.0
dog    3.0    4.0
>>> 
>>> obj.stack()
        height  weight
cat kg     NaN     1.0
    m      2.0     NaN
dog kg     NaN     3.0
    m      4.0     NaN

通过 level 参数指定不同层级的轴进行重塑：

>>> import pandas as pd
>>> multicol = pd.MultiIndex.from_tuples([('weight', 'kg'), ('height', 'm')])
>>> obj = pd.DataFrame([[1.0, 2.0], [3.0, 4.0]], index=['cat', 'dog'], columns=multicol)
>>> obj
    weight height
        kg      m
cat    1.0    2.0
dog    3.0    4.0
>>> 
>>> obj.stack(level=0)
             kg    m
cat height  NaN  2.0
    weight  1.0  NaN
dog height  NaN  4.0
    weight  3.0  NaN
>>> 
>>> obj.stack(level=1)
        height  weight
cat kg     NaN     1.0
    m      2.0     NaN
dog kg     NaN     3.0
    m      4.0     NaN
>>>
>>> obj.stack(level=[0, 1])
cat  height  m     2.0
     weight  kg    1.0
dog  height  m     4.0
     weight  kg    3.0
dtype: float64

对于重塑后的数据，若有一行的值均为 NaN，则默认会被删除，可以设置 dropna=False 来保留缺失值：

>>> import pandas as pd
>>> multicol = pd.MultiIndex.from_tuples([('weight', 'kg'), ('height', 'm')])
>>> obj = pd.DataFrame([[None, 1.0], [2.0, 3.0]], index=['cat', 'dog'], columns=multicol)
>>> obj
    weight height
        kg      m
cat    NaN    1.0
dog    2.0    3.0
>>> 
>>> obj.stack(dropna=False)
        height  weight
cat kg     NaN     NaN
    m      1.0     NaN
dog kg     NaN     2.0
    m      3.0     NaN
>>> 
>>> obj.stack(dropna=True)
        height  weight
cat m      1.0     NaN
dog kg     NaN     2.0
    m      3.0     NaN

【01x02】unstack

unstack：将数据的行转换成列。

基本语法：

Series.unstack(self, level=-1, fill_value=None)
DataFrame.unstack(self, level=-1, fill_value=None)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.unstack.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html

参数	描述
level	从行转换到列，指定不同层级的行索引，默认-1
fill_value	用于替换 NaN 的值

在 Series 对象中的应用：

>>> import pandas as pd
>>> obj = pd.Series([1, 2, 3, 4], index=pd.MultiIndex.from_product([['one', 'two'], ['a', 'b']]))
>>> obj
one  a    1
     b    2
two  a    3
     b    4
dtype: int64
>>> 
>>> obj.unstack()
     a  b
one  1  2
two  3  4
>>> 
>>> obj.unstack(level=0)
   one  two
a    1    3
b    2    4

和 stack 方法类似，如果值不存在将会引入缺失值（NaN）：

>>> import pandas as pd
>>> obj1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
>>> obj2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
>>> obj3 = pd.concat([obj1, obj2], keys=['one', 'two'])
>>> obj3
one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64
>>> 
>>> obj3.unstack()
       a    b    c    d    e
one  0.0  1.0  2.0  3.0  NaN
two  NaN  NaN  4.0  5.0  6.0

在 DataFrame 对象中的应用：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.DataFrame(np.arange(6).reshape((2, 3)),
		       index=pd.Index(['Ohio','Colorado'], name='state'),
		       columns=pd.Index(['one', 'two', 'three'],
		       name='number'))
>>> obj
number    one  two  three
state                    
Ohio        0    1      2
Colorado    3    4      5
>>> 
>>> obj2 = obj.stack()
>>> obj2
state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int32
>>> 
>>> obj3 = pd.DataFrame({'left': obj2, 'right': obj2 + 5},
			columns=pd.Index(['left', 'right'], name='side'))
>>> obj3
side             left  right
state    number             
Ohio     one        0      5
         two        1      6
         three      2      7
Colorado one        3      8
         two        4      9
         three      5     10
>>> 
>>> obj3.unstack('state')
side   left          right         
state  Ohio Colorado  Ohio Colorado
number                             
one       0        3     5        8
two       1        4     6        9
three     2        5     7       10
>>> 
>>> obj3.unstack('state').stack('side')
state         Colorado  Ohio
number side                 
one    left          3     0
       right         8     5
two    left          4     1
       right         9     6
three  left          5     2
       right        10     7

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106900748
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

【02x00】重复数据处理

duplicated：判断是否为重复值；
drop_duplicates：删除重复值。

【02x01】duplicated

duplicated 方法可以判断值是否为重复数据。

基本语法：

Series.duplicated(self, keep='first')
DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = 'first') → ’Series’

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.duplicated.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html

参数	描述
keep	标记重复项的方法，默认 `'first'` `'first'`：将非重复项和第一个重复项标记为 False，其他重复项标记为 True `'last'`：将非重复项和最后一个重复项标记为 False，其他重复项标记为 True `False`：将所有重复项标记为 True，非重复项标记为 False
subset	列标签或标签序列，在 DataFrame 对象中才有此参数，用于指定某列，仅标记该列的重复项，默认情况下将考虑所有列

默认情况下，对于每组重复的值，第一个出现的重复值标记为 False，其他重复项标记为 True，非重复项标记为 False，相当于 keep='first'：

>>> import pandas as pd
>>> obj = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama'])
>>> obj
0      lama
1       cow
2      lama
3    beetle
4      lama
dtype: object
>>> 
>>> obj.duplicated()
0    False
1    False
2     True
3    False
4     True
dtype: bool
>>>
>>> obj.duplicated(keep='first')
0    False
1    False
2     True
3    False
4     True
dtype: bool

设置 keep='last'，将每组非重复项和最后一次出现的重复项标记为 False，其他重复项标记为 True，设置 keep=False，则所有重复项均为 True，其他值为 False：

>>> import pandas as pd
>>> obj = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama'])
>>> obj
0      lama
1       cow
2      lama
3    beetle
4      lama
dtype: object
>>> 
>>> obj.duplicated(keep='last')
0     True
1    False
2     True
3    False
4    False
dtype: bool
>>> 
>>> obj.duplicated(keep=False)
0     True
1    False
2     True
3    False
4     True
dtype: bool

在 DataFrame 对象中，subset 参数用于指定某列，仅标记该列的重复项，默认情况下将考虑所有列：

>>> import pandas as pd
>>> import numpy as np
>>> obj = pd.DataFrame({'data1' : ['a'] * 4 + ['b'] * 4,
                       'data2' : np.random.randint(0, 4, 8)})
>>> obj
  data1  data2
0     a      0
1     a      0
2     a      0
3     a      3
4     b      3
5     b      3
6     b      0
7     b      2
>>> 
>>> obj.duplicated()
0    False
1     True
2     True
3    False
4    False
5     True
6    False
7    False
dtype: bool
>>> 
>>> obj.duplicated(subset='data1')
0    False
1     True
2     True
3     True
4    False
5     True
6     True
7     True
dtype: bool
>>> 
>>> obj.duplicated(subset='data2', keep='last')
0     True
1     True
2     True
3     True
4     True
5    False
6    False
7    False
dtype: bool

【02x02】drop_duplicates

drop_duplicates 方法会返回一个删除了重复值的序列。

基本语法：

Series.drop_duplicates(self, keep='first', inplace=False)

DataFrame.drop_duplicates(self,
						  subset: Union[Hashable, Sequence[Hashable], NoneType] = None,
						  keep: Union[str, bool] = 'first',
						  inplace: bool = False,
						  ignore_index: bool = False) → Union[ForwardRef(‘DataFrame’), NoneType]

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.drop_duplicates.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

参数	描述
keep	删除重复项的方法，默认 `'first'` `'first'`：保留非重复项和第一个重复项，其他重复项标记均删除 `'last'`：保留非重复项和最后一个重复项，其他重复项删除 `False`：将所有重复项删除，非重复项保留
inplace	是否返回删除重复项后的值，默认 False，若设置为 True，则不返回值，直接改变原数据
subset	列标签或标签序列，在 DataFrame 对象中才有此参数，用于指定某列，仅标记该列的重复项，默认情况下将考虑所有列
ignore_index	bool 类型，在 DataFrame 对象中才有此参数，是否忽略原对象的轴标记，默认 False，如果为 True，则新对象的索引将是 0, 1, 2, …, n-1

keep 参数的使用：

>>> import pandas as pd
>>> obj = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'], name='animal')
>>> obj
0      lama
1       cow
2      lama
3    beetle
4      lama
5     hippo
Name: animal, dtype: object
>>> 
>>> obj.drop_duplicates()
0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object
>>> 
>>> obj.drop_duplicates(keep='last')
1       cow
3    beetle
4      lama
5     hippo
Name: animal, dtype: object
>>> 
>>> obj.drop_duplicates(keep=False)
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

如果设置 inplace=True，则不会返回任何值，但原对象的值已被改变：

>>> import pandas as pd
>>> obj1 = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'], name='animal')
>>> obj1
0      lama
1       cow
2      lama
3    beetle
4      lama
5     hippo
Name: animal, dtype: object
>>> 
>>> obj2 = obj1.drop_duplicates()
>>> obj2          # 有返回值
0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object
>>> 
>>> obj3 = obj1.drop_duplicates(inplace=True)
>>> obj3         # 无返回值
>>>
>>> obj1         # 原对象的值已改变
0      lama
1       cow
3    beetle
5     hippo
Name: animal, dtype: object

在 DataFrame 对象中的使用：

>>> import numpy as np
>>> import pandas as pd
>>> obj = pd.DataFrame({'data1' : ['a'] * 4 + ['b'] * 4,
                       'data2' : np.random.randint(0, 4, 8)})
>>> obj
  data1  data2
0     a      2
1     a      1
2     a      1
3     a      2
4     b      1
5     b      2
6     b      0
7     b      0
>>> 
>>> obj.drop_duplicates()
  data1  data2
0     a      2
1     a      1
4     b      1
5     b      2
6     b      0
>>> 
>>> obj.drop_duplicates(subset='data2')
  data1  data2
0     a      2
1     a      1
6     b      0
>>> 
>>> obj.drop_duplicates(subset='data2', ignore_index=True)
  data1  data2
0     a      2
1     a      1
2     b      0

【03x00】数据替换

【03x01】replace

replace 方法可以根据值的内容进行替换。

基本语法：

Series.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
DataFrame.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.replace.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html

常用参数：

参数	描述
to_replace	找到要替换值的方法，可以是：字符串、正则表达式、列表、字典、整数、浮点数、Series 对象或者 None 使用不同参数的区别参见官方文档
value	用于替换匹配项的值，对于 DataFrame，可以使用字典的值来指定每列要使用的值，还允许使用此类对象的正则表达式，字符串和列表或字典
inplace	bool 类型，是否直接改变原数据且不返回值，默认 False
regex	bool 类型或者与 to_replace 相同的类型，当 to_replace 参数为正则表达式时，regex 应为 True，或者直接使用该参数代替 to_replace

to_replace 和 value 参数只传入一个值，单个值替换单个值：

>>> import pandas as pd
>>> obj = pd.Series([0, 1, 2, 3, 4])
>>> obj
0    0
1    1
2    2
3    3
4    4
dtype: int64
>>> 
>>> obj.replace(0, 5)
0    5
1    1
2    2
3    3
4    4
dtype: int64

to_replace 传入多个值，value 传入一个值，多个值替换一个值：

>>> import pandas as pd
>>> obj = pd.Series([0, 1, 2, 3, 4])
>>> obj
0    0
1    1
2    2
3    3
4    4
dtype: int64
>>> 
>>> obj.replace([0, 1, 2, 3], 4)
0    4
1    4
2    4
3    4
4    4
dtype: int64

to_replace 和 value 参数都传入多个值，多个值替换多个值：

>>> import pandas as pd
>>> obj = pd.Series([0, 1, 2, 3, 4])
>>> obj
0    0
1    1
2    2
3    3
4    4
dtype: int64
>>> 
>>> obj.replace([0, 1, 2, 3], [4, 3, 2, 1])
0    4
1    3
2    2
3    1
4    4
dtype: int64

to_replace 传入字典：

>>> import pandas as pd
>>> obj = pd.DataFrame({'A': [0, 1, 2, 3, 4],
			'B': [5, 6, 7, 8, 9],
			'C': ['a', 'b', 'c', 'd', 'e']})
>>> obj
   A  B  C
0  0  5  a
1  1  6  b
2  2  7  c
3  3  8  d
4  4  9  e
>>> 
>>> obj.replace(0, 5)
   A  B  C
0  5  5  a
1  1  6  b
2  2  7  c
3  3  8  d
4  4  9  e
>>> 
>>> obj.replace({0: 10, 1: 100})
     A  B  C
0   10  5  a
1  100  6  b
2    2  7  c
3    3  8  d
4    4  9  e
>>> 
>>> obj.replace({'A': 0, 'B': 5}, 100)
     A    B  C
0  100  100  a
1    1    6  b
2    2    7  c
3    3    8  d
4    4    9  e
>>> obj.replace({'A': {0: 100, 4: 400}})
     A  B  C
0  100  5  a
1    1  6  b
2    2  7  c
3    3  8  d
4  400  9  e

to_replace 传入正则表达式：

>>> import pandas as pd
>>> obj = pd.DataFrame({'A': ['bat', 'foo', 'bait'],
			'B': ['abc', 'bar', 'xyz']})
>>> obj
      A    B
0   bat  abc
1   foo  bar
2  bait  xyz
>>> 
>>> obj.replace(to_replace=r'^ba.$', value='new', regex=True)
      A    B
0   new  abc
1   foo  new
2  bait  xyz
>>> 
>>> obj.replace({'A': r'^ba.$'}, {'A': 'new'}, regex=True)
      A    B
0   new  abc
1   foo  bar
2  bait  xyz
>>> 
>>> obj.replace(regex=r'^ba.$', value='new')
      A    B
0   new  abc
1   foo  new
2  bait  xyz
>>> 
>>> obj.replace(regex={r'^ba.$': 'new', 'foo': 'xyz'})
      A    B
0   new  abc
1   xyz  new
2  bait  xyz
>>> 
>>> obj.replace(regex=[r'^ba.$', 'foo'], value='new')
      A    B
0   new  abc
1   new  new
2  bait  xyz

【03x02】where

where 方法用于替换条件为 False 的值。

基本语法：

Series.where(self, cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False)
DataFrame.where(self, cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.where.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html

常用参数：

参数	描述
cond	替换条件，如果 cond 为 True，则保留原始值。如果为 False，则替换为来自 other 的相应值
other	替换值，如果 cond 为 False，则替换为来自该参数的相应值
inplace	bool 类型，是否直接改变原数据且不返回值，默认 False

在 Series 中的应用：

>>> import pandas as pd
>>> obj = pd.Series(range(5))
>>> obj
0    0
1    1
2    2
3    3
4    4
dtype: int64
>>> 
>>> obj.where(obj > 0)
0    NaN
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64
>>> 
>>> obj.where(obj > 1, 10)
0    10
1    10
2     2
3     3
4     4
dtype: int64

在 DataFrame 中的应用：

>>> import pandas as pd
>>> obj = pd.DataFrame(np.arange(10).reshape(-1, 2), columns=['A', 'B'])
>>> obj
   A  B
0  0  1
1  2  3
2  4  5
3  6  7
4  8  9
>>> 
>>> m = obj % 3 == 0
>>> obj.where(m, -obj)
   A  B
0  0 -1
1 -2  3
2 -4 -5
3  6 -7
4 -8  9
>>> 
>>> obj.where(m, -obj) == np.where(m, obj, -obj)
      A     B
0  True  True
1  True  True
2  True  True
3  True  True
4  True  True

【03x03】mask

mask 方法与 where 方法相反，mask 用于替换条件为 False 的值。

基本语法：

Series.mask(self, cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False)
DataFrame.mask(self, cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=False)

官方文档：

https://pandas.pydata.org/docs/reference/api/pandas.Series.mask.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mask.html

常用参数：

参数	描述
cond	替换条件，如果 cond 为 False，则保留原始值。如果为 True，则替换为来自 other 的相应值
other	替换值，如果 cond 为 False，则替换为来自该参数的相应值
inplace	bool 类型，是否直接改变原数据且不返回值，默认 False

在 Series 中的应用：

>>> import pandas as pd
>>> obj = pd.Series(range(5))
>>> obj
0    0
1    1
2    2
3    3
4    4
dtype: int64
>>> 
>>> obj.mask(obj > 0)
0    0.0
1    NaN
2    NaN
3    NaN
4    NaN
dtype: float64
>>> 
>>> obj.mask(obj > 1, 10)
0     0
1     1
2    10
3    10
4    10
dtype: int64

在 DataFrame 中的应用：

>>> import pandas as pd
>>> obj = pd.DataFrame(np.arange(10).reshape(-1, 2), columns=['A', 'B'])
>>> obj
   A  B
0  0  1
1  2  3
2  4  5
3  6  7
4  8  9
>>> 
>>> m = obj % 3 == 0
>>> 
>>> obj.mask(m, -obj)
   A  B
0  0  1
1  2 -3
2  4  5
3 -6  7
4  8 -9
>>> 
>>> obj.where(m, -obj) == obj.mask(~m, -obj)
      A     B
0  True  True
1  True  True
2  True  True
3  True  True
4  True  True

这里是一段防爬虫文本，请读者忽略。
本文原创首发于 CSDN，作者 TRHX。
博客首页：https://itrhx.blog.csdn.net/
本文链接：https://itrhx.blog.csdn.net/article/details/106900748
未经授权，禁止转载！恶意转载，后果自负！尊重原创，远离剽窃！

你可能感兴趣的:(#,Pandas)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
pythonpandas函数详解_Python pandas常用函数详解 Senvn
本文研究的主要是pandas常用函数，具体介绍如下。1import语句importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportdatetimeimportre2文件读取df=pd.read_csv(path='file.csv')参数：header=None用默认列名，0，1，2，3...names=['A','B','C'
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
python如何更方便的处理日期和时间 openwin_top python编程示例系列 python编程示例系列二 python java 前端
Arrow是一个第三方Python库，提供了更加易用和方便的日期和时间处理接口。它的设计目标是提供一种简单、一致且易于使用的API，以替代Python内置的datetime模块。Arrow支持各种日期和时间的操作，包括时区转换、日期和时间格式化、日期和时间差计算等功能。它还支持与其他日期和时间库的互操作，例如datetime、dateutil和pandas等库。以下是一个使用Arrow库的简单示例
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
如何“选择不同的“?跨越 pandas 中的多个数据框列? 潮易 pandas
在pandas中，如果你想要选择不同的列，你可以使用DataFrame的loc属性和iloc属性的组合。loc属性是基于标签的，iloc属性则是基于索引的。如果你想要选择多个列，你只需要将它们放入一个列表即可。以下是一个代码示例：```pythonimportpandasaspd#创建一个数据框df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]
详解 Pandas 的 query 函数文刀小桂 Pandas pandas python 开发语言
Pandas的query()方法能够使用字符串表达式来筛选DataFrame数据的行，类似于SQL的where子句importpandasaspddf=pd.DataFrame({"A":[1,3,5,6,7],"B":[11,10,9,8,12],"C":["hello","pandas","python","java","shell"],"D":["2024-02-01","2023-12-1
详解 Pandas 的 isin 用法文刀小桂 Pandas pandas python
Pandas的isin()方法可以判断数据值是否在某个数据集合中，若与集合中的某个值相等则返回True，反之返回False。importpandasaspddf=pd.DataFrame({"title":["one","two","three","four"],"type":["small","common","middle","large"],"num":[10,20,30,40]})#1.判
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
groupby 中如何显示 tqdm 的进度条？ domodo2020
在循环时调用tqdm显示进度已经是一个常规操作，常见的方式是foriiintqdm(...):...while循环的情况类似，whileicntintqdm(range(n)):...icnt+=1这里记录没有显式循环时，在groupby中的用法：importpandasaspdimportnumpyasnpfromtqdmimporttqdmdf=pd.DataFrame(np.random.r
pandas读取xlsx文件使用sqlachemy写到数据库 hzw0510 pandas pandas 数据库
pandas读取xlsx文件使用sqlachemy写到数据库要使用pandas和SQLAlchemy将Excel文件中的数据读取到数据库中，你可以按照以下步骤进行操作：安装必要的库：确保你已经安装了pandas、SQLAlchemy和openpyxl（用于读取Excel文件）。可以使用以下命令安装：pipinstallpandassqlalchemyopenpyxl如果你使用的是特定的数据库（如S
python 问题 ‘list‘ object cannot be interpreted as an integer 和‘int‘ object is not iterable annekqiu python
访问同一个excel表格（含有多个sheet）importnumpyasnpimportpandasaspdimportxlrd#读取excel的库importxlwt#写excel的库data=xlrd.open_workbook('./161005.xlsx')#打开excel文件读取数据table=data.sheets()[0]#读取sheet1h=table.ncols#获得列表数目a1
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
Python酷库之旅-第三方库Pandas(115) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲506、pandas.DataFrame.rank方法506-1、语法506-2、参数506-3、功能506-4、返回值506-5、说明506-6、用法506-6-1、数据准备506-6-2、代码示例506-6-3、结果输出507、pandas.DataFrame.round方法507-1、语法507-2、参数507-3、功能507-4、返回值507-5、说明507-6、用法507
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
pandas中的loc和iloc 白日与明月 python 数据挖掘 pandas
loc和iloc的比较.loc和.iloc是pandas提供的两种不同的索引方法，它们的主要区别在于索引数据的依据：.loc：基于标签的索引，使用DataFrame或Series的索引标签（即行名和列名）来获取数据。可以使用单个标签、标签列表、标签切片、布尔数组或者callable函数作为索引器。如果使用标签索引并且标签不存在，.loc会抛出一个KeyError。对于切片，包括两端的标签。.ilo
pandas loc与iloc的区别 authorized_keys 数据处理 python pandas loc iloc
目录一、二者的特点二、官网原文三、例子——总有一款适合你一、二者的特点loc可用“字符”、“整数”、“布尔值”作为索引，也就是标签索引注意：此处的“整数”将被解释为index的一个label而不是index的位置iloc只允许“整数”作为索引，也就是位置索引，和列表索引类似，里面只能是数字注意：此处的“整数”将被解释为index的位置，前闭后开其中，loc是指location的意思，iloc中的i
pandas中loc和iloc的区别林光虚霁晓数据分析 pandas
在Pandas中，loc和iloc是用于选择和过滤数据的两种主要方法，它们的区别在于使用的索引类型。1.loc：基于标签索引loc是基于行或列的标签（label）来选择数据。它可以按行或列的名称来访问数据，也可以通过布尔索引选择。支持的索引类型：行标签、列标签、布尔索引。语法：DataFrame.loc[row_indexer,column_indexer]示例importpandasaspd#创
seurat自学笔记1.0 单细胞数据导入 Sanye2022 python pandas
Python读取.h5ad文件importanndataimportpandasaspdadata=anndata.read("/home/R/R_data/Seurat/PBMC10/output/adata.h5ad")#adata.X.todense()#将稀疏矩阵转成普通矩阵#X=pd.DataFrame(adata.X.todense())#cell_name=adata.obs.ind
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
python的pandas库帅维维 python pandas 开发语言
什么是pandasPandas是一个开源的第三方Python库，它从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具，目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。数据结构Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在Nu
Python数据分析及可视化教程--商城订单为例-适用电商相关进行数据分析---亲测可用！！！！ Dreams°123 AIGC 机器学习 python 测试工具数据分析大数据
前言：Python是进行数据分析和可视化的强大工具，常用的库包括Pandas、NumPy、Matplotlib和Seaborn。以下是一个基本的教程概述，介绍了如何使用这些库来进行数据分析和可视化：Python数据分析及可视化教程1、环境准备2、数据准备3、开始数据分析3.1、导入库3.2、加载数据3.3、数据预处理3.4、数据分析3.5、数据可视化4、总结解释使用方法：5、错误处理和异常判断说明
python第三方库手动安装教程_为了应对异常情况，提供最原始的python第三方库的安装方法：手动安装。往往是Windows用户需要用到这种方法。... weixin_39735247
进入pypi.python.org，搜索你要安装的库的名字，这时候有3中可能：第一种是exe文件，这种最方便，下载满足你的电脑系统和python环境的对应的exe，再一路点击next就可以安装。第二种是.whl类文件，好处在于可以自动安装依赖包。第三种是源码，大概都是zip、tar.zip、tar.bz2格式的压缩包，这个方法要求用户已经安装了这个包所依赖的其他包。例如pandas依赖于numpy
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比