小鸿的摸鱼日常

Python数据分析师|Pandas之数据结构

版权声明：原创不易，本文禁止抄袭、转载，侵权必究！

一、数据创建

创建Series数据
我们在上一篇介绍到Pandas中的Series类似于numpy.ndarray和Python中的List容器，所以我们可以用List容器创建Series数据：

import pandas as pd
from string import ascii_uppercase

series_data = pd.Series(list(ascii_uppercase))
print(series_data)

控制台输出：

也可以用numpy.ndarray数组创建Series数据：

import pandas as pd
import numpy as np
import random

series_data = pd.Series(np.random.randn(5))
print(series_data)
series_data = pd.Series(np.array(list(random.random() for _ in range(5))))
print(series_data)
series_data = pd.Series(np.arange(5))
print(series_data)

控制台输出：

0    0.748095
1   -1.129178
2    2.546962
3   -0.150222
4   -1.333712
dtype: float64
0    0.615831
1    0.261528
2    0.273036
3    0.345906
4    0.053881
dtype: float64
0    0
1    1
2    2
3    3
4    4
dtype: int32

我们使用了numpy中的random()、array()、arange()方法(其返回类型都是numpy.ndarray)并结合Python自带的标准库random创建了三个Series，成功创建并输出数据

#np.random.randn()方法能够随机返回指定数字的实数，与Python自带的标准库random类似，Python内置的random模块还有以下常用操作：

import random

#随机返回0-1之间的一个小数：
ramdom.random()

#随机返回指定区间内的一个整数：
ramdom.randint(3, 5)

这种操作在进行数据实验或者爬虫时会经常被用到，比如我们在爬取数据时为了避免爬取速度过快或防止对方的服务器监测到我们的爬虫程序，可用延时操作：

import random
import time

time.sleep(random.random())
time.sleep(random.randint(3, 5))

#array()方法可直接返回numpy.ndarray数组(强制性转换)，类似于Python中的List容器

#arange()方法可返回指定范围内的numpy.ndarray数组，类似于Python中的全局函数range()，可进行skip(跳跃)操作：

#input:
ndarray_data = np.arange(1, 6, 2)

#output
[1 3 5]

arange()方法还可创建多维ndarray数组，比如我们现在创建一个2*3的二维ndarray数组，并直接将该数组转换为矩阵：

#input:
ndarray_data = np.arange(6).reshape(2, 3)

#output
[[0 1 2]
 [3 4 5]]

#type(ndarray_data )
<class 'numpy.ndarray'>

#input:
matrix_data = np.bmat(np.arange(6).reshape(2, 3))
#matrix_data = np.matrix(np.arange(6).reshape(2, 3))

#output
[[0 1 2]
 [3 4 5]]

#type(matrix_data )
<class 'numpy.matrix'>

从上面的代码中我们可看出，同样是2*3结构，输出数据也一样，但数据类型却不同，分别是ndarray和matrix，根据业务逻辑，有时候我们可能需要将数组转换为矩阵并执行相关的计算(矩阵链乘法等)

使用List容器或ndarray数组是可以成功创建Series数据的，那么如果使用tuple(元组)、dict(字典)、set(集合)可以创建成功吗？我们实验一下

#使用元组创建Series：

#input:
series_data = pd.Series(('a','b', 'c'))

#output
0    a
1    b
2    c
dtype: object

从输出可以看出，元组被转换为了一整列数据，并且索引默认也是数字

#使用字典创建Series：

#input:
series_data = pd.Series({'a': '1', 'b': 2, 'c' : 3})

#output
a    1
b    2
c    3
dtype: object

从输出可以看出，字典中所有的value也被转换为了一整列数据，但是默认索引数字被字典中的key取代了

#使用集合创建Series：

#input:
import random
series_data = pd.Series(set(random.random() for _ in range(5)))

#output
TypeError: 'set' type is unordered

从输出可以看出，当使用集合创建Series时抛出了TypeError(类型错误)，报错的意思就是说集合是无序的，那这就奇怪了，我们在上面使用字典创建Series时使用的字典也是无序的，为什么无序字典能够成功创建Series，而无序集合却创建失败呢？

小伙伴们可以去各种渠道搜一下(Google/StackOverFlow/ChatGPT/官方文档等)

注意：使用dict()全局函数或{}创建的字典默认是无序的，若有特殊业务需求也用使用有序字典，可从标准库collections直接导入即可：

from collections import OrderedDict

创建DataFrame数据
上篇教程说过，我们可以把DataFrame看作Series组成的字典或二维数组，而字典是创建DataFrame是最常用的方式，，其中key(键)表示列名，value(值)表示一整列数据，而value可以由series、list、tuple、dict、ndarray创建，现在我们使用列表创建value，代码如下：

import pandas as pd
from string import ascii_lowercase,ascii_uppercase

dataframe_data = pd.DataFrame(data={'lower_case': list(ascii_lowercase), 'upper_case': list(ascii_uppercase)})

我们只看前5数据：

#intput
print(dataframe.head(n=5))

#output
  lower_case upper_case
0          a          A
1          b          B
2          c          C
3          d          D
4          e          E

我们也可以下面的格式查看前5行数据：

datafram_data{ : 5}

从上面输出可看出，小写字母在第一列，大写字母在第二列，但这样的顺序并非不变，因为字典默认是无序的，也就是说在下一次输出时大写字母有可能出现在第一列，为了固定每列数据的顺序，我们可使用参数columns，需要传递一个列表：

dataframe_data = pd.DataFrame(data={'lower_case': list(ascii_lowercase), 'upper_case': list(ascii_uppercase)}, columns=['lower_case', 'upper_case'])

当然我们也可使用有序字典OrderedDict

输出数据相同的，但请注意，这里是先由元组对(key, value)组成列表，再由OrderedDict强制转换为有序字典

嵌套结构创建DataFrame

#元组列表创建DataFrame
既然由元组组成的列表可以通过OrderedDict转换为字典进而创建DataFrame，那么如果我们不通过OrderedDict进行转换，直接把由元组构成的列表传递给参数data能不能创建成功呢?试验一下：

#input
dataframe_data = pd.DataFrame(data=[(1, 2, 3), (4, 5, 6), (7, 8, 9)])

#output
   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9

#input
dataframe_data = pd.DataFrame(data=[('a', 'b', 'c'), ('d', 'e', 'f'), ('g', 'h', 'i')], columns=['A', 'B', 'C'])

#output
   A  B  C
0  a  b  c
1  d  e  f
2  g  h  i

从上面的输出数据可以看出，当我们以数字组成的元组对构建列表并传递给参数data创建DataFrame时，一个元组对变成了一行数据，就是说有n个元组对就有n行数据；

而且我们没有指定列名，列名默认是以0开头的单位递增数字，当我们给columns参数传递大写字母列名时，数字列名被替换成了我们所定义的大写字母

#字典列表创建DataFrame
由元组构成的列表能够成功创建DataFrame，那么由字典构成的列表能够创建DataFrame吗？再次进行实验：

#input
dataframe_data = pd.DataFrame(data=[{"a": 1, "b": 2, "c": 3}, {"a": 4, "b": 5, "c": 6}])

#output
   a  b  c
0  1  2  3
1  4  5  6

从输出结构可以看出，由字典构成的列表能够创建成功DataFrame，并且列名就是
字典的key，每个字典的所有value构成了每一行数据

但是这里的每个字典长度都是相同的(都是3)，如果字典长度不一样会怎样呢？比如
在列表中我们定义第一个字典的长度为3，第二个字典长度为2，输出格式会有什么
不同呢？实验一下：

#input
dataframe_data = pd.DataFrame(data=[{"a": 1, "b": 2, "c": 3}, {"a": 4, "b": 5}])

#output
   a  b    c
0  1  2  3.0
1  4  5  NaN

我们所定义的第二个字典没有key为字符c的数据，而输出的数据中有一个特殊值
NaN，很明显，如果我们在第二个字典中定义key“c”为6，那么NaN的位置应该是
6，而NaN是Pandas用于标记缺失数据的特殊值，来源于numpy，还有np.nan也
表示缺失值，我们可以直接把NaN或nan定义为value：

#input
dataframe_data = pd.DataFrame(data=[{"a": 1, "b": np.NaN, "c": 3}, {"a": np.nan, "b": 5}])

#output
     a    b    c
0  1.0  NaN  3.0
1  NaN  5.0  NaN

字典列表创建DataFrame也是比较常用的方式，特别是在爬虫方面，因为在爬取数
据时，我们常常会采用字典+列表的格式来存储数据，字典其实是哈希表在Python
中的一种表现形式，哈希表由哈希函数(或称散列函数)+数组实现的，而Python中
的列表是使用数组来实现的，在平均情况下这两种数据结构读取的时间复杂度都为
O(1)，能够极大提高我们的代码性能

想象一下，在爬完数据之后，如果我们采用字典+列表的格式创建DataFrame，可以
直接对数据进行分析或存储，不需要再进一步转化为series、list、ndraary、tuple
类型以此来创建DataFrame，是不是非常方面呢？办公效率也会极大提升，但这不
局限于爬虫，比如我们直接从数据库抽取数据等

二、Series数据结构

Series索引
这里我们使用上一篇教程所用的实习僧数据集，先看看数据：

import pandas as pd

filename = '2021_Python_shixi_data.xlsx'
df = pd.read_excel(filename)
print(df)

控制台输出：

           position     salary location degree  time duration
0    三维人体/三维视觉算法实习生  250-300/天       全国     硕士  5天／周    实习3个月
1       python开发工程师  100-150/天       成都     不限  5天／周    实习5个月
2         Python工程师     0-50/天       北京     不限  2天／周    实习2个月
3         python实习生  200-400/天       全国     本科  4天／周    实习3个月
4       Python开发工程师  120-200/天       成都     大专  5天／周    实习3个月
..              ...        ...      ...    ...   ...      ...
234  清华大学机器学习课题组实习生       薪资面议       深圳     本科  5天／周   实习12个月
235           爬虫实习生  120-150/天       南京     不限  5天／周    实习3个月
236         数据采集实习生  100-150/天       北京     不限  4天／周    实习6个月
237          少儿编程讲师  400-500/天       北京     本科  6天／周   实习12个月
238         信息安全工程师  150-300/天       广州     大专  5天／周    实习8个月

[239 rows x 6 columns]

之前我们说过，熟悉了pandas的数据结构之后，不需要打印类型，我们就能根据获取数据的范围和字段大致判断出是Series还是DataFrame，比如我们只获取单行或单列那么返回类型就是Series，如果获取多行或多列就是DataFrame，现在我们单独获取position这个字段的整列数据：

#input
df['postition']

#output
0      三维人体/三维视觉算法实习生
1         python开发工程师
2           Python工程师
3           python实习生
4         Python开发工程师
            ...      
234    清华大学机器学习课题组实习生
235             爬虫实习生
236           数据采集实习生
237            少儿编程讲师
238           信息安全工程师
Name: position, Length: 239, dtype: object

其实每个字段(列名)也是DataFrame的属性，所以我们可以这样获取数据：

df.postition

通过观察可以发现，无论是DataFrame还是Series数据，在不指定新的索引之前，索引默认是以0开头单位递增的整数，可以通过.index属性单独查看索引：

#input
df.postition.index

#output
RangeIndex(start=0, stop=239, step=1)

假想一下，无论是工作中或是个人项目中，此时由于某种逻辑，你需要把默认的索引更改并插入到数据库中，以便以后的数据查询，即便某些数据库有着特殊的索引(比如MySQL能够设置索引自增，MongoDB能够为每条数据创建默认的索引ID等)

现在我们希望为每条数据创建类似2023-03-18 00:03:58这样的索引，我们需要使用DataFrame中的date_range()方法：

#input
position_series = df['position']
position_series.index = pd.date_range('2023-03-18', periods=len(df), freq='S')
print(position_series )

#output
2023-03-18 00:00:00    三维人体/三维视觉算法实习生
2023-03-18 00:00:01       python开发工程师
2023-03-18 00:00:02         Python工程师
2023-03-18 00:00:03         python实习生
2023-03-18 00:00:04       Python开发工程师
                            ...      
2023-03-18 00:03:54    清华大学机器学习课题组实习生
2023-03-18 00:03:55             爬虫实习生
2023-03-18 00:03:56           数据采集实习生
2023-03-18 00:03:57            少儿编程讲师
2023-03-18 00:03:58           信息安全工程师
Freq: S, Name: position, Length: 239, dtype: object

date_range()方法有四个参数，分别是start(开始时间)、end(结束时间)、periods(数据个数/长度)、freq(递增频率)，freq参数可以选择秒数递增、月数递增、年数递增等，现在我们来建一个长度为5的时间索引并查看类型：

#input
time_index = pd.date_range('2023-03-18', periods=5)
print(time_index)

#output
DatetimeIndex(['2023-03-18', '2023-03-19', '2023-03-20', '2023-03-21',
               '2023-03-22'],
              dtype='datetime64[ns]', freq='D')

#input
type(time_index)

#output
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>

从输出可看出，其返回类型是DatetimeIndex，每个元素的类型是datetime64，而且如果我们不指定递增频率的话默认是以天数来递增的；这里还需注意一点，date_range()的start和end时间参数无论是形如[xxxx/xx/xx]还是[xx/xx/xxxx]这样的格式最终都将转换为[xxxx-xx-xx]这样的格式，代码如下所示：

#格式1
time_index = pd.date_range('2023/3/18', periods=5)

#格式2
time_index = pd.date_range('3/18/2023', periods=5)

返回内容和上面一致

说到这种格式，我就想到了Python中的datetime模块和time模块，如果我们想要获取当前时间作为索引并且以秒数递增的话可以这样做：

import time

now_time = time.strftime('%Y%m%d %H:%M:%S', time.localtime(int(time.time())))
time_index = pd.date_range(now_time, periods=5, freq='S')
print(time_index)

#output
DatetimeIndex(['2023-03-20 22:11:16', '2023-03-20 22:11:17',
               '2023-03-20 22:11:18', '2023-03-20 22:11:19',
               '2023-03-20 22:11:20'],
              dtype='datetime64[ns]', freq='S')

也可以使用datetime模块这样做：

import datetime

now_time = datetime.now().strftime('%Y%m%d %H:%M:%S')
time_index = pd.date_range(now_time, periods=5, freq='S')
print(time_index)

#output
DatetimeIndex(['2023-03-20 22:16:35', '2023-03-20 22:16:36',
               '2023-03-20 22:16:37', '2023-03-20 22:16:38',
               '2023-03-20 22:16:39'],
              dtype='datetime64[ns]', freq='S')

Series常用属性
#使用loc属性获取Series子集

#input
position_series = df['position']
print(position_series.loc[5:10])

#output
5     Python开发实习生
6       Python实习生
7     python开发工程师
8       Python实习生
9       Python实习生
10    Python研发工程师
Name: position, dtype: object

从输出结果可看出，使用loc属性获取数据时，数据是包含最后一个切片索引位置数据的

#使用iloc属性获取Series子集

#input
position_series = df['position']
print(position_series.iloc[:5])

#output
0    三维人体/三维视觉算法实习生
1       python开发工程师
2         Python工程师
3         python实习生
4       Python开发工程师
Name: position, dtype: object

从输出结果可看出，使用loc属性获取数据时，数据是不包含最后一个切片索引位置数据的

#使用dtype或dtypes属性获取Series类型

#input
position_series.dtype

#output
object

#使用shape属性获取Series的维数

#input
position_series.shape

#output
(239,)

#使用size属性获取Series的元素数量

#input
position_series.size

#output
239

直接使用Python全局函数len()也可：len(position_series)

#使用values属性获取numpy.ndarray数组：

position_series.values

控制台输出：

从输出数据可看出这是一个类似Python中List容器的类型，元素之间是没有逗号的，该类型就是，也可称为ndarray向量，而series我们也可称为series向量，我们会在后面介绍如何用向量语法替换循环语法，以此提高代码的执行性能

Series常用方法
#使用append()方法连接两个或多个Series

#input
series_one = pd.Series(np.zeros(5))
series_two = pd.Series(np.ones(5))
series_three = series_one.append(series_two)
print(series_three)

#output
0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

注意：两个series连接之后，默认的索引不是单位递增的，而是它们之前的series索引，而且使用append方法连接两个series会有一个警告：

FutureWarning: The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.

这个警告就是说append方法会在pandas未来的版本中移除，提示我们使用pd.concat()方法来替换：

series_three = pd.concat([series_one, series_two])

输出数据是一样的，警告没有了

#使用describe()方法计算概况统计量

#input
series_three.describe()

#output
count    10.000000
mean      0.500000
std       0.527046
min       0.000000
25%       0.000000
50%       0.500000
75%       1.000000
max       1.000000
dtype: float64

#使用drop_duplicates()方法对series进行去重返回series

#input
series_three.drop_duplicates()

#output
0    0.0
0    1.0
dtype: float64

因为series_three的元素只含0和1，所有去重后只剩0和1

#使用get_values()方法获取ndarray向量
此方法和series.values属性效果相同

#使用unique()方法对series进行去重返回ndarray数组(向量)
此方法目的也是去重，但返回的是ndarray向量，不是series向量

#使用sample()方法对series进行随机采样

由于series也是向量，numpy的ndarray向量和series中的一些方法有重叠，比如max()、min()、mean()、median()、众数mode()、协方差cov()、std()等，我们可把series看作是ndarray向量的扩展

三、DataFrame数据结构

前面我们介绍了series的索引、属性和方法，这些操作同样适用于DataFrame

#更改DataFrame的默认索引

#input
filename = '2021_Python_shixi_data.xlsx'
df = pd.read_excel(filename)
now_time = datetime.now().strftime('%Y%m%d %H:%M:%S')
df.index = pd.date_range(now_time, periods=df.shape[0], freq='S')
print(df.tail(n=5))

#output
                           position     salary location degree  time duration
2023-03-22 20:22:31  清华大学机器学习课题组实习生       薪资面议       深圳     本科  5天／周   实习12个月
2023-03-22 20:22:32           爬虫实习生  120-150/天       南京     不限  5天／周    实习3个月
2023-03-22 20:22:33         数据采集实习生  100-150/天       北京     不限  4天／周    实习6个月
2023-03-22 20:22:34          少儿编程讲师  400-500/天       北京     本科  6天／周   实习12个月
2023-03-22 20:22:35         信息安全工程师  150-300/天       广州     大专  5天／周    实习8个月

DataFrame常用属性
shape属性：

#input
df.shape

#output
(239, 6)

index属性：

#input
df.index

#output
DatetimeIndex(['2023-03-22 20:25:10', '2023-03-22 20:25:11',
               '2023-03-22 20:25:12', '2023-03-22 20:25:13',
               '2023-03-22 20:25:14', '2023-03-22 20:25:15',
               '2023-03-22 20:25:16', '2023-03-22 20:25:17',
               '2023-03-22 20:25:18', '2023-03-22 20:25:19',
               ...
               '2023-03-22 20:28:59', '2023-03-22 20:29:00',
               '2023-03-22 20:29:01', '2023-03-22 20:29:02',
               '2023-03-22 20:29:03', '2023-03-22 20:29:04',
               '2023-03-22 20:29:05', '2023-03-22 20:29:06',
               '2023-03-22 20:29:07', '2023-03-22 20:29:08'],
              dtype='datetime64[ns]', length=239, freq='S')

values属性：

#input
df.values

#output
[['三维人体/三维视觉算法实习生' '250-300/天' '全国' '硕士' '5天／周' '实习3个月']
 ['python开发工程师' '100-150/天' '成都' '不限' '5天／周' '实习5个月']
 ['Python工程师' '0-50/天' '北京' '不限' '2天／周' '实习2个月']
 ...
 ['数据采集实习生' '100-150/天' '北京' '不限' '4天／周' '实习6个月']
 ['少儿编程讲师' '400-500/天' '北京' '本科' '6天／周' '实习12个月']
 ['信息安全工程师' '150-300/天' '广州' '大专' '5天／周' '实习8个月']]

注意看，DataFrame的values属性返回的是一个二维numpy.ndarray数组，中间使用三个点代表中间未打印的数据，即数据不会全部打印，使用tolsit()方法或全局函数list()将其转换为列表：

df.values.tolist()

打印列表数据，此时会全部打印出来：

转换为列表之后数据全部打印，元素之间有逗号相隔

loc属性(包含最后一个索引数据)：

#input
df.loc[:5, ['position']]

#output
         position
0  三维人体/三维视觉算法实习生
1     python开发工程师
2       Python工程师
3       python实习生
4     Python开发工程师
5     Python开发实习生

从输出数据看出，使用loc属性获取数据，当最后一个索引位置为5时，可打印6行数据，此时我们仅获取position这个字段的数据

iloc属性(不包含最后一个索引数据)：

#input
df.iloc[:5, [0]]

#output
         position
0  三维人体/三维视觉算法实习生
1     python开发工程师
2       Python工程师
3       python实习生
4     Python开发工程师

dtypes属性：

#input
df.dtypes

#output
<class 'pandas.core.frame.DataFrame'>

columns属性：

#input
df.columns

#output
Index(['position', 'salary', 'location', 'degree', 'time', 'duration'], dtype='object')

DataFrame获取多列数据：

#input
df[['position', 'salary']]

#output
0    三维人体/三维视觉算法实习生  250-300/天
1       python开发工程师  100-150/天
2         Python工程师     0-50/天
3         python实习生  200-400/天
4       Python开发工程师  120-200/天
..              ...        ...
234  清华大学机器学习课题组实习生       薪资面议
235           爬虫实习生  120-150/天
236         数据采集实习生  100-150/天
237          少儿编程讲师  400-500/天
238         信息安全工程师  150-300/天

DataFrame常用方法
#info()方法获取概要信息

#input
df.info()

#output
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 239 entries, 0 to 238
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   position  239 non-null    object
 1   salary    239 non-null    object
 2   location  239 non-null    object
 3   degree    239 non-null    object
 4   time      239 non-null    object
 5   duration  239 non-null    object
dtypes: object(6)
memory usage: 11.3+ KB
None

从输出结果可看出，info()方法包含一些概要信息，包括数据类型，索引范围RangeIndex，总列数，字段的类型object(6)，表示这6列数据全是字符串类型

#count()方法统计每列非NaN的的数量

#input
df.count()

#output
position    239
salary      239
location    239
degree      239
time        239
duration    239
dtype: int64

#concat()方法连接两个或多个DataFrame

#input
dataframe_one = pd.DataFrame(data=[list(np.zeros(5))])
dataframe_two = pd.DataFrame(data=[list(np.ones(5))])
dataframe_three = pd.concat([dataframe_one, dataframe_two])
print(dataframe_three)

#output
     0    1    2    3    4
0  0.0  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0  1.0

#也可使用append()方法进行连接

#input
dataframe_three = dataframe_one.append(dataframe_two)

#output
FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
  dataframe_three = dataframe_one.append(dataframe_two)
     0    1    2    3    4
0  0.0  0.0  0.0  0.0  0.0
0  1.0  1.0  1.0  1.0  1.0

与连接series一样，仍然会有一个未来警告，所以以后无论是连接series还是连接DataFrame我们都使用concat()方法

这里分享一个Python库glob，它可以按我们指定的规则把所有符合规则的文件名以列表的形式返回，比如我们想要匹配当前目录下所有以下划线(_)开头的文件名，首先看看目录文件：

注意，当前文件中以下划线开头的共有4个文件，接下来看看我们匹配的对不对：

import glob

print(glob.glob('_*'))

匹配看来是正确的：

['_python_2020.xlsx', '_python_2021.xlsx', '_python_2022.xlsx', '_python_2023.xlsx']

设想一下，现在你有一个任务，需要把Excel文件中以下划线开头的文件批量合并，为了下一步的数据分析做准备，此时你可以把代码写成这样：

all_df = pd.concat([pd.read_excel(file) for file in glob.glob('_*')])

这样一来，我们在遇到类似的问题时，不必再一个一个读取Excel文件以及合并DataFrame了，编写自动化代码，可以让我们的工作效率得以提高，代码复现性也提高了

这种方式有点类似于os库中的listdir()方法：

#input
import os

dir_list = os.listdir('./')
print(dir_list)

#output
['2021_Python_shixi_data.xlsx', 'shixiseng_data_analysis.py', '_python_2020.xlsx', '_python_2021.xlsx', '_python_2022.xlsx', '_python_2023.xlsx']

但是该方法会返回所有的文件名，如果我们只想要以下划线开头的文件名，可能就需要使用正则表达式进行字符匹配了，比如我们可以这样写：

re.findall('^_.*', filename)

这样就可以匹配出以下划线开头的文件名，.*表示贪婪匹配

#使用drop_duplicates()方法对DataFrame去重
注意，pandas的这种去重方法必须所有字段的数据相同时才会进行去重，也就是说对于每一行数据，就算其他字段都相同，只要有一个字段的数据不相同pandas是不去重的，比如下面这两行数据：

你没猜错，当你调用drop_duplicates()方法进行去重时，这两条数据是不去重的，因为它们的description这个字段是不同的，只因为前者多了三个点“…”

当pandas中的内置方法不能满足我们的需求时，我们就需要自己去写一个去重方法，比如上面这两条数据，如果我们只想保留其中一条数据使得id唯一，一个简单的做法是使用动态规划算法+哈希表(可以理解为Python中的字典)，每迭代一条数据，我们都将该数据的id存入哈希表中，如果后面的数据能在哈希表中找到，说明该条数据是重复的，直接continue，不用再迭代后面的数据了

很明显，上面的去重思路是可行的，但是当遇到数百万，甚至上亿条数据时，这种方法无疑会存在相当大的时间复杂度，虽然我们可使用异步(Asynchronous)的方式，但前提是要符合我们的业务逻辑；这时候我们可采用他人写好的大规模去重算法，比如Boom Filter(布隆过滤器)，这个算法的空间利用率极高，常用来处理大规模的数据去重；当然，如果你对这方面感兴趣并且肯花时间专研，可以尝试去编写一个大规模去重算法，使得比已经开源的去重算法的时间复杂度还要低，那就非常厉害了！

pandas中的drop_duplicates()去重方法其实还有很多限制(一些坑)，比如当你存入的字段中嵌套着其他结构，比如列表：

上面这个type字段中是一个列表，有时候我们确实需要这样的格式存储数据，这是合理的，但是此时如果你用drop_duplicates()去重，不仅去不了重，反而会报错，代码如下：

df = pd.DataFrame(data=[
                            ['1653452436', ['Hacker', 'Scam'], 'I see this hacker...'],
                            ['1653452436', ['Hacker', 'Scam'], 'I see this hakcer']

                ])
print(df.drop_duplicates())

报错如下:

TypeError: unhashable type: 'list'

字段元素类型如果是List，是能够在不去重的情况下存储在Excel、csv或其他格式的文件中，如果一旦使用drop_duplicates()去重方法就会报错，但是，如果你把列表变为元组，确实能够运行，即使达不到我们想要的去重效果：

df = pd.DataFrame(data=[
                            ['1653452436', ('Hacker', 'Scam'), 'I see this hacker...'],
                            ['1653452436', ('Hacker', 'Scam'), 'I see this hakcer']

                ])
print(df.drop_duplicates())

数据输出如下：

            0               1                     2
0  1653452436  (Hacker, Scam)  I see this hacker...
1  1653452436  (Hacker, Scam)     I see this hakcer

其实还有很多适用于小中型数据规模的去重算法思路，DataFrame也有很多其他常用方法，我们会结合后面的内容给大家一起介绍

四、更改数据

#为DataFrame添加新列

from datetime import datetime
import pandas as pd

filename = '2021_Python_shixi_data.xlsx'
df = pd.read_excel(filename)
df['start_time'] = pd.date_range(datetime.now(), periods=df.shape[0], freq='S')
print(df)

我们为实习僧数据添加了每个岗位开始工作的时间，频率为秒，这数据显然不正常，但这仅仅是一个示例而已，输出如下：

           position     salary  ... duration                 start_time
0    三维人体/三维视觉算法实习生  250-300/天  ...    实习3个月 2023-03-23 22:13:19.849278
1       python开发工程师  100-150/天  ...    实习5个月 2023-03-23 22:13:20.849278
2         Python工程师     0-50/天  ...    实习2个月 2023-03-23 22:13:21.849278
3         python实习生  200-400/天  ...    实习3个月 2023-03-23 22:13:22.849278
4       Python开发工程师  120-200/天  ...    实习3个月 2023-03-23 22:13:23.849278
..              ...        ...  ...      ...                        ...
234  清华大学机器学习课题组实习生       薪资面议  ...   实习12个月 2023-03-23 22:17:13.849278
235           爬虫实习生  120-150/天  ...    实习3个月 2023-03-23 22:17:14.849278
236         数据采集实习生  100-150/天  ...    实习6个月 2023-03-23 22:17:15.849278
237          少儿编程讲师  400-500/天  ...   实习12个月 2023-03-23 22:17:16.849278
238         信息安全工程师  150-300/天  ...    实习8个月 2023-03-23 22:17:17.849278

#直接更改DataFrame整列
比如我们把实习总长全部改为3个月：

#input
df['duration'] = [3 for _ in range(len(df))]

#output
           position     salary location degree  time  duration
0    三维人体/三维视觉算法实习生  250-300/天       全国     硕士  5天／周         3
1       python开发工程师  100-150/天       成都     不限  5天／周         3
2         Python工程师     0-50/天       北京     不限  2天／周         3
3         python实习生  200-400/天       全国     本科  4天／周         3
4       Python开发工程师  120-200/天       成都     大专  5天／周         3
..              ...        ...      ...    ...   ...       ...
234  清华大学机器学习课题组实习生       薪资面议       深圳     本科  5天／周         3
235           爬虫实习生  120-150/天       南京     不限  5天／周         3
236         数据采集实习生  100-150/天       北京     不限  4天／周         3
237          少儿编程讲师  400-500/天       北京     本科  6天／周         3
238         信息安全工程师  150-300/天       广州     大专  5天／周         3

#删除DataFrame整列
比如我们想把degree这一列数据整个删掉，可以调用drop()方法，并把axis参数赋值为1，表示删除整列：

#input
no_degree_df = df.drop(['degree'], axis=1)

#output
           position     salary location  time duration
0    三维人体/三维视觉算法实习生  250-300/天       全国  5天／周    实习3个月
1       python开发工程师  100-150/天       成都  5天／周    实习5个月
2         Python工程师     0-50/天       北京  2天／周    实习2个月
3         python实习生  200-400/天       全国  4天／周    实习3个月
4       Python开发工程师  120-200/天       成都  5天／周    实习3个月
..              ...        ...      ...   ...      ...
234  清华大学机器学习课题组实习生       薪资面议       深圳  5天／周   实习12个月
235           爬虫实习生  120-150/天       南京  5天／周    实习3个月
236         数据采集实习生  100-150/天       北京  4天／周    实习6个月
237          少儿编程讲师  400-500/天       北京  6天／周   实习12个月
238         信息安全工程师  150-300/天       广州  5天／周    实习8个月

五、知识总结

本篇教程向大家介绍了Series和DataFrame创建数据的多种方式，它们的的常用属性和方法，索引的构建，怎样更改和删除DataFrame数据等，详细介绍了一些方法的使用限制(比如去重方法)，注意到了其中的一些坑，还结合了其他的库进行对比学习以此增强记忆，扩展技能链。我们最终的目的是为了实现代码的自动化和复现性，达到一题多解，多题一解的效果，从而提高办公效率

六、作者Info

Author：小鸿的摸鱼日常，Goal：让编程更有趣！

专注于算法、爬虫，网站，游戏开发，数据分析、自然语言处理，AI等，期待你的关注，让我们一起成长、一起Coding！

版权说明：本文禁止抄袭、转载，侵权必究！

你可能感兴趣的:(数据分析教程,python,pandas,数据分析)

MySQL保姆级教程（SQL语法基础篇）从小白到高手的进阶指南，收藏这一篇就够了网安导师小李网络安全编程程序员 mysql sql adb 安全 web安全网络自动化
本章节精心构构造SQL语法学习之旅的基石，旨在从基础出发，逐步深入，全面解析SQL语法规则并辅以丰富实例。通过这一篇章，您将循序渐进地掌握MySQL的核心语法，开启数据库操作的新境界。1：SQL语言概述SQL（StructuredQueryLanguage），简称SQL。结构化查询语言包含6个部分：类型释义范例数据查询语言DQL：DataQueryLanguage如SELECT数据操作语言DML：
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
ESP32 小智 AI 机器人入门教程从原理到实现（自己云端部署）与光同尘大道至简人工智能机器人 python 人机交互 github visual studio 单片机
此博客为一篇针对初学者的详细教程，涵盖小智AI机器人的原理、硬件准备、软件环境搭建、代码实现、云端部署以及优化扩展。文章结合了现有的网络资源，取长补短，确保内容易于理解和操作。简介：本教程将指导初学者使用ESP32微控制器开发一个简单的语音对话机器人“小智”。我们将介绍所需的基础原理、硬件准备、软件环境搭建，以及如何编写代码实现语音唤醒和与云端大模型的对接。通过本教程，即使没有深厚的AI或嵌入式经
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
FastAPI 自定义参数验证器完全指南：从基础到高级实战 qcidyu 文章归档安全性数据校验 Web开发 API设计 Field函数参数验证 FastAPI
title:FastAPI自定义参数验证器完全指南：从基础到高级实战date:2025/3/11updated:2025/3/11author:cmdragonexcerpt:本教程深入探讨FastAPI中自定义参数验证器的使用，特别是通过Field函数进行数据校验。从基础概念到高级用法，通过详细的代码示例、课后测验和常见错误解决方案，帮助初学者快速掌握FastAPI中自定义参数验证器的核心知识。
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
YOLO训练指南（以V3为例） niuTaylor YOLO 目标检测深度学习机器学习
YOLO训练指南（以V3为例）前言了解yolo3https://cloud.tencent.com/developer/news/76803https://www.bilibili.com/video/av77670746/1.总教程★★★https://blog.csdn.net/USTCsunyue/article/details/93648307★★★★https://blog.csdn.n
ROS安装以及程序运行问题总结 niuTaylor ROS 装机&刷机 linux
1.总教程https://blog.csdn.net/qq_41450811/article/details/99079041sudosh-c'./etc/lsb-release&&echo"debhttp://mirrors.ustc.edu.cn/ros/ubuntu/$DISTRIB_CODENAMEmain">/etc/apt/sources.list.d/ros-latest.list'
POI 的 Excel 读写操作教程 Kale又菜又爱玩 excel java
POI的Excel读写操作教程一、POI简介ApachePOI是一款在Java开发中广受欢迎的开源库，主要用于处理各种MicrosoftOffice文件格式，Excel文件便是其中之一。凭借其功能强大的API，POI不仅支持对Excel文件的读取、写入和修改，还为Java开发者在处理Excel相关业务时提供了极大的便利。二、POI的Excel读写操作案例（一）引入依赖在Maven项目中使用POI时
Netty入门教程 Kale又菜又爱玩 java 开发语言
Netty入门教程Netty是一个高性能、低延迟的网络通信框架，广泛应用于高并发、高吞吐量的网络应用程序中。它提供了简洁易用的API，封装了底层的复杂操作，让开发者能够专注于业务逻辑。本文将从基础概念入手，逐步深入Netty的核心组件、使用方法及高级特性，帮助你在生产环境中得心应手地使用Netty。1.什么是Netty？Netty是一个异步、事件驱动的网络通信框架，极大地简化了TCP和UDP网络编
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
ELK Stack 安装教程 - 构建日志存储告警系统运维
介绍“ELK”是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearch、Logstash和Kibana。Elasticsearch是一个搜索和分析引擎。Logstash是服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到诸如Elasticsearch等“存储库”中。Kibana则可以让用户在Elasticsearch中使用图形和图表对数据进行可视化。目前最
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本