阿阿阿安

深度学习（一） Python基本科学计算库

一.Numpy

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。其基本运算对象是一个N维数组对象 ndarray。

- 导入Numpy：import numpy as np

1.ndarray 数组初始化方法

（1）直接构建
- 用法：arr = np.array([[1,2],[3,4]],dtype=np.int32)
（2）arange构建
- 与range()不同，arange()产生的是数组，而range()是一个迭代器
- 形式：arange(start,end,step)，区间和步进都可以是浮点数
- 用法：arr2 = np.arange(1.5,3,0.1)
（3）linespace构建
- 形式：np.linspace(start,end,cnt)，给出的是区间内数据的个数，而不是步进，以此对区间做等分。另外，它的区间是左右闭区间。除非使用参数endpoint=False
- 用法：arr3 = np.linspace(1,10,20)
（4）zeros 全零构建
- 用法： arr4 = np.zeros((3,4),dtype=np.int32)
（5）ones 全一构建
- 用法：arr5 = np.ones((3,4),dtype=np.int32)
（6）eye 单位矩阵构建
- 用法： arr6 = np.eye(5,dtype=np.int32)
（7）empty()产生一个空的数组，其中的元素值是任意的
arr7 = np.empty((2,3),dtype=np.int32)
arr7.fill(10) #fill填充元素
print(arr7)

2.ndarray 数组属性

（1）ndarray.ndim 维度

（2）ndarray.shape 形状tuple

（3）ndarray.size 元素总数

（4）ndarray.dtype 元素数据类型

（2）ndarray.T 矩阵转置

arr = np.array([[1,2,3],[4,5,6],[7,8,9],[0,1,2]],dtype=np.int32)
print(arr.ndim) #维度
print(arr.shape) #形状tuple
print(arr.size) #元素总数
print(arr.dtype) #元素数据类型
arr2 = arr.reshape((3,4)) #改变形状
print(arr2)
arr3 = arr.T #求转置
print(arr3)
arr4 = arr.ravel() #扁平化数组（展成一维）
print(arr4)

3.ndarry 数组运算

（1）对应位置运算（两数组维度相同时）： +、-、*、/、%
注意：某些操作（例如+=和 *=）会直接更改被操作的矩阵数组而不会创建新矩阵数组

a = np.array([[1,2,3],[4,5,6]],dtype=np.int32)
b = np.array([[4,5,6],[1,2,3]],dtype=np.int32)
c = a - b
print(c)

（2）广播运算(当两数组维度不同时)：让所有输入数组都向其中形状最长的数组看齐，形状中不足的部分都通过在前面加 1 补齐

a = np.array([[1,2,3],[4,5,6]],dtype=np.int32)
c = np.array([7,8,9])
print(a * c)
'''
[[1,2,3],      [[7,8,9],
 [4,5,6]]  *    [7,8,9]]
'''

4.数组切片

（1）一维切片

（2）多维切片

4.数组切片
#(1)一维切片：和list的切片长的一样（切片是数据复制行为）
od = np.array([21000, 21180, 21240, 22100, 22400])
c = od[1:] - od[:-1] #可以这样计算每天的旅程
print(c)
#(2)多维切片
arr = np.array([[1,2,3],[4,5,6],[7,8,9],[0,1,2]],dtype=np.int32)
print(arr[:2,2])
print(arr[1,2])
print(arr[1:,1:3])
print(arr[1,...]) #三个点（ ... ）表示产生完整索引元组所需的冒号 = arr[1] = arr[1,:]

5.高级索引(可以用来批量赋值)

（1）数组索引（传入下标数组）
- 一维数组：索引数组元素表示下标，并根据索引数组样式组成新矩阵

- 多维数组：数组索引

a.取多行组成的新二维数组

b.取对应位置元素组成新的一维数组

c.取对应位置元素组成新的二维数组

#（1）数组索引（传入下标数组）
#   - 一维数组：索引数组元素表示下标
a = np.arange(12)**2                       # the first 12 square numbers
i = np.array( [ 1,1,3,8,5 ] )              # 下标取值一维数组
print(a[i])
j = np.array( [ [ 3, 4], [ 9, 7 ] ] )      # 下标取值并构成二维数组
print(a[j])
#   -多维数组：数组索引
palette = np.array( [ [0,0,0],
                       [255,0,0],
                       [0,255,0],
                       [0,0,255],
                       [255,255,255] ] )
# #取多行组成的新二维数组
index = [0,2,4]
print(palette[index])
# #取对应位置元素组成新的一维数组
index = [[0,1,2],[0,1,2]]
print(palette[index])
# #取对应位置元素组成新的二维数组
rows = [[0,0],[3,3]]
cols = [[0,2],[0,2]]
print(palette[rows,cols])

（2）ndarray索引（传入下标ndarray）

#（2）ndarray索引（传入下标ndarray）
#   -多维数组：nadrry索引
# #取多行组成的新二维数组
index = np.array([0,2,4])
print(palette[index])
# #组成新三维数组（第0行和第2行组成的新二维数组+#第0行和第4行组成的新二维数组）（区别！）
image = np.array([ [0,2],
           [0,4] ])
print(palette[image])
# #对应位置取元素组成二维数组
i = np.array( [ [0,1],
                 [1,2] ] )
j = np.array( [ [2,1],
                 [2,2] ] )
print(palette[i,j])
# #对应位置取元素组成一维数组
i = np.array( [0,1,2,3] )
j = np.array( [0,1,2,0] )
print(palette[i,j])

（3）布尔索引：使用布尔数组筛选数据（为True的会被保留）

#（3）布尔索引 ：使用布尔数组筛选数据（为True的会被保留）
#筛选一维数据
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])
print (x[x >  5])
#筛选多维数据
a = [True,False,False,True] #行筛选
b = [True,False,True] #列筛选
print(x[a,b])

6.数组遍历(元素全为拷贝)

#6.数组遍历(元素全为拷贝)
x = np.array(range(20)).reshape((5,4))
for row in x:
     print("每一行: ",row)
     for data in row:
         print(data)
#想要对数组中的每个元素执行操作，可以使用flat属性，该属性是数组的所有元素的迭代器
for element in x.flat:
     print(element,end=",")

7.矩阵运算

#7.矩阵运算
#（1）叉乘 dot :要求a的列数和b的行数相同
a = np.array([[1,3,2],
           [4,0,1]])

b = np.array([[1,3],
           [0,1],
           [5,2]])
c = a.dot(b)
print(c)
#（2）矩阵类型
# 使用np.matrix()将多维列表转换成matrix类型，或使用np.mat()生成矩阵，则所产生的矩阵做*乘法就是点乘
m = np.matrix(a)
print(m.T) #转置
print(m.I) #逆矩阵
print(m.A) #转为ndarry

8.数学函数

#8.数学函数
#（1）通用函数：这些函数在数组上按元素进行运算，产生一个数组作为输出 如：sin,cos,tan,exp,floor向下取整,ceil向上取整,sqrt开根号
a = np.array([[1,3,2],
            [4,0,1]])
print(np.sqrt(a))
print(np.sin(a))
#（2）算术统计函数：sum()、min()、max()、median()、mean()、average()、std()和val()函数可以求和、最小值、最大值、中位数、平均数、加权平均数、标准差和方差
#   -不指定轴：默认求全部
#   -指定轴axis：在某个轴上求值
print(np.sum(a))
print(np.sum(a,axis=0))
print(a.sum())
print(a.sum(axis=0))

二.Pandas

Pandas 库是一个免费、开源的第三方 Python 库，是 Python 数据分析必不可少的工具之一，它为 Python 数据分析提供了高性能，且易于使用的数据结构，即 Series （一维数组结构）和 DataFrame（二维数组结构）。其特点如下：

（1）Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。

（2）Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

（3）Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

1.Pandas数据读取

1.数据读取（以excel表格：.xls .xlxs为例）pd.read_excel() 参数说明：
(1)io:"D:\datasets\score.xls" 读取文件位置
(2)sheet_name：默认为0
        -int : 表示加载第几个子表
        -str : 表示加载指定名称的表
        -list of int/str:返回多张表组成的字典dict
        -None:返回全部表格字典
(3)header：指定表头行号（即表头是哪一行开始），默认为0（指列标行）,None表示没有（0为下标开始展示）
(4)index_col：指定索引列（某一列作为索引列），默认为None（0为下标开始展示）
(5)usecols:解析指定的列。[int]解析第几列、[str]解析指定列名、lambda函数解析列名返回为True的列
(6)skiprows=n:跳过头n行后进行读取

try:
    #df = pd.read_excel("D:\datasets\score.xls",sheet_name=[0,1],header=0,index_col=None)
    #print(df[0])
    df = pd.read_excel('D:\datasets\score.xls', 'Sheet1', usecols=[0,1])
    print(df)
except ValueError as e:
    print("[error] : " + e.__str__())

2.Pandas基础用法及其属性

1.pandas 数据结构基本属性

（1）df.shape ： 返回dataframe的行列维度信息（tuple类型）

（2）df.head(n)：预览前n行数据，默认为5

（3）df.tail(n)：预览后n行数据，默认为5

（4）df.index：索引名列表

（5）df.columns：列名列表

（6）df.array：用于提取 Index或 Series 里的数据

（7）df.to_numpy()：用于提取dataframe里的数据值，转化为numpy的ndarray矩阵

#   df.shape ： 返回dataframe的行列维度信息（tuple类型）
print(df.shape,type(df.shape))

#   df.head(n),预览前n行数据，默认为5
#   df.tail(n),预览后n行数据，默认为5
print(df.tail(3))

#   df.index：索引名列表
#   df.columns：列名列表
print(df.index)
print(df.columns)

#   df.array：用于提取 Index或 Series 里的数据
#   df.to_numpy()：用于提取dataframe里的数据，转化为numpy的ndarray矩阵
#lst = df.index.array
lst = df.to_numpy()
print(type(lst))

2.修改index、columns名的方法

（1）属性赋值法: df.index = [newName] df.columns=[newName]
（2）rename函数：DataFrame.rename(mapper,index,columns,axis=0,inplace=False)
- mapper:将axis维度上的索引，通过字典或者函数修改
- index:将行索引修改，通过字典或者函数。相当于mapper+axis=0
- columns:将列名修改，通过字典或者函数。相当于mapper+axis=1
- axis:指定修改维度，默认为0
- inplace:是否覆盖原数据，默认为False
（3）set_index(keys, drop=True, inplace=False)：将某一列设置为行索引
- keys:columns labels
- drop:是否将原列删除
注意：使用有序的index查询数据，会提高数据查询效率！所以尽量使用set_index合理的设置index，优化数据结构

#属性赋值
df.columns = ['a','b','c','d','e']
#rename函数
df.rename(lambda x:x+2,axis=0,inplace=True) #匿名函数修改
df2 = df.rename({0:"一"}) #字典映射修改
df.rename(index=lambda x:x+2,columns={"一":1,"二":2,"三":3,"四":4,"五":5},inplace=True)
#set_index
df.set_index("一",drop=False,inplace=True) #将"一"这列的数值设置为行索引
print(df.index)

3.series字符串处理 series.str
（1）str方法只能在 字符串series（即数值为字符串类型） 上使用，不能在数字列使用
（2）dataFrame没有str属性，只有Series上有
（3）series.str返回一个pandas自己封装的字符串对象，有自己的一套处理方法 Series — pandas 1.3.5 documentation

注意：str是series上的属性，字符串方法是str里的与series无关。 str的每个方法都会返回一个新的series对象

df = pd.read_csv(r"D:\datasets\ant-learn-pandas-master\datas\beijing_tianqi\beijing_tianqi_2018.csv")
print(df.head())
print(df["bWendu"].str.len()) #求长度
print(df["bWendu"].str.isnumeric()) #判断是否是数字类型
print(df["bWendu"].str.replace("℃","")) #字符串替换
print(df[df["ymd"].str.startswith("2018-03")]) #筛选2018-03时间的天气数据（startswith返回布尔列表）
# 注意：str是series上的属性，字符串方法是str里的与series无关。 str的每个方法都会返回一个新的series对象
print(df["ymd"].str.replace("-","").str.slice(0,6)) #字符串格式改造+切片

4.正则表达式处理（例子如下）

#1.添加新列，构造初始数据
def get_nuwCol(x):
    year,month,day = x["ymd"].split("-")
    return f"{year}年{month}月{day}日"
df.loc[:,"中文日期"] = df.apply(get_nuwCol,axis=1)
#2.需求：将 “中文日期”列中的年月日 去掉
#3.方法一：链式处理
df["中文日期"] = df["中文日期"].str.replace("年","").str.replace("月","").str.replace("日","")
print(df)
#4.方法二：正则表达式（str默认开启）
df.loc[:,"中文日期"] = df["中文日期"].str.replace("[年月日]","")
print(df)

3.数据选择、查询与修改

（1）切片选择: 利用切片功能选择某些行或某些列，但不支持混合使用（行列混合）

#切片选择:利用切片功能选择某些行或某些列，但不支持混合使用
print(df[['一','二']]) #查询"一",“二”列
print(df[1:3]) #查询1-3行

（2）标签选择(只能通过行列标签选择) ：df.loc[索引表达式,列表达式] 支持查询和覆盖修改

#   标签选择(只能通过行列标签选择) df.loc[索引表达式,列表达式] 支持查询和覆盖修改
#   （1）单label查询
print(df.loc[1,'二']) #查询单值
print(df.loc[1,['一','五']]) #得到series，可用list()转化
#   （2）列表批量查询
print(df.loc[[0,3,4],['一','三','五']])
#   （3）区间切片查询（区间全闭）
print(df.loc[0:3,'一':'四'])
#   （4）条件表达式查询：原理是将布尔表达式列表传入，返回为True的部分
print(df.loc[df["一"]<=0,:]) #挑选“一”列中<=0的所有数据
print(df.loc[(df["一"]<=0) & (df["四"]>0),:]) # & 且、  | 或、  ~ 非
#   （5）函数查询(参数表示某一行或某一列的series)
print(df.loc[lambda df:(df["一"]<=0) & (df["四"]>0),:]) #函数查询 行
print(df.loc[:,lambda df:df.mean()>=5]) #函数查询 列
def my_func(df): #应用传递函数，df为整个dataframe
    #print(df)
    #每一项一定要加括号！！
    return (df.index.astype("int32")>=5) & (df["四"]>=6)
print(df.loc[my_func,:])

（3）位置选择： df.iloc

#   位置选择 df.iloc
print(df.iloc[0:3,0:3]) #与.loc不同的是，这里下标为stop的数据不被选择
df.iloc[0:3,0:3] = 0 #可以直接赋值覆盖
df.iloc[:, lambda df: [0, 1]] #使用函数

（4）取具体值：df.at

#   取具体值
df.at[4,"Q1"]
df.loc[0].at["name"]

（5）分组选择数据： df.groupby

- 分组的理解：按照分组的字段名，将dataFrame中字段值相同的划分为一个子dataFrame，将所有分组封装为一个DataFrameGroupBy对象。
- 总结来说：groupby的过程就是将原有的DataFrame按照groupby的字段，划分为若干个分组DataFrame，被分为多少个组就有多少个分组DataFrame。所以说，在groupby之后的一系列操作（如agg、apply等），均是基于子DataFrame的操作。理解了这点，也就基本摸清了Pandas中groupby操作的主要原理。下面来讲讲groupby之后的常见操作。

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
g = df.groupby("A")
#   （1）遍历分组
for name,group in g:
    print(name) #打印每个group的name（分组依据为name）
    print(group) #打印每个分组的子dataFrame
    print()

#   （2）分组取值
df_bar = g.get_group('bar')
print(df_bar)

#   （3）多字段分组
g = df.groupby(['A','B'])
for name,group in g:
    print(name) #打印每个group的name（元组形式）
    print(group) #打印每个分组的子dataFrame
    print()
df_bar = g.get_group(('foo','one')) #元组取 子dataFrame
print(df_bar)

#   （4）分组数据统计
#       - 原理：DataFrameGroupBy -〉SeriesGroupby -〉最终作用在每一个子DataFrame或者Series上 -〉 返回一个结果DataFrame或者Series
print(df.groupby("A").mean()) #统计所有数字列的均值，以dataFrame呈现
print(df.groupby("A")['C'].mean()) #统计C列的均值，以Series呈现

#   （5）聚合函数 分组数据统计 agg
print(df.groupby('A')['C'].agg(['sum','mean','max'])) #对分组后的C列分别统计sum、mean、max
#   - 对分组后的所有列分别统计sum、mean、max
g = df.groupby('A').agg(['sum','mean','max'])
print(g)
print(g[('C','sum')]) 此时columns为 MultiIndex分层索引 元组格式
#   - 分别进行数据统计(字典传入)
print(df.groupby('A').agg({'C':'mean','D':'sum'}))
#   - 实例：天气数据统计
df = pd.read_csv(r"D:\datasets\ant-learn-pandas-master\datas\beijing_tianqi\beijing_tianqi_2018.csv")
# # 替换掉温度的后缀℃
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
# # 新增一列为月份
df['month'] = df['ymd'].str[:7]
group_data = df.groupby('month').agg({"bWendu":np.max, "yWendu":np.min, "aqi":np.mean})
# #绘制图像
group_data.plot(kind='bar') #默认为折线图
plt.show()

（6）数据赋值修改： df[]、df.loc[]、df.iloc[]都可以覆盖修改原数据(要求维度数据格式一致)

4.数据增加与删除

（1）列数据直接增加法（无中生有）-- 常用来做计算

#   直接增加法（无中生有）-- 常用来做计算
df.loc[:,"六"] = df["五"] - df["四"]
print(df)

（2）列数据应用apply函数(函数参数为某行或某列的series)

#   apply函数(函数参数为 某行或某列的series)
#       -axis=0：纵向 每一列series（行方向）　默认(当然series使用时，不需要指定axis)
#       -axis=1：横向 每一行series（列方向）
def get_six(x):
    print(x)
    if x["五"]==0:
        return "happy"
    elif x["五"]<0:
        return "sad"
    return "exceted"
df.loc[:,"六"] = df.apply(get_six,axis=1) #返回series
df.loc[:,"六"] = df.apply(lambda x:"happy" if x["五"]>=0 else "sad",axis=1)
print(df)

（3）列数据条件分组赋值

#   条件分组赋值
df["六"] = '' #广播机制
df.loc[df["四"] + df['五']>=0,"六"] = "happy"
df.loc[df["四"] + df['五']<0,"六"] = "sad"

（4）增加行数据

- 方法一：直接赋值

- 方法二：函数追加 df.append() 可以追加新行

- 方法三：pd.concat 见后方案例

#方法一：直接赋值
df.loc[len(df)+1] = {'Q1':88,'Q2':99} #指定列（字典），无数据列值为NaN
df.loc[101] = ['tom', 'A', 88, 88, 88, 88]
#方法二：函数追加 df.append() 可以追加新行。
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)
#方法三：pd.concat 见下方

（5）数据删除 drop函数

- 方法：df.drop("A",axis=1,inplace=True) #删除列

5.缺失值处理（数据处理）

（1）数据筛选（判断是否有缺失数据）

df = pd.read_excel("D:\datasets\student_excel.xls",header=0,index_col=None,skiprows=2)
#   数据检测（判断是否有缺失数据）
print(df.isnull()) #返回一个布尔dataFrame （空为True）
print(df["分数"].isnull()) #判断某列的空值
print(df["分数"].notnull()) #不为空为True,常用于筛选非空数据
print(df.loc[df["分数"].notnull(),:]) #筛选分数不为空的所有行数据

（2）空数据删除 df.dropna()

- axis=0 ：删除方向，默认为0
- how：删除方式 'all'方向元素全部缺失则删除；'any'方向元素有一个缺失就删除（默认）
- inplace：是否更新源数据，默认为False

#   空数据删除 df.dropna()
#       -axis=0 ：删除方向，默认为0
#       -how： 删除方式 'all'方向元素全部缺失则删除；'any'方向元素有一个缺失就删除（默认）
#       -inplace：是否更新源数据，默认为False
df.dropna(axis=1,how='all',inplace=True) #将全是空值的列删除
df.dropna(axis=0,how='all',inplace=True) #将全是空值的行删除
print(df)

（3）空数据填充 df.fillna()
-value:填充值
-method:填充方式，不能与value共用（ffill-前值填充,bfill-后值填充）
-axis=None:填充维度，一般配合method使用
-inplace:是否覆盖更新源数据

#   空数据填充 df.fillna()
#       -value:填充值
#       -method:填充方式，不能与value共用（ffill-前值填充,bfill-后值填充）
#       -axis=None:填充维度，一般配合method使用
#       -inplace:是否覆盖更新源数据
df.fillna(100,inplace=True) #全部填充
df['分数'].fillna(0,inplace=True) #按列填充
df.fillna({"姓名":"匿名","科目":"无","分数":0},inplace=True) #字典填充（不同的列填充不同数据）
df['姓名'].fillna(method="ffill",inplace=True) #姓名前值填充
df.loc[:,"姓名"] = df["姓名"].fillna(method="ffill") #赋值法
df["姓名"] = df["姓名"].fillna(method="ffill")
print(df)

（4）复杂填充：使用每一列的均值填充空值

#   复杂填充：使用每一列的均值填充空值
df = pd.read_excel("D:\datasets\score.xls",sheet_name=1,header=0,index_col=None)
# Series 支持字符串处理方法，可以非常方便地操作数组里的每个元素。这些方法会自动排除缺失值与空值（不处理空值），这也许是其最重要的特性。这些方法通过 Series 的 str 属性访问，一般情况下，这些操作的名称与内置的字符串方法一致。
df.loc[:,"二"] = df.loc[:,"二"].str.replace(".c","").astype("float")
#方法一：同列series填充（行好像不行）
df.fillna(df.mean(),inplace=True)
print(df)
#方法二：字典填充
mean_dict = dict([(col_name,col_avg) for col_name,col_avg in zip(df.columns.tolist(),df.mean().tolist())])
df.fillna(mean_dict,inplace=True)
print(df)
#方法三：遍历填充
for column in list(df.columns[df.isnull().sum() > 0]):
    mean_val = df[column].mean()
    df[column].fillna(mean_val, inplace=True)
print(df)

6.运算与数据统计

（1）df.describe() 展示所有数字列的数据统计特征(返回dataFeame)

#   df.describe() 展示所有数字列的数据统计特征(返回dataFeame)
ans = df.describe()
print(ans)
print(ans.loc["max",["一","三"]])

（2）max、mean、min函数统计

#   max、mean、min函数统计
print(df["一"].mean()) #统计某一列
print(df["三"].max())
print(df["四"].min())
print(df.mean(axis=0)) #按轴统计（默认为axis=0）　只统计数字部分
print(df.max(axis=0))
print(df.min(axis=0))

（3）value_counts ：统计每种类型的数据数量(降序排列)　返回一个series

（4）unique：数据唯一去重(返回ndarry类型)

#   value_counts 统计每种类型的数据数量(降序排列)　返回一个series
print(df["五"].value_counts())

#   数据唯一去重(返回ndarry类型)
print(type(df["二"].unique()))

（5）相关系数和协方差(列出数字列之间的协方差和相关系数矩阵)

#   相关系数和协方差(列出数字列之间的协方差和相关系数矩阵)
#   特征工程
print(df.cov()) #协方差矩阵
print(df.corr()) #相关系数矩阵
print(df["一"].corr(df["三"])) #单独查看某两列的相关性
print(df["一"].corr(df["三"] - df["一"])) #单独查看某些运算之间的相关性

（6）数据排序 df.sort_values()

        - series :
                - ascending=True：True为升序排序，False为降序排序
                - inplace=False：是否覆盖更新源数据
        - dataFrame:
                - by:字符串或list，单列或多列排序
                - ascending：bool或list，与by对应
                - inplace
        - 注意：dataFrame中的series不能使用True来覆盖，各有各的方法

#   数据排序 df.sort_values()
#   -series :
#       -ascending=True：True为升序排序，False为降序排序
#       -inplace=False：是否覆盖更新源数据
#   -dataFrame:
#       -by:字符串或list，单列或多列排序
#       -ascending：bool或list，与by对应
#       -inplace
#       -注意：dataFrame中的series不能使用True来覆盖，各有各的方法
df = pd.read_excel("D:\datasets\score.xls",sheet_name=1,header=0,index_col=None)
df.sort_values(by="一",ascending=True,inplace=True) #单列排序
df.sort_values(by=["一","三"],ascending=[True,False],inplace=True) #多列排序：先按照'一'排序，相同的按照'三'排序
print(df)

7.数据写入

（1）df.to_excel()
        - name:写入文件名称。若不存在则会创建，若存在则会覆盖
        - sheet_name:表格名称，default ‘Sheet1’
        - index=True：是否写入index
        - encoding: 编码

#   df.to_excel()
#       -name:写入文件名称。若不存在则会创建，若存在则会覆盖
#       -sheet_name:表格名称，default ‘Sheet1’
#       -index=True：是否写入index
#       -encoding: 编码
df.to_excel("D:\datasets\score_new.xls",sheet_name="第一",index=False,encoding="utf-8")

8.dataFrame表格操作

（1）数据关联合并 Merge() ：多个表格按照字段合并为一个，横向连接
        - left、right：要合并的表格
        - how='inner'：合并类型，'left'、'right'、'outer'、'inner'
        - on：合并数据的连接key，两个表都有才行，否则就按照left_on、right_on．
        - left_on、right_on：左右表合并数据的对应连接key
- 注意:若未传递on、left_on、right_on，则DataFrame中的所有列的交集将被推断为连接键。
- 合并方式：两表对应的 [连接键]，在满足how的规则时，才会把该行连接的数据(所有列整合)放入结果！！

#   一对一数据合并(结果为n条)
left_df = pd.DataFrame({
    'sno':[11,12,13,14,15],
    'name':['name_a','name_b','name_c','name_d','name_e']
})
right_df = pd.DataFrame({
    'sno':[11,12,13,14],
    'age':[23,21,22,22]
})
merge_df = pd.merge(left=left_df,right=right_df,on='sno',how='outer')
print(merge_df)
#   一对多数据合并（结果为max(n,m)条）
left_df = pd.DataFrame({
    'sno':[11,12,13,14],
    'name':['name_a','name_b','name_c','name_d']
})
right_df = pd.DataFrame({
    'sno':[11,11,11,12,12,12],
    'course':['高等数学','数据结构','大学英语','高等数学','人工智能','大学英语（2）']
})
merge_df = pd.merge(left=left_df,right=right_df,on='sno')
print(merge_df)
#   多对多数据合并（结果为n*m条）
left_df = pd.DataFrame({
    'sno':[11,11,12,12,12],
    '爱好':['篮球','音乐','篮球','绘画','玩游戏']
})
right_df = pd.DataFrame({
    'sno':[11,11,11,12,12,12],
    'course':['高等数学','数据结构','大学英语','高等数学','人工智能','大学英语（2）']
})
merge_df = pd.merge(left=left_df,right=right_df,on='sno')
print(merge_df)

（2）表格连接 concat() ：任意方向连接表格
        - objs：合并的表格列表
        - axis=0：合并方向（axis=0为按行上下连接，axis=1为按列左右连接）
        - join=outer：合并方式，针对列名层级上的合并（与merge的连接键不同）
        - ignore_index=False：是否忽略原索引
        注意：若数据不对齐，则会自动填充空值NAN

#   （2）表格连接 concat() ：任意方向连接表格
#           -objs：合并的表格列表
#           -axis=0：合并方向（axis=0为按行上下连接，axis=1为按列左右连接）
#           -join=outer：合并方式，针对列名层级上的合并（与merge的连接键不同）
#           -ignore_index=False：是否忽略原索引
#           注意：若数据不对齐，则会自动填充空值NAN
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3'],
                    'E': ['E0', 'E1', 'E2', 'E3']
                   })
df2 = pd.DataFrame({ 'A': ['A4', 'A5', 'A6', 'A7'],
                     'B': ['B4', 'B5', 'B6', 'B7'],
                     'C': ['C4', 'C5', 'C6', 'C7'],
                     'D': ['D4', 'D5', 'D6', 'D7'],
                     'F': ['F4', 'F5', 'F6', 'F7']
                   })
con_df = pd.concat([df1,df2],ignore_index=True,join="outer") #上下连接（按照列名），重新排序index，保留所有的列
con_df = pd.concat([df1,df2],ignore_index=True,join="inner") #上下连接，重新排序index，保留共有的列
con_df = pd.concat([df1,df2],axis=1,ignore_index=True) #左右连接，重新排序columns
#    混合连接
s1 = pd.Series(list(range(4)),name="F")
con_df = pd.concat([df1,s1,df2],axis=1)
print(con_df)

（3）pd.append 上下追加行(concat的特殊形式)

#   pd.append 上下追加行(concat的特殊形式)
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
app_df = df.append(df2,ignore_index=True)
print(app_df)

9.pandas axis参数理解

9.pandas axis参数理解
        - axis = 0或者 "index"：跨行操作，沿着竖直方向向下运动
                单行操作，就是指某一行如（drop、dropna）
                聚合操作，指的是跨行聚合（输出列结果）如（mean、max、min、sum）
        - axis = 1或者 "columns"：跨列操作，沿着水平方向向右运动
                单行操作，就是指某一列如（drop、dropna）
                聚合操作，指的是跨列聚合（输出行结果）如（mean、max、min、sum）
        注意：按哪个axis，就是这个axis要动起来（按这个方向for循环遍历），其他的axis保持不动

df = pd.DataFrame(
    np.arange(12).reshape(3,4),
    columns = ["A","B","C","D"]
)
#   单行/列操作
df.drop("A",axis=1,inplace=True) #删除列

#   聚合操作
print(df.mean(axis=0)) #向下聚合，输出每一列的结果
print(df.sum(axis=1)) #向右聚合，输出每一行的求和
def get_sum_value(x):
    print(x)
    return x["A"] + x["B"]  +x["C"] + x["D"]
df["sum_value"] = df.apply(get_sum_value,axis=1)

三.Matplotlib

Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用，提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用，如 PyQt 和 wxPython。

1.散点图

1.画散点图 scatter(x,y,s,c,marker) 参数说明：
- x、y：散点x、y坐标
- s：散点面积
- c：散点颜色
- marker:散点标记形状（matplotlib.markers图库）

#   （1）普通散点图
x = np.random.rand(10)
y = np.random.rand(10)
plt.scatter(x,y)
plt.show()

#   （2）更改大小和颜色
# 每个点随机面积。
#    - s=float：所有点都是这个大小。
#    - s=array ：每个点更改为对应大小
s = (30*np.random.rand(10))**2
# 每个点随机颜色。
#    - c=rgb字符串（'#DC143C'）：所有点都为该颜色；颜色字符串（'red'）：所有点都为该颜色；
#    - c=array or list：每个点改为对应颜色
c = np.random.rand(10)
plt.scatter(x,y,s=s,c=c)
plt.scatter(x,y,s=s,c='#DC143C')
plt.show()

#   （3）更改形状+多数据绘制+设置图例
x2 = np.random.rand(10)
y2 = np.random.rand(10)
plt.scatter(x,y,marker='o',c='blue',label='circle')
plt.scatter(x2,y2,marker='^',c='#FFD700',label='triangle')
plt.xlabel('x') #x轴说明
plt.ylabel('y') #y轴说明
plt.title('scatter picture') #标题（中文需导入字体）
plt.legend(loc='upper right') #展示每个数据对应的图例（loc参数指定图例位置）
plt.show() #显示图像

2.折线图

2.画线图 plot(x,y,color,linewidth,linestyle,marker)
- x、y：画点x,y坐标
- color：折线颜色
- linewidth：线宽
- linestyle：折线样式
- marker：折线图点标记样式

x = range(10)
y = np.random.rand(10)
z = np.random.rand(10)
plt.plot(x,y,color='green',linewidth=1.5,linestyle='--',label="line 1",marker='^')
plt.plot(x,z,color='blue',linewidth=1.5,ls='-',label="line 2")
plt.xlim(-0.2,9.2) #调整x轴 显示范围 xlim(left,right)
plt.ylim(-0.2,1) #调整y轴显示范围 ylim(bottom,top)
plt.xticks([0,3,6,9],['zero','three','six','nine']) #x轴 显示刻度 xticks(ticksList[],ticksLabels[])
plt.yticks([0,0.5,1]) #y轴 显示刻度 yticks(ticksList[],ticksLabels[])
# #注意：xticks与xlim有先后设置顺序关系，后设置的会覆盖前面设置的（如果产生冲突）！
plt.xlabel('x')
plt.ylabel('y')
plt.title('mayplotlib line')
plt.legend(loc="best")
plt.grid(linestyle='--') #显示虚线网格
plt.show()

3.柱状图（条形图）

3.画柱状图（条形图） bar(x,height,width,bottom,color,edgecolor,hatch)
- x、height：bars的坐标和高度
- width：bars的宽度，default0.8
- bottom：bars的底部坐标，default0
- color：bars的颜色
- edgeclor：边界颜色
- hatch：填充形状

#（1）简单直方图（水平直方图 使用barh函数）
x = range(10)
y = np.random.rand(10)
plt.bar(x,y,color="blue",edgecolor="black",hatch="/",label="bar")
plt.xticks(x) #显示x轴刻度
plt.xlabel("x")
plt.ylabel("y")
plt.title("bar")
plt.legend()
plt.show()

#（2）并列直方图
size = 5
x = np.arange(size)
a = np.random.random(size)
b = np.random.random(size)
c = np.random.random(size)
# #设置每个刻度总宽度，分类数量
total_width,n = 0.8,3
# #计算每个分类每个刻度下的宽度
width = total_width/n
# #找位置绘图
plt.bar(x,b,color="blue",width=width,label="b")
plt.bar(x-width,a,color="black",width=width,label="a")
plt.bar(x+width,c,color="red",width=width,label="c")
# #柱顶显示数据 text(x,y,strContent,ha)
for i,xx in enumerate(x):
    plt.text(xx,b[i]+0.01,"%.2f" % b[i],ha='center',fontsize=10)
    plt.text(xx-width,a[i] + 0.01, "%.2f" % a[i], ha='center', fontsize=10)
    plt.text(xx+width,c[i] + 0.01, "%.2f" % c[i], ha='center', fontsize=10)

# #设置图例
plt.xlabel("x")
plt.ylabel("y")
plt.title("bars")
plt.legend()
plt.show()

4.多子图展示

#4.多子图展示
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
t=np.arange(0.0,2.0,0.1)
s=np.sin(t*np.pi)

# #设置当前画板大小
plt.figure(figsize=(8,8), dpi=80)
plt.figure(1)

# #221 : 前面俩参数指定的是一个画板被分割成的行和列，后面一个参数则指的是当前正在绘制的编号！
ax1 = plt.subplot(221)
ax1.plot(t,s, color="r",linestyle = "--")
ax1.set_title('子图1')
ax2 = plt.subplot(222)
ax2.plot(t,s,color="y",linestyle = "-")
ax2.set_title('子图2')
ax3 = plt.subplot(223)
ax3.plot(t,s,color="g",linestyle = "-.")
ax3.set_title('子图3')
ax4 = plt.subplot(224)
ax4.plot(t,s,color="b",linestyle = ":")
ax4.set_title('子图4')
plt.show()

6.3D图

#5.画3D图
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
X = np.arange(-4, 4, 0.25)
Y = np.arange(-4, 4, 0.25)
X, Y = np.meshgrid(X, Y) #生成网格坐标
R = np.sqrt(X**2 + Y**2)
Z = np.sin(R) #网格对应的z

# #绘制图像
# # rstride:行之间的跨度  cstride:列之间的跨度
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='hot')
plt.show()

你可能感兴趣的:(深度学习,python,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S