weixin_39573136

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识

文章来源：拉钩数据分析训练营

1.Padas简介

Python在数据处理和准备⽅⾯⼀直做得很好，但在数据分析和建模⽅⾯就差⼀些。Pandas帮助填补了这⼀空⽩，使您能够在Python中执⾏整个数据分析⼯作流程，⽽不必切换到更特定于领域的语⾔，如R（R一般应用于生物领域）。
与出⾊的 jupyter⼯具包和其他库相结合，Python中⽤于进⾏数据分析的环境在性能、⽣产率和协作能⼒⽅⾯都是卓越的。
Pandas是 Python 的核⼼数据分析⽀持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas是Python进⾏数据分析的必备⾼级⼯具。
Pandas的主要数据结构是 Series(⼀维数据)与 DataFrame (⼆维数据)，这两种数据结构⾜以处理⾦融、统计、社会科学、⼯程等领域⾥的⼤多数案例。
处理数据⼀般分为⼏个阶段：数据整理与清洗、数据分析与建模、数据可视化与制表，Pandas 是处理数据的理想⼯具。
Pandas库安装：pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

2.Panas数据结构

Pandas是基于NumPy的升级，想要使用Pandas就必须要安装NumPy，调用时同理

import Numpy as np
import Pandas as pd

pandas的数据结构常用的主要有两种：

Series(⼀维数据)与 DataFrame (⼆维数据)

当然Pandas也支持三位数据和四维数据，但是不常用，主要了解一位数据和二维数据。

2.1.Series

pd.series(data,index,dtype,name,copy)

Series是一维的数组，和NumPy数组不一样：Series多了索引

主要有以下几个参数

data：数据

index：定义行索引，参数接收值为str，如果未指定，将会生成由0开始的整形正序数值，0,1,2,3,4,5,6......，如指定，将会生成我们指定的索引，如ABCDEF...，如果指定索引的话，一定要记得和我们数据的个数要相等。

dtype：定义数据类型，参数接收值为str（'int','float16','float32'.....），未指定的话会根据我们输入的数据自动识别。

name：定义系列名称（列名），参数接收值为str。

copy：复制输入数据，参数接收值为bool，默认为False。

其中我们经常设置的参数为data，index，以及dtype，

series常用创建方式有三种：

1）只输入data参数不设置索引：

l = np.array([1,2,3,6,9])
s1 = pd.Series(data = l)
display(l,s1)

0array([1, 2, 3, 6, 9])
0 1
1 2
2 3
3 6
4 9
dtype: int32

2）按列表指定索引：

s2 = pd.Series(data = l,index = list('ABCDE'),name='a',dtype = 'float64',copy='False')
s2

A 1.0
B 2.0
C 3.0
D 6.0
E 9.0
Name: a, dtype: float64

3）按字典键名指定索引

s3 = pd.Series(data = {
      '语文':149,'数学':130,'英语':118,'文综':285,'Python':122})
s3

语文 149
数学 130
英语 118
文综 285
Python 122
dtype: int64

2.2.DataFrame

pd.DataFrame(
    data:数据
    index: 定义行索引，参数接收值为str，如果未指定，将会生成由0开始的整形正序数值，0,1,2,3,4,5,6......，如指定，将会生成我们指定的索引，如ABCDEF...，如果指定索引的话，一定要记得和我们数据的第一维度维度尺寸要相等。
    columns: 定义列索引，参数接收值为str，如果未指定，将会生成由0开始的整形正序数值，0,1,2,3,4,5,6......，如指定，将会生成我们指定的索引，如ABCDEF...，如果指定索引的话，一定要记得和我们数据的第二维度维度尺寸要相等。
    dtype: 定义数据类型，参数接收值为str（'int','float16','float32'.....），未指定的话会根据我们输入的数据自动识别。
    copy: 复制输入数据，参数接收值为bool，默认为False。
)

Series是一维的，功能比较少，DataFrame是二维的，多个Series公用索引（列名），组成了DataFrame，像 Excel一样的结构化关系型数据。

DataFrame的两种创建方式

1）列表定义列索引：

df1 = pd.DataFrame(data = np.random.randint(0,151,size = (10,3)),
                   index = list('ABCDEFHIJK'), # 行索引
                   columns=['Python','Math','En'],dtype=np.float16) # 列索引
df1

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第1张图片

2）按字典键名指定列索引

df2 = pd.DataFrame(data = {
      'Python':[66,99,128],'Math':[88,65,137],'En':[100,121,45]})
df2 # 字典，key作为列索引，不指定index默认从0开始索引，自动索引一样

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第2张图片

3.Pandas数据查看

常用的数据查看方法：

# 查看其属性、概览和统计信息
df.head(10) # 显示头部10⾏，默认5个
df.tail(10) # 显示末尾10⾏，默认5个
df.shape # 查看形状，⾏数和列数
df.dtypes # 查看数据类型
df.index # ⾏索引
df.columns # 列索引
df.values # 对象值，⼆维ndarray数组
df.describe() # 查看数值型列的汇总统计,计数、平均值、标准差、最⼩值、四分位数、最⼤值 http:// df.info() # 查看列索引、数据类型、⾮空计数和内存信息

import Numpy as np
import Pandas as pd
df = pd.DataFrame(data = np.random.randint(0,151,size = (100,3)),
                  columns=['Python','Math','En'])
df
df.shape # 查看DataFrame形状

(100, 3)

df.head(n = 3) # 显示前N个，默认N = 5

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第3张图片

df.tail(3) # 显示后n个,默认N=5

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第4张图片

df.dtypes # 数据类型

Python int32
Math int32
En int32
dtype: object

df.info() # 比较详细信息

RangeIndex: 100 entries, 0 to 99 #共有三行，行索引从0到99
Data columns (total 3 columns): #共有三列
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Python 100 non-null int32 #Python列有100个非空值，数据类型为int32
1 Math 100 non-null int32 #Math列有100个非空值，数据类型为int32
2 En 100 non-null int32 #En列有100个非空值，数据类型为int32
dtypes: int32(3)
memory usage: 1.3 KB #占用内存1.3KB

df.describe() # 描述：数据条数、平均值、标准差、中位数、四等分位值、最大值，最小值

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第5张图片

df.values # 查看值，返回的是NumPy数组

array([[ 29, 7, 58],
[144, 0, 34],
[103, 113, 83],
.
.
.
[118, 29, 64],
[ 41, 46, 6],
[135, 17, 35]])

df.columns # 查看列索引

Index(['Python', 'Math', 'En'], dtype='object')

df.index # 行索引 0 ~ 99

RangeIndex(start=0, stop=100, step=1) #起始索引为0，终止所以为100，步长为1

4.Pandas数据输入和输出

Panda常用数据输入和输出有四种类型，csv文件、Excel文件、HDF5以及SQL读写，下面分别介绍：

4.1.CSV

import Numpy as np
import Pandas as pd
df = pd.DataFrame(data = np.random.randint(0,151,size = (100,3)),
                  columns=['Python','Math','En'])
df # 行索引，列索引

4.1.1.csv文件写入

df.to_csv('./data.csv',#输出文件名，注意路径正确，可以用相对路径或者绝对路径
          sep = ',', #分隔符，默认是逗号，也尽量用逗号
          index = True, # 保存行索引，默认为True，赋值False的话，输出文件不保存行索引
          header=True) # 保存列索引，默认为True，赋值False的话，输出文件不保存列索引

4.1.2.csv文件加载

pd.read_csv('./data.csv', #要读取的文件名，注意路径正确，可以用相对路径或者绝对路径
            index_col=0, #设置读取的行索引，默认为None,不赋值的话会自动添加一列作为行索引
           header ='infer') #设置读取的列索引，默认值为'infer',不赋值的话输出会默认把第1行作为列索引展示

注意：
1.index_col参数 --设置行索引

如果我们的文件没有行索引这一列的话，这个参数尽量不要设置，否则会把数据的第一列作为行索引;
而如果我们的文件有行索引这一列的话（一般在第一列），尽量设置这个参数为0，否则会把行索引作为数据的第一列，自动添加一列为行索引;
这个也可以赋值其他的索引（如12345..，比如这里赋值2的话，math这一列的值就会成为行索引），赋值哪个列索引，这一列的值就会变成行索引.

2.header参数 --设置列索引

如果我们的文件没有列索引这一列的话，一定要设置这个参数为None，否则会把数据的第一行作为列索引。
如果我们的文件有行索引这一列的话（一般在第一列），尽量设置这个参数或者设置为'infer'，否则会生成一个从0开始的递增数列作为列索引

4.2.Excel

读写Excel之前，需要先安装两个库

读取Excel文件：pip install xlrd -i https:// pypi.tuna.tsinghua.edu.cn /simple
写入Excel文件：pip install xlwt -i https:// pypi.tuna.tsinghua.edu.cn /simple

4.2.1.写入Excel

import numpy as np
import pandas as pd
import xlrd
import xlwt
df = pd.DataFrame(data = np.random.normal(loc = 120,scale = 10, size = (100,3)),
                  columns=['Python','Math','En'])
df

df.to_excel('./data.xls',
    sheet_name='score', #sheet页的名称，默认为sheet1
    na_rep='', #空值赋值，默认为空
    float_format='%.2f', #小数保留位数，默认为None，例如 float_format =“％.2f”``会将0.1234格式化为0.12。
    columns= ['Math','En'], #要写入的列，默认为None（全写入）,比如这里我们设置了写入math 和 en，那么python就没被写入文件
    header=True, #列索引（列名），默认为True，如果我们的数据给定了第一行
    index=True, #是否写列索引，默认为True（列名称，控制header） 
    index_label=None, #设置列索引名，默认为None，如果header和index都设置为Ture，这个没必要管
    startrow=4, #设置写入的数据从第几行开始写入，默认为0，比如这里设置为4，那么元数据第一行数据将出现在第5行，上边四行空出
    startcol=2, #设置写入的数据从第几列开始写入，默认为0，比如这里设置为2，那么元数据第一行数据将出现在第3列，左边2列空出
    freeze_panes=(5,3)) #设置冻结的行和列，默认为None，比如这里我们设置的5,3，就是冻结前5行和前3列，对应上边的4,2,

以上即为常用的几个写入Excel方法to_excel的参数，我们一般写入文件的时候就写一个文件名就可以，不用设置这么多的参数。

上边的代码执行完毕写入的数据是这样的：

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第6张图片

4.2.2.读取Excel

pd.read_excel('./新建 XLS 工作表.xls',
            sheet_name=0,#要查看的sheet页，默认为0，就是第一个sheet
#默认为0：读取第一个sheet
#1：读取第二个sheet
#"Sheet1"：加载名称为“ Sheet1”的工作表
#[0，1，"Sheet5"]：加载第一张，第二张和名为“ Sheet5”的sheet
#无：所有工作表。
            header=0,#第0行作为列标题，默认为0,如果文件不包含标题行，那么应该赋值header = None。
            index_col=0,# 第0列作为行索引，如果文件不包含行索引列，应设置为None
            skiprows=[1,2,3,4,5,6,7,8,9,10],#要跳过的行，这里是从Excel第12行开始读的，因为标题占了一行
            nrows=10,#要展示的行数，这里读取了10行
            usecols=[0,1,2,3,4,5,6,7]) #这里读取了1234567列
#要读取的列，默认为None
#如果为None，则解析所有列。
#如果为str，则表示Excel列字母的逗号分隔列表,如['订单ID','销售额']
#如果为int列表，则表示要解析的列号列表,如[1,7]

上边的代码执行完毕读取的数据是这样的：

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第7张图片

4.3.HDF5

读写HDF5之前，需要先安装包：

pip install tables -i https:// pypi.tuna.tsinghua.edu.cn /simple

HDF5是⼀个独特的技术套件，可以管理⾮常⼤和复杂的数据收集。

HDF5，可以存储不同类型数据的⽂件格式，后缀通常是.h5，它的结构是层次性的。

⼀个HDF5⽂件可以被看作是⼀个组包含了各类不同的数据集。

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第8张图片

对于HDF5⽂件中的数据存储，有两个核⼼概念：group 和 dataset

dataset 代表数据集，⼀个⽂件当中可以存放不同种类的数据集，这些数据集如何管理，就⽤到了group

最直观的理解，可以参考我们的⽂件管理系统，不同的⽂件位于不同的⽬录下。

⽬录就是HDF5中的group, 描述了数据集dataset的分类信息，通过group 有效的将多种dataset 进⾏管

理和区分；⽂件就是HDF5中的dataset, 表示的是具体的数据。

4.3.1.写入HDF5文件

import numpy as np
import pandas as pd
import tables
df2 = pd.DataFrame(data = np.random.randint(6,100,size = (1000,5)),
                   columns=['计算机','化工','生物','工程','教育'])
#HDF5文件写入的常用参数设置
df2.to_hdf('./data.h5', #定义HDF5文件名
           key = 'salary', #定义键值，也就是我们写入数据的表名
           mode = 'a', 
#写入的模式，默认为a，a为追加写入，文件可以不存在，w为覆盖写入，如文件已存在会覆盖原文件，r+w也为追加写入，但是文件必须已存在。
           index = True,#是否要存行索引，默认是True
           format = 'table', 
#设置此文件读取的方式，默认为fixed，此模式下不能读取指定列，如果要设置可以单独读取指定列的模式，需要设置为table
           complevel = None,
#文件压缩级别，值为0~9,压缩级别越大，文件被压缩的越小，但相应的用时也会变长，默认为None不压缩。
           complib = None,#指定要是用的压缩库，默认为None，complevel设置为非None时才可用。
           encoding = 'UTF-8') #写入数据的编码，默认为UTF-8

4.3.2.读取HDF5文件

#HDF5文件读取的常用参数设置
pd.read_hdf('./data.h5', #要读取的HDF5文件名
            key = 'salary', #要读取的group（表名）
            start = 0,#读取数据的起始行，默认为None从第一行开始，int从0开始，包括索引本身这一行
            stop = 9,#读取数据的结束行，默认为None读取到最后，int从0开始，不包括索引本身这一行
            columns=['计算机','化工','生物'])
#读取数据的列，默认为None全部读取，list，此参数依赖于文件写入时format参数的设置,如果format参数设置为fixed或者默认，则不能按列表读取，columns只能设置为None或者默认不设置，如要按列表读取，写入时format参数需要设置为table

读取结果为：

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第9张图片

4.4.SQL

写SQL之前，需要安装两个库

pip install sqlalchemy -i https:// pypi.tuna.tsinghua.edu.cn /simple
pip install pymysql -i https:// pypi.tuna.tsinghua.edu.cn /simp

其中SQLAlchemy是Python编程语⾔下的⼀款开源软件。提供了SQL⼯具包及对象关系映射（ORM）⼯具，可以理解为数据库引擎，

pymysql则是python中类似于mysql的一个包。

数据库的配置，可以查看：https://docs.sqlalchemy.org/en/13/core/engines.html

其中mysql数据库的常见连接方式有三种，常用最后一种连接方式：

#依赖于sqlalchemy,需要先导入sqlalchemy再执行数据库连接操作
from sqlalchemy import create_engine

# default
engine = create_engine('mysql://scott:tiger@localhost/foo')

# mysqlclient (a maintained fork of MySQL-Python)
engine = create_engine('mysql+mysqldb://scott:tiger@localhost/foo')

# PyMySQL
engine = create_engine('mysql+pymysql://scott:tiger@localhost/foo')

读写SQL之前的操作：

from sqlalchemy import create_engine # 数据库引擎，构建和数据库的连接
from sqlalchemy.types import Date, String, Float, Numeric, Text,NVARCHAR,Integer 
#导入sqlalchemy的数据类型库sqlalchemy.types，具体所有数据类型可查看http://codingdict.com/sources/py/sqlalchemy.types.html。
import numpy as np
import pandas as pd
# PyMySQL
# 连接之前一定要确定已经安装了mysql，且IP地址和密码正确，数据库，用户是存在的，其他参数也要配置正确。
engine = create_engine('mysql+pymysql://root:root@localhost/lagou?charset=utf8')
#参数解析：mysql+pymysql不要动，root用户名，12345678密码，localhost服务器地址IP，lagou数据库名，?后边跟要设置的参数，charset=utf8数据库的编码。基本上和配置mysql数据库是一样的。

4.4.1.将数据写入MySQL数据库

df2 = pd.DataFrame(data = np.random.randint(6,100,size = (1000,5)),
                   columns=['计算机','化工','生物','工程','教育'])

#定义每一列的数据类型，并给一个变量dtypedict供下一步写入数据时dtype参数调用。
dtypedict = {
      
  '计算机': Integer,
  '化工': Integer,
  '生物': Integer,
  '工程': Integer,
  '教育': Integer}
# 将Python中数据DataFrame保存到Mysql
df2.to_sql('salary', #定义要写入数据库的数据的表名
           engine, #把数据库连接写入，就是上边定义的那个连接
           index=True, #将行索引作为一列写入数据库中，默认设置为False
           index_label='行号',#当index为True的时候，定义行索引列的列名
           if_exists = 'replace',
#如果表已存在，如何处理，默认为fail报错，可设为replace：替换原表数据，append：在原表数据后追加写入。
           chunksize=10,
#指定每批次写入的行数，默认为None一次性写入，int类型，这个是设置每一批写入多少行，不是一共写入多少行，不论设置多少都是会全写入的
          dtype= dtypedict) #设置每一列的数据类型，默认为None，如果设置为None的话，会由系统自动识别，这可能造成资源的浪费。

4.4.2.读取MySQL数据库中的数据

#pd.read_sql()即可读取，但是如果我们想要使用读取的数据的话，最好给一个变量接收数据
df3 = pd.read_sql(
    'with p as (select * from salary)  select *,rank()over(order by 教育+计算机+化工+生物+工程 desc) as 排名 from p limit 10',
#直接写sql即可，用引号括起来，看MySQL的版本，我的是8.0，开窗函数和with字句都可用。
    con = engine)#调用的数据库链接
df3 #展示读取的数据

读取的数据为：

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第10张图片

5.Pandas数据选取

5.1.获取数据

#数据准备
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0,151,size = (10,3)),
                  index=list('ABCDEFHIJK'),columns=['Python','Math','En'])
df

5.1.1.获取单列数据

#列索引方式获取
df['Python'] # 获取数据Series
#对象方式获取
df.Python # 属性，DataFrame中列索引，表示属性

5.1.2.获取多列数据

df[['Python','En']] # 获取多列数据

5.2.标签选取数据

标签选取，就是按照索引标签选取，调用方法为.loc，即location。

df.loc['A'] #选取行索引标签为A的单行数据

Python 0
Math 29
En 113
Name: A, dtype: int32

df.loc[['A','F','K']] #选取多行数据，注意是两个中括号，查询出的数据是一个二维表格

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第11张图片

df.loc['A','Python'] #选取行索引标签为A，列索引标签为python的单个数据

0

df.loc[['A','C','F'],'Python'] #选取行索引标签为A、C、F，列索引标签为python的单列数据

A 0
C 137
F 3
Name: Python, dtype: int32

df.loc['A'::2,['Math','En']] #选取行索引标签以A为起点直到结尾，步长为2，列索引标签为math和en的数据

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第12张图片

df.loc['A':'D',:] #选取行索引标签由A起始到D结束，列索引标签为所有的数据

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第13张图片

可见，按标签选取数据和之前学的numpy以及python的索引和切片方式是一样的，只不过要注意什么时候用双中括号，什么时候用单中括号，且按照标签选取是左闭右闭的，选取的数据包括结束的那个标签。

5.3.位置选取数据

位置选取类似于标签选取，但是用的是标签所对应的实际索引，行列索引都是从0开始，这时候的选取是左闭右开的，不包括切片结尾的索引数据

数据准备：

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科⽬的考试
成绩
 index = list('ABCDEFGHIJ'),# ⾏标签
 columns=['Python','Tensorflow','Keras'])
df.iloc[4] # ⽤整数位置选择，选择行索引为4的数据
df.iloc[2:8,0:2] # ⽤整数切⽚，类似NumPy，选取行索引为2到7，列索引为0到1的数据
df.iloc[[1,3,5],[0,2,1]] # 整数列表按位置切⽚，选取行索引为1,3,5，列索引为0,1,2的数据
df.iloc[1:3,:] # ⾏切⽚，选取行索引为1和2,列索引为所有的数据
df.iloc[:,:2] # 列切⽚，选取行索引为所有，列索引为0和1的数据
df.iloc[0,2] # 选取标量值，选取行索引为0，列索引为2的数据

5.4.布尔索引（条件选取）

布尔索引，简单来说是我们先设置一个条件，这个条件输出的是布尔值True和False，然后我们用类似于numpy的花式索引的方式选取的方式调用条件，来达到按条件选取数据的目的，具体操作如下：

准备数据

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科⽬的考试
成绩
 index = list('ABCDEFGHIJ'),# ⾏标签，⽤户
 columns=['Python','Tensorflow','Keras']) # 考试科⽬
#我们先设置一个布尔索引，
df.Python > 80

输出值为：
A True
B False
C False
D False
E False
F True
G False
H True
I True
J False
Name: Python, dtype: bool

接下来我们调用这个条件

cond = df.Python > 80 # 将Python大于80分的成绩获取
df[cond]

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第14张图片

由结果可见，用布尔索引的方式，达到了按条件选取数据的目的，当然，也可以用与条件和或条件等复杂逻辑运算来做更进一步的筛选：

cond = (df.Python > 70) & (df.Tensorflow > 70) #与条件查询，使用&，选取python成绩和Tensorflow成绩同时大于70的数据
df[cond]
cond = (df.Python > 70) | (df.Tensorflow > 70) #或条件查询，使用|，选取python成绩或Tensorflow成绩大于70的数据
df[cond]

也可以使用聚合函数来进行条件选取：

cond = df.mean(axis = 1) > 75 # 选取平均分大于75（axis=1，按行聚合），优秀，筛选出来
df[cond]

那么如果想选取与条件相反的数据呢，就在条件前面加上~即可

df[~cond]

如果想选取在我们所列出的数组中的数据，可以用isin函数：

cond = df.index.isin(['C','E','H','K']) # 判断数据是否在数组中
df[cond] # 删选出来了符合条件的数据

isin 同样也可以使用~来选取不存在数组中的函数，用法同上。

5.5.赋值操作

df['Python']['A'] = 150 # 修改某个位置的值
df
df['Java'] = np.random.randint(0,151,size = 10) # 新增加一列
df
df.loc[['C','D','E'],'Math'] = 147 # 修改多个人的成绩
df
cond = df < 60
df[cond] = 60 # where 条件操作，符合这条件值，修改，不符合，不改变
df
df.iloc[3::3,[0,2]] += 100 #给对应位置的数据增加100
df

6.数据集成

数据准备

# np.concatenate NumPy数据集成
df1 = pd.DataFrame(np.random.randint(0,151,size = (10,3)),
                   columns=['Python','Math','En'],
                   index = list('ABCDEFHIJK'))
df2 = pd.DataFrame(np.random.randint(0,151,size = (10,3)),
                   columns = ['Python','Math','En'],
                   index = list('QWRTUYOPLM'))
df3 = pd.DataFrame(np.random.randint(0,151,size = (10,2)),
                  columns=['Java','Chinese'],index = list('ABCDEFHIJK'))

6.1.concat数据合并

6.1.1.行合并，竖直方向增加

pd.concat([df1,df2],axis = 0) 
# axis = 0变是行合并，行增加，注意进行合并的时候，列索引要一致，否则会出现类似SQL中outer join关联不上的出现None值的情况

行合并还可以用append的方式

df1.append(df2) # append追加，在行后面直接进行追加，同时也要注意列索引一致

6.1.2.列合并，水平方向增加

pd.concat([df1,df3],axis = 1) 
# axis = 1表示列增加，注意进行合并的时候，行索引要一致，否则会出现类似SQL中outer join关联不上的出现None值的情况

6.2.insert数据插入

df1.insert(loc = 1, # 插入位置，插入为列索引为1的位置
           column='C++', # 插入一列，这一列名字
           value = np.random.randint(0,151,size = 10)) # 插入的值

insert只能插入列，不能插入行，插入行用append

dfn = pd.DataFrame(np.random.randint(0,151,size = (1,4)),columns=['Python','C++','Math','En'],index= list('X'))
dfn
df1.append(dfn) # 插入的值

6.3.merge 合并

merge合并的效果类似于SQL中的表连接，具体使用方法如下：

准备数据：

import numpy as np
import pandas as pd
df1 = pd.DataFrame(data = {
      'name':['softpo','Brandon','Ella','Daniel','张三'],
                           'height':[175,180,169,177,168]}) # 身高
df2 = pd.DataFrame(data = {
      'name':['softpo','Brandon','Ella','Daniel','李四'],
                           'weight':[70,65,74,63,88]}) # 体重
df3 = pd.DataFrame(data = {
      '名字':['softpo','Brandon','Ella','Daniel','张三'],
                           'salary':np.random.randint(20,100,size = 5)}) # 薪水

#注意df1和df2的索引4键值不一样，df3和df1的第一个键（列名不一样）
display(df1,df2,df3)

上边用concat的列合并，是直接在水平方向上叠加，并不考虑连接的值是否相等的问题，比如

pd.concat([df1,df2],axis = 1)

得出来的数据是将两个Dataframe横向叠加了

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第15张图片

这时候如果想要实现像MySQL的表连接一样的效果，就需要用到merge方法：

# 根据共同的属性，合并数据
# df1 和 df2 全外连接，共同属性：name
pd.merge(df1, #要合并的左表
         df2, #要合并的右表
         how = 'outer',#合并的方式：inner-内连接，outer--全外连接，left--左外连接，right--右外连接，外连接的时候，没有数据的地方会填充为NaN，默认为inner。
         on=None,
#默认为None，合并的根据，要写出两个DataFrame共有的列，注意一定要是列名相同的，否则会报错，为list类型（多个列）或str（一列）
#如：['name']或者'name',默认None的时候，merge会自动寻找相同列名的列。
         left_on=None,
         right_on=None,
#当两表连接的根据列名字不一样的时候，用left on和right on列出两表连接的根据列，数值类型和on一样，默认None，比如df1和df3合并就需要用到left_on = 'name',right_on = '名字'。
         left_index = False,
         right_index = False,
#当进行连接的两表没有共同的根据列的时候，可以使用行索引进行合并，将left_index和right_index都设置为True即可，默认为False
         sort = True) #根据连接用的列进行排序，默认为False

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第16张图片

#df1和df3内连接，共有属性：name和名字，但是两个列索引的索引名不一样，所以要用到left_on和right_on
pd.merge(df1,df3,left_on='name',right_on='名字')

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第17张图片

df4 = pd.DataFrame(data = np.random.randint(0,151,size = (10,3)),
                   columns=['Python','Math','En'],index = list('ABCDEFHIJK')) 
#将df4求出平均值，数据结构是一列十行
score_mean = df4.mean(axis = 1).round(1) 
#给score_mean设置一个名字，否则执行下一步时会报错
score_mean.name = '平均分' 
#将df4和score_mean根据行索引合并，这时两个df不必有共同的列，直接按照行索引连接即可，其实也可以理解成两个df以行索引为根据列合并
pd.merge(df4,score_mean,
         left_index=True, # 数据合并根据行索引，对应
         right_index=True) # 右边数据根据行索引，对应

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第18张图片

7.数据清洗

准备数据：

df = pd.DataFrame(data = {
      'color':['red','blue','red','green','green','blue',None,np.NaN,'green'],
                          'price':[20,15,20,18,18,22,30,30,22]})
df

7.1.重复数据删除：drop_duplicates

# 重复数据删除
df.drop_duplicates() # 非重复数据，None和NaN都表示空值，且price列值也相等，所以算作重复数据

drop_duplicates的参数：一个不写全按照默认值处理 1. subset: 列标签或标签序列，可选仅考虑某些列来标识重复项，默认使用所有列 2. keep:确定要保留的重复项（如果有），默认为first

‘first’：保留第一次出现的重复项，其余全删除。
’last‘：保留最后一次出现的重复项，其余全删除。
False：删除所有重复项，一个也不留。

注意first和last是str，要加引号，False不用加。
3.inplace: 是否改变原变量数据，默认为False，如果设置为Ture将会改变原变量，慎用。 4.ignore_index: 是否为结果重新编排新的行索引，默认为False，设置为True的话，返回的结果行索引为从0开始重新递增的新行索引，比如默认返回的数据行索引是0，3，5，6，8，10，设置为True的话返回的结果的行索引就会变成0，1，2，3，4，5。

7.2.空数据过滤：dropna

构造数据：

from numpy import nan as NA
dfa = pd.DataFrame (np.random .randn(8,7))
dfa.iloc[0,:] = NA
dfa.iloc[1,:6] = NA
dfa.iloc[2,:5] = NA
dfa.iloc[3,:4] = NA
dfa.iloc[4,:3] = NA
dfa.iloc[5,:2] = NA
dfa.iloc[6,0] = NA
dfa

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第19张图片

dfa.dropna() # 空数据过滤，参数未进行设置，全部按照默认值来处理

dropna参数解析： 1） axis=0, 确定要删除的是包含空值的行还是列，默认是0即行，1为列 2） how='any', 确认要删除这一行或这一列需要满足的条件，默认为any，只要有一个空值就删除，all要这一行或这一列都为空值才删除 thresh=None, 此行或者此列非空值的个数要大于等于int的情况下才保留这一行或这一列，默认为None，比如上表

当thresh=None或者不写时，默认只要有空值就删除这一行，那么最后剩下行索引为7的这一行
当thresh=0时，保留所有行，因为所有行的非空值个数都大于等于0个
当thresh=1时，去掉第1行，因为其他行的非空值个数都大于等于1个
当thresh=2时，去掉前2行，因为其他行的非空值个数都大于等于2个
当thresh=3时，去掉前3行，因为其他行的非空值个数都大于等于3个
当thresh=4时，去掉前4行，因为其他行的非空值个数都大于等于4个
当thresh=5时，去掉前5行，因为只有最后三行的非空值个数都大于等于5个
当thresh=6时，去掉前6行，因为只有最后两行的非空值个数都大于等于6个
当thresh=7时，去掉前7行，因为只有最后一行的非空值个数都大于等于7个
当thresh=8或以上时，去掉所有行，因为只有七列，不可能存在有8个非空值的行

3）subset=None, 只删除指定列中含有缺失值的行，sunset 的值要为数组或者none
dfa.dropna(subset=np.array([3])) #这里就是只删除了列索引3中含有空值的行
4）inplace=False，是否改变原变量数据，默认为False，如果设置为Ture将会改变原变量，慎用。

7.3.删除指定的行或列：labels

数据准备：

midx = pd.MultiIndex(levels=[['lama', 'cow', 'falcon'],
                             ['speed', 'weight', 'length']],
                     codes=[[0, 0, 0, 1, 1, 1, 2, 2, 2],
                            [0, 1, 2, 0, 1, 2, 0, 1, 2]])
dfb = pd.DataFrame(index=midx, columns=['big', 'small'],
                  data=[[45, 30], [200, 100], [1.5, 1], [30, 20],
                        [250, 150], [1.5, 0.8], [320, 250],
                        [1, 0.8], [0.3,0.2]])
dfb

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第20张图片

dfb.drop(index='length', level=1)#删除二级行索引为length的行

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第21张图片

dfb.drop(labels=['big'],axis=1)#删除列索引为big的列

drop参数解析：
1) labels=None,确定要删除的项目，可以是行列索引(0,1,2,3..)也可也是行列的标签，删除单个的时候可以是str/int或者list,删除多个的时候必须是一个列表['big','small','mid']...。 2) axis=0,确定要删除的是列还是行，0为行，1为列，默认0. 3) index=None,相当于axis=0，默认为None 4) columns=None,相当于axis=1，默认为None 5) level=None,当索引为多重索引的时候，删除指定级别的对应索引行数据，默认为None。
比如此例中，行为2重索引，那么我们在删除行索引标签为length的行时候，要制定level=1，因为length的索引级别在第二级别，否则会报错；而当索引不是多重索引不要设置level的值或者设置None，否则也会报错。 6) inplace=False,是否改变原变量数据，默认为False，如果设置为Ture将会改变原变量，慎用。

7.4.保留筛选--filter

数据准备：

 df = pd.DataFrame(data = {
      'color':['red','blue','red','green','green','blue',None,np.NaN,'green'],'price':[20,15,20,18,18,22,30,30,22]})
 df

#items，精确匹配
df.filter(items=['price']) # 保留列标签为price的数据
df.filter(items=[0,1,2,3]，axis = 0) #保留行索引为0,1,2,3的所有行
#like
df.filter(like = 'i') # 模糊匹配，保留了列标签中带有i这个字母的所有列
# 正则表达式，方式很多，用到可以再查
df.filter(regex = 'e$') # 保留列标签是以e结尾的所有列

filter参数解析： items：精确匹配，保留标签/索引为列表中所列的值的行或者列，items的值为列表，默认为None。 like：模糊匹配，保留了标签/索引含有所列字符串内字符的行或者列，like的值为str，默认为None。 regex：正则匹配，默认为None。 axis：确定要进行筛选的是行还是列，0为行，1为列，注意这里和之前不同的是， filter的axis参数默认值是1。

7.5.异常值过滤

数据准备：

a = np.random.randint(0,1000,size = 200)

cond = (a <=800) & (a >=100) # 定义异常值:大于800，小于100。
a[cond] #调用过滤条件
# 定义一个平均值是0，标准差是1的正态分布数组。
b = np.random.randn(100000)

# 正态分布中，有个3σ定律，即绝对值为标准差3倍即以上的值为异常值，所以可以使用这个定律过滤呈正态分布的数据中的异常值
cond = np.abs(b) > 3*1 # 定义异常值:绝对值大于3σ
b[cond] #调用过滤条件

8.数据转换

数据准备：

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0,10,size = (10,3)),
                  columns=['Python','Tensorflow','Keras'],
                  index = list('ABCDEFHIJK'))

8.1.索引标签的替换--rename

df.rename(index = {
      'A':'X','K':'Y'}, # 行索引
          columns={
      'Python':'人工智能'}, # 列索引修改
          )

rename参数解析 mapper=None,定义要修改的值，mapper值为字典，冒号前为要修改的值，冒号后为要改为的值，与axis配合使用，默认为None。 axis=None,定义要修改行还是列，与mapper配合使用，默认为None。 index=None,定义要修改的值，修改行索引，mapper值为字典，冒号前为要修改的值，冒号后为要改为的值，默认为None。 columns=None,定义要修改的值，修改列索引，mapper值为字典，冒号前为要修改的值，冒号后为要改为的值，默认为None。
一般常用的是index和columns，mapper和axis不常用。 inplace=False,是否改变原变量数据，默认为False，如果设置为Ture将会改变原变量，慎用。 level=None,当索引为多重索引的时候，修改指定级别的对应的索引标签，默认为None。

8.2.数据的替换

8.2.1.replace

#非指定列一对一替换
df.replace(5,50)
#非指定列多对一替换
df.replace([2,7],1024)
#非指定列多对多替换
df.replace([2,7],[10,24])

#指定列一对一替换
df.replace({
      'Tensorflow':1024},-1024) # 指定某一列，进行数据替换
#指定列多对一替换
df.replace({
      'Tensorflow':[8,6]},100) # 指定某一列，进行数据替换
#指定列多对多替换
df.replace({
      'Tensorflow':[8,6]},{
      'Tensorflow':[100,240]}) # 指定某一列，进行数据替换

replace参数解析（常用）： to_replace=None,要修改的值，值类型可以是int，float，列表，字段等 value=None,要改为的值，值类型可以是int，float，列表，字段等 注意多对多修改to_replace和value值的个数要相等。 inplace=False,是否改变原变量数据，默认为False，如果设置为Ture将会改变原变量，慎用。

8.2.2.map映射元素转变

map 只能针对一列，就是Series，map是起到映射的作用，即把df的值传递给它里边的参数，map既可以是序列，也可以是函数

# 有一些没有对应，那么返回就是空数据
df['人工智能'].map({
      1024:3.14,2048:2.718,6:1108}) # 跟据字典对数据进行改变

X NaN
B NaN
C 3.140
D 3.140
E 2.718
F NaN
H 1108.000
I 3.140
J NaN
Y 2.718
Name: 人工智能, dtype: float64

df['Keras'].map(lambda x :True if x > 0 else False) # 如果大于 0 返回True，不然返回False

X True
B True
C True
D True
E True
F True
H True
I True
J True
Y True
Name: Keras, dtype: bool

def convert(x):
    if x >= 1024:
        return True
    else:
        return False
df['level'] = df['Tensorflow'].map(convert) # map映射，映射是Tensorflow中这一列中每一个数据，传递到方法中
df

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第22张图片

8.2.3.apply、applymap、transform映射元素转变

apply既可以操作Series又可以操作DataFrame

apply是起到映射的作用，即把df的值传递给它里边的参数，apply既可以是序列，也可以是函数

当apply操作的是一列的时候，用法和效果是和map一样的，是一个Series

df['人工智能'].apply(lambda x : x + 100) #给人工智能这一列的所有值都+100
df['level'].apply(lambda x:1 if x else 0) #level如果为Ture返回1，False返回0

当apply操作的是多列的时候，返回的结果是个DataFrame

# 定义一个函数，返回中位数，奇数，最小值，最大值和标准差。
def convert(x):
    return pd.Series([x.median(),x.count(),x.min(),x.max(),x.std()],
                     index = ('中位数','计数','最小值','最大值','标准差'))

df.apply(convert).round(1) # axis默认值是0，是对每列所有行的值进行统计

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第23张图片

df.apply(convert,axis = 1).round(2) # axis = 1，是对每行所有列的值进行统计

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第24张图片

df['Tensorflow'].apply([np.sqrt,np.square,np.cumsum]) # 针对一列，进行不同的操作

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第25张图片

def convert(x):
    if x > 5:
        return True
    else:
        return False
df.apply({
      '人工智能':np.cumsum,'Tensorflow':np.square,'Keras':convert}) # 对不同的列，执行不同的操作

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第26张图片

针对单列和多列的计算，applay和transform的用法和效果是一样的，但是transform不能对整体进行操作，也就是说使用transform时必须要指定对哪一列或者那几列进行什么样的操作，关于applay和transform的具体异同点，可查看下方链接

applay和transform的异同点： https://www. jb51.net/article/149789 .htm

而applymap是对DataFrame中的所有元素进行操作，不能聚合，只能逐个操作，关于apply和applymap的具体区别可查看以下链接

pandas中的map()、apply()、applymap()函数的区别： https://www. cnblogs.com/jason--/p/1 1427145.html

def abc(n):
    return n+1
df.applymap(abc)

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第27张图片

8.2.4.打乱随机抽样和哑变量

1）打乱随机抽样

有时候需要从大量数据中随机抽样，但是按顺序选难免没有参考性，这时候就可以使用permutation和take的组合进行重排打乱选取样本数据：

# 重排，索引打乱
df1 = df.take(np.random.permutation(8)) #取原Dataframe的数据，打乱顺序，
df1[3:7] #从被打乱顺序的数据中取出一部分值

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第28张图片

# 将原有的少量数据进行增量打乱重排
df.take(np.random.randint(0,10,size = 20)) # 随机抽样20个数据

2）哑变量

df2 = pd.DataFrame(data = {
      '数值':['a','b','a','b','c','b','c','我是谁']})
df2

# one-hot,哑变量,返回结果会显示原表中的数据在哪行出现了和没出现，出现标1，没出现标0
# str类型数据，经过哑变量变换可以使用数字表示
pd.get_dummies(df2,prefix='',prefix_sep='') # 1表示，有；0表示，没有
#prefix不进行定义的话会默认使用原DataFrame的列标签，prefix_sep不写的话会默认加一个_,get_dummies的结果列标签会变成 数值_a 数值_b 数值_c 数值_我是谁，把这两个参数都设置为''的话返回的列标签就会变成 a ,b,c,我是谁

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第29张图片

9.数据重塑（行列转换）

前面在numpy说到过行列转置，行列转置是直接将行列的位置调换，但是时对行列的整体进行转置，在遇到多层索引的时候，不能对某一层索引进行单独的行列转置，这时候就用到了pandas的行列转置操作。

df2 = pd.DataFrame(np.random.randint(0,10,size = (20,3)),
                   columns=['Python','Math','En'],
                   index = pd.MultiIndex.from_product([list('ABCDEFHIJK'),['期中','期末']])) # 多层索引

df2

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第30张图片

由图可见，行索引是分两级的，这时候如果想对行索引进行单级别的行列转换，就需要用到unstack函数：

df2.T #Numpy的行列转换效果

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第31张图片

df2.unstack(level = -1, #索引级别指定,0表示第一级索引，-1则表示最后一级索引，默认值为-1
            fill_value=0) # 当出现空值的时候，用0替代，fill_value默认值为None，不处理，就还为None

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第32张图片

有行转列就有列转行，列转行要用到的函数是stack

df2.stack(level=0, #索引级别指定,0表示第一级索引，-1则表示最后一级索引，默认值为-1。
          dropna=True) # 当出现空值的时候是否去掉，默认为False保留，True为去掉。
          
#因为原DF只有一级列索引，所以转化之后DF会变成Series，所以我们加一个转换，把Series转换回DF
df3 = pd.DataFrame(df2.stack(level=0,dropna=True),columns=['考试成绩'])
df3

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第33张图片

数据大概就是上图这样。

行列转换还可以套着用：

df2.unstack().stack(level = 0)

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第34张图片

这样就把原来的二级行索引变成了列索引，列索引变成了二级行索引。

行列转换还可以配合聚合函数使用，直接计算某一级索引的聚合值：

df2.mean(level=1,axis = 0) # 计算2级行索引级别的平均值

df2.mean(level=0,axis = 0) # 计算1级行索引级别的平均值

csv 输入的第 1 行字段数有错。_Pandas数据分析库1-Pandas基础知识_第35张图片

你可能感兴趣的:(csv,输入的第,1,行字段数有错。)

【家政平台开发(93)】解锁家政新视界：VR/AR在家政平台的奇妙旅程奔跑吧邓邓子家政平台开发家政平台开发 VR AR 虚拟现实增强现实应用实践
本【家政平台开发】专栏聚焦家政平台从0到1的全流程打造。从前期需求分析，剖析家政行业现状、挖掘用户需求与梳理功能要点，到系统设计阶段的架构选型、数据库构建，再到开发阶段各模块逐一实现。涵盖移动与PC端设计、接口开发及性能优化，测试阶段多维度保障平台质量，部署发布阶段确保平稳上线。还深入探讨运营策略、技术创新应用及未来发展方向，为家政平台开发提供全面且实用的知识体系与实践指南。目录一、VR/AR在家
单片机开发为啥对C++爱答不理？——不是C++不够好，是单片机太“穷”了宋一平工作室 stm32 单片机嵌入式硬件物联网 c语言
单片机开发为啥对C++爱答不理？——不是C++不够好，是单片机太“穷”了你有没有过这种疑惑？C++明明听起来更“高级”——有类、有对象、有各种酷炫的语法，怎么到了单片机开发这儿，就成了没人待见的“外来户”？反倒是C语言这个看起来“老掉牙”的家伙，牢牢霸占着单片机的半壁江山。这事儿说起来挺有意思，不是C++不够优秀，而是单片机这“小身板”，实在消受不起C++的“豪华套餐”。今天咱们就用大白话唠唠：为
SpringAIAlibaba正式版发布！小付爱coding ai
SpringAIAlibaba正式版发布！SpringAIAlibaba到底是个啥？没错！它还是以SpringAI为基础，深度集成阿里自己的百炼平台：支持ChatBot、工作流、多智能体应用开发模式的AI框架。简单来说就是将调用大模型抽象成一个API，可以直接调用来实现，只不过可选参数更多它的核心能力：抽象+简化+扩展SpringAIAlibaba最大的价值在于：它把调用大模型这件事，抽象成了一个
计算机网络第三章——数据链路层（考研和期末复习都适用）成为佬计算机网络背诵码住！计算机网络考研网络协议
目录1、数据链路层使用的信道2.数据链路层概述3.数据链路层的三个重要问题：封装成帧、差错检测、可靠传输。封装成帧透明传输差错检测循环冗余检验的原理（CRC）：冗余码的计算冗余码的计算举例帧检验序列FCSps：4.点对点协议PPP（目前使用最广泛的数据链路层协议）PPP协议的特点PPP协议应满足的需求PPP协议的组成PPP协议的帧格式5.使用广播信道的数据链路层局域网的数据链路层媒体共享技术：以太
C++ unordered_set基础概念、对象创建、赋值操作、数据插入、数据删除、代码练习 1 2 每天搬一点点砖 c++数据结构开发语言
unordered_set的底层是哈希表。增删改查的时间复杂度：数组O(n)二叉树O(logn)哈希表O(1)哈希表的本质原理：哈希键--（哈希函数）--哈希值--（取模、位于）--桶/ID这里的哈希键一般是任意类型，所以需要先通过哈希函数转换为整数，我们叫他哈希值，再通过取模（一般使用的时候采用位于运算），映射到某个桶中。这样就可以把任意类型的数据存储到数组中，且能够快速查找到。桶：下标索引又叫
ECS由浅入深第四节：ECS 与 Unity 传统开发模式的结合？混合架构的艺术
尽管ECS带来了显著的性能和架构优势，但在实际的Unity项目中，完全摒弃GameObject和MonoBehaviour往往是不现实的。Unity引擎本身的大部分功能，如UI、动画系统、粒子系统、物理引擎（非DOTS物理）、光照烘焙、场景管理，乃至编辑器扩展，都深度依赖于GameObject。因此，一种混合架构（HybridArchitecture）成为了在Unity中应用ECS的常见且高效的策
基于Matplotlib，在个人电脑上实现无代码、易于使用的绘图体验 wh3933 matplotlib 信息可视化
在科学研究、商业分析和学术出版等领域，数据可视化是沟通洞见、展示成果的关键环节。强大的Python绘图库Matplotlib为此提供了无限可能，但其陡峭的学习曲线和对编程能力的硬性要求，将大量非程序员的领域专家拒之门外。这些专家——包括科学家、分析师、学者和学生——虽然在各自领域具备深厚的知识，却常常因不熟悉编程而难以高效地创建高质量、可定制的图表。他们目前或受限于Excel等功能有限的软件，或需
[ruby on rails] ActiveJob中 discard_on，retry_on和 rescue_from的应用微信-yangfansky ruby on rails 前端 javascript
job中discard_on，retry_on和rescue_from的应用#frozen_string_literal:trueclassOrdersRefundJob
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
计算机网络——数据链路层—局域网和广域网玖萬计算机网络服务器网络
一、局域网的基本概念和体系结构•局域网LAN通常是指在一个较小的地理范围内（一般在几十米到几公里之间），利用通信线路将许多数据设备连接起来，实现资源和信息共享的互联网络。•局域网最主要的特点是：网络为一个单位所拥有，且地理范围和站点数目均有限。除此之外，局域网还具有较高的速率、较低的时延和较低的误码率、各站为平等关系而非主从关系、能进行广播和组播等特点。•决定局域网特性的主要因素包括三个方面：即网
虚拟局域网（VLAN） m0_73882020 计算机网络
虚拟局域网（VLAN）的ID是用于标识同一VLAN中设备的数字标签。VLAN的作用是在同一个物理网络设备（如交换机）上，将不同的设备分隔成逻辑上的多个局域网。不同VLAN的设备无法直接通信，除非通过路由器或三层交换机。这种技术提高了网络的安全性、管理性和效率。VLANID说明：VLANID范围：1-4094。ID结构：VLANID是一个12位的标识符，范围是1到4094，其中一些ID具有特殊用途或
python----下载安装，配置环境 m0_73882020 python
1.下载老版本2.7.18参考链接：Python版本Python2.7.18|Python.org2.配置环境手动添加Python到PATH右键点击此电脑→属性→高级系统设置→环境变量；在系统变量中找到Path，点击编辑→新建，添加以下两条路径：D:\download\xz\python\D:\download\xz\python\Scripts\路径就是在你的安装Python保存后重启命令提示符
Raiden Network（一）—— Overview YzYzYzzzzz Raiden Network 区块链 Raiden Network
RaidenNetwork的优点：可扩展性：当前大多数区块链的容量都有固定或半固定的限制，而雷电网络的容量与参与者数量成正比快速地：可以在亚秒内确认转移私人的：个人转账不会出现在全球共享账本中可互操作：适用于任何遵循以太坊标准化令牌API(ERC20)的令牌低费用：转账费用可能比区块链低几个数量级小额付款：低交易费用允许有效地转移微小的价值RaidenNetwork的各种资料网址：RaidenNe
PDFArranger 1.12.0版本发布：专业PDF文档管理工具的新特性解析
PDFArranger1.12.0版本发布：专业PDF文档管理工具的新特性解析pdfarrangerSmallpython-gtkapplication,whichhelpstheusertomergeorsplitPDFdocumentsandrotate,cropandrearrangetheirpagesusinganinteractiveandintuitivegraphicalinter
解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- GPT源代码解析大模型与Agent智能体 A2A MCP DeepSeek A2A MCP Manus ADK
解密企业级大模型智能体AgenticAI关键技术：MCP、A2A、ReasoningLLMs-GPT源代码解析我们可以稍微看一下，这是我们GPT的基于它的源代码产生的可视化的内容。这边是model，我们在谈这个sampling的时候，本身首先就是说它这个probabilitydistribution，会有很多的参数对它进行影响。例如temperature，如果你是hightemperature的话
技术演进中的开发沉思-29 MFC系列：关于win32 chilavert318 熬之滴水穿石 windows 开发语言 c++
不得不提的，是win32程序已经走在淘汰的边缘了，但今天还是想说说它。若把计算机系统比作一座不断翻新的城市，Win32就像那些承载着城市记忆的老街区。64位系统的普及确实像拓宽了主干道，Win64作为新拓宽的车道，能跑更大更重的“卡车”（处理更大内存、更复杂运算），但老街区的石板路（Win32）依然有它的用处——那些只需要自行车就能到达的目的地（轻量工具、嵌入式设备），没必要非得开卡车。目前国产化
Flask 框架：深入浅出理解其工作原理与机制 chilavert318 熬之滴水穿石 flask python 后端
今天写不发相关连载了，而是将我近段时间接触到的内容做次分享。这几天，使用了开源的DashGO框架，了解到了这个开源的底层是Flask框架。所以花了点时间了解一下，现在Web开发领域，各种框架层出不穷，看了一下Flask的源码，作为一款轻量级的PythonWeb框架，还是凸显了简洁、灵活的特点。今天就深入浅出地将我理解的Flask讲解出来。一、Flask是什么简单来说，Flask是一个使用Pytho
Docker 学习入门篇：从基础概念到实战部署
一、Docker核心概念与核心价值1.1Docker是什么？Docker是基于Go语言开发的开源容器化平台，旨在实现“一次镜像，处处运行”。它通过将应用程序及其依赖环境（代码、运行时、系统工具、系统库等）打包成一个轻量级、可移植的镜像（Image），使应用能够在不同环境中稳定运行，彻底解决了传统开发中环境不一致、部署复杂的难题。1.2Docker解决了什么问题？环境一致性难题：开发、测试、生产环境
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
吐血整理！电动车安全充电原理大公开！：比如我有一辆48度的电动汽车，我在高速上遇到480kw充电桩，如何能够保证汽车安全充电，汽车安全充电的原理是什么 -慧知开源充电桩平台文慧的科技江湖更新日志 -(慧哥)慧知充电桩平台安全汽车大数据人工智能架构开源直流充电桩
确保电动汽车在480kW超充桩上安全充电的核心在于电池管理系统（BMS）、热管理系统、充电桩与车辆的智能协同保护机制。安全充电的核心原理智能功率协商（握手协议）充电前，车辆BMS会与充电桩通信，自动协商最大可接受功率（如您的48度电池可能峰值仅支持100-150kW，而非480kW）。实际充电功率由车辆BMS决定，而非充电桩。充电桩仅提供“可用功率上限”，车辆只会取用自身能承受的部分。电池管理系统
取消短按power键做出对应的功能
frameworks/base/policy/src/com/android/internal/policy/impl/PhoneWindowManager.java@@publicbooleanisForegroundActivity(Stringpackage_name){cancelPendingScreenshotChordAction();if(interceptPowerKeyUp(c
差分信号的测量方法【PINTECH品致】 Pintech+19902279403 网络
3.差分信号的测量方法目前差分信号的常见测量方法如下：1）使用两个探头测量，再利用示波器数学运算功能计算。使用探头进行两项单端测量，这是一种常用方法，也是进行差分测量最不希望的方法。测量到地的信号（单端）及使用示波器的数学运算函数（通道A信号减去通道B），就可测量差分信号。在信号时低频信号，信号幅度足够大，能够超过任何担心的噪声情况下，可以采取这种方法。两个单端测量组合在一起有多个潜在问题。其中一
2024三掌柜赠书活动第十二期：Nuxt.js Web开发实战
目录前言Nuxt.js的特性Nuxt.js的实战应用关于《Nuxt.jsWeb开发实战》编辑推荐内容简介作者简介图书目录书中前言/序言《Nuxt.jsWeb开发实战》全书速览结束语前言作为前端开发的小伙伴想必对Nuxt.js并不陌生，Nuxt.js是基于Vue.js的一款用于构建服务端渲染的应用程序的框架。它能够帮助开发者快速搭建高性能的单页面应用（SPA）和多页面应用（MPA）。Nuxt.js在
车载以太网-TC8测试-UT(Upper Tester) 天赐好车车载以太网车载以太网 TC8 UT
目录一、技术原理：指令体系与协议适配1.**指令格式与传输机制**2.**协议栈交互逻辑**3.**规范遵循与版本演进**二、测试应用：TC8测试场景与案例1.**TCP协议栈深度验证**2.**ARP协议健壮性测试**3.**SOME/IP服务动态管理**三、实现挑战与解决方案1.**实时性要求**2.**安全性风险**3.**协议栈适配差异**四、集成流程与工具链1.**UT开发与部署**2.
什么是个人品牌？定义、意义与核心优势清风徐徐de来知识管理内容管理内容中台产品运营用户运营
个人品牌的定义个人品牌是一种通过网站、社交媒体和内容平台主动塑造的公众形象，旨在清晰传达你是谁、你做什么以及为何你正在做这些事情。这不仅涉及外在形象与风格，还包含你的价值观、技能、经验以及它们如何服务于目标受众。相比传统人设，个人品牌更强调影响力与长期信任的构建。个人品牌的战略意义个人品牌位于目标（Purpose）与身份（Identity）的交汇点，是passioneconomy中推动成长的核心力
Java零基础之自定义异常类！菜鸟不学编程 Java从入门到放弃 java 开发语言
你好，欢迎来到我的博客！我是【菜鸟不学编程】我是一个正在奋斗中的职场码农，步入职场多年，正在从“小码农”慢慢成长为有深度、有思考的技术人。在这条不断进阶的路上，我决定记录下自己的学习与成长过程，也希望通过博客结识更多志同道合的朋友。 ️主要方向包括Java基础、Spring全家桶、数据库优化、项目实战等，也会分享一些踩坑经历与面试复盘，希望能为还在迷茫中的你提供一些参考。我相信：写作
基于PDF Arranger工具，实现对PDF文档的页面进行合并、拆分、排序等操作 wh3933 pdf
1.工具简介PDFArranger是一款轻量、直观、开源的PDF页面处理工具。它的主要目标是提供一个简单易用的图形用户界面（GUI），让用户可以方便地对PDF文档的页面进行合并、拆分、排序等操作。你可以把它想象成一个PDF页面的“幻灯片管理器”，所有的操作都非常直观。核心功能：合并PDF：将多个PDF文档合并成一个。拆分PDF：从一个PDF中提取部分页面，生成新的PDF。重新排序：通过拖拽（dra
Nuxt.js 静态生成中的跨域问题解决方案 m0_73882020 javascript 开发语言 ecmascript
当您运行npmrungenerate生成静态页面时，Vite的代理服务器确实无法使用，因为生成阶段是在Node.js环境中执行的构建过程。但别担心，我将为您提供一套完整的解决方案来处理构建阶段的跨域问题。核心解决方案1.构建阶段：使用服务端中转API（推荐）在构建阶段通过Nuxt的server路由中转请求，避开跨域限制：//server/api/products.tsexportdefaultde
Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践雷羿 LexChien LLM 人工智能 python c++LLM RAG
GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。GemmaChatbot以C++为推理核心，结合Python前端与多语言支持，实现了高性能与灵活性的完美结合。本文将深入剖析其程序架构、模块划分、数据流设计与工程实践细节。一、总体架构设计GemmaChatbot采用“前后端分离”与“
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end