【02】数据类型、导入和输出

一、基本的数据类型

Python的数据类型与R语言的数据类型存在着一些差异。通常来说,Python常用的数据类型有:

  • 列表list
  • 字典dict
  • 元组tuple
  • 字符串' '
  • 数组array
  • 数据框DataFrame
  • 序列Series

其中,数组、数据框和序列则分别需要用到Numpy库和Pandas库

1.1 列表(list)

1.1.1 创建方法

list是python中最常见的数据类型,可以简单理解成R语言中的向量类型。一般而言,创建list的方式有两种:

  • 使用list函数
  • 使用方括号
mylist1 = list('abcd')
mylist1
['a', 'b', 'c', 'd']

使用list函数指定时,往往会将括号内的参数进行拆分并写入到一个新的列表中,因此这种方法往往可以用直接指定可以拆分的字符串类型,生成字符串列表。
但通常情况来说,使用方括号来创建列表也较为常见,不需要写出list函数直接将内容用逗号分开后写入到方括号内即可

mylist2 = [1,2,3,4,5,'hello', 'world']
mylist2
[1, 2, 3, 4, 5, 'hello', 'world']

1.1.2 列表的常用方法

在Python中的“方法”的概念也可以简单理解为函数,虽然在表现形式上和通常意义上的函数有所不同,但是本质上不同类型所具有的方法实际上也发挥着特定函数的功能,主要有以下几个:

  • 增加
    • append
    • insert
    • extend
  • 删除
    • pop
    • remove
  • 排序
    • sort

增加

append故名思义即追加的意思,因此直接会在列表后面直接进行增加

mylist3 = [1,2,3]
mylist3.append(4) #直接在原数据的尾部增加4
mylist3
[1, 2, 3, 4]
insert表示插入的意思,因此比append多一个步骤就是需要指定插入元素的索引位置(参见后面有关索引的内容);并且insert可以在列表的任意位置中增添,而不像append只能直接在尾部增加新元素。
insert表示插入的意思,因此比append多一个步骤就是需要指定插入元素的索引位置(参见后面有关索引的内容);并且insert可以在列表的任意位置中增添,而不像append只能直接在尾部增加新元素。
mylist3.insert(4, 'helloworld') #指定插入位置4
mylist3

extend表示延伸、延长的意思,因此这往往直接用来将一个列表加入到另一个列表的尾部,简单理解就像是一节节相连的火车箱;虽然extend也是在列表的尾部追加,但是和append有所不同的是:

  • extend方法是直接将其他列表中的元素添加到要加入的列表中
  • append方法仅仅只是在尾部追加,如果添加的是列表,不会将列表的元素直接追加
mylist4 = [1,2,3,4]
mylist5 = [1,2,4,4]
mylist4.extend([5,6,7,8])
mylist5.append([5,6,7,8])
print(mylist4, mylist5, sep='\n') #sep='\n'表示以行为单位输出打印

可以对三种方法进行一个简单的区分,以便理解:

  • append:直接在列表的尾部进行追加元素或列表
  • insert:可以在列表的任意位置追加,但需要指定插入位置
  • extend:直接在尾部进行追加,但追加的只能是列表,即使列表只包含一个元素
    但需要注意的是,三种方法都会直接在原数据上进行修改。因此如果不想修改原数据的,则需要使用copy方法来将原数据进行复制并赋值给新变量后再进行修改

删除

pop方法和insert有些相似,需要指定删除的元素位置,默认为尾部。一次只能指定一个位置并删除一个对象

mylist6 = [1,2,3,4]
mylist6.pop(0) #指定元素1的索引位置
mylist6

remove表示移除的意思,但其参数是移除列表中的某个值。

mylist6.remove(2) #移除列表中的元素2
mylist6

对于删除的方法,可以简单理解为insert方法的拆分,pop是根据元素的位置进行删除,remove直接删除列表中的元素

排序

sort方法可以直接用来对列表按从小到大排序,但其中sort的reverse参数则是从大到小

mylist7 = [2,1,7,8,5,6]
mylist7.sort()
mylist7
mylist7 = [2,1,7,8,5,6]
mylist7.sort(reverse=True)
mylist7

1.2 字典(dict)

1.2.1 创建方法

字典是Python中特别的数据类型,一般以“键-值”对的形式出现。对于字典的理解可以直接理解成我们小学使用的中华词典,根据首字母(键)进行找到每个字的相关内容(值)。同列表一样的,创建方法也有两种形式:

  • 花括号创建
  • 使用dict函数创建

使用花括号创建时,键(key)需要用双引号指定,并且在键的后面加上冒号与值相连。

mydict1 = {'Name':'张三',
               'Age':35,
               'telephone':123456}
mydict1

当然,如果像用R语言的数据框形式来输入而省去输入引号和冒号的麻烦,可以直接使用dict函数来创建字典。

mydict2 = dict(
    Name = '李四',
    Age = 40,
    Telephone = 123456
)
mydict2

使用dict函数来生成字典的方式更为通俗易懂,而且可以提高输入的效率;字典中的内容可以是数值、列表或者甚至是另外一个字典。如果是多个字典组成的字典,通常称为“JSON”格式的数据类型,但是这种数据类型需要额外的模块或库来进行处理。

1.2.2 常用方法

字典的常用方法和列表的部分方法有重合的地方,但是由于字典的形式和列表有所不同,因此也存在着字典类型特有的方法。

  • 增加:update
  • 删除:
    • pop
    • popitem
  • 键和值:
    • items
    • keys
    • values
    • get

增加

追加字典的方法可以update方法,update表示更新的意思。这一方法需要指定新的键值对;除此之外,在后面的章节中还可以通过索引的方式来进行追加。如果需要增加多个键-值对,那么直接可以创建一个新字典后直接使用update加入,这就有些类似列表的extend方法

mydict1.update({'Gender':'男'})
mydict1

删除

list的pop方法同样适用于list,因此使用pop可以指定要删除元素的位置,只是这次位置的索引等价于键

mydict1.pop('Gender')

popitem方法是pop方法的另一种延伸,适用于字典类型。故名思义就是从键中删除某个值,但需要注意的是,这一方法是在字典中随机删除某一键-值对。

mydict1.popitem()

键-值方法

由于字典是由一组组键-值对构成,因此也存在着相应的方法可以查看字典的键-值对。items方法是直接返回字典里所有的键-值对

mydict2.items()

keys表示键,因此keys方法可以直接返回字典里每一组键值对中的键有哪些

mydict2.keys()

values表示值,因此就是返回每组键值对中的值

mydict2.values()

对于上述三个函数,可以简单理解为 keys+values=items,即每一组键-值对才构成一个项目。因此使用其中的特定部分就会获取相应部分的相关信息。

如果想要查找特定键下的值有哪些,那么则需要get方法。get方法可以将键传入字典后搜索并返回值

mydict2.get('Name')

1.3 元组(tuple)

Python中的元组如果仅从形式上看,和R语言中的用括号表示的向量几乎相差无几;同时元组看起来和列表十分相似,但是元组和列表最大的区别就在于:列表可以修改,而元组不可修改

正因为元组这种不可修改的特性,使得元组可以很好保护重要或者关键的数据不容易被轻易修改。在很多函数中也会使用元组作为传入参数

1.3.1 创建方法

和列表、字典一样,元组一样有两种方法可以创建:

  • 括号
  • tuple函数

通常使用括号就直接可以生成一组元组:

mytuple1 = (1,2,3,4,'helloworld')
mytuple1

同样的,tuple的用法也类似于list

mytuple2 = tuple('abcd')
mytuple2

1.3.2 元组的常用方法

由于元组具有不可修改的特性,因此一般的增、删操作都无法使用,只能简单地对元组内所包含的元素信息进行查看:

  • 计数count
  • 索引index
mytuple3 = (1,3,3,'a','b')
mytuple3.count(3)

使用index可以直接返回元素所在的索引位置

mytuple3.index('a')

1.4 字符串

Python中的字符串和R语言中的字符串类型基本相似,但是需要注意的是Python中的字符串和元组一样,同样是不可改变的,但却可以像列表一样参与到循环当中进行循环迭代

1.4.1 创建方法

在Python中创建字符串和R语言类似,只需要用引号来包含即可生成字符串:

my_string = 'Hello world!'
my_string
'Hello world!'

1.4.2 字符串的方法

字符串由于不可修改,因此增删的相关方法也就不存在了。但是字符串的用途较为广泛,因此也存在着一系列丰富的方法

  • 字符统计:count
  • 分割字符:split
  • 大小写:
    • 小写:lower
    • 大写:upper
    • 首字母大写:capitalize、title
  • 替换:replace
  • 空格删除
    • 全删除:strip
    • 左删除:lstrip
    • 右删除:rstrip

count方法可以统计字符串中某个字符的频数

my_string.count('l')
3

使用split可以直接将字符串分割,这和R语言中的strsplit函数相一致。可以通过sep来指定分隔符。

my_string.split()
['Hello', 'world!']
my_string1 = 'Hello, world;Hello, Python'
my_string1.split(sep=';')
['Hello, world', 'Hello, Python']

大小写的转换和R语言tolowertoupper等函数相对应

lower_string = my_string.lower() #全部字符小写,等价于R语言中的tolower()
upper_sting = my_string.upper() #全部字符大写,等价于R语言中的toupper()
capital_string = my_string.capitalize() #首字母大写
title_string = my_string.title() #每个单词的首字母大写
print(lower_string, upper_sting, capital_string, title_string, sep='\n')
hello world!
HELLO WORLD!
Hello world!
Hello World!
my_string.capitalize()
'Hello world!'

对于字符串对象还提供了基本的替换操作(replace),可以简单理解为我们再Word或者Excel中的替换流程。这仅仅只是简单的、基本的字符串替换;如果想要对复杂的字符串进行替换,那么可能需要借助re库使用正则表达式来进行字符串的内容获取或替换操作。

my_string.replace('world', 'Python') #第一个参数为old(旧字符串),第二个参数为new(新字符串)
'Hello Python!'

使用strip方法可以直接将字符串中的左右两边的空格给去除,使用l(left)或r(right)则分别删除左边的空格或右边的空格

my_string2 = '    Hello, World    '
my_string2
'    Hello, World    '
strip_string = my_string2.strip()
lstrip_string = my_string2.lstrip()
rstrip_string = my_string2.rstrip()
print(strip_string, lstrip_string, rstrip_string, sep='\n')
Hello, World
Hello, World    
    Hello, World

二、其他类型

2.1 Numpy中的array数组

Numpy是数据分析和处理常用库之一,它也提供了类似于R语言中matrix矩阵和array数组的一种数据类型,即ndarray

import numpy as np  #通常np往往用于numpy的别称,在数据分析中通常人们都约定俗成的对以下几个库使用同样的别称
                              #import pandas as pd
                              #import matplotlib.pyplot as plt
                              #import seaborn as sns

2.1.1 数组的创建方法

在使用相关库的方法或函数时,往往需要先事先调用实现定义好的别称后再使用相应方法。直接向array方法传入列表即可生成一个数组对象

my_array1 = np.array([1,2,3,4])
my_array1
array([1, 2, 3, 4])

当然,还可以传入嵌套的列表序列

my_array1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
my_array1
array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

除此之外,np还有一个高级版的array数组,即多维数组对象ndarray,但是不同于array的是,ndarray传递的是相关的形状维度(shape)

my_array2 = np.ndarray(shape=[2,2])
my_array2
array([[1., 1.],
       [1., 0.]])

关于数组的方法较多,并且也兼容了许多Python内置的方法;可以通过jupyter的自动补全来一一尝试

2.2 Pandas中的Series和DataFrame

2.2.1 Series序列

Pandas也是数据分析和处理的常用包之一,并且Pandas也是在Numpy基础上发展出来的,所以Pandas库中的许多方法基本上都兼容Numpy的方法。同时也提供了其他许多Numpy库所不具备的功能,可以简单理解为R语言中的tidyverse集合库,使得数据分析和处理可以更加简单和快捷

import pandas as pd

Series是Pandas库中特有的一种数据类型,是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。可以通过调用Series方法来直接生成序列:

my_series = pd.Series([1,2,3])
my_series
0    1
1    2
2    3
dtype: int64

如果不在生成序列时指定索引,Series则会默认分配数字来作为索引;当然也可以直接在方法中指定生产的索引列和数据类型等

my_series2 = pd.Series([1,2,3,], index=list('abc'), dtype=float)
my_series2
a    1.0
b    2.0
c    3.0
dtype: float64

使用index和values可以分别查看序列的索引和值

print(my_series2.index, my_series2.values, sep='\n')
Index(['a', 'b', 'c'], dtype='object')
[1. 2. 3.]

2.2.2 DataFrame数据框

Pandas中的DataFrame数据框概念其实就是沿用R语言的data.frame()概念发展而来的,因此就可以直接将Pandas中的数据框看成是R语言里的数据框概念。数据框的生成也较为简单,可以直接使用DataFrame方法即可

my_dict1 = dict(names=['Jobs', 'Jack'], ages=[40, 50], gender=['M', 'M'])
my_df = pd.DataFrame(my_dict1)
my_df

通常来说可以直接将字典转化为数据框的内容,其中键就作为了每列的变量名

三、数据导入与输出

总的来说,数据导入的来源主要有以下几种:

  • 通用格式数据导入:txt、csv、xls、xlsx等
  • 数据库数据导入
  • 其他软件格式数据导入:比如.dta(Stata格式)、.sav(spss格式)、.sas7bdat或xpt(sas格式)等

Pandas库提供了一系列的数据的IO(Input & Output)方法,导入的方法通常都带有read_前缀,而导出的方法通常都带有to.的前缀

3.1 通用格式

pd.read_table() #等价于R语言中的read.table()
pd.read_csv() #等价于R语言中的read.csv()
pd.read_excel() #R语言中没有直接读取Excel格式的函数,
                      #需要借助readxl包中的read_excel相关函数来读取(或haven包和xlsx包的其他函数)

需要注意的是,导出时不需要指定Pandas库,而是在存在于Python环境中的数据后面直接调用即可

df.to_table() #等价于R语言的write.table()
df.to_csv() #等价于R语言的write.csv()
df.to_excel() #在R语言中貌似只能使用xlsx包write.xlsx()函数来进行导出

3.2 数据库数据

Python中存在了好几个关于SQL类数据库的库,这里只以Pandas的官方文档为参考。但无论是在R语言中还是在Python中,通过数据库来导入数据或进行操作的步骤一般如下:

  • 建立与数据库的联系:Connection
  • 读取数据库的相关数据
  • 查询操作
  • 写入操作等

首先先来看看R语言的连接方式

library(RMySQL)  #使用RMySQL库
conn < -dbConnect(
    MySQL(),
    dbname='database_name',
    username='root',  #默认用户名为root
    password='password',  #如果没有设定密码则为空
    host='127.0.0.1',  #默认是本地的127.0.0.1
    port=3306)  #默认本地端口3306

了解了基本登陆信息后再看看python是如何操作的

import pandas as pd
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://root:934804@localhost:3306/python_test'
                       )  #需要注意的是root后面接的是密码(如果有)

pandas提供了几个关键的数据库方法:

  • read_sql_table(table_name, connection) #读取SQL数据库中的某个数据表
  • read_sql_query(sql, connection) #SQL查询操作
  • read_sql(sql, connection) #读取SQL某个数据库
  • DataFrame.to_sql(name, connection) #将Python运行环境中的数据写入SQL数据库中
sql = '''
      select * from scores;
      '''
df = pd.read_sql_query(sql, engine)
df

3.3 其他格式数据

pandas貌似没有提供读取SPSS数据的方法,因此如果需要读取SPSS数据还需要借助其他的库来进行

pd.read_stata() 
pd.read_sas()

除了Stata格式支持导出外,sas格式并不支持导出

df.to_stata()

你可能感兴趣的:(【02】数据类型、导入和输出)