临风而眠

Datawhale7月组队学习task1数据加载及探索性数据分析

Datawhale7月task1数据加载及探索性数据分析

有幸了解到了Datawhale这样一个开源组织，欣然报名了2021年7月的组队学习的动手学数据分析系列课程

本系列目标：完成kaggle上泰坦尼克的任务，实战数据分析全流程

use machine learning to create a model that predicts which passengers survived the Titanic shipwreck

文章目录

Datawhale7月task1数据加载及探索性数据分析
- 一.数据载入及初步观察
- - 1.载入数据
  - - ①导入numpy和pandas
    - ②导入数据集
    - - （1）绝对路径载入
      - （2）相对路径载入
      - pd.read_csv()和pd.read_table()
        
        怎样使他们一样呢？指定分隔符，修改sep参数
    - ③每1000行为一个数据模块，逐块读取
    - - 逐块读取
    - ④把表头改为中文，索引改为乘客ID
    - - 方法一
      - 方法二
      - 方法三
  - 2.初步观察
  - - ①查看数据基本信息
    - - 方法一
      - 方法二
      - 另：查看缺省值
    - ②观察表格前10行的数据和后15行的数据
    - ③判断数据是否为空，为空的地方返回True，其余地方返回False
  - 3.保存数据
- 二.pandas基础
- - 1.基本数据类型:DataFrame和Series
  - - ①Series
    - ②DataFrame
  - 2.知道你的数据叫什么
  - - ①导入"train.csv"文件
    - ②查看DataFrame数据的每列的名称
    - ③查看"Cabin"这列的所有值[多种方法]
    - ④加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除
    - ⑤ 将['PassengerId','Name','Age','Ticket']这几个列元素隐藏，只观察其他几个列元素
- 3.筛选条件
- - - ①以"Age"为筛选条件，显示年龄在10岁以下的乘客信息
    - ②以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage
    - ③将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
    - ④使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来
    - ⑤使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来
- 三.探索性数据分析
- - 1.利用Pandas对示例数据进行排序，要求升序
  - - - 让行索引升序排序
      - 让列索引升序排序
      - 列索引降序排序
      - 让任选两列数据同时降序排序
  - 2.对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）
  - 3.利用Pandas进行算术计算，计算两个DataFrame数据相加结果
  - 4.通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
  - 5.学会使用Pandas describe()函数查看数据基本统计信息
  - 6.分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？
- 四.遇到的问题
- - 1.注册Kaggle账号
  - 2.下载数据集
  - - - CSV文件
  - 3.jupyter中切换工作目录
  - 4.逐块读取数据那里
  - 5.排序
  - 6.为什么我这么菜

一.数据载入及初步观察

1.载入数据

①导入numpy和pandas

import numpy as np
import pandas as pd

②导入数据集

os 模块提供了非常丰富的方法用来处理文件和目录

os.getcwd() 方法可用于返回当前工作目录,可为路径的载入提供便捷的参考
import os
os.getcwd()
运行结果

查看当前路径还可用魔法方法%pwd

关于魔法方法，后文遇到的问题 3. 那里有总结

（1）绝对路径载入

在文件右键属性那里复制过来的路径是C:\Users\86171\Desktop\最近的都在这\datawhale\hands-on-data-analysis-master\第一单元项目集合\test_1.csv

然而直接用这个路径会报错
df = pd.read_csv('C:\Users\86171\Desktop\最近的都在这\datawhale\hands-on-data-analysis-master\第一单元项目集合\test_1.csv')
将\改为\\或/就了，即：
df =pd.read_csv('C:\\Users\\86171\\Desktop\\最近的都在这\\datawhale\\hands-on-data-analysis-master\\第一单元项目集合\\test_1.csv')
#或
df =pd.read_csv('C:/Users/86171/Desktop/最近的都在这/datawhale/hands-on-data-analysis-master/第一单元项目集合/test_1.csv')

（2）相对路径载入

#相对路径
df = pd.read_csv('test_1.csv')

df是DataFrame的缩写，这里表示读取进来的数据

df.head()
df.head(3)

head()根据位置返回对象的前n行。如果你的对象中包含正确的数据类型, 则对于快速测试很有用。此方法用于返回数据帧或序列的前n行(默认值为5)

pd.read_csv()和pd.read_table()

pd.read_csv()的结果在上面

pd.read_table()结果如下：

区别：

.tsv 与 .csv 唯一的不同之处在于,数据列之间的分隔符是制表符 (tab), 而不是逗号。文件的扩展名通常是.tsv,但有时也用.csv 作为扩展名。从本质上来看,.tsv 文件与.csv 文件在 Python 中的作用是相同的

TSV : Tab-separated values

CSV : Comma-separated values

怎样使他们一样呢？指定分隔符，修改sep参数

对于pd.read_csv(),将sep参数改为'/t'

针对上面的报错提示，加上参数engine='python',即可

对于pd.read_table(),将sep参数改为',',同时engine='python'

sep=可以省略不写

③每1000行为一个数据模块，逐块读取

在处理很大的文件时，或找出大文件中的参数集以便于后续处理时，你可能只想读取文件的一小部分或逐块对文件进行迭代

所以逐块读取方便读取其中的一部分数据或对文件进行逐块处理,还可以减少资源消耗，提高效率

先来读取一下整个文件，

pd.options.display.max_rows =8
#设置显示最大行数，看起来紧凑一些
df

若只想读取几行，可通过nrows参数调整

df = pd.read_csv('test_1.csv',nrows=5)
df

nrows是用于选择记录的前n个元素的参数

逐块读取

设置行数chunksize,先以100行为一个数据块

read_csv所返回的这个TextParser对象使你可以根据chunksize对文件进行逐块迭代

chunker = pd.read_csv('test_1.csv',chunksize=1000)
chunker
for chunk in chunker:
    print(chunk.head())

运行结果:

#或
for chunk in chunker:
	print(chunk)

运行结果:

④把表头改为中文，索引改为乘客ID

方法一

代码

df = pd.read_csv("train.csv",names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

关于header=0的解释

运行结果

注：上面用到的names、index_col、header等参数

CSDN里面还有一个很好的☝️ 解释

方法二

设置列名

df=pd.read_csv("train.csv")
df.columns = ['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口']#必须一一对应
df = df.set_index('乘客ID')  # 重新设 乘客ID 为索引，去掉默认会自动加上一列行号
df.head()

关于set_index

方法三

df.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存', 'Pclass':'仓位等级', 'Name':'姓名','Sex':'性别','Age':'年龄','SibSp': '堂兄弟/妹个数','Parch':'父母与小孩个数', 'Ticket':' 船票信息','Fare':'票价' ,'Cabin': '客舱','Embarked':'登船港口' }, inplace = True)#可以修改部分列名或者全部
df = df.set_index('乘客ID')  # 重新设 乘客ID 为索引，去掉默认会自动加上一列行号
df.head()

关于df.rename()

方法二和方法三均学习自https://blog.csdn.net/miaochangq/article/details/108052553

2.初步观察

导入数据后，你可能要对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等

①查看数据基本信息

方法一

df.info()

方法二

逐个打印Dataframe的基本属性

print(df.index)  # 索引

print(df.shape)  # 数据结构（几行几列）
print(df.size) #元素总个数
print(df.values) #元素值
print(df.ndim) #维度数

print(df.columns)  # 列名
# 查看列类型
cols = df.columns
for col in cols:
    print(col+' : '+ str(df[col].dtype))

运行结果

另：查看缺省值

print(df.apply(lambda x:np.sum(x.isnull())))
#或
df.isna().sum()

运行结果

②观察表格前10行的数据和后15行的数据

#前十行
df.head(10)
#或
df.iloc[:10,:]

运行结果

#后15行
df.tail(15)
#或
df.iloc[-15:,:]

运行结果

③判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull()

运行结果

3.保存数据

# 注意：不同的操作系统保存下来可能会有乱码。可以加入`encoding='GBK' 或者 ’encoding = ’utf-8‘‘`
df.to_csv("train_language_of_Chinese.csv",sep=',',encoding='utf-8')

二.pandas基础

数据分析的第一步，加载数据已经学习完毕了。当数据展现在我们面前的时候，我们所要做的第一步就是认识他,下面要学习的就是了解字段含义以及初步观察数据

1.基本数据类型:DataFrame和Series

①Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成

仅由一组数据即可产生最简单的Series：

import pandas as pd
import numpy as np
obj = pd.Series([4,7,-5,3])
print(obj)

运行结果

Series的字符串表现形式为：索引在左边，值在右边

可以通过Series 的values和index属性获取其数组表示形式和索引对象：

print(obj.values)
print(obj.index)

运行结果

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)

自创索引：

obj=pd.Series([4,7,-5,3],index=['h','z','s,s','p'])
print(obj)

运行结果

h      4
z      7
s,s   -5
p      3
dtype: int64

与普通NumPy数组相比，可以通过索引的方式选取Series中的单个或一组值：

obj=pd.Series([4,7,-5,3],index=['h','z','s,s','p'])
print(obj['h'])
obj['p']='a'
print(obj[['z','p','h']])#['Z','P','h']是索引列表

运行结果

4
z    7
p    a
h    4
dtype: object

使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行过滤、标量乘法、应用数学函数等）都会保留索引值的链接

obj=pd.Series([4,7,-5,3],index=['h','z','s,s','p'])
print(obj[obj>0])
print(obj*2)
print(np.exp(obj))

h    4
z    7
p    3
dtype: int64
h       8
z      14
s,s   -10
p       6
dtype: int64
h        54.598150
z      1096.633158
s,s       0.006738
p        20.085537
dtype: float64

可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

print('h' in obj)
print('q'in obj)

运行结果

True
False

如果数据被存放在一个Python字典中，也可以直接通过这个字典来创建Series：

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj = pd.Series(sdata)
print(obj)

运行结果

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。可以传入排好序的字典的键以改变顺序：

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

states =['California','Ohio','Oregon','Texas']
obj=pd.Series(sdata,index=states)
print(obj)

运行结果

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

在这个例子中，sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上，但由于"California"所对应的sdata值找不到，所以其结果就为NaN（即“非数字”（not a number），在 pandas中，它用于表示缺失或NA值）。因为‘Utah’不在states中，它被从结果中除去。缺失（missing）或NA表示缺失数据。

pandas的isnull和notnull函数可用于检测缺失数据：

print(pd.isnull(obj))
print(pd.notnull(obj))

运行结果

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California 	  False
Ohio 		   True
Oregon 		   True
Texas 		   True
dtype: bool

Series也有类似的实例方法：

print(obj.isnull())
print(obj.notnull())

运行结果

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

对于许多应用而言，Series最重要的一个功能是，它会根据运算的索引标签自动对齐数据

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states =['California','Ohio','Oregon','Texas']
obj1=pd.Series(sdata)
obj2=pd.Series(sdata,states)
print(obj1+obj2)

运行结果

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states =['California','Ohio','Oregon','Texas']
obj=pd.Series(sdata,states)
obj.name='population'
obj.index.name='state'
print(obj)

运行结果

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series的索引可以通过赋值的方式就地修改：

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states =['California','Ohio','Oregon','Texas']
obj=pd.Series(sdata,states)
print(obj)
obj.index= ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

运行结果

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
Bob          NaN
Steve    35000.0
Jeff     16000.0
Ryan     71000.0
dtype: float64

②DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）

下面的解释都写在代码的注释里面

#建DataFrame的办法有很多，最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典：
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
print(frame)
#结果DataFrame会自动加上索引（跟Series一样），且全部列会被有序排列：
#对于特别大的DataFrame，head方法会选取前五行：
print(frame.head())

运行结果

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9

#如果指定了列序列，则DataFrame的列就会按照指定顺序进行排列：
print(pd.DataFrame(data,columns=['year','state','pop']).head(3))
#如果传入的列在数据中找不到，就会在结果中产生缺失值：
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
 index=['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2)
#通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个Series：
print(frame2['state'])
#注意，返回的Series拥有原DataFrame相同的索引，且其name属性也已经被相应地设置好了,行也可以通过位置或名称的方式进行获取，比如用loc属性
print(frame2.loc['state'])

运行结果

   year state  pop
0  2000  Ohio  1.5
1  2001  Ohio  1.7
2  2002  Ohio  3.6
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

#列可以通过赋值的方式进行修改。例如，我们可以给那个空的"debt"列赋上一个标量值或一组值：
frame2['debt']=10.1
print(frame2)
frame2['debt']=np.arange(6.)
print(frame2)

运行结果

       year   state  pop  debt
one    2000    Ohio  1.5  10.1
two    2001    Ohio  1.7  10.1
three  2002    Ohio  3.6  10.1
four   2001  Nevada  2.4  10.1
five   2002  Nevada  2.9  10.1
six    2003  Nevada  3.2  10.1
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0

#将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值：

val = pd.Series([-1.2,-1,-1.3],index=['four','two','five'])
frame2['debt']=val
print(frame2)
frame2['eastern']=frame2.state=='Ohio'
print(frame2)
del frame2['eastern']
print(frame2.columns)

运行结果

       year   state  pop  debt
one    2000    Ohio  1.5  10.1
two    2001    Ohio  1.7  10.1
three  2002    Ohio  3.6  10.1
four   2001  Nevada  2.4  10.1
five   2002  Nevada  2.9  10.1
six    2003  Nevada  3.2  10.1
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0
       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.0
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.2
five   2002  Nevada  2.9  -1.3
six    2003  Nevada  3.2   NaN

#为不存在的列赋值会创建出一个新列。关键字del用于删除列。作为del的例子，先添加一个新的布尔值的列，state是否为'Ohio'：
frame2['eastern']=frame2.state=='Ohio'
#不能用frame2.eastern创建新的列。
print(frame2)
#del方法可以用来删除这列
del frame2['eastern']
print(frame2.columns)

运行结果

   year   state  pop  debt  eastern
one    2000    Ohio  1.5   NaN     True
two    2001    Ohio  1.7  -1.0     True
three  2002    Ohio  3.6   NaN     True
four   2001  Nevada  2.4  -1.2    False
five   2002  Nevada  2.9  -1.3    False
six    2003  Nevada  3.2   NaN    False
Index(['year', 'state', 'pop', 'debt'], dtype='object')

#另一种常见的数据形式是嵌套字典：
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
....: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 =pd.DataFrame(pop)
print(frame3)

运行结果

      Nevada  Ohio
2001     2.4   1.7
2002     2.9   3.6
2000     NaN   1.5

#  也可以使用类似NumPy数组的方法，对DataFrame进行转置（交换行和列）：
print(frame3.T)
#
frame4=pd.DataFrame(pop, index=[2001, 2002, 2003])
print(frame4)

运行结果

     2001  2002  2000
Nevada   2.4   2.9   NaN
Ohio     1.7   3.6   1.5
      Nevada  Ohio
2001     2.4   1.7
2002     2.9   3.6
2003     NaN   NaN

#由Series组成的字典差不多也是一样的用法：
pdata = {'Ohio': frame3['Ohio'][:-1],
....: 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

运行结果


Ohio	Nevada
2001	1.7	2.4
2002	3.6	2.9

2.知道你的数据叫什么

①导入"train.csv"文件

df = pd.read_csv("train.csv")
df

②查看DataFrame数据的每列的名称

print(df.columns)

运行结果

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

③查看"Cabin"这列的所有值[多种方法]

方法

print(df['Cabin'])
df.Cabin

print(df.loc[:,'Cabin'])
print(df.iloc[:,10])

对于DataFrame的行的标签索引，引入了特殊的标签运算符loc和iloc。它们可以让你用类似 NumPy的标记，使用轴标签（loc）或整数索引（iloc），从DataFrame选择行和列的子集

这两个索引函数也适用于一个标签或多个标签的切片：

pandas版本0.20.0及其以后版本中，ix已经不被推荐使用

故不推荐使用df.ix[:,“Cabin”]

运行结果

0       NaN
1       C85
2       NaN
3      C123
4       NaN
       ... 
886     NaN
887     B42
888     NaN
889    C148
890     NaN
Name: Cabin, Length: 891, dtype: object

④加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

方法一

df2=pd.read_csv("test_1.csv")
del df2['a']
df2

方法二

df2=pd.read_csv("test_1.csv")
df2.drop(['a'],axis=1)
df2

⑤ 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
#如果想要完全的删除你的数据结构，使用inplace=True，因为使用inplace就将原数据覆盖了，所以这里没有用

3.筛选条件

表格数据中，最重要的一个功能就是要具有可筛选的能力，选出我所需要的信息，丢弃无用的信息

①以"Age"为筛选条件，显示年龄在10岁以下的乘客信息

df[df['Age']<10]

②以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage=df[(df['Age']>10)&(df['Age']<50)]
midage

③将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage.reset_index(drop = True)#重新设置索引因为切片可能会造成索引缺失
midage.loc[100,['Pclass','Sex']]
midage.loc[[100],['Pclass','Sex']]#会以表格形式显现

④使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.loc[[100,105,108],['Pclass','Name','Sex']]

⑤使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.iloc[[100,105,108],[2,3,4]]

三.探索性数据分析

了解你的数据吗？

1.利用Pandas对示例数据进行排序，要求升序

frame = pd.DataFrame(np.arange(16).reshape((8,2)),index=['s','S','t','T','1',',','1','!'],columns=['q','w'])
frame.sort_index(axis=0)

运行结果

frame.sort_index(axis=1)

运行结果

大多数时候我们都是想根据列的值来排序,所以将构建的DataFrame中的数据根据某一列，升序排列
#如：按q那一列
frame.sort_values(by='q',ascending=True)

让行索引升序排序

frame.sort_index()#默认是升序

让列索引升序排序

frame.sort_index(axis=1)

列索引降序排序

frame.sort_index(axis=1,ascending=False)

让任选两列数据同时降序排序

frame.sort_values(by=['q','w'])

对索引排序用sort_index
Serious对象就直接sort_index
DataFrame对象对列要加上axis=1
对一个或多个列中的值进行排序：将一个或多个列的名字传递给sort_values的by选项即可达到该目的

2.对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

从这个数据中你可以分析出什么？

df=pd.read_csv("train_chinese.csv")
df.head(20)
df.sort_values(by=['票价','年龄'],ascending=False).head(20)

排序后，如果我们仅仅关注年龄和票价两列。根据常识我知道发现票价越高的应该客舱越好，所以我们会明显看出，票价前20的乘客中存活的有14人，这是相当高的一个比例，那么我们后面是不是可以进一步分析一下票价和存活之间的关系，年龄和存活之间的关系呢？当你开始发现数据之间的关系了，数据分析就开始了
df.sort_values(by='年龄',ascending=True).head(20)
df.sort_values(by='年龄',ascending=False).head(20)
观察可以初步判断：年龄越小存活率越高，年龄越大存活率越低

3.利用Pandas进行算术计算，计算两个DataFrame数据相加结果

frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
frame1_a + frame1_b

两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN

4.通过泰坦尼克号数据如何计算出在船上最大的家族有多少人

max(df['兄弟姐妹个数']+df['父母子女个数'])

5.学会使用Pandas describe()函数查看数据基本统计信息

frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2.describe()

运行结果

6.分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？

df['票价'].describe()
df['父母子女个数'].describe()

四.遇到的问题

1.注册Kaggle账号

用邮箱注册会出现无法人机验证的问题，而网上应该也有对策

但因为我是懒，所以直接用Google账号注册啦

2.下载数据集

CSV文件

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）

3.jupyter中切换工作目录

一开始搜os.getcwd()时，搜到一个这个玩意

然后我就试了一下，结果：

然后，看既然找不到magic，把magic去掉，就%cd

又乱搜一砌，搜到这个

试来试去，各种报错

令我很迷的是上面这张图中的命令cd C:\\Users\\86171\\Desktop\\最近的都在这\\datawhale\\hands-on-data-analysis-master\\第一单元项目集合,我在这个代码单元的上方和下方中插入的新的代码单元中运行这个命令，都没有报错

❓❓❓
先不管了

终于，后来搜到了这好像是Jupyter Notebook的魔法命令之一，这又有一个jupyter常用魔法命令的总结

输入%lsmagic命令

能得到可用魔法命令

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cd  %clear  %cls  %colors  %conda  %config  %connect_info  %copy  %ddir  %debug  %dhist  %dirs  %doctest_mode  %echo  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %macro  %magic  %matplotlib  %mkdir  %more  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %ren  %rep  %rerun  %reset  %reset_selective  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%cmd  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%python  %%python2  %%python3  %%ruby  %%script  %%sh  %%svg  %%sx  %%system  %%time  %%timeit  %%writefile

Automagic is ON, % prefix IS NOT needed for line magics.

然后才用%cd把路径切回去了

> > 这个地方折腾了老久…

4.逐块读取数据那里

我先以每100行为数据块，逐块读取，然后我按照《利用Python进行数据分析》这本书上的代码敲了一下，得到了一个弃用警告

在各大搜索引擎里面苦苦寻觅这个问题，看到官方文档的弃用说明

在Stackoverflow上搜到一个，仍然无济于事…

然后又搜到了这个，暂时先放弃了

Stackoverflow和官方文档上的英文看的头疼，真是是

想想可能版本不同了吧

还有书上的例子，和这个不搭呀…

耗费了太多时间，先放了…

然后还是去看了别人写完成datawhale的这个任务的博客，恍然大悟…

5.排序

这个地方，第一个是降序升序排列，前20个是年龄最小的，

我一开始看年龄最大的想用.tail(20),发现全是缺省值NaN,意识到排序会把缺省值放最后，所以换成了降序，然后用.head(20)

6.为什么我这么菜

呜呜呜，感觉自己好菜啊

你可能感兴趣的:(数据分析基础,python,datawhale,数据分析,pandas,kaggle)

数据标注质量对AI模型质量的影响分析自由鬼行业发展 IT应用探讨人工智能机器学习深度学习 AI
上、数据标注质量与AI模型的质量关系数据标注是AI最基础的工作，数据标注的质量决定了AI质量，影响数据标注质量的是数据标注的规则。1、数据标注是AI最基础的工作：数据标注是构建高质量AI模型的基石：数据标注尤其是在监督学习范式下，是AI领域最基础、最关键的工作之一。没有高质量的标注数据，就如同建造高楼大厦没有坚实的地基，AI模型就无法有效地学习和训练，最终的AI质量也就无从谈起。训练数据是AI模型
DeepSeek API 客户端使用文档老大白菜 python 人工智能数据库
1.简介deep.py是一个用于与DeepSeekAPI交互的Python客户端封装。它提供了简单易用的接口，支持对话历史管理、日志记录等功能，使得与DeepSeekAPI的交互更加便捷和可靠。2.功能特点简单的接口设计自动管理对话历史完整的日志记录灵活的配置选项异常处理机制3.安装依赖pipinstallopenai4.配置环境在项目根目录创建.env文件：#WindowssetDEEPSEEK
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
HarmonyNext实战：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能音视频处理应用开发引言在音视频处理领域，实时性和性能是关键。随着HarmonyNext生态系统的不断发展，开发者可以利用ArkTS语言构建高性能的音视频处理应用。本文将深入探讨如何利用ArkTS开发一个音视频处理应用，重点介绍音频处理、视频编解码以及实时流媒体传输的实现。我们将从理论基础出发，逐步构建一个完整的应用，并通过优化技巧提升性能。1.音视
HarmonyNext实战：基于ArkTS的高性能区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能区块链应用开发引言区块链技术作为一种去中心化、安全可信的分布式账本技术，正在各个领域得到广泛应用。本文将深入探讨如何利用ArkTS语言在HarmonyNext平台上开发一个高性能的区块链应用，涵盖从区块链基础概念到智能合约开发的完整流程。我们将通过一个实际的案例——去中心化投票系统，来展示如何在HarmonyNext上实现区块链技术的落地应用。1.
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。1.图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个
吴恩达的翻译Agent项目，复现教程来了！ datawhale
原创郭才高DatawhaleDatawhale教程作者：郭才高，Datawhale创作者1.TranslationAgent复现效果展示#执行任务#调用编译后的工作流，传入初始状态字典result=app.invoke({ "source_lang": "English", #源语言为英语 "target_lang": "中文", #目标语言为中文 "source_text": ""
python系列【仅供参考】：python tornado 集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案坦笑&&life #python python tornado redis
pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类sys_redis_helper.pyimportredis
Python通过SSH隧道访问数据库 Java菜鸟在北京 python sshtunnel paramiko SSH隧道访问数据库
本文介绍通过sshtunnel类库建立SSH隧道，使用paramiko通过SSH来访问数据库。实现了两种建立SSH方式：公私钥验证、密码验证。公私钥可读本地，也可读取AwsS3上的私钥文件。本质上就是在本机建立SSH隧道，然后将访问DB转发到本地SSH内去访问数据库。简单易懂，上代码：fromsshtunnelimportSSHTunnelForwarderfromsqlalchemyimport
用Python写一个天气预报小程序穿梭的编织者 Python脚本 python 小程序
一、界面效果二、完整代码importtkinterastkfromtkinterimportttkimportrequestsimportjsonfromdatetimeimportdatetimefromPILimportImage,ImageTkimportiofromttkbootstrapimportStyleclassWeatherApp:def__init__(self,root):s
Python写一个脚本——30行代码——1秒实现PDF任意页码拆分穿梭的编织者 Python精选 pdf python
一、引入库importosfromPyPDF2importPdfReader,PdfWriter二、定义拆分方法defsplit_pdf(input_path,output_dir,ranges):ifnotos.path.exists(output_dir):os.makedirs(output_dir)withopen(input_path,'rb')asfile:pdf=PdfReader(
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于纯视觉的 GUI 代理的屏幕解析工具（OmniParser） deepdata_cn 应用软件 GUI
OmniParser是一款开源工具，可通过解析用户界面截图生成结构化数据，助力打造视觉驱动的GUI自动化代理，赋能跨平台交互。一、技术原理1.数据集构建：从流行网页和应用中提取数据，构建可交互图标检测数据集和图标描述数据集，为模型训练提供基础。2.检测模型：使用YOLOv8模型在可交互图标检测数据集上进行微调，能够识别和定位用户界面中的可交互区域，如按钮、图标等。3.描述模型：利用BLIP-v2模
python start函数_Python中10个常用的内置函数半残大叔霁天 python start函数
大家好，我是小张在3.8版本中，Python解释器有近69个内置函数可供使用，有了它们能极大地提高编码效率，数量虽然不少，但在日常搬砖中只用到其中一部分，根据使用频率和用法，这里列出来几个本人认为不错的内置函数，结合一些例子介绍给大家complex()返回一个形如a+bj的复数，传入参数分为三种情况：参数为空时，返回0j参数为字符串时，将字符串表达式解释为复数形式并返回参数为两个整数(a,b)时，
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
一个完整的python webSockets游戏服务器，每100ms接收并广播玩家位置小宝哥Code Python基础及AI开发 python 游戏服务器
PythonWebSockets游戏服务器下面是一个完整的PythonWebSockets游戏服务器实现，它每100ms接收并广播玩家位置信息。这个服务器使用websockets和asyncio库来处理WebSocket连接和异步操作。完整代码#!/usr/bin/envpython3"""实时游戏位置广播服务器每100ms接收玩家位置并广播给所有连接的客户端"""importasyncioimp
32路模拟采集PCI总线带DIO用什么采集卡阿尔泰1999 数据分析嵌入式硬件科技
北京阿尔泰科技PCI5659是一-款多功能数据采集卡，具有32路12位100K采集频率，AD带16K字FIFO缓存，保证数据的连续性，并带16路可设方向的DIO功能。产品支持阿尔泰科技最新的ART-DAQ数据管理软件，提供QT、PYTHON、LABVIEW、VC、VB、VB.NET、C#等例子程序。模拟量输入通道数32路精度12位*大采样频率100KsPs多通道采样速度各通道*大采样频率/设置的采
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
Vue动态组件完全指南：原理、使用场景与最佳实践北辰alk 前端 vue vue.js javascript 前端
文章目录一、什么是动态组件？核心特性：二、基本使用方式1.基础语法2.组件注册方式3.动态组件生命周期三、六大典型应用场景1.标签页切换系统2.多步骤表单流程3.动态仪表盘4.权限驱动视图5.插件系统集成6.服务端驱动界面四、高级使用技巧1.状态保持方案2.动态Props传递3.异步组件加载4.过渡动画支持五、性能优化策略1.缓存策略对比2.代码分割配置3.内存管理示例六、常见问题解决方案1.组件
【2025年饿了么春招-3月14日-第二题（200分）- 小红的排列构造】（题目+思路+Java&C++&Python解析+在线测试) 塔子哥学算法 java c++python 算法数据结构饿了么
题目内容小红希望你构造一个长度为nnn的排列，满足∑i=1n∗i\sum_{i
贪心算法在背包问题上的运用（Python） MATLAB卡尔曼智能算法的MATLAB实现贪心算法 python 算法
背包问题有n个物品，它们有各自的体积和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？这就是典型的背包问题(又称为0-1背包问题)，也是具体的、没有经过任何延伸的背包问题模型。背包问题的传统求解方法较为复杂，现定义有一个可以载重为8kg的背包，另外还有4个物品，物品的价值和质量数据如下表，不考虑背包的容量。4个物品的总质量大于8kg，所以要想在有限载重的背包携带更多质量的物品，
【CMake指南】第3篇：编写可维护的构建脚本（变量与作用域管理） JuicyActiveGilbert CMake指南开发语言 c++CMake 教程
源码及CMakeLists.txt沿用第1篇或第2篇的均可，本文沿用第2篇的相关文件1.CMake变量的基础操作1.1定义与修改变量在CMakeLists.txt后面加入如下代码：#定义普通变量set(MY_VAR"HelloWorld")#修改变量值set(MY_VAR"NewValue")#列表变量（分号分隔）set(MY_LISTa.cppb.cppc.cpp)#或显式列表set(MY_LI
DeepSeek使用手册【清华北大浙大完整版】 2501_91178945 pdf
DeepSeek资料链接：https://pan.quark.cn/s/ab1ba18715bd自从清华大学出品的《DeepSeek从入门到精通》学习手册火了之后，北大浙大也支棱了起来，纷纷加码DeepSeek，持续发布高质量DeepSeek学习资料，从基础到实操，覆盖超多应用场景，手把手教你如何将DeepSeek结合到自己的工作和生活当中。完整版资料已整理在开头，大家自行领取即可～
【时时三省】(C语言基础)用printf函数输出数据时时三省【理论+经验】c语言入门 c语言基础知识点 c语言
山不在高，有仙则名。水不在深，有龙则灵。----CSDN时时三省在C程序中用来实现输出和输入的主要是printf函数和scanf函数。这两个函数是格式输入输出函数。用这两个函数时，程序设计人员必须指定输入输出数据的格式，即根据数据的不同类型指定不同的格式。printf函数（格式输出函数）用来向终端（或系统隐含指定的输出设备）输出若干个任意类型的数据。printf函数的一般格式printf函数的一般
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
接口测试中加密参数如何处理？海姐软件测试接口测试 python 开发语言测试工具职场和发展
1.加密类型及应对策略①对称加密（AES/DES）特点：加密解密使用同一密钥。处理方法：向开发获取密钥和加密算法（如AES-CBC、AES-ECB）。使用代码或工具解密响应数据：python复制fromCrypto.CipherimportAESimportbase64defdecrypt_aes(key,encrypted_data):cipher=AES.new(key.encode(),AE
鸿蒙（HarmonyOS NEXT）开发实战：串行通信开发指导我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：HarmonyOSNEXT应用开发性能实践总结一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

Datawhale7月组队学习task1数据加载及探索性数据分析

Datawhale7月task1数据加载及探索性数据分析

文章目录

一.数据载入及初步观察

1.载入数据

①导入numpy和pandas

②导入数据集

（1）绝对路径载入

（2）相对路径载入

pd.read_csv()和pd.read_table()

怎样使他们一样呢？指定分隔符，修改sep参数

③每1000行为一个数据模块，逐块读取

逐块读取

④把表头改为中文，索引改为乘客ID

方法一

方法二

方法三

2.初步观察

①查看数据基本信息

方法一

方法二

另：查看缺省值

②观察表格前10行的数据和后15行的数据

③判断数据是否为空，为空的地方返回True，其余地方返回False

3.保存数据

二.pandas基础

1.基本数据类型:DataFrame和Series

①Series

②DataFrame

2.知道你的数据叫什么

①导入"train.csv"文件

②查看DataFrame数据的每列的名称

③查看"Cabin"这列的所有值[多种方法]

④加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

⑤ 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

3.筛选条件

①以"Age"为筛选条件，显示年龄在10岁以下的乘客信息

②以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

③将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

④使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

⑤使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

三.探索性数据分析

1.利用Pandas对示例数据进行排序，要求升序

让行索引升序排序

让列索引升序排序

列索引降序排序

让任选两列数据同时降序排序

2.对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

3.利用Pandas进行算术计算，计算两个DataFrame数据相加结果

4.通过泰坦尼克号数据如何计算出在船上最大的家族有多少人

5.学会使用Pandas describe()函数查看数据基本统计信息

6.分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据，你能发现什么？

四.遇到的问题

1.注册Kaggle账号

2.下载数据集

CSV文件

3.jupyter中切换工作目录

4.逐块读取数据那里

5.排序

6.为什么我这么菜

你可能感兴趣的:(数据分析基础,python,datawhale,数据分析,pandas,kaggle)

6.分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？