dataframe 拼接、合并、去重、查看数据规模 数据预处理 合辑

拼接不同的表

1、纵向拼接

pd.concat([df1,df2],axis=0)

现有data1.csv和data2.csv

df1 = pd.read_csv('data1.csv',names=['category','theme','URL','content'])
df2 = pd.read_csv('data2.csv',names=['category','theme','URL','content'])
data = pd.concat([df1,df2],axis=0,ignore_index=True) #拼接表格

2、横向拼接

pd.concat([df1,df2],axis=1)

展示数据规模

1、总的行数和列数

print(data.shape)

2、按某一列名统计数量

df = data.groupby('category').count()
print(df)

简单的数据预处理

1、去空行

data = data.dropna(axis=0, how='any')
data = data.drop(index=(data_32.loc[(data_32['content']==' ')].index))

有些空行是啥也没有,这种情况用第一个,有些空行是里面有一个空格,这种情况选用第二个

2、去重,保留第一个

data_2 = data_1.drop_duplicates(keep='first')

3、剔除指定列值所对应的行

data_3 = data_2.drop(index=(data_2.loc[(data_2['现价']=='0.000000')].index))
data = data.drop(data[data['现价']=='0.000000'].index)
data = data[-data["现价"].isin(['0.000000'])]

三种写法都可以

你可能感兴趣的:(dataframe,数据分析,python,大数据)