最终编辑:
问题描述
在您发布了real数据文件(https://imgur.com/a/AgRMC8S)的一部分之后,
问题和解决方案立即变得清晰:
您的csv文件是一个简单、完全标准对齐的csv文件,其中逗号作为分隔符(请参见蓝色标记),因此即使是空单元格也可以轻松处理,因为它们只是两个直接连续的逗号(请参见红色标记)。
一、 你的样本数据与你的真实数据无关。。。
正确的等效示例数据文件应该是C.N,Cmp,Cmp,Cmp,Cmp,Cmp,Cmp,Cmp
C.N2,IGN,IGT,IGA,,IGB,IGB,
php,12,12,11,35,5,1,6
java,12,12,11,35,5,1,6
react,100,100,100,35,100,100,6
IOS,12,12,11,35,5,1,6
python,12,12,11,35,5,1,6
JSX,12,12,11,35,5,1,6
这就是为什么@kerwei的pandas解决方案基于简单的pd.read_csv,并使用逗号作为默认分隔符,但csv示例数据中没有一个逗号。在
回答正确的问题
在代码片段中,打印每一行,直到到达感兴趣的行之后。
但是你不应该打印任何东西,除非你到达了你感兴趣的那一行:
^{pr2}$
但是,使用pandas可以更优雅地解决过滤行的附加要求,因此我的pandas方法如下所示:import pandas as pd
df = pd.read_csv(filename, index_col=0)
df_r = df.loc[['C.N2', 'react'], ~df.loc['C.N2'].isna()]
# Cmp Cmp.1 Cmp.2 Cmp.4 Cmp.5
#C.N
#C.N2 IGN IGT IGA IGB IGB
#react 100 100 100 100 100
只将此结果的数据行(不带标题和索引的df)写入另一个csv文件同样简单:df_r.to_csv('react.csv', header=False, index=False)
#IGN,IGT,IGA,IGB,IGB
#100,100,100,100,100
当然,没有外部库,你也可以做到这一点with open(filename) as f:
next(f)
header = f.readline().strip().split(',')
drop_idx = [i for i, h in enumerate(header) if not h]
for line in f:
if line.startswith('react'):
data = line.strip().split(',')
break
for i in drop_idx[::-1]:
header.pop(i)
data.pop(i)
with open('react.csv', 'w') as f:
f.write(','.join(header[1:]) + '\n')
f.write(','.join(data[1:]))
最后一点是对未来问题的一个要求:请尝试用[mcve]来简化你的问题,使你真正的问题的重要属性不会丢失,这样可以节省很多时间。在