独家 | 10个数据科学家常犯的编程错误(附解决方案)

640?wx_fmt=png

作者:Norman Niemer

翻译:李润嘉

校对:李洁

本文约2000字,建议阅读10分钟。

本文为资深数据科学家常见的10个错误提供解决方案。

 

数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。许多数据科学家都具有统计学背景,但是在软件工程方面的经验甚少。我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文将为你相关解决方案:


  1. 不共享代码中引用的数据

  2. 对无法访问的路径进行硬编码

  3. 将代码与数据混合

  4. 在Git中和源码一起提交数据

  5. 编写函数而不是DAG

  6. 写for循环

  7. 不编写单元测试

  8. 不写代码说明文档

  9. 将数据保存为csv或pickle文件

  10. 使用jupyter notebook


1. 不共享代码中引用的数据


数据科学需要代码和数据。因此,为了让别人可以复现你的结果,他们需要能够访问到数据。道理很简单,但是很多人忘记分享他们代码中的数据。



import pandas as pd	
df1 = pd.read_csv('file-i-dont-have.csv') # fails	
do_stuff(df)


解决方案:使用d6tpipe(https://github.com/d6t/ d6tpipe)来共享你的代码中的数据文件、将其上传到S3/web/google驱动等,或者保存到数据库,以便于别人可以检索到文件(但是不要将其添加到git,原因见下文)。


2. 对无法访问的路径进行硬编码


与错误1相似,如果你对别人无法访问的路径进行硬编码,他们将无法运行你的代码,并且必须仔细查看代码来手动更改路径。令人崩溃!



import pandas as pd	
df = pd.read_csv('/path/i-dont/have/data.csv') # fails	
do_stuff(df)	
	
# or	
import os	
os.chdir('c:\\Users\\yourname\\desktop\\python') # fails


解决方案:使用相对路径、全局路径配置变量或d6tpipe,使你的数据易于访问。

d6tpipe

https://github.com/d6t/d6tpip


3. 将代码与数据混合


既然数据科学的代码中包含数据,为什么不把它们放到同一目录中?那样你还可以在其中保存图像、报告和其他垃圾。哎呀,真是一团糟!



├── data.csv	
├── ingest.py	
├── other-data.csv	
├── output.png	
├── report.html	
└── run.py


解决方案:将你的目录进行分类,比如数据、报告、代码等。请参阅Cookiecutter Data Scienced6tflow项目模板[见#5],并使用#1中提到的工具来存储和共享数据。


Cookiecutter Data Science:

https://drivendata.github.io/cookiecutter-data-science/

d6tflow项目模板:

https://github.com/d6t/d6tflow-templat


4. 在Git中和源码一起提交数据


现在,大多数人对他们的代码使用版本控制(如果你不使用,那就是另外一个错误,请参阅git:https://git-scm.com/)。在尝试共享数据时,很容易将数据文件添加到版本控制中。当文件很小时是可以的,但是git并没有针对数据进行优化,尤其是大文件。



git add data.csv


解决方案:使用第1点中提到的工具来存储和共享数据。如果你真的希望对数据进行版本控制,请参阅 d6tpipeDVCGit大文件存储

d6tpipe:

https://github.com/d6t/d6tpipe

DVC:

https://dvc.org/

Git大文件存储:

https://git-lfs.github.com


5. 编写函数而不是DAG


关于数据部分已经够多了,现在来谈一谈实际的代码!在学习编程时最先学习的内容之一就是函数,数据科学代码通常由一系列线性运行的函数组成。


这会导致一些问题,请参阅“为什么你的机器学习代码可能不好的4个原因”

https://github.com/d6t/d6t-python/blob/master/blogs/reasons-why-bad-ml-code.rst



def process_data(data, parameter):	
 data = do_stuff(data)	
 data.to_pickle('data.pkl')	
 	
data = pd.read_csv('data.csv')	
process_data(data)	
df_train = pd.read_pickle(df_train)	
model = sklearn.svm.SVC()	
model.fit(df_train.iloc[:, :-1], df_train['y'])


解决方案:数据科学代码不是一系列线性连接的函数,而是一组具有依赖关系的任务集合。请使用d6tflowairflow

d6tflow:

https://github.com/d6t/d6tflow-template

airflow:

https://airflow.apache.org


6. 写for循环


与函数类似,for循环也是你学习编程时最初学习的内容。它们易于理解,但是运行缓慢且过于冗长,通常意味着你不了解矢量化的替代方案。



x = range(10)	
avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x));	
zscore = [(i-avg)/std for x]	
# should be: scipy.stats.zscore(x)	
# or	
groupavg = []	
for i in df['g'].unique():	
dfg = df[df[g']==i]	
groupavg.append(dfg['g'].mean())	
# should be: df.groupby('g').mean()


解决方案:Numpy,scipypandas为你需要for循环的情况提供了矢量化函数。

Numpy:

http://www.numpy.org/

scipy:

https://www.scipy.org/

pandas:

https://pandas.pydata.org

7. 不编写单元测试


随着数据、参数或用户输入的改变,你的代码可能会出现问题,有时你并没有注意到。这可能会导致糟糕的输出结果,而如果有人基于你的输出做出决策,那么糟糕的数据将会导致糟糕的决策。


解决方案:使用assert语句来检查数据质量。pandas有相等测试,d6tstack有数据提取检查以及用于数据连接的d6tjoin

pandas相等测试:

https://pandas.pydata.org/pandas-docs/stable/reference/general_utility_functions.html

d6tstack:

https://github.com/d6t/d6tstack

d6tjoin:

https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipyn


以下是数据检查的示例代码:



assert df['id'].unique().shape[0] == len(ids) # have data for all ids?	
assert df.isna().sum()<0.9 # catch missing values	
assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date?	
assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched?


8. 不写代码说明文档


我明白,你急着做出一些分析结果。你把事情汇总到一起分析,将结果交给你的客户或老板。一个星期之后,他们回来说,“可以把XXX改一下吗”或者“可以更新一下这里吗”。你看着你的代码,但是并不记得你当初为什么这么写。现在就像是在运行别人的代码。



def some_complicated_function(data):	
 data = data[data['column']!='wrong']	
 data = data.groupby('date').apply(lambda x: complicated_stuff(x))	
 data = data[data['value']<0.9]	
 return data


解决方案:即使在你已经提交分析报告后,也要花费额外的时间,来对你做的事情编写说明文档。以后你会感谢自己,别人更会感谢你。那样显得你很专业!


9. 将数据保存为csv或pickle文件


回到数据,毕竟是在讲数据科学。就像函数和for循环一样,CSV和pickle文件很常用,但是并不好用。CSV文件不包含纲要(schema),因此每个人都必须再次解析数字和日期。Pickle文件解决了这个问题,但是它只能在python中使用,并且不能压缩。两者都不是存储大型数据集的最优格式。



def process_data(data, parameter):	
    data = do_stuff(data)	
    data.to_pickle('data.pkl')	
    	
data = pd.read_csv('data.csv')	
process_data(data)	
df_train = pd.read_pickle(df_train)


解决方案:使用parquet或其他带有数据纲要的二进制数据格式,在理想情况下可以压缩数据。d6tflow将任务的数据输出保存为parquet,无需额外处理。

parquet:

https://github.com/dask/fastparquet

d6tflow:

https://github.com/d6t/d6tflow-template


10. 使用jupyter notebook


最后一个是颇有争议的错误:jupyter notebook和csv文件一样普遍。许多人使用它们,但是这并不意味着它们很好。jupyter notebook助长了上述提到的许多不良编程习惯,尤其是:


  • 把所有文件保存在一个目录中

  • 编写从上至下运行的代码,而不是DAG

  • 没有对代码进行模块化

  • 很难调试

  • 代码和输出混在一个文件中

  • 没有很好的版本控制

  • 它容易上手,但是扩展性很差。


解决方案:使用pycharm和/或spyder。

pycharm:

https://www.jetbrains.com/pycharm/

spyder:

https://www.spyder-ide.org


作者简介:Norman Niemer是一家大规模资产管理公司的首席数据科学家,他在其中发布数据驱动的投资见解。他有哥伦比亚大学的金融工程专业理学硕士学位,和卡斯商学院(伦敦)的银行与金融专业理学学士学位。


原文标题:

Top 10 Coding Mistakes Made by Data Scientists

原文链接:

https://github.com/d6t/d6t-python/blob/master/blogs/top10-mistakes-coding.md


译者简介

640?wx_fmt=png

李润嘉,首都师范大学应用统计硕士在读。对数据科学和机器学习兴趣浓厚,语言学习爱好者。立志做一个有趣的人,学想学的知识,去想去的地方,敢想敢做,不枉岁月。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

点击“阅读原文”拥抱组织

你可能感兴趣的:(独家 | 10个数据科学家常犯的编程错误(附解决方案))