Dataset and Problems

1.POI (Person of Interest)


Dataset and Problems_第1张图片

2. Accuracy & Training set size

Dataset and Problems_第2张图片
More data>fine-tuned algorithm

3. download anron dataset

4. dataset type test1


Dataset and Problems_第3张图片

salary-numerical

job-categorical

timestamps on emails

contents of emails-text

5.安然欺诈案是一个混乱而又引人入胜的大事件,从中可以发现几乎所有想像得到的企业违法行为。安然的电子邮件和财务数据集还是巨大、混乱的信息宝藏,而且,在你稍微熟悉这些宝藏后,它们会变得更加有用。我们已将这些电子邮件和财务数据合并为一个数据集,而你将在此迷你项目中研究它。

开始:

克隆这个 GitHub 库:https://github.com/udacity/ud120-projects

运行开始代码:datasets_questions/explore_enron_data.py

6.聚合的安然电子邮件和财务数据集被存储到字典中,字典中的每个键是一个人名,而且值是包含此人所有特征的一个字典。

电子邮件和财务 (E+F) 数据字典被存储在 pickle 文件中,该文件可直接存储和加载 python 对象,非常方便。 使用datasets_questions/explore_enron_data.py加载数据集。

数据集中有多少数据点(人)?


Dataset and Problems_第4张图片
answer: 146

7. For each person, how many features are available?


answer: 21

8.How many POIs are there in the E+F dataset

Dataset and Problems_第5张图片
18

9.我们编辑了一个包含所有 POI 姓名的列表(在../final_project/poi_names.txt中)并附上了相应的邮箱地址(在../final_project/poi_email_addresses.py中)。

总共有多少 POI?(使用姓名列表,不要用邮箱地址,因为许多雇员不止一个邮箱,而且其中少数人员不是安然的雇员,我们没有他们的邮箱地址。)


Dataset and Problems_第6张图片
35

10.你可以看到,我们在 E+F 数据集中有许多 POI,但不是所有。这为何会是一个潜在的问题?

我们将在稍后解释 POI 为何有可能不在安然 E+F 数据集中,这样你就可以在往下继续之前完全理解这个问题。

11.和任何字典的字典一样,个人/特征可以这样被访问:

enron_data["LASTNAME FIRSTNAME"]["feature_name"]

或者

enron_data["LASTNAME FIRSTNAME MIDDLEINITIAL"]["feature_name"]

James Prentice 名下的股票总值是多少?


1095040

12.和任何字典的字典一样,个人/特征可以这样被访问:

enron_data["LASTNAME FIRSTNAME"]["feature_name"]

我们有多少来自 Wesley Colwell 的发给嫌疑人的电子邮件?


11

13.Jeffrey Skilling 行使的股票期权价值是多少?


19250000

14.如你刚才所见,不是每个 POI 在数据集中都有一个条目(比如:Michael Krautz)。那是因为数据集是通过你在final_project/enron61702insiderpay.pdf中找到的财务数据所创建的,这些数据中缺少了一些 POI(这些缺失的 POI 被传送至最终的数据集)。另一方面,对于这些“缺少的”POI,我们确实有他们的邮件。

尽管向 E+F 数据集中添加这些 POI 和他们的信息,并且为财务信息设置“NaN”非常简单,但这会带来一个微妙的问题。你将在此处了解到这一问题。

(当前的)E+F 数据集中有多少人的薪酬总额被设置了“NaN”?数据集中这些人的比例占多少?


Dataset and Problems_第7张图片
14.4

15.E+F 数据集中有多少 POI 的薪酬总额被设置了“NaN”?这些 POI 占多少比例?


Dataset and Problems_第8张图片
0

16.如果机器学习算法将 total_payments 用作特征,将“NaN”值关联到非 POI而不是POI

你可能感兴趣的:(Dataset and Problems)