Dataset and Problems

1.POI (Person of Interest)

2. Accuracy & Training set size

More data>fine-tuned algorithm

3. download anron dataset

4. dataset type test1

salary-numerical

job-categorical

timestamps on emails

contents of emails-text

5.安然欺诈案是一个混乱而又引人入胜的大事件，从中可以发现几乎所有想像得到的企业违法行为。安然的电子邮件和财务数据集还是巨大、混乱的信息宝藏，而且，在你稍微熟悉这些宝藏后，它们会变得更加有用。我们已将这些电子邮件和财务数据合并为一个数据集，而你将在此迷你项目中研究它。

开始：

克隆这个 GitHub 库：https://github.com/udacity/ud120-projects

运行开始代码：datasets_questions/explore_enron_data.py

6.聚合的安然电子邮件和财务数据集被存储到字典中，字典中的每个键是一个人名，而且值是包含此人所有特征的一个字典。

电子邮件和财务 (E+F) 数据字典被存储在 pickle 文件中，该文件可直接存储和加载 python 对象，非常方便。使用datasets_questions/explore_enron_data.py加载数据集。

数据集中有多少数据点（人）？

answer: 146

7. For each person, how many features are available?

answer: 21

8.How many POIs are there in the E+F dataset

9.我们编辑了一个包含所有 POI 姓名的列表（在../final_project/poi_names.txt中）并附上了相应的邮箱地址（在../final_project/poi_email_addresses.py中）。

总共有多少 POI？(使用姓名列表，不要用邮箱地址，因为许多雇员不止一个邮箱，而且其中少数人员不是安然的雇员，我们没有他们的邮箱地址。)

10.你可以看到，我们在 E+F 数据集中有许多 POI，但不是所有。这为何会是一个潜在的问题？

我们将在稍后解释 POI 为何有可能不在安然 E+F 数据集中，这样你就可以在往下继续之前完全理解这个问题。

11.和任何字典的字典一样，个人/特征可以这样被访问：

enron_data["LASTNAME FIRSTNAME"]["feature_name"]

或者

enron_data["LASTNAME FIRSTNAME MIDDLEINITIAL"]["feature_name"]

James Prentice 名下的股票总值是多少？

1095040

12.和任何字典的字典一样，个人/特征可以这样被访问：

enron_data["LASTNAME FIRSTNAME"]["feature_name"]

我们有多少来自 Wesley Colwell 的发给嫌疑人的电子邮件？

13.Jeffrey Skilling 行使的股票期权价值是多少？

19250000

14.如你刚才所见，不是每个 POI 在数据集中都有一个条目（比如：Michael Krautz）。那是因为数据集是通过你在final_project/enron61702insiderpay.pdf中找到的财务数据所创建的，这些数据中缺少了一些 POI（这些缺失的 POI 被传送至最终的数据集）。另一方面，对于这些“缺少的”POI，我们确实有他们的邮件。

尽管向 E+F 数据集中添加这些 POI 和他们的信息，并且为财务信息设置“NaN”非常简单，但这会带来一个微妙的问题。你将在此处了解到这一问题。

（当前的）E+F 数据集中有多少人的薪酬总额被设置了“NaN”？数据集中这些人的比例占多少？

14.4

15.E+F 数据集中有多少 POI 的薪酬总额被设置了“NaN”？这些 POI 占多少比例？

16.如果机器学习算法将 total_payments 用作特征，将“NaN”值关联到非 POI而不是POI

Dataset and Problems

你可能感兴趣的:(Dataset and Problems)