1.What is the accuracy of your decision tree?
2. How many features are in your data?
数据被整理成一个 numpy 数组后,行数是数据点数,列数是特征数;要提取这个数字,只需运行代码 len(features_train[0])
3.change the number of features.
进入../tools/email_preprocess.py,然后找到类似此处所示的一行代码:
selector = SelectPercentile(f_classif, percentile=10)
将百分位数从 10 改为 1,然后运行dt_author_id.py
现在,特征数是多少?
4.在其他所有方面都相等的情况下,特征数量越多会使决策树的复杂性更高
5.当你仅使用 1% 的可用特征(即百分位数 = 1)时,决策树的准确率是多少?