机器学习自用阈值

梯度下降法特征缩放:尝试将所有特征的尺度都尽量缩放到-1 到1 之间

梯度下降法学习率:α=0.01,0.03,0.1,0.3,1,3,10

什么时候选择正规方程:需要计算(X^{T}X)^{-1},如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为O(n^{3}),通常来说当n小于10000 时还是可以接受的

导数近似值中的ε:对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的θ,我们计算出在θ-ε 处和θ+ε 的代价值(ε是一个非常小的值,通常选取0.0001),然后求两个代价的平均,用以估计在θ处的代价值。

数据集的使用比例:使用60%的数据作为训练集,使用20%的数据作为交叉验证集,使用20%的数据作为测试集。开发异常检测系统时异常数据要同等数量放在交叉验证集和测试集。例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集

小批量梯度下降:通常我们会令b在2-100 之间。一般取b=10

你可能感兴趣的:(机器学习)