关青御热风

python机器学习：（6）监督学习代码整理：完整

懒得拆开一个个解释了…
家人们直接上代码了嗷，理解不到位的可以在终端画个图看一下

'''
分类与回归
分类是预测标签，包括二分类与多分类。
回归是预测连续值，比如预测收入、房价。
泛化、过拟合与欠拟合
随着模型算法逐渐复杂，其在训练集上的预测精度将提高，但在测试集上的预测精度将降低，因此模型的复杂度需要折中。
模型过于复杂，将导致模型泛化能力差，即过拟合。 模型过于简单，将导致模型精度在训练集表现就很差，更不用说测试集的表现了，此时即欠拟合。
模型复杂度与数据集大小的关系
数据点的值变化范围越大，则可以应用更加复杂的模型，预测的表现也会越好。
更多的训练数据往往伴随着更大范围的特征值变化，因此可以应用更复杂的模型算法。
但注意，如果是非常类似的数据点，无论数据集多大也是无济于事的。
'''
#样本数据说明

#2个低维度数据集
#这两个数据集很小，特征维度很低，不超过2维。
#用于分类的forge数据集，2个特征输入。
import mglearn
import matplotlib.pyplot as plt
# 生成forge样本的特征X和目标y
X, y = mglearn.datasets.make_forge()
# 使用样本的第0列特征和第1列特征作为绘制的横坐标和纵坐标，目标y作为图案
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
# 在右下角画一个图案的文字说明，即2个分类
plt.legend(["Class 0", "Class 1"], loc=4) 
# 绘制横坐标的说明
plt.xlabel("First feature")
# 绘制纵坐标的说明
plt.ylabel("Second feature")
# 样本的个数和特征的维度
print("X.shape: {}".format(X.shape))

#用于回归的wave数据集，1个特征输入。
import mglearn
import matplotlib.pyplot as plt
#构造40个样本
X, y = mglearn.datasets.make_wave(n_samples=40)
#因为X只有1维, 所以直接可以画散点图
plt.plot(X, y, 'o')
#y的连续值范围
plt.ylim(-3, 3)
# 画横坐标说明
plt.xlabel("Feature")
# 画纵坐标说明
plt.ylabel("Target")

#用于分类的cancer癌症数据集，569个样本，30维特征。
from sklearn.datasets import load_breast_cancer
import numpy as np
# 加载数据集
cancer = load_breast_cancer()
# 打印样本规模和特征规模
print(cancer.data.shape)
# 打印不同分类的样本数量, np.bincount统计不同分类的个数, 然后与分类的名字做1:1 zip，得到每个分类的样本数量
print("Sample counts per class:\n{}".format({n: v for n, v in zip(cancer.target_names, np.bincount(cancer.target))}))

#用于回归的boston房价数据集。
from sklearn.datasets import load_boston
boston = load_boston()
print("Data shape: {}".format(boston.data.shape))
#以及对原有特征经过简单的”特征工程”，增加了若干组合特征，得到的extened_boston房价数据集
from sklearn.datasets import load_boston
X, y = mglearn.datasets.load_extended_boston()
print("X.shape: {}".format(X.shape))

#K邻近
#分类forge数据集
from sklearn.model_selection import train_test_split
import mglearn
from sklearn.neighbors import KNeighborsClassifier
# 生成forge样本的特征X和目标y
X, y = mglearn.datasets.make_forge()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# 计算最近3个点中最多出现的分类作为预测标签
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)
print("Test set accuracy: {:.2f}".format(clf.score(X_test, y_test)))


#分类cancer数据集
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
# 加载数据
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)
# 记录不同n_neighbors情况下，模型的训练集精度与测试集精度的变化
training_accuracy = [] 
test_accuracy = []
# n_neighbors取值从1到10 
neighbors_settings = range(1, 11)
for n_neighbors in neighbors_settings:
    # 模型对象
    clf = KNeighborsClassifier(n_neighbors=n_neighbors) 
    # 训练
    clf.fit(X_train, y_train)
    # 记录训练集精度
    training_accuracy.append(clf.score(X_train, y_train)) 
    # 记录测试集精度
    test_accuracy.append(clf.score(X_test, y_test))
# 画出2条曲线，横坐标是邻居个数，纵坐标分别是训练集精度和测试集精度
plt.plot(neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
#调大nneighbors则导致训练集精度下降，测试集精度上升，折中点在nneighbors=6，此时模型既不会过拟合也不会欠拟合，这就是调参。


#回归wave数据集
from sklearn.neighbors import KNeighborsRegressor
# 加载数据集
X, y = mglearn.datasets.make_wave(n_samples=40)
# 将wave数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 模型实例化，并将邻居个数设为3
reg = KNeighborsRegressor(n_neighbors=3) 
# 利用训练数据和训练目标值来拟合模型 
reg.fit(X_train, y_train)
# predict测试集
print("Test set predictions:\n{}".format(reg.predict(X_test)))
# 评估模型
print("Test set R^2: {:.2f}".format(reg.score(X_test, y_test)))
#调大n_neighbors具备更好的泛化，但是对训练集的预测精度下降。
#结论：knn模型2个重要参数：邻居个数与数据点之间的距离度量方式。推荐选择3-5个邻居。在大数据集上处理慢，特征过多或者特征0值多均导致效果不佳


#线性模型
#对于回归问题，线性模型预测的一般公式是： ŷ = w[0] * x[0] + w[1] * x[1] + … + w[p] * x[p] + b
#有许多种不同的线性回归模型，区别在于模型如何学习到参数w和b，以及如何控制模型复杂度。
#线性回归（回归问题最简单最经典的线性模型）。它试图找到参数w和b，使得预测值和真实值之间的均方误差最小。均方误差(mean squared error)是预测值与真实值之差的平方和除以样本数。
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import mglearn
# 生成60个样本数据, 一维特征
X, y = mglearn.datasets.make_wave(n_samples=60)
# 切分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
# 训练线性回归模型
lr = LinearRegression().fit(X_train, y_train)
#coef_就是斜率w, 即每个特征对应一个权重
print("lr.coef_: {}".format(lr.coef_))
#intercept_是截距b
print("lr.intercept_: {}".format(lr.intercept_))

#训练集精度
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
#测试集合精度
print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))
#效果不佳，说明模型过于简单，存在欠拟合。换成更高维的数据集（有更多特征的），线性模型将表现不同。


#回归extended_boston数据集
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import mglearn
# 波士顿extended数据集
X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
#训练数据集    
lr = LinearRegression().fit(X_train, y_train)
#检查训练精度
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Test set score: {:.2f}".format(lr.score(X_test, y_test)))
#可见”线性回归”表现出很严重的过拟合（明显表现为训练集与测试集的差距过大），一个表现更好的模型就是”岭回归”。


#岭回归
#采用线性回归同样的公式，但是模型约束学习得到的w系数尽可能的接近于0，即每个特征对输出的影响尽可能小，从而避免过拟合。
#这个约束叫做正则化，岭回归用到的是L2正则化。
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
import mglearn

# 波士顿extended数据集
X, y = mglearn.datasets.load_extended_boston()

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
    
ridge = Ridge().fit(X_train, y_train)
print("Training set score: {:.2f}".format(ridge.score(X_train, y_train)))
print("Test set score: {:.2f}".format(ridge.score(X_test, y_test)))

#岭回归泛化能力优于线性回归，带来的就是训练集精度下降，测试集精度上升。该模型支持alpha参数，该参数默认为1，调大alpha会进一步下降训练集精度，可能加强泛化能力；相反，调小alpha则减少了约束，训练集精度上升，可能降低泛化能力。
ridge10 = Ridge(alpha=10).fit(X_train, y_train)
print("Training set score: {:.2f}".format(ridge10.score(X_train, y_train)))
print("Test set score: {:.2f}".format(ridge10.score(X_test, y_test)))
#在相同训练数据量下，经过正则化的模型在训练集上的精度偏低，非正则化的则泛化能力较差。但是当训练集足够大的情况下，这种差别就不明显了，两种模型的测试集精度大致相当。



#lasso回归
#与岭回归类似，采用了另外一种正则化叫做L1正则化，它可以约束某些w系数为0，相当于自动筛掉了一些没用的特征。
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
import numpy as np
import mglearn

# 波士顿extended数据集
X, y = mglearn.datasets.load_extended_boston()

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
    
lasso = Lasso().fit(X_train, y_train)
print("Training set score: {:.2f}".format(lasso.score(X_train, y_train)))
print("Test set score: {:.2f}".format(lasso.score(X_test, y_test)))
# lasso.coef_是w斜率向量，数一下有几个特征的系数不为0
print("Number of features used: {}".format(np.sum(lasso.coef_ != 0)))
#该模型只用到了105个特征中的4个，其他的w系数都是0。


#该模型预测精度很差，属于欠拟合，需要减少模型的alpha参数，即放松正则化L1。
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
import numpy as np
import mglearn
 # 波士顿extended数据集
X, y = mglearn.datasets.load_extended_boston()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 我们增大max_iter的值，否则模型会警告我们，说应该增大max_iter
lasso001 = Lasso(alpha=0.01, max_iter=100000).fit(X_train, y_train) #max_iter运行迭代的最大次数
print("Training set score: {:.2f}".format(lasso001.score(X_train, y_train))) 
print("Test set score: {:.2f}".format(lasso001.score(X_test, y_test))) 
print("Number of features used: {}".format(np.sum(lasso001.coef_ != 0)))
#在放松正则化的同时，模型需要增加迭代的次数max_iter，这次用到了33个特征，模型精度上升。
#进一步调小alpha，将会令该模型等效于线性回归，产生过拟合。

#小结
#优先选岭回归，如果特征特别多而且只有个别有用那么选lasso，它们的区别就是正则化L1/L2。


'''
线性分类
ŷ = w[0] * x[0] + w[1] * x[1] + …+ w[p] * x[p] + b > 0
设置了阈值0，y小于0则预测为类别-1，大于0则预测为类类别+1。
不同的线性分类算法的区别包括2点： * w和b对训练集拟合好坏的度量方式（损失函数） * 是否使用正则化以及使用哪种正则化
常见线性分类算法包括： * LogisticRegression：Logistic回归分类器（注意只是名字叫回归，但是分类算法） * LinearSVC：线性支持向量机分类器
'''
#分类forge数据集
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
import mglearn
import matplotlib.pyplot as plt

X, y = mglearn.datasets.make_forge()

#subplots(m,n,figsize)函数是说把n个图画在m行里，每个图片的长宽由figsize指定
#返回的第二个值是每个图的绘制位置，稍后会用
fig, axes = plt.subplots(1, 2, figsize=(10, 3))
#利用zip组合：让LinearSVC画在第一个图片中，LogisticRegression画在第二个图片中
for model, ax in zip([LinearSVC(), LogisticRegression()], axes):
    # 训练模型
    clf = model.fit(X, y)
    #应该是画出了这个线性model的图像，是一个斜线
    mglearn.plots.plot_2d_separator(clf, X, fill=False, eps=0.5, ax=ax, alpha=.7)
    # 取数据集第1个特征和第2个特征分别作为图的横纵轴，画出标签的分布
    mglearn.discrete_scatter(X[:, 0], X[:, 1], y, ax=ax)
    ax.set_title("{}".format(clf.__class__.__name__))
    ax.set_xlabel("Feature 0")
    ax.set_ylabel("Feature 1")
    axes[0].legend()
#图中可以看出，位于线上面的分类和下面的分类截然不同，对于每个分类器来说线上方的认为是类别1，下方认为是类比0。
#这两种模型默认都使用L2正则化，并使用C参数控制正则化强弱，C越大则正则化越弱，对训练集会更加拟合，C越小则正则化越强，泛化可能会变好。


#下面用cancer乳腺癌高维度数据集时，线性分类会变得非常强大，需要避免过拟合的发生。
#分类cencer数据集
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
import mglearn
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
#加载数据集
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=42)
#训练
logreg = LogisticRegression().fit(X_train, y_train)
print("Training set score: {:.3f}".format(logreg.score(X_train, y_train)))
print("Test set score: {:.3f}".format(logreg.score(X_test, y_test)))

#在训练集和测试集上的精度（性能）都很好，而且基本一样，这种情况可以尝试加强对训练集拟合看是否能带来进一步提升。
#将C调大以减弱正则化：
logreg = LogisticRegression(C=100).fit(X_train, y_train)
print("Training set score: {:.3f}".format(logreg.score(X_train, y_train)))
print("Test set score: {:.3f}".format(logreg.score(X_test, y_test)))
#out：精度得到进一步提升


#指定L1正则化
#使用L1正则化可以影响模型令部分w系数为0，相当于对意义不大的特征进行了淘汰：
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
import mglearn
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=42)
#不同的C参数使用不同的标记符号绘图
for C, marker in zip([0.001, 1, 100], ['o', '^', 'v']):
    # 利用C控制正则化强弱，penalty指定了L1正则化（penalty意思是惩罚）
    lr_l1 = LogisticRegression(C=C, penalty="l1").fit(X_train, y_train)
    # 训练集精度
    print("Training accuracy of l1 logreg with C={:.3f}: {:.2f}".format(C, lr_l1.score(X_train, y_train)))
    # 测试集精度
    print("Test accuracy of l1 logreg with C={:.3f}: {:.2f}".format(C, lr_l1.score(X_test, y_test)))
#可以看到L1正则化很弱的情况下, Logistic回归分类的精度很高。



#多分类
#线性模型基本只能用于二分类，如果多余2个分类，那么就需要使用”one-vs-rest”的方法对每个分类以及剩余分类训练一个模型，最终取得分最高的分类。
from sklearn.svm import LinearSVC
import mglearn
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
import numpy as np
# 2特征，3分类的数据集
X, y = make_blobs(random_state=42)
# 训练
linear_svm = LinearSVC().fit(X, y)
# 有3组斜率，分别对应3个分类的one-vs-rest模型，每一组斜率包含了2个w系数对应2个特征
print("Coefficient shape: ", linear_svm.coef_.shape)
# 有3组截距b，分别对应3个分类的one-vs-rest模型
print("Intercept shape: ", linear_svm.intercept_.shape)
# 绘制样本分布，取2个特征作为绘图的横纵轴，分类画成点
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
# 在-15到15的范围内均匀生成15个点作为特征1的取值
line = np.linspace(-15, 15)
print(line)
# 分别绘制3个分类的模型对应的线
for coef, intercept, color in zip(linear_svm.coef_, linear_svm.intercept_, ['b', 'r', 'g']):
    # line是特征1的取值（横坐标），-(line * coef[0] + intercept) / coef[1]是特征2的取值（纵坐标）
    plt.plot(line, -(line * coef[0] + intercept) / coef[1], c=color)
    # y坐标的范围
    plt.ylim(-10, 15)
#可以画出3个模总结
'''
总结
线性模型主要参数就是正则化参数，包括L1/L2，以及回归的alpha以及分类的C值。
alpha越大或者C越小，则正则化越强，可以理解为w系数都很小，模型很简单，对训练集精度也会下降。
线性模型无论训练还是预测都很快，但是大数据集需要考虑solver=’sag’加速训练
L1正则化因为会让很多w系数为0，所以更容易模型的表现更容易分析。
'''
 

'''
朴素贝叶斯分类器
训练速度比线性模型还快，仅仅对每个分类进行特征的统计。
一共有3种模型：
GaussianNB: 特征可以是任意连续数据
BernoulliNB：特征必须是2分类的数据
MultinomialNB：特征是计数性质的数据
GaussianNB适合高维数据，后两者适合文本领域的稀疏数据。
后两个模型支持alpha参数，调大该值可以略微提高精度。


决策树
可以用于分类，也可以用于回归。
对应2个类：
回归：DecisionTreeRegressor
分类：DecisionTreeClassifier
'''
#决策树分类

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
# 数据集
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=42)
# 决策树分类
tree = DecisionTreeClassifier(random_state=0)
# 训练
tree.fit(X_train, y_train)
#精度
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

#不加控制的决策树模型，其决策树的深度很大，足以记住所有训练集的数据标签，精度高达100%。
#决策树支持预剪枝，可以通过max_depth限制问题的层级，可以减少过拟合，提高对测试集的精度。

# 决策树分类
tree = DecisionTreeClassifier(max_depth=4, random_state=0)
# 训练
tree.fit(X_train, y_train)
#精度
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

#featureimportances属性记录了每个特征的重要程度，可以绘制出来
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.tree import export_graphviz
import graphviz
# 数据集
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=42)
#决策树分类
tree =  DecisionTreeClassifier(max_depth=4, random_state=0)
#训练
tree.fit(X_train, y_train)
#精度
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

def plot_feature_importances_cancer(model):
    # 样本有几个特征
    n_features = cancer.data.shape[1]
    # 画出每个特征的对决策的重要程度
    plt.bar(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), cancer.feature_names)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")
plot_feature_importances_cancer(tree)

'''
决策树回归
DecisionTreeRegressor用于回归，但是它非常特别。
所有基于树的回归模型不能外推，也就是不能预测训练集之外的数据。
为什么呢？回归是为了预测一个连续值，但是树的叶节点只能保存训练集内出现过的目标值，因此对于训练集外的数据是无法进行目标预测的，只能得到一个训练集内出现过的结果。

总结
决策树回归不能外推，但是分类是没问题的。
控制决策树模型复杂度的参数就是预剪枝，在树构造的过程中及时停止向下构造，参数包括：maxdepth，maxleafnodes，minsamples_leaf。
决策树很容易可视化，就是一颗问答树
决策树不需要特征预处理（例如归一化/标准化），因为每一个问题都是针对单一特征的，不同特征的尺度不同不影响模型。
决策树即便剪枝也容易过拟合，泛化能力不好。

决策树集成
决策树存在过拟合问题，除非进行预剪枝。
通过把决策树与其他模型组合，可以避免这个问题，得到更好的效果，这叫做集成。
决策树为基础的集成算法有2种： * 随机森林 * 梯度提升决策树
'''

'''
随机森林
支持回归RandomForestRegressor与分类RandomForestClassifier
随机森林就是训练多个决策树，每个决策树都具备一定的随机性，虽然每一颗树还是过拟合的，但是最后取各个树预测的平均值就可以降低过拟合了。
n_estimators参数指定决策树的个数，而树之间的随机性是通过2种方式构造的：
    每个决策树的训练数据不同，这是通过对训练集进行随机抽样实现的，但是样本数量都是一致的，因此对同一个树来说可能同样的样本出现多次
    每个决策树的每个节点可以参考的特征数量受到约束，通过max_features参数可以限制，越小则树之间的差异越大
5个树的随机森林分类：
'''
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
#构造并导入two_moons数据集（。这个数据集由 2 个半月形组成，每个类别都包含 50 个数据点。我们将这个数据集称为 two_moons。）
X, y = make_moons(n_samples=100, noise=0.25, random_state=3)#为了确保多次运行同一函数能够得到相同的输出，我们利用 random_state 参数指定了随机数生成器的种子。
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
#决策树分类
forest = RandomForestClassifier(n_estimators=5, random_state=2)
#训练
forest.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(forest.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(forest.score(X_test, y_test)))

#精度已经不错了，继续加大树的数量，可以进一步减少过拟合：
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)

forest = RandomForestClassifier(n_estimators=100, random_state=0)
forest.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(forest.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(forest.score(X_test, y_test)))
'''
随机森林基本不需要调参，默认值就很好
随机森林也不用特征缩放处理
随机森林耗费训练性能，可以通过n_jobs多线程并发训练不同的树
树越多，模型越好，但是也越慢，内存花费越高
可以调节的参数有：nestimators、maxfeatures、max_depth等预剪枝参数
'''

#梯度提升回归树
#该模型可以用于回归与分类，不要被名字误导。
#该模型合并多个决策树作为更好的模型，其思想是合并许多小的树，每个树只能对部分数据做出好的预测，树越多精度越好。
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
#加载乳腺癌数据集
cancer = load_breast_cancer()
#切分数据集
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
#决策树分类
gbrt = GradientBoostingClassifier(random_state=0)
#训练
gbrt.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test)))

#训练集精度太高，可能过拟合，通过调小learning_rate参数可以降低迭代中的修正强度，避免过拟合，默认是0.1.
gbrt = GradientBoostingClassifier(learning_rate=0.01, random_state=0)
gbrt.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test)))
#降低learning_rate增加了泛化能力。也可以进行预剪枝来提升泛化能力，默认max_depth=3
gbrt = GradientBoostingClassifier(max_depth=1, random_state=0)
gbrt.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test)))
'''
梯度提升决策树是最强大最常用的监督模型
缺点是调参敏感，影响很大，训练时间也很长
不适合稀疏数据
支持的参数：nestimators，learningrate，maxdepth，其中learningrate越低则需要更大的n_estimators进行迭代修正
xgboost库更快更准，可以尝试
'''

#核支持向量机
'''
线性模型与非线性特征
    线性模型在特征少的情况下非常受限，比如二维特征情况下可能很难利用一条线区分2个分类。
    为了继续使用之前讲过的线性模型，可以通过基于已有特征进行组合或者变换添加非线性特征（比如对某个特征求平方作为新特征），更高的维度可以解决线性模型的限制，达到不错的效果。
    但问题是我们不知道对已有特征如何进行变换与组合对模型是有效的。
总之，能够将已有数据向更高维变换的话，模型就能够表现的更好。
'''

#核技巧
#有2种常见的向高维映射的方法：
    #多项式核：比如：feature1 ** 2 * feature2 ** 5)
    #高斯核很难解释
#支持向量是指位于类别之间边界上的那些训练数据点，需要模型从训练集中找到它们。
from sklearn.svm import SVC
# 加载数据
X, y = mglearn.tools.make_handcrafted_dataset()
# 训练，用RBF核完成高维映射
svm = SVC(kernel='rbf', C=10, gamma=0.1).fit(X, y) 
# 画分类的分界线
mglearn.plots.plot_2d_separator(svm, X, eps=.5)
# 画样本点
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
# 画出支持向量，支持向量的类别标签由dual_coef_的正负号给出
sv = svm.support_vectors_
sv_labels = svm.dual_coef_.ravel() &gt; 0
# 画支持向量点
mglearn.discrete_scatter(sv[:, 0], sv[:, 1], sv_labels, s=15, markeredgewidth=3)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")
#从图中可以看出，SVC的分界线是非线性的，这与linearSVC不同。
#更大的C削弱了正则化惩罚的强度，导致过拟合。 更大的gamma导致高斯核半径变小，导致过拟合。
#默认情况下，C=1，gamma=1/n_features。
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
# 加载数据
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
# 训练
svc = SVC()
svc.fit(X_train, y_train)
# 精度
print("Accuracy on training set: {:.2f}".format(svc.score(X_train, y_train)))
print("Accuracy on test set: {:.2f}".format(svc.score(X_test, y_test)))
#使用cancer数据集，发现严重过拟合，原因是SVN对每个特征的数值范围非常敏感。在这个数据集中，不同的特征甚至差出了几个数量级，这对于线性模型影响不大，对树模型没有影响，但是对SVM很严重。



#预处理数据
#可以对每个特征进行缩放，是它们都位于一个范围内。常见的就是缩放到0~1之间。

from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
# 加载数据
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
#特征预处理
#计算训练集中每个特征的最小值, 传axis=0是计算每列的最小值
min_on_training = X_train.min(axis=0)
#计算训练集中每个特征的范围=最大值-最小值
range_on_training = (X_train - min_on_training).max(axis=0)
# 把每个特征缩放到0-1之间
X_train_scaled = (X_train - min_on_training) / range_on_training
X_test_scaled = (X_test - min_on_training) / range_on_training
# 打印缩放后每个特征的最大最小值
print("Minimum for each feature\n{}".format(X_train_scaled.min(axis=0))) 
print("Maximum for each feature\n {}".format(X_train_scaled.max(axis=0)))
# 训练
svc = SVC()
svc.fit(X_train_scaled, y_train)
# 精度
print("Accuracy on training set: {:.2f}".format(svc.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.2f}".format(svc.score(X_test_scaled, y_test)))
#训练集和测试集的精度相当，可能欠拟合，可以调参尝试(C以及gamma)：

# 训练
svc = SVC(C=1000)
svc.fit(X_train_scaled, y_train)
# 精度
print("Accuracy on training set: {:.2f}".format(svc.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.2f}".format(svc.score(X_test_scaled, y_test)))

#总结：
    #在低维和高维数据表现都很好（应该是因为它会用核方法映射数据到高维的原因吧）
    #需要对特征预处理，缩放到相同区间
    #调参敏感，也很难解释
    #重要参数：C、核方法以及核方法参数，对于rbf核有参数gamma。




#神经网络
''' 广义上的线性模型。
    输入特征经过多次线性变换得到输出，即：输入->隐层->隐层->输出。
    每一个隐层包含多个隐单元，每个隐单元是由前一层的特征经过线性计算后，应用一个非线性函数（叫做激活函数）得到的。
    计算出前一个隐层内的所有隐单元，作为下一个隐层的特征输入，如此往复。
'''
#小数据集
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import mglearn
import matplotlib.pyplot as plt

# 数据集
X, y = make_moons(n_samples=100, noise=0.25, random_state=3)

# 切分
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,random_state=42)

# 训练神经网络
mlp = MLPClassifier(solver='lbfgs', random_state=0).fit(X_train, y_train)

# 绘制模型分类边界
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)

# 画样本点
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

# 精度
print(mlp.score(X_train, y_train))
print(mlp.score(X_test, y_test))
#神经网络模型的训练集精度达到了100%，属于过拟合。
#默认情况下，神经网络有1个隐层，这个隐层包含100个隐单元，模型需要为每一个隐单元学习一套w权重，总共需要训练出100套才行。

#如果数据集较小，则可以减少隐单元的个数，效果也不会变差太多：
# 训练神经网络
mlp = MLPClassifier(solver='lbfgs', hidden_layer_sizes=[10], random_state=0).fit(X_train, y_train)

# 绘制模型分类边界
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)

# 画样本点
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

print(mlp.score(X_train, y_train))
print(mlp.score(X_test, y_test))
#提升神经网络的复杂度的方法有：增加隐层个数、每个隐层中隐单元个数、降低L2正则惩罚，复杂的模型导致过拟合。

# 训练神经网络, 2个隐层，每层100个隐单元，降低L2惩罚为0.0001
mlp = MLPClassifier(solver='lbfgs',hidden_layer_sizes=[100, 100],alpha=0.0001, random_state=0).fit(X_train, y_train)

# 绘制模型分类边界
mglearn.plots.plot_2d_separator(mlp, X_train, fill=True, alpha=.3)

# 画样本点
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

# 精度
print(mlp.score(X_train, y_train))
print(mlp.score(X_test, y_test))




#大数据集
#以cancer数据集为例，对神经网络不做任何调参。
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
# 数据集
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
# 训练神经网络
mlp = MLPClassifier(random_state=0).fit(X_train, y_train)
# 精度
print("Accuracy on training set: {:.2f}".format(mlp.score(X_train, y_train)))
print("Accuracy on test set: {:.2f}".format(mlp.score(X_test, y_test)))
#精度不错，但没达到预期，因为神经网络对输入特征要求范围相似，最理想情况是均值为0，方差为1，需要进行缩放：

from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
# 数据集
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
# 计算训练集中每个特征的平均值 
mean_on_train = X_train.mean(axis=0) 
# 计算训练集中每个特征的标准差 
std_on_train = X_train.std(axis=0)
# 减去平均值，然后乘以标准差的倒数, 如此运算之后，mean=0，std=1
X_train_scaled = (X_train - mean_on_train) / std_on_train 
# 对测试集做相同的变换(使用训练集的平均值和标准差) 
X_test_scaled = (X_test - mean_on_train) / std_on_train
# 训练
mlp = MLPClassifier(random_state=0, max_iter=100)
mlp.fit(X_train_scaled, y_train)
# 精度
print("Accuracy on training set: {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test)))


#表现很好，稍微加强泛化即可，通过调大alpha进行L2惩罚实现：
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
# 数据集
cancer = load_breast_cancer()
# 切分
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
# 计算训练集中每个特征的平均值 
mean_on_train = X_train.mean(axis=0) 
# 计算训练集中每个特征的标准差 
std_on_train = X_train.std(axis=0)
# 减去平均值，然后乘以标准差的倒数, 如此运算之后，mean=0，std=1
X_train_scaled = (X_train - mean_on_train) / std_on_train 
# 对测试集做相同的变换(使用训练集的平均值和标准差) 
X_test_scaled = (X_test - mean_on_train) / std_on_train
# 训练
mlp  = MLPClassifier(random_state=0, alpha=1, max_iter=100)
mlp.fit(X_train_scaled, y_train)
# 精度
print("Accuracy on training set: {:.3f}".format(mlp.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test)))
#训练集精度下降了，泛化能力没有看出提升，和书中结果略有不同。

'''
总结:
神经网络是最先进的模型，能够获取大量数据中包含的信息
训练时间长，需要预处理数据，调参敏感。
模型复杂度高，100特征，1个隐层，100个隐单元，从输入到隐层需要学习出100*100个权重系数，从隐层到输出需要学习100个权重系数
调参关注：隐层数量，每层的隐单元数量，正则化，激活函数。
solver参数指定神经网络如何学习w系数，默认adam对数据缩放敏感，lbfgs对数据缩放不敏感，sgd有大量参数需要调节。
激活函数有relu和tanh，用来在隐单元完成y的非线性变化。

'''
#分类器的不确定性估计

#分类器给出分类时是基于不确定性估计的，有2种估计方式：
    #decision_function决策函数
    #predict_proba预测概率

#二分类情况
    #决策函数
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_circles

#数据集
X, y = make_circles(noise=0.25, factor=0.5, random_state=1)
# 为了便于说明，我们将两个类别重命名为"blue"和"red" 
y_named = np.array(["blue", "red"])[y]
# 切分
X_train, X_test, y_train_named, y_test_named, y_train, y_test = train_test_split(X, y_named, y, random_state=0)
# 构建梯度提升模型
gbrt = GradientBoostingClassifier(random_state=0) 
gbrt.fit(X_train, y_train_named)
# 决策函数表达了2种分类的偏好
print(gbrt.decision_function(X_test))
print(gbrt.classes_)
#正数是对”正”类的偏好程度，负数是对”负”类的偏好程度。
#对于2分类来说，classes_属性的第一个分类是”反类”，所以4.13592629表示测试集第一个数据的分类是red。


#预测概率
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_circles
#数据集
X, y = make_circles(noise=0.25, factor=0.5, random_state=1)
# 为了便于说明，我们将两个类别重命名为"blue"和"red" 
y_named = np.array(["blue", "red"])[y]
# 切分
X_train, X_test, y_train_named, y_test_named, y_train, y_test = \
                        train_test_split(X, y_named, y, random_state=0)
# 构建梯度提升模型
gbrt = GradientBoostingClassifier(random_state=0) 
gbrt.fit(X_train, y_train_named)
# 预测概率
print("Predicted probabilities:\n{}".format(gbrt.predict_proba(X_test[:6])))

#对于二分类来说，对于每个数据来说，predict_proba输出每个分类的估计概率，概率大的就是预测的分类了。



#多分类情况
#决策函数
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_iris

iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(
         iris.data, iris.target, random_state=42)

gbrt = GradientBoostingClassifier(learning_rate=0.01, random_state=0)
gbrt.fit(X_train, y_train)

# 决策函数
print(gbrt.decision_function(X_test[:6]))
print(gbrt.classes_)
#多分类下，只需要看一下每一行哪列大即可，则对应的classes_[col]就是其估计分类


#预测概率
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_iris

iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(
         iris.data, iris.target, random_state=42)

gbrt = GradientBoostingClassifier(learning_rate=0.01, random_state=0)
gbrt.fit(X_train, y_train)

# 决策函数
print(gbrt.predict_proba(X_test[:6]))
print(gbrt.classes_)

'''
整章总结
最邻近（KNN）：适用于小型数据集，是很好的基准模型，很容易解释。
线性模型：非常可靠的首选算法，适用于非常大的数据集，也适用于高维数据。
朴素贝叶斯：只适用于分类问题。比线性模型速度还快，适用于非常大的数据集和高维数据。精度通常要低于线性模型。
决策树：速度很快，不需要数据缩放，可以可视化，很容易解释。
随机森林：几乎总是比单棵决策树的表现要好，鲁棒性很好，非常强大。不需要数据缩放。不适用于高维稀疏数据。
梯度提升决策树：精度通常比随机森林略高。与随机森林相比，训练速度更慢，但预测速度更快，需要的内存也更少。比随机森林需要更多的参数调节。
支持向量机：对于特征含义相似的中等大小的数据集很强大。需要数据缩放，对参数敏感。
神经网络：可以构建非常复杂的模型，特别是对于大型数据集而言。对数据缩放敏感，对参数选取敏感。大型网络需要很长的训练时间。
先从线性模型、朴素贝叶斯、最邻近等简单模型开始，对数据有了解后再使用随机森林、梯度提升决策树、SVM、神经网络。
'''

你可能感兴趣的:(python,机器学习)

python雪人_python实现滑雪者小游戏 weixin_39692761 python雪人
引言这是一个用pygame写的滑雪者的游戏。skier从上向下滑，途中会遇到树和旗子，捡起一个旗子得10分，碰到一颗树扣100分，可以用左右箭头控制skier方向。安装pygamepipinstallpygame用pip或设置界面安装，可自行百度以下是主界面代码，每一个类都是一个py文件，需要导包importpygameimportrandomfromsettingsimportSettingsf
华为云开天 aPaaS 平台的流使用体验
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
Python小游戏28——水果忍者虞书欣的C 游戏 pycharm 人工智能小程序开发语言
首先，你需要安装Pygame库。如果你还没有安装，可以使用以下命令进行安装：【bash】pipinstallpygame《水果忍者》游戏代码：【python】importpygameimportrandomimportsys#初始化Pygamepygame.init()#设置屏幕尺寸screen_width=800screen_height=600screen=pygame.display.set
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
python实现滑雪游戏是叶子耶 pygame python 开发语言
游戏逻辑说明初始化：设置游戏窗口、颜色、滑雪者和障碍物的基本属性。绘制窗口：在每一帧中绘制滑雪者、障碍物和当前得分。用户输入：通过键盘的左右箭头控制滑雪者的移动。障碍物生成和移动：随机生成障碍物，并使其向下移动。碰撞检测：检查滑雪者是否与任何障碍物碰撞，若碰撞则结束游戏。得分系统：每一帧增加得分。importpygameimportrandom#初始化pygamepygame.init()#游戏窗
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
Python 爬虫：商品价格监控与波动分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 ide 网络爬虫
随着电子商务的迅猛发展，商品价格的监控和波动分析在各类应用中具有重要价值。通过爬取电商平台的商品价格数据，我们不仅可以分析商品的价格趋势，还可以预测未来的价格波动，并为定价、促销策略提供数据支持。本文将详细介绍如何利用Python编写爬虫，抓取商品价格数据，并进行价格波动分析。目录1.爬虫概述与技术选型2.环境配置与依赖库安装3.目标平台与数据抓取3.1获取商品价格示例：抓取京东商品价格3.2抓取
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
Python 常用基础模块（三）：os.path模块 Amo Xiang Python3高级核心技术 python 开发语言
目录一、os.path模块介绍二、常用方法2.1exists()方法——判断路径是否存在(准确)2.2isdir()方法——判断是否为目录2.3isabs()方法——判断是否为绝对路径2.4isf ile()方法——判断是否为普通文件2.5join()方法——拼接路径2.6abspath()方法——获取绝对路径2.7basename()方法——从一个路径中提取文件名2.8dirname()方法——
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
python系列：Python删除文件夹以及文件夹下所有文件坦笑&&life #python python java linux
Python删除文件夹以及文件夹下所有文件Python删除文件夹下所有文件python删除文件夹下的文件Python删除文件夹下的文件方法一：使用os模块方法二：使用shutil模块总结Python删除文件夹下所有文件在Python中，您可以使用os模块来删除文件夹下的所有文件，但保留文件夹本身。以下是一个简单的例子：importosdefdelete_files_in_folder(folder
python使用Flask框架创建一个简单的动态日历镜花照无眠 #Python python flask 开发语言
0.运行效果运行代码，然后在浏览器中访问http://127.0.0.1:5000/，将看到一个动态日历，能够通过点击按钮切换月份。1.安装Flask首先，确保你已经安装了Flask。如果没有，可以使用以下命令安装：pipinstallFlask测试：fromflaskimportFlask#fromflaskimportFlask,render_template,requestapp=Flask
材料力学仿真软件：MSC Nastran_（15）.案例研究与实践 kkchenjj 材料力学仿真服务器运维开发语言材料力学仿真模拟性能优化
案例研究与实践在这一节中，我们将通过具体的案例研究和实践来深入理解如何在材料力学仿真软件中进行二次开发。我们将探讨如何使用Python脚本与MSCNastran进行交互，如何优化仿真模型，以及如何处理仿真结果。每个案例都将提供详细的操作步骤和代码示例，以帮助读者更好地掌握这些技术。1.使用Python脚本自动化模型生成1.1.案例背景在实际工程中，往往需要生成大量的仿真模型。手动创建这些模型不仅耗
python 将doc转换docx 代码李姝瑶 python 开发语言
使用Python将.doc文件转换为.docx文件，可以使用python-docx库。代码如下：#安装python-docx库!pipinstallpython-docx#导入库importosimportdocx#获取文件路径file_path="/path/to/file.doc"#打开.doc文件doc=docx.opendocx(file_path)#将.doc文件保存为.docx文件do
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
python 删除文件-python实现删除文件与目录的方法 weixin_39876282
本文实例讲述了python实现删除文件与目录的方法。分享给大家供大家参考。具体实现方法如下：os.remove(path)删除文件path.如果path是一个目录，抛出OSError错误。如果要删除目录，请使用rmdir().remove()同unlink()的功能是一样的在Windows系统中，删除一个正在使用的文件，将抛出异常。在Unix中，目录表中的记录被删除，但文件的存储还在。os.rem
python 删除文件、目录_python删除文件和删除目录的方法 weixin_39778214 python 删除文件目录
下面来看一下python里面是如何删除一个文件及文件夹的~~首先引入OS模块importos删除文件：os.remove()删除空目录：os.rmdir()递归删除空目录：os.removedirs()递归删除目录和文件（类似DOS命令DeleteTree）：方法1：#Deleteeverythingreachablefromthedirectorynamedin'top',#assumingth
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
高可用架构-CAP理论 weixin_33939843
2019独角兽企业重金招聘Python工程师标准>>>整理自:《从零开始学架构》李运华著转载于:https://my.oschina.net/grace233/blog/2236736
如何使用 Python 和 Selenium WebDriver 获取 localStorage 潮易 python selenium 开发语言
如何使用Python和SeleniumWebDriver获取localStorage要使用Python和SeleniumWebDriver获取localStorage，您可以遵循以下步骤：###1.安装必要的库首先，您需要安装selenium库。可以通过pip进行安装：```bashpipinstallselenium```###2.下载WebDriver根据您的浏览器类型（如Chrome、Fir
如何在BlogSpot中一次上传多篇博客文章？潮易 python
如何在BlogSpot中一次上传多篇博客文章？在BlogSpot中一次性上传多篇博客文章的方法是使用API来批量上传文章。以下是详细的步骤和代码示例：1.首先，你需要从GoogleDevelopersConsole创建一个项目并启用BloggerAPI。2.然后，你需要在你的项目中添加BloggerAPI的客户端库，例如使用Python的`google-api-python-client`库。3.
使用迭代工具返回连续负数的最长列表。groupby 潮易 python
使用迭代工具返回连续负数的最长列表。groupby要使用Python编程解决这个问题，我们可以采用迭代和条件判断的方法。以下是一个简单的实现方法：```pythondeflongest_negatives(nums):max_length=0current_length=0start=-1foriinrange(len(nums)):ifnums[i]<0:ifcurrent_length==0:
Python服务器“通常只允许每个套接字地址使用一次“ 潮易 python 服务器开发语言
Python服务器“通常只允许每个套接字地址使用一次"在Python中，如果你遇到“通常只允许每个套接字地址使用一次”的错误，通常是因为你尝试在同一端口上启动了多个服务器实例。这可能会导致一个端口被占用了，而另一个进程无法再使用该端口监听新的连接请求。解决这个问题，你可以采取以下步骤：1.确认你的服务器是否已经正确关闭，或者如果可能的话，尝试将端口强制释放。2.如果你是在本地开发环境中遇到了这个错
将十六进制转换为浮点数潮易 mongodb
将十六进制转换为浮点数的Python程序可以从以下几种方法实现：1.使用内置函数`float()`直接转换：```python#将十六进制字符串转换为浮点数hex_str='1.23e-03'#这是一个十六进制形式的浮点数，需要先转换为十进制形式decimal_str=hex_str.replace('p','E')#将科学计数法中的'p'替换为'E'，以便于转换为十进制float_number=
Python批量转换doc为docx格式测试开发K 日常工作 python 开发语言
札记：对于IT从业人员会经常接触到各种文件，其中Word文档是最常见之一，它分为.doc和.docx两种格式。通过Python操作Word文档的第三方库有python-docx和pywin32，python-docx只能处理.docx格式的文件，至于.doc格式文件，可调用pywin32库直接操作，但效果不好，可能出现莫名的报错或读写缺失等情况。一．解决思路翻阅网上各种解决办法，其中最为简单的处理
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l