Dragon Wu

机器学习Sklearn总结2——分类算法

一、转换器与估计器

二、分类算法

K-近邻算法

案例代码：

模型选择与调优

案例代码：

朴素贝叶斯算法：

朴素贝叶斯算法总结

案例代码：

决策树总结：

案例代码：

使用随机森林来实现：

随机森林总结

总结

本次案例的代码集：

一、转换器与估计器

二、分类算法

K-近邻算法

KNN算法总结：

优点：

简单、易于理解、易于实现、无需训练

缺点：

1）必须指定K值，K值选定不当则分类精度不能保证。

2）懒惰算法，对测试样本分类时的计算量大，内存开销大

使用场景：

小数据场景，几千~几万条样本，具体使用看业务场景。

案例代码：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier


def knn_iris():
    """
    用KNN算法对iris数据进行分类
    :return:
    """
    # 1)获取数据
    iris = load_iris()

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6
                                                        )
    # 3） 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4） KNN算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train, y_train)

    # 5） 模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    return None


if __name__ == '__main__':
    # 代码1：用KNN算法对iris数据进行分类
    knn_iris()

模型选择与调优

案例代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

def knn_iris_gscv():
    """
    用KNN算法对iris数据进行分类,添加网格搜索和交叉验证
    :return:
    """
    # 1)获取数据
    iris = load_iris()

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6
                                                        )
    # 3） 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4） KNN算法预估器
    estimator = KNeighborsClassifier()

    # 加入网格搜索和交叉验证
    # 参数准备
    param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
    estimator.fit(x_train, y_train)

    # 5） 模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 最佳参数结果：best_param_
    print("最佳参数：\n", estimator.best_params_)
    # 最佳结果：best_score_
    print("最佳结果：\n", estimator.best_score_)
    # 最佳估计器：best_estimator_
    print("最佳估计器：\n", estimator.best_estimator_)
    # 交叉验证结果： cv_results_
    print("交叉验证结果：\n", estimator.cv_results_)

    return None


if __name__ == '__main__':
    # 代码2： 用KNN算法对iris数据进行分类,添加网格搜索和交叉验证
    knn_iris_gscv()

facebook数据挖掘案例：

案例代码：

import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler


def predict_data():
    """
    数据预处理
    :return:
    """
    # 1）读取数据
    data = pd.read_csv("./train.csv")

    # 2）基本数据处理
    # 缩小范围
    data = data.query("x<2.5 & x>2 & y<1.5 & y>1.0")

    # 处理时间特征
    time_value = pd.to_datatime(data["time"], unit="s")
    date = pd.DatetimeIndex(time_value)
    data.loc[:, "day"] = date.day
    data.loc[:, "weekday"] = date.weekday
    data["hour"] = data.hour

    # 3)过滤签到次数少的地点
    data.groupby("place_id").count()
    place_count = data.groupby("place_id").count()["row_id"]
    data_final = data[data['place_id'].isin(place_count[place_count > 3].index.vlaues)]

    # 筛选特征值和目标值
    x = data_final[["x", "y", "accuracy", "day", "weekday", "hour"]]
    y = data_final["place_id"]

    # 数据集划分
    # 机器学习
    x_train, x_test, y_train, y_test = train_test_split(x, y)
    # 3） 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4） KNN算法预估器
    estimator = KNeighborsClassifier()

    # 加入网格搜索和交叉验证
    # 参数准备
    param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
    estimator.fit(x_train, y_train)

    # 5） 模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 最佳参数结果：best_param_
    print("最佳参数：\n", estimator.best_params_)
    # 最佳结果：best_score_
    print("最佳结果：\n", estimator.best_score_)
    # 最佳估计器：best_estimator_
    print("最佳估计器：\n", estimator.best_estimator_)
    # 交叉验证结果： cv_results_
    print("交叉验证结果：\n", estimator.cv_results_)

    return None


if __name__ == '__main__':
    predict_data()

朴素贝叶斯算法：

案例代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


def nb_news():
    """
    用朴素贝叶斯算法对新闻进行分类
    :return:
    """
    # 1）获取数据
    news = fetch_20newsgroups(subset="all")

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)

    # 3)特征工程文本特征抽取-tfidf
    transfer = TfidfVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)朴素贝叶斯算法预估器流程
    estimator = MultinomialNB()
    estimator.fit(x_train, y_train)

    # 5)模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)

    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    return None


if __name__ == '__main__':
    # 代码3：用朴素贝叶斯算法对新闻进行分类
    nb_news()

朴素贝叶斯算法总结

优点：

对缺失数据不太敏感，算法比较简单，常用于文本分类。

分类准确度高，速度快。

缺点：

由于使用样本独立的假设，所以如果特征之间关联，预测效果不明显。

决策树

案例代码：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier, export_graphviz

def decision_iris():
    """
    用决策树对iris数据进行分类
    :return:
    """
    # 1）获取数据集
    iris = load_iris()

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

    # 3)决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy")
    estimator.fit(x_train, y_train)

    # 4)模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 可视化决策树
    export_graphviz(estimator, out_file="iris_tree.dot", feature_names=iris.feature_names)

    return None


if __name__ == '__main__':
    # 代码4：用决策树对iris数据进行分类
    decision_iris()

决策树支持可视化：

.dot文件转换为可视化图像的网页：Graphviz Online

决策树总结：

优点：

可视化——解释性强

缺点：

容易产生过拟合，这时候使用随机森林效果会好些

决策树的实验项目——titanic数据的案例

案例代码：

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz


def decision_titanic():
    # 1、获取数据
    titanic = pd.read_csv("./titanic.csv")
    print(titanic)

    # 筛选特征值和目标值
    x = titanic[["pclass", "age", "sex"]]
    y = titanic["survived"]

    # 2、数据处理
    # 1）缺失值处理
    x['age'].fillna(x["age"].mean(), inplace=True)

    # 2)转换成字典
    x = x.to_dict(orient="records")

    # 3、数据集划分
    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

    transfer = DictVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 3)决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy", max_depth=8)
    estimator.fit(x_train, y_train)

    # 4）模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)

    # 可视化决策树
    export_graphviz(estimator, out_file="titanic_tree.dot", feature_names=transfer.get_feature_names())


if __name__ == '__main__':
    decision_titanic()

使用随机森林来实现：

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV


def decision_titanic():
    # 1、获取数据
    titanic = pd.read_csv("./titanic.csv")
    print(titanic)

    # 筛选特征值和目标值
    x = titanic[["pclass", "age", "sex"]]
    y = titanic["survived"]

    # 2、数据处理
    # 1）缺失值处理
    x['age'].fillna(x["age"].mean(), inplace=True)

    # 2)转换成字典
    x = x.to_dict(orient="records")

    # 3、数据集划分
    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

    transfer = DictVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 3)随机森林预估器
    estimator = RandomForestClassifier()
    # 加入网格搜索与交叉验证
    # 参数准备
    param_dict = {"n_estimators": [120, 200, 300, 500, 800, 1200],
                  "max_depth": [5, 8, 15, 25, 30]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
    estimator.fit(x_train, y_train)

    # 4）模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为:\n", score)

    # 可视化决策树
    export_graphviz(estimator, out_file="titanic_tree.dot", feature_names=transfer.get_feature_names())


if __name__ == '__main__':
    decision_titanic()

随机森林总结

优点：

能够有效的运行在大数据集上

处理具有高维特征的输入样本，而且不需要降维。

总结

本次案例的代码集：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier, export_graphviz


def knn_iris():
    """
    用KNN算法对iris数据进行分类
    :return:
    """
    # 1)获取数据
    iris = load_iris()

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6
                                                        )
    # 3） 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4） KNN算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train, y_train)

    # 5） 模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    return None


def knn_iris_gscv():
    """
    用KNN算法对iris数据进行分类,添加网格搜索和交叉验证
    :return:
    """
    # 1)获取数据
    iris = load_iris()

    # 2）划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6
                                                        )
    # 3） 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4） KNN算法预估器
    estimator = KNeighborsClassifier()

    # 加入网格搜索和交叉验证
    # 参数准备
    param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
    estimator.fit(x_train, y_train)

    # 5） 模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值:\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 最佳参数结果：best_param_
    print("最佳参数：\n", estimator.best_params_)
    # 最佳结果：best_score_
    print("最佳结果：\n", estimator.best_score_)
    # 最佳估计器：best_estimator_
    print("最佳估计器：\n", estimator.best_estimator_)
    # 交叉验证结果： cv_results_
    print("交叉验证结果：\n", estimator.cv_results_)

    return None


def nb_news():
    """
    用朴素贝叶斯算法对新闻进行分类
    :return:
    """
    # 1）获取数据
    news = fetch_20newsgroups(subset="all")

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)

    # 3)特征工程文本特征抽取-tfidf
    transfer = TfidfVectorizer()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)朴素贝叶斯算法预估器流程
    estimator = MultinomialNB()
    estimator.fit(x_train, y_train)

    # 5)模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)

    # 方法2：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    return None


def decision_iris():
    """
    用决策树对iris数据进行分类
    :return:
    """
    # 1）获取数据集
    iris = load_iris()

    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

    # 3)决策树预估器
    estimator = DecisionTreeClassifier(criterion="entropy")
    estimator.fit(x_train, y_train)

    # 4)模型评估
    # 方法1：直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接比对真实值和预测值：\n", y_test == y_predict)

    # 方法2： 计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 可视化决策树
    export_graphviz(estimator, out_file="iris_tree.dot", feature_names=iris.feature_names)

    return None


if __name__ == '__main__':
    # 代码1：用KNN算法对iris数据进行分类
    # knn_iris()
    # 代码2： 用KNN算法对iris数据进行分类,添加网格搜索和交叉验证
    # knn_iris_gscv()
    # 代码3：用朴素贝叶斯算法对新闻进行分类
    # nb_news()
    # 代码4：用决策树对iris数据进行分类
    decision_iris()

linux安装python开发环境燃冰结晶 linux python linux install python jupyter python web开发环境
安装Anaconda下载Anacondawgethttps://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.sh安装AnacondabashAnaconda3-5.3.0-Linux-x86_64.sh会选择安装路径会选择是否需要安装vscode,国内安装不上,所以不要安装了刷新环境配置source~/.bashrc验证是否安装成功
Python 小练习 —— 统计字符串各类字符数量奶香臭豆腐 python 开发语言学习
需求允许用户不断输入一个字符串。写一个函数负责统计该字符串中的字符、数字、空格、特殊字符的个数。代码如下：#统计字符、数字、特殊字符的个数fromtypingimportTuple#使用类型注释所需的库#定义函数，用到了类型注释。defcount_characters(msg:str)->Tuple[int,int,int,int]:digit_count=0#数字计数器alpha_count=0
Python —— 深拷贝和浅拷贝奶香臭豆腐 python 开发语言学习
Python——深拷贝和浅拷贝浅拷贝——ShallowCopy深拷贝——DeepCopy总结常见的应用场景浅拷贝——ShallowCopy浅拷贝是指复制对象本身，但不会复制对象内部的嵌套对象。换句话说，浅拷贝会创建一个新的对象，但是新对象中的元素是原始对象元素的引用（即指向同一块内存地址）。因此，若原始对象中的元素是可变对象，修改这些元素会影响到原始对象和拷贝对象。s="abcdef123456"
Python 小练习 —— 循环法和对数法计算利息奶香臭豆腐 python 开发语言学习
Python小练习——循环法和对数法计算利息需求循环法算利息对数法算利息需求本金principal=10000利息intrest=0.0325目标2*principal多长时间可以本金翻倍（即本金达到目标值）循环法算利息代码如下：importmathprincipal=10000INTEREST=0.0325TARGET=2*principal#20000#循环法year=0whileprinci
正则表达式regex GotoMeiben 正则表达式
工具网站：RegExr:Learn,Build,&TestRegEx正则表达式（RegularExpression,Regex）是一种强大的字符串匹配工具，广泛用于文本搜索、数据处理和输入验证等场景。无论是Python、Java、JavaScript还是Shell脚本，Regex都是不可或缺的技能。本文将深入介绍正则表达式的各种用法，包括：基本匹配（字母、数字）特殊符号^$\b量词{}*+?字符类
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
python ffmpeg直播_FFmpeg+Nginx+Rtmp+HLS+Videojs搭建直播网站（理论与实战） weixin_39565300 python ffmpeg直播
第1章直播原理与架构28分钟2节1-1直播原理与架构直播原理与架构「仅限付费用户」点击下载“直播原理与架构.pdf”[14:53]开始学习1-2甜点：福优学苑--简历包装与面试技巧甜点：福优学苑--简历包装与面试技巧「仅限付费用户」点击下载“福优学苑--简历包装与面试技巧--51other.pdf”[13:36]开始学习第2章亲手搭建FFmpeg+Nginx直播网站1小时48分钟11节2-1直播引
Java Pjsip (Pjsua2 api ) 2.10 windows sip语音呼叫教程 java_lilin pjsip pjsip sip pjsua2 java sip
1.安装swigwin-4.0.1下载地址http://www.swig.org/download.html注意是swigwinWindowsusersshoulddownloadswigwin-4.0.1whichincludesaprebuiltexecutable.配置目录到winpath2.下载pjproject-2.10.zip(如果有python错误请安装py2.7及环境path配置)
Python中Tushare（金融数据库）入门详解 eqa11 数据库 python 金融
文章目录Python中Tushare（金融数据库）入门详解一、引言二、安装与注册1、安装Tushare2、注册与获取Token三、Tushare基本使用1、设置Token2、获取数据2.1、获取股票基础信息2.2、获取交易日历2.3、获取A股日线行情2.4、获取沪股通和深股通成份股2.5、获取上市公司基础信息2.6、获取A股周线行情字段解析四、总结Python中Tushare（金融数据库）入门详解
micropython 中socket中的非阻塞报错 Error-＞: [Errno 119] EINPROGRESS 水可煮粥 micropython 网络服务器 tcp/ip python
在建立连接前设置非阻塞，会报错[Errno119]EINPROGRESSsock=socket.socket(socket.AF_INET,socket.SOCK_STREAM)addr=socket.getaddrinfo(host,port)[0][-1]sock.setblocking(False)#非阻塞sock.connect(addr)改成先连接，后设置，即可sock=socket.s
HCIA网络层协议与IP编址夏の橘 HCIA学习之路网络
摘要：网络层是OSI模型中的核心层级，负责实现跨网络的数据传输。本文深入解析HCIA认证要求的网络层协议（IP/ICMP/ARP）及IP编址技术，涵盖子网划分、NAT原理及数据转发流程，帮助读者掌握网络层关键技术。目录一、网络层协议核心功能二、核心协议解析1.IP协议（InternetProtocol）2.ICMP协议3.ARP协议三、IPv4编址技术详解1.地址结构与分类关键细节2.子网划分实践
python websocket 心跳_websocket心跳及重连机制蜗牛老湿 python websocket 心跳
websocket心跳及重连机制websocket是前后端交互的长连接，前后端也都可能因为一些情况导致连接失效并且相互之间没有反馈提醒。因此为了保证连接的可持续性和稳定性，websocket心跳重连就应运而生。在使用原生websocket的时候，如果设备网络断开，不会立刻触发websocket的任何事件，前端也就无法得知当前连接是否已经断开。这个时候如果调用websocket.send方法，浏览器
【深度学习】学习率调度策略黑白交界深度学习学习深度学习
什么是学习率可以理解为模型在每一次迭代中的模型更新调整的幅度，“学习”新信息的速度。学习率定义了模型权重（参数）在梯度下降或其他优化算法中的更新步伐。较大的学习率意味着在每次参数更新时，模型会进行更大幅度的调整，而较小的学习率则意味着细致的、渐进的调整。适当的学习率可以帮助模型跳出局部最优解。当使用较大的学习率时，模型有可能跨越一些小的局部最优，从而找到全局最优解，但也有可能错过全局最优。因此，在
十四、python使用MySQL数据库 weixin_45460686 python笔记 mysql 数据库 python
（一）pymsql模块pymsql是Python3中操作MySQL的模块，其使用方法和py2的MySQLdb几乎相同。1、模块安装pipinstallpymysql2、使用模块步骤：导入pymysql库。调用pymysql.connect()方法建立与数据库的连接。在connect()方法中，传入数据库的主机名、用户名、密码和数据库名称等连接参数。importpymysql#创建数据库连接conn
python panda下载_pandas python下载|Pandas for python v0.25.0官方版 v0.25.0官方版 - 哩咯下载站... weixin_39647458 python panda下载
Pandas是python的数据分析包，最初被作为金融数据分析工具而开发出来，提供pandas.whl包下载，有需要的赶快下载吧！软件介绍Pandas是python的一个数据分析包，最初由AQRCapitalManagement于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被
python——作用域光纤光栅 python学习 python java 前端
一、作用域定义：作用域就是变量产生作用的范围。可以分为全局作用域和局部作用域（函数）。在代码运行中，不是所有变量都会一直保存，大多数变量是不断的建立和销毁，以此来避免内存被占用过多。y=2#y就是全局作用域的全局变量deffn():x=1#x是局部作用域中的变量fn()1.1全局作用域在代码中，全局作用域在程序执行时创建，在程序执行结束时销毁。所有函数以外的都是全局作用域。在全局作用域定义的变量都
如何使用 Docker 搭建 FastAPI 环境, 本地仅编辑代码 Acaibird. eureka 云原生
在开发FastAPI应用时，我们有时希望将应用容器化，以便于部署和管理，同时避免污染本地的Python环境。使用Docker可以轻松实现这一目标，但如果你想在容器中安装依赖并进行调试，如何在不破坏本地环境的情况下管理依赖呢？本文将介绍如何通过Docker将FastAPI应用容器化，并展示如何进入容器安装依赖。1.项目结构假设你已经有一个简单的FastAPI项目结构，主要包含以下文件：Dockerf
零基础学Python图片处理：用Pillow库轻松玩转修图小彭爱学习 python python pillow python处理图片
零基础学Python图片处理：用Pillow库轻松玩转修图一、初识Pillow：你的第一张数码暗房安装准备（只需要1分钟）打开电脑的命令行（Windows按Win+R输入cmd，Mac打开终端），输入：pipinstallpillow看到「SuccessfullyinstalledPillow-x.x.x」就安装成功啦！图片处理四步走打开图片：像打开文件柜一样找到图片修改图片：裁剪、调色、加特效查
2024年03月CCF-GESP编程能力等级认证Python编程四级真题解析码农StayUp python CCF GESP 青少年编程
本文收录于专栏《Python等级认证CCF-GESP真题解析》，专栏总目录：点这里，订阅后可阅读专栏内所有文章。一、单选题（共15题，共30分）第1题小杨的父母最近刚刚给他买了一块华为手表，他说手表上跑的是鸿蒙，这个鸿蒙是.（）A.小程序B.计时器C.操作系统D.神话人物答案：C本题属于考察计算机基础知识。鸿蒙是操作系统，操作系统是管理计算机硬件与软件资源的程序，同时也是计算机系统的内核与基石。它
python代码画动态烟花源码,烟花代码编程python复制 Rtee1 python 开发语言人工智能
本篇文章给大家谈谈爱心代码编程python可复制，以及python代码画动态烟花源码，希望对各位有所帮助，不要忘了收藏本站喔。Sourcecodedownload:本文相关源码下面是一个简单的Python烟花代码，可以通过编写程序来模拟烟花的绽放过程：importturtleimportrandom#设置窗口大小和标题screen=turtle.Screen()screen.setup(800,6
python 解决PyCharm里plugins搜索不到插件 weixin_43250628 python学习日记计算机 pycharm ide python
pycharmplugins搜索不到插件解决方案：在图示位置填入url：https://plugins.jetbrains.com/后应用即可
【核心算法篇七】《DeepSeek异常检测：孤立森林与AutoEncoder对比》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法分布式 docker 计算机视觉人工智能自然语言处理 DeepSeek
大家好，今天我们来深入探讨一下《DeepSeek异常检测：孤立森林与AutoEncoder对比》这篇技术博客。我们将从核心内容、原理、应用场景等多个方面进行详细解析，力求让大家对这两种异常检测方法有一个全面而深入的理解。一、引言在数据科学和机器学习领域，异常检测（AnomalyDetection）是一个非常重要的任务。它的目标是从数据集中识别出那些与大多数数据显著不同的异常点。这些异常点可能是由于
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门 lilye66 python jupyter 开发语言爬虫
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门大家好！一直以来，我都坚信在学习的道路上，相互交流和共同进步是非常重要的。在Python数据处理这片充满挑战与机遇的领域，我也在持续学习和探索，希望借由这一系列的博客，能和大家一起深入钻研，共同成长。在上一篇博客中，我们学习了Jupyternotebook的相关知识，今天咱们接着来了解Python数据处理中的其他关键内容，包括一些
【c++】容器：vector、list、map 大姨妈V c++【c++从入门到精通】学习笔记
【c++】容器1.容器2.顺序容器3.向量4.双向链表5.关联容器6.映射参考：《c++从入门到精通》人民邮电出版社标准模板库STL的c++最有特色、最实用的部分之一。标准模板库包含了容器类、迭代器和算法三部分。容器：容器就是可以用于存放各种类型数据的数据结构。迭代器：迭代器可依次存取容器中的元素，在C++中称迭代器为指针，它们提供了访问容器、序列中每个元素的方法。算法：是用来操作容器中的元素的函
STL-vector,set,string,map,queue,priority_queue,stack,pair算法笔记 cloudless_sky STL c++stl
STL:standardtemplatelibrary标准模板库，封装了很多实用的容器。（一）vectorvector是一个容器。是个类。底层数据结构是数组。vector:向量，变长数组，即“长度根据需要而自动改变的数组”。使用前提：#includeusingnamespacestd;1、vector定义vectorname;以上是长度可以根据需要变化的一位数组，typename可以是任何基本类型
吐血整理！模型热加载能力大比拼，谁才是真正王者？盼达思文体科创经验分享
吐血整理！模型热加载能力大比拼，谁才是真正王者？引言你是否在开发过程中，为了模型更新而频繁重启服务，浪费大量时间？又是否疑惑为什么有些模型加载速度快如闪电，而有些却慢得像蜗牛？今天就带你深入了解模型热加载能力的支持对比，让你不再为模型加载问题而烦恼！核心内容模型热加载概念科普场景化描述：想象一下，你正在运营一个基于机器学习模型的在线推荐系统。当你训练出了一个新的、性能更好的模型时，如果不能进行热加
图像识别技术与应用第三课哈哈~156 scikit-learn
一、感知机感知机由美国学者FrankRosenblatt在1957年提出，它根据输入x、权重w和偏差b进行输出，输出结果是二分类（0或1），这和输出实数的回归以及输出概率用于多分类的Softmax不同。像与门、与非门、或门都能通过设定合适的权重和偏差实现。w称为权重：控制输入信号的重要性的参数b称为偏置：偏置是调整神经元被激活的容易程度参数感知机的局限性:感知机的局限性就是只能表示由一条直线分割的
59.python的类与对象安迪python学习笔记 Python基础知识 python 开发语言
59.python的类与对象文章目录59.python的类与对象1.什么是类？2.作用3.Python中的类4.type函数查看数据类型5.什么是对象？1.什么是类？日常生活中，我们可能会听到这样的对话：物以类聚，人以群分。这一类的面包真的很难吃。这一类水果对身体很好。【类的中文释义】类是对一类事物的概括，是许多相似或相同事物的综合。这些事物各不相同，但具有一些共同的特征或行为。【示例】类名：花百
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

机器学习Sklearn总结2——分类算法

一、转换器与估计器

二、分类算法

K-近邻算法

案例代码：

模型选择与调优

案例代码：

朴素贝叶斯算法：

朴素贝叶斯算法总结

案例代码：

决策树总结：

案例代码：

使用随机森林来实现：

随机森林总结

总结

本次案例的代码集：

你可能感兴趣的:(数据挖掘,机器学习,机器学习,sklearn,分类,算法,python)