游骑小兵

【Python机器学习及实践】进阶篇：模型实用技巧（特征提升）

Python机器学习及实践——进阶篇：模型实用技巧（特征提升）

所谓特征抽取，就是逐条将原始数据转化为特征向量的形式，这个过程同时涉及对数据特征的量化表示；而特征筛选则进一步，在高维度、已量化的特征向量中选择对指定任务更有效的特征组合，进一步提升模型性能。

1.特征抽取

原始数据的种类有很多种，除了数字化的信号数据（声纹、图像），还有大量符号化的文本。然而，我们无法直接将符号化的文本本身用于计算任务，而是需要通过某些处理手段，预先将文本量化为特征向量。

有些用符号表示的数据特征已经相对结构化，并且以字典这种数据结构进行存储。这时，使用DictVectorizer对特征进行抽取和向量化。

DictVectorizer对使用字典存储的数据进行特征抽取与向量化

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : FeatureExtraction.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 20:59
@Desc  : 
"""
# 定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.},
                {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction中导入DictVectorizer
from sklearn.feature_extraction import DictVectorizer

# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义
print(vec.get_feature_names())

在特征向量化的过程中，DictVectorizer对于类别型（Categorical）与数值型（Numerical）特征的处理方式有很大差异。由于类别型特征无法直接数字化表示，因此需要借助原特征的名称，组合产生新的特征，并采用0/1二值方式进行量化；而数值型特征的转化则相对方便，一般情况下只需要维持原始特征值即可。

另外一些文本数据则表现得更为原始，几乎没有使用特殊的数据结构进行存储，只是一系列字符串。我们处理这些数据，比较常用的文本特征表示方法为词袋法（Bag of Words）：即不考虑词语出现的顺序，只是将训练文本中的每个出现过的词汇单独视作一列特征。称这些不重复的词汇集合为词表（Vocabulary），于是每条训练文本都可以在高维度的词表上映射出一个特征向量。特征数值的常见计算方式有两种：CountVectorizer和TfidfVectorizer。对于每一条训练文本，CountVectorizer只考虑每种词汇（Term）在该条训练文本中出现的概率（Term Frequency）。而TfidfVectorizer除了考虑某一词汇在当前文本中出现的频率（Term Frequency）之外，同时关注包含这个词汇的文本条数的倒数（Inverse Document Frequency）。相比之下，训练文本的条目越多，TfidfVectorizer这种特征量化方式就更有优势。因为我们计算词频（Term Frequency）的目的在于找出对所在文本的含义更有贡献的重要词汇。然而，如果一个词汇几乎在每篇文本种出现，说明这是一个常用词汇，反而不会帮助模型对文本的分类；在训练文本量较多的时候，利用TfidfVectorizer压制这些常用词汇的对分类决策的干扰，往往可以起到提升模型性能的作用。

通常称这些在每条文本中都出现的常用词汇为停用词（Stop Words）。这些停用词在文本特征抽取中经常以黑名单的方式过滤掉，并且用来提高模型的性能表现。

使用CountVectorizer并且不去掉停用词的条件下，对文本特征进行量化的朴素贝叶斯分类性能测试：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : CountVectorizer.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 22:08
@Desc  : 
"""
# 从sklearn.datasets里导入20类新闻文本数据抓取器。
from sklearn.datasets import fetch_20newsgroups

# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。
news = fetch_20newsgroups(subset='all')

# 从sklearn.cross_validation导入train_test_split模块用于分割数据集。
from sklearn.model_selection import train_test_split

# 对news中的数据data进行分割，25%的文本用作测试集；75%作为训练集。
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

# 从sklearn.feature_extraction.text里导入CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# 采用默认的配置对CountVectorizer进行初始化（默认配置不去除英文停用词），并且赋值给变量count_vec。
count_vec = CountVectorizer()

# 只使用词频统计的方式将原始训练和测试文本转化为特征向量。
X_count_train = count_vec.fit_transform(X_train)
X_count_test = count_vec.transform(X_test)

# 从sklearn.naive_bayes里导入朴素贝叶斯分类器。
from sklearn.naive_bayes import MultinomialNB

# 使用默认的配置对分类器进行初始化。
mnb_count = MultinomialNB()
# 使用朴素贝叶斯分类器，对CountVectorizer（不去除停用词）后的训练样本进行参数学习。
mnb_count.fit(X_count_train, y_train)

# 输出模型准确性结果。
print('The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering stopwords):',
      mnb_count.score(X_count_test, y_test))
# 将分类预测的结果存储在变量y_count_predict中。
y_count_predict = mnb_count.predict(X_count_test)
# 从sklearn.metrics 导入 classification_report。
from sklearn.metrics import classification_report

# 输出更加详细的其他评价分类性能的指标。
print(classification_report(y_test, y_count_predict, target_names=news.target_names))

使用TfidfVectorizer并且在不去掉停用词的条件下，对文本特征进行量化的朴素贝叶斯分类性能测试

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : TfidfVectorizer.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 22:26
@Desc  : 
"""
# 从sklearn.datasets里导入20类新闻文本数据抓取器。
from sklearn.datasets import fetch_20newsgroups

# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。
news = fetch_20newsgroups(subset='all')

# 从sklearn.cross_validation导入train_test_split模块用于分割数据集。
from sklearn.model_selection import train_test_split

# 对news中的数据data进行分割，25%的文本用作测试集；75%作为训练集。
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

# 从sklearn.feature_extraction.text里导入TfidfVectorizer。
from sklearn.feature_extraction.text import TfidfVectorizer

# 采用默认的配置对TfidfVectorizer进行初始化（默认配置不去除英文停用词），并且赋值给变量tfidf_vec。
tfidf_vec = TfidfVectorizer()

# 使用tfidf的方式，将原始训练和测试文本转化为特征向量。
X_tfidf_train = tfidf_vec.fit_transform(X_train)
X_tfidf_test = tfidf_vec.transform(X_test)

from sklearn.naive_bayes import MultinomialNB
# 从sklearn.metrics 导入 classification_report。
from sklearn.metrics import classification_report

# 依然使用默认配置的朴素贝叶斯分类器，在相同的训练和测试数据上，对新的特征量化方式进行性能评估。
mnb_tfidf = MultinomialNB()
mnb_tfidf.fit(X_tfidf_train, y_train)
print('The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering stopwords):',
      mnb_tfidf.score(X_tfidf_test, y_test))
y_tfidf_predict = mnb_tfidf.predict(X_tfidf_test)
print(classification_report(y_test, y_tfidf_predict, target_names=news.target_names))

说明在训练文本量较多的情况下，使用TfidfVectorizer能够减少常用词汇对分类决策的影响，往往可以起到提升模型性能的作用。

分别使用CountVectorizer和TfidfVectorizer，并且去掉停用词的条件下，对文本特征进行量化的朴素贝叶斯分类性能测试

# 去掉停用词
print("去掉停用词之后：")
count_filter_vec = CountVectorizer(analyzer='word', stop_words='english')

# 使用带有停用词过滤的CountVectorizer对训练和测试文本分别进行量化处理
X_count_filter_train = count_filter_vec.fit_transform(X_train)
X_count_filter_test = count_filter_vec.transform(X_test)

# 初始化默认参数的朴素贝叶斯分类器，并对CountVectorizer后的数据进行预测与准确性评估
mnb_count_filter = MultinomialNB()
mnb_count_filter.fit(X_count_filter_train, y_train)

print('The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering stopwords):',
      mnb_count_filter.score(X_count_filter_test, y_test))
y_count_filter_pred = mnb_count_filter.predict(X_count_filter_test)
# 输出更加详细的其他评价分类性能的指标
print(classification_report(y_test, y_count_filter_pred, target_names=news.target_names))

# 去掉停用词
print("去掉停用词之后：")
tfidf_filter_vec = TfidfVectorizer(analyzer='word', stop_words='english')

# 使用带有停用词过滤的TfidfVectorizer对训练和测试文本分别进行量化处理
X_tfidf_filter_train = tfidf_filter_vec.fit_transform(X_train)
X_tfidf_filter_test = tfidf_filter_vec.transform(X_test)

# 初始化默认参数的朴素贝叶斯分类器，并对TfidfVectorizer后的数据进行预测和准确性评估
mnb_tfidf_filter = MultinomialNB()
mnb_tfidf_filter.fit(X_tfidf_filter_train, y_train)
print('The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering stopwords):',
      mnb_tfidf_filter.score(X_tfidf_filter_test, y_test))
y_tfidf_filter_predict = mnb_tfidf_filter.predict(X_tfidf_filter_test)
# 输出更加详细的其他评价分类性能的指标
print(classification_report(y_test, y_tfidf_filter_predict, target_names=news.target_names))

结果表明，对停用词进行过滤的文本特征抽取方法，平均要比不过滤停用词的模型综合性能高出3%~4%。

2.特征筛选

总体来讲，良好的数据特征组合不需太多，便可以使得模型的性能表现突出。

特征筛选与PCA这类通过选择主成分对特征进行重建的方法略有区别：对于PCA，经常无法解释重建之后的特征；但是特征筛选不存在对特征值的修改，而更加侧重于寻找那些对模型的性能提升较大的少量特征。

使用Titanic数据集，通过特征筛选的方法一步步提升决策树的预测性能

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : FeatureSelctionbyDT.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 22:53
@Desc  : 
"""
import pandas as pd

titanic = pd.read_csv('./titanic.txt')

# 分离数据特征与预测目标
y = titanic['survived']
X = titanic.drop(['row.names', 'name', 'survived'], axis=1)

# 对缺失数据进行填充
X['age'].fillna(X['age'].mean(), inplace=True)
X.fillna('UNKNOWN', inplace=True)

# 分割数据
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)

# 类别特征向量化
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer()
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.transform(X_test.to_dict(orient='record'))

# 输出处理后特征向量的维度
print("处理后特征向量的维度:")
print(len(vec.feature_names_))

# 使用决策树模型依靠所有特征进行预测，并做出性能评估
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(criterion='entropy')
dt.fit(X_train, y_train)
print("使用决策树模型依靠所有特征进行预测:")
print(dt.score(X_test, y_test))

# 从sklearn导入特征筛选器
from sklearn import feature_selection

# 筛选前20%的特征，使用相同配置的决策树模型进行预测，并评估性能
fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=20)
X_train_fs = fs.fit_transform(X_train, y_train)
dt.fit(X_train_fs, y_train)
X_test_fs = fs.transform(X_test)
print("筛选前20%的特征，使用相同配置的决策树模型进行预测")
print(dt.score(X_test_fs, y_test))

# 通过交叉验证的方法，按照固定间隔的百分比筛选特征，并作图展示性能随特征筛选比例的变化
from sklearn.model_selection import cross_val_score
import numpy as np

percentiles = range(1, 100, 2)
results = []
for i in percentiles:
    fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=i)
    X_train_fs = fs.fit_transform(X_train, y_train)
    scores = cross_val_score(dt, X_train_fs, y_train, cv=5)
    results = np.append(results, scores.mean())

print(results)

# 找到体现最佳性能的特征筛选的百分比
opt = np.where(results == results.max())[0]
print('Optimal number of features %d' % np.array(percentiles)[opt])

# 绘制变化曲线图
import pylab as pl

pl.plot(percentiles, results)
pl.xlabel('percentiles of features')
pl.ylabel('accuracy')
pl.show()

# 使用最佳筛选后的特征，利用相同参数的模型在测试集上进行性能评估
fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=opt)
X_train_fs = fs.fit_transform(X_train, y_train)
dt.fit(X_train_fs, y_train)
X_test_fs = fs.transform(X_test)
print("使用最佳筛选后的特征，利用相同参数的模型在测试集上进行性能评估结果：")
print(dt.score(X_test_fs, y_test))

问题1：Traceback (most recent call last):
File "E:/python_learning/MyKagglePath/Advanced/PracticalSkills/Feature Selection/FeatureSelctionbyDT.py", line 72, in
print('Optimal number of features %d' %percentiles[opt])
TypeError: only integer scalar arrays can be converted to a scalar index

解决办法：print 'Optimal number of features',np.array(percentiles)[opt]

使用前7%维度的特征，最终的测试结果比最初使用全部特征的性能高出接近3个百分点。

机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
DeepSeek这么火，一文教你本地部署DeepSeek! 入职啦 python python deepseek 部署持续部署 AI 人工智能
要说年假最火的是什么，DeepSeek绝对在话题榜上，公众号几乎都是关于他的，今天入职啦也来和大家聊一聊我们AI领域的新星–DeepSeek，顺便也教大家部署一套属于自己的本地搜索服务。为什么DeepSeek这么火？一、技术架构优势DeepSeek采用创新的混合模型架构，将传统机器学习与深度学习有机结合。这种架构既保留了传统方法的可解释性，又具备深度学习的强大表征能力。通过自适应学习机制，Deep
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
机器学习与深度学习里生成模型和判别模型的理解程序员羊羊机器学习深度学习人工智能 php 学习 chatgpt 前端
两个模型是啥我们从几句话进入这两个概念：1、机器学习分为有监督的机器学习和无监督的机器学习；2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器；3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类；4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
阿里云人工智能与机器学习 HaoHao_010 阿里云云服务器云计算服务器
阿里云的人工智能（AI）与机器学习（ML）服务为企业提供了全面的AI解决方案，帮助用户在多个行业实现数据智能化，提升决策效率，推动业务创新。阿里云通过先进的技术和丰富的工具，支持用户开发、部署和管理AI应用。以下是阿里云在人工智能和机器学习方面的主要产品与服务：1.云上机器学习平台—PaaS服务PAI(PlatformforAI)PAI是阿里云推出的人工智能平台，提供一系列机器学习与深度学习工具和
机器学习与深度学习在辣椒病虫害识别中的集成分析（实验室环境） @@南风农作物病害识别与分类深度学习机器学习神经网络
Abstract背景:辣椒是世界上最重要的高价值蔬菜作物之一。然而，虫害和疾病感染是辣椒种植的主要限制因素。这些疾病无法根除，但可以加以处理和监测，以减轻损害。因此，采用基于图像的自动识别系统将有助于快速识别辣椒病害。从图像中提取的特征对于开发这样一个精确的识别系统至关重要。结果:本研究将传统方法提取的辣椒病虫害特征与基于深度学习方法提取的特征进行了比较。***共采集辣椒叶片图像974张，由5种病
【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）赵钰老师 python 机器学习深度学习 python 机器学习深度学习数据分析人工智能
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L
2025最新ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研应用梦想的初衷~ AI大语言人工智能 chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
一文掌握什么是时间序列？时间序列研究的核心任务？目前最强大的时序分析与建模工具和项目？幸运 lucky 人工智能学习之路时间序列核心任务时序分析与建模工具和项目 SOTA
CSDN叶庭云：https://yetingyun.blog.csdn.net/什么是时间序列？时间序列是一系列按照时间顺序排列的数据点，这些数据点通常是随时间连续变化的测量值。时间序列分析是统计学中专门用于解析时间顺序数据的一套技术，旨在识别数据中的模式、趋势、季节性波动及其他潜在的周期性特征。然而，当前，机器学习与深度学习方法在这一领域的应用正日益受到青睐。时间序列数据可以来源于各种领域，如经
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
机器学习与深度学习的区别 eqa11 机器学习
文章目录机器学习与深度学习的区别一、引言二、机器学习概述1、机器学习定义1.1、机器学习的应用2、机器学习算法三、深度学习概述1、深度学习定义1.1、深度学习的应用2、深度学习算法四、机器学习与深度学习的区别1、学习方法2、数据需求3、应用领域五、总结机器学习与深度学习的区别一、引言在人工智能的浪潮中，机器学习和深度学习无疑是最耀眼的两颗明星。它们在许多领域都取得了令人瞩目的成就，从自动驾驶汽车到
图像去噪算法代码c语言,深度学习图像去噪代码 weixin_39777018 图像去噪算法代码c语言
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时导入操作||https://support.huaweicloud.com/engineers-
全流程Python编程、机器学习与深度学习实践技术应用为为-180-3121-1455 深度学习机器学习 python python 机器学习深度学习
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。为了帮助科研人员系统地掌握深度学习的基础理论及其在PyTorch中的实现方法，Ai尚研修特别推出了“最新PyTorch机器学习与深度学习技
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
计算机视觉与图像处理面试题,深度学习图像处理算法工程师面试题 ZW9 计算机视觉与图像处理面试题
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时引入MoXingFramework模块||https://support.huaweicloud
深度学习+计算机语言,深度学习计算机语言中国计算机学会深度学习+计算机语言
AI开发平台ModelArtsModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。按需/包周期付费可选，最低0.00元/小时引入MoXingFramework模块||https://support.huaweicloud
【大厂AI课学习笔记】【1.6 人工智能基础知识】（1）人工智能、机器学习、深度学习之间的关系 giszz 学习笔记人工智能人工智能学习笔记
6.1人工智能、机器学习与深度学习的关系必须要掌握的内容：如上图：人工智能>机器学习>深度学习。机器学习是人工智能的一个分支，该领域的主要研究对象是人工智能，特别是如何在经验学习中改进具体算法的性能。深度学习是一种典型的机器学习方法，是一种基于对数据进行表征学习的算法。我们来学习更多的背景知识：人工智能、机器学习与深度学习的关系一、定义与概念解析人工智能（ArtificialIntelligenc
机器学习与深度学习 Hacoj 从零开始的人工智能学习机器学习深度学习人工智能
什么是机器学习机器学习是一门跨学科的学科，它致力于研究和开发让计算机能够模拟人类学习行为的技术和方法。机器学习涉及多个学科的知识，如概率论、统计学、逼近论、凸分析、算法复杂度理论等，这些学科为机器学习提供了理论基础和数学工具。机器学习的主要目标是通过对大量数据进行处理和分析，自动地发现数据中的规律和模式，然后利用这些规律和模式对新的数据进行预测和决策。这个过程不需要人类进行明确的编程和指令，而是让
普通编程，机器学习与深度学习 ALGORITHM LOL 机器学习深度学习人工智能
普通编程：基于人手动设置规则，由输入产生输出经典机器学习：人手工指定需要的特征，通过一些数学原理对特征与输出的匹配模式进行学习，也就是更新相应的参数，从而使数学表达式能够更好的根据给定的特征得到准确的输出结果。表示学习：包含深度学习，通过输入由算法生成简单的特征，再逐层生成更加全局/抽象的特征，最后，通过一些数学原理对特征与输出的匹配模式进行学习，也就是更新相应的参数，从而使数学表达式能够更好的根
AI鲜为人知的秘密：机器学习与深度学习概论 Hunter乔乔人工智能人工智能机器学习深度学习
文章目录思维导图前言一、人工智能、机器学习与深度学习二、机器学习1、机器学习的实现原理2、学习任务3、确定模型三、深度学习1、神经网络2、深度学习当代发展四、推荐书籍及课程1、学习书籍2、推荐课程总结思维导图前言2022年11月30日，美国人工智能研究公司OpenAI发布全新的聊天机器人模型ChatGPT。上线仅五天，用户数量就突破100万人。2023年，大语言模型及其在人工智能领域的应用已成为全
机器学习复习（1）——任务整理流程不会写代码！！机器学习复习机器学习算法人工智能机器学习人工智能
目录固定的随机数种子定义predict功能拆分数据集定义trainer超参数设置数据集载入固定的随机数种子在大量的机器学习与深度学习实验中，如果不进行特殊设置，我们的结果将不可复现，固定的随机数种子将会解决这个问题defsame_seed(seed):'''设置随机种子(便于复现)'''torch.backends.cudnn.deterministic=Truetorch.backends.cu
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模慢腾腾的小蜗牛 python 数据分析机器学习近红外光谱遥感 gpt
详情点击链接：GPT4+Python近红外光谱数据分析及机器学习与深度学习建模第一：GPT4入门基础1、ChatGPT概述（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT对话初体验（注册与充值、购买方法）3、GPT-4与GPT-3.5的区别，以及与国内大语言模型（文心一言、星火等）的区别4、ChatGPT科研必备插件（DataInterpreter、W
深度学习如何弄懂那些难懂的数学公式？是否需要学习数学？搬砖班班长深度学习人工智能学习经验分享
经过1~2年的学习，我觉得还是需要数学有一定认识，重新捡起高等数学、概率与数理、线代等这几本，起码基本微分方程、求导、对数、最小损失等等还是会用到。下面给出几个链接，可以用于平时充电学习。知乎上的：机器学习与深度学习中的数学知识点汇总-SIGAI的文章-知乎https://zhuanlan.zhihu.com/p/81834108推荐书籍：1.高等数学/微积分2.线性代数与矩阵论3.概率论与信息论
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模夏日恋雨遥感人工智能 python 数据分析机器学习近红外光谱高光谱 chatgpt 人工智能
详情点击链接：GPT4+Python近红外光谱数据分析及机器学习与深度学习建模第一：GPT41、ChatGPT（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT对话初体验3、GPT-4与GPT-3.5的区别，以及与国内大语言模型（文心一言、星火等）的区别4、ChatGPT科研必备插件（DataInterpreter、Wolfram、WebPilot、Mi
01 机器学习与深度学习幽径微澜深度学习 python pytorch 深度学习笔记
源自：《深度学习》（徐立芳/主编莫宏伟/副主编）1.11.2机器学习方法类型1.监督式学习每个训练数据集包含输入和正确输出。在分类问题中，就是通过学习带有分类标签的样本，使用模型对未知的样本进行正确分类的过程。常见算法有逻辑回归和反向传播神经网络。2.无监督式学习训练数据仅包含输入，没有正确输出。通过研究数据的特征和进行数据的处理、分析，获得一个结果。常见算法包括Apriori算法、k-Means
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

【Python机器学习及实践】进阶篇：模型实用技巧（特征提升）

Python机器学习及实践——进阶篇：模型实用技巧（特征提升）

1.特征抽取

2.特征筛选

你可能感兴趣的:(机器学习与深度学习)