栗子NZ

人工智能与机器学习——分类器 Jupyter编程完成对手写体Mnist数据集中10个字符（0-9）的分类识别

一、“模型评估与旋转”名词定义

1. “查准率”
2. “查全率”
3. “F1-Score”
4. “ROC”
5. “混淆矩阵”

二、Jupyter编程完成对手写体Mnist数据集中10个字符（0-9）的分类识别

1. 使用sklearn的函数来获取MNIST数据集
2. 对数据集进行排序
3. 查看MNIST数据集的特征
4. 展示单张图片
5. 展示10x10的图片
6. 分类算法
7. 训练一个二分类器
8. 使用交叉验证测量精度
9. 混淆矩阵
10. 精度和召回率
11. 精度/召回率权衡
12. ROC曲线
13. 训练一个随机森林分类器，并计算ROC和ROC AUC分数

一、“模型评估与旋转”名词定义

1. “查准率”

查准率是指检出的相关文献量与检出文献总量的比率，是衡量信息检索系统检出文献准确度的尺度。这一指标最初是1956年由J.W.佩里、A.肯特等人提出的。查准率标志某一检索系统运行过程中拒绝无关文献、选出有关文献的能力，同时也是用户从检出文献中进一步筛选出相关文献所需时间的一种间接测度。

2. “查全率”

查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标，即检出的相关文献与全部相关文献的百分比。它的数值等于 w/x，式中 w为用户鉴别检出的 m篇文献时，认为实际对口径的文献篇数，x 为特定检索系统中所包括的全部 n篇文献中实际与某一课题相关的文献篇数。这一指标最初是由J.W.佩里与A.肯特等人于1956年提出的。

3. “F1-Score”

F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0。

4. “ROC”

在信号检测理论中，接收者操作特征曲线（receiver operating characteristic curve，或者叫ROC曲线）是一种坐标图式的分析工具，用于 (1) 选择最佳的信号侦测模型、舍弃次佳的模型。 (2) 在同一模型中设定最佳阈值。
在做决策时，ROC分析能不受成本／效益的影响，给出客观中立的建议。

5. “混淆矩阵”

在人工智能中，混淆矩阵（confusionmatrix）是可视化工具，特别用于监督学习，在无监督学习一般叫做匹配矩阵。
在图像精度评价中，主要用于比较分类结果和实际测得值，可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类像比较计算的。混淆矩阵的每一列代表了实际测得信息，每一列中的数值等于实际测得像元在分类图象中对应于相应类别的数量；混淆矩阵的每一行代表了遥感数据的分类信息，每一行中的数值等于遥感分类像元在实测像元相应类别中的数量。

二、Jupyter编程完成对手写体Mnist数据集中10个字符（0-9）的分类识别

1. 使用sklearn的函数来获取MNIST数据集

# 使用sklearn的函数来获取MNIST数据集
from sklearn.datasets import fetch_openml
import numpy as np
import os
# to make this notebook's output stable across runs
np.random.seed(42)
# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)
# 为了显示中文
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
# 耗时巨大
def sort_by_target(mnist):
    reorder_train=np.array(sorted([(target,i) for i, target in enumerate(mnist.target[:60000])]))[:,1]
    reorder_test=np.array(sorted([(target,i) for i, target in enumerate(mnist.target[60000:])]))[:,1]
    mnist.data[:60000]=mnist.data[reorder_train]
    mnist.target[:60000]=mnist.target[reorder_train]
    mnist.data[60000:]=mnist.data[reorder_test+60000]
    mnist.target[60000:]=mnist.target[reorder_test+60000]
    
mnist=fetch_openml('mnist_784',version=1,cache=True) #获取数据
mnist.target=mnist.target.astype(np.int8)
sort_by_target(mnist)

加定时器，查看运行时间

import time
y1 = time.time()
mnist=fetch_openml('mnist_784',version=1,cache=True)
mnist.target=mnist.target.astype(np.int8)
sort_by_target(mnist)
y2 = time.time()
display(y2-y1)

运行时间

2. 对数据集进行排序

mnist["data"], mnist["target"]

运行结果

3. 查看MNIST数据集的特征

mnist.data.shape

运行结果

X,y=mnist["data"],mnist["target"]
X.shape

运行结果

y.shape

28*28

运行结果

4. 展示单张图片

def plot_digit(data):
    image = data.reshape(28, 28)
    plt.imshow(image, cmap = mpl.cm.binary,
               interpolation="nearest")
    plt.axis("off")
some_digit = X[36000]
plot_digit(X[36000].reshape(28,28))

运行结果

展示的数字

y[36000]

5. 展示10x10的图片

def plot_digits(instances,images_per_row=10,**options):
    size=28
    # 每一行有一个
    image_pre_row=min(len(instances),images_per_row)
    images=[instances.reshape(size,size) for instances in instances]
#     有几行
    n_rows=(len(instances)-1) // image_pre_row+1
    row_images=[]
    n_empty=n_rows*image_pre_row-len(instances)
    images.append(np.zeros((size,size*n_empty)))
    for row in range(n_rows):
        # 每一次添加一行
        rimages=images[row*image_pre_row:(row+1)*image_pre_row]
        # 对添加的每一行的额图片左右连接
        row_images.append(np.concatenate(rimages,axis=1))
    # 对添加的每一列图片 上下连接
    image=np.concatenate(row_images,axis=0)
    plt.imshow(image,cmap=mpl.cm.binary,**options)
    plt.axis("off")

plt.figure(figsize=(9,9))
example_images=np.r_[X[:12000:600],X[13000:30600:600],X[30600:60000:590]]
plot_digits(example_images,images_per_row=10)
plt.show()

运行结果

6. 分类算法

创建一个测试集

X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

对训练集进行洗牌

import numpy as np

shuffer_index=np.random.permutation(60000)
X_train,y_train=X_train[shuffer_index],y_train[shuffer_index]

7. 训练一个二分类器

尝试识别一个数字，比如数字5，那么这个"数字5检测器",就是一个二分类器的例子，它只能区分两个类别：5和非5。
先为此分类任务创建目录标量

y_train_5=(y_train==5)
y_test_5=(y_test==5)

挑选一个分类器并开始训练。一个好的选择是随机梯度下降(SGD)分类器，使用sklearn的SGDClassifier类即可。
这个分类器的优势是：能够有效处理非常大型的数据集。这部分是因为SGD独立处理训练实例，一次一个(这也使得SGD非常适合在线学习任务)。

from sklearn.linear_model import SGDClassifier

sgd_clf=SGDClassifier(max_iter=5,tol=-np.infty,random_state=42)
sgd_clf.fit(X_train,y_train_5)

运行结果

sgd_clf.predict([some_digit])

8. 使用交叉验证测量精度

随机交叉验证和分层交叉验证效果对
三折交叉验证

from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")

运行结果

分3层交叉验证

# 类似于分层采样，每一折的分布类似
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

skfolds = StratifiedKFold(n_splits=3, random_state=42)

for train_index, test_index in skfolds.split(X_train, y_train_5):
    clone_clf = clone(sgd_clf)
    X_train_folds = X_train[train_index]
    y_train_folds = (y_train_5[train_index])
    X_test_fold = X_train[test_index]
    y_test_fold = (y_train_5[test_index])

    clone_clf.fit(X_train_folds, y_train_folds)
    y_pred = clone_clf.predict(X_test_fold)
    n_correct = sum(y_pred == y_test_fold)
    print(n_correct / len(y_pred))

运行结果

我们可以看到两种交叉验证的准确率都达到了95%上下，看起来很神奇，不过在开始激动之前，让我们来看一个蠢笨的分类器，将所有图片都预测为‘非5’

from sklearn.base import BaseEstimator
# 随机预测模型
class Never5Classifier(BaseEstimator):
    def fit(self, X, y=None):
        pass
    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool)
never_5_clf = Never5Classifier()
cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring="accuracy")

运行结果

我们可以看到，准确率也超过了90%！这是因为我们只有大约10%的图像是数字5，所以只要猜一张图片不是5,那么有90%的时间都是正确的，简直超过了大预言家。
这说明，准确率通常无法成为分类器的首要性能指标，特别是当我们处理偏斜数据集的时候(也就是某些类别比其他类更加频繁的时候)

9. 混淆矩阵

评估分类器性能的更好的方法是混淆矩阵。总体思路就是统计A类别实例被分成B类别的次数。例如，要想知道分类器将数字3和数字5混淆多少次，只需要通过混淆矩阵的第5行第3列来查看。

要计算混淆矩阵，需要一组预测才能将其与实际目标进行比较。当然可以通过测试集来进行预测，但是现在我们不动它(测试集最好保留到项目的最后,准备启动分类器时再使用)。做为代替，可以使用cross_val_predict()函数:
cross_val_predict 和 cross_val_score 不同的是，前者返回预测值，并且是每一次训练的时候，用模型没有见过的数据来预测

from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

from sklearn.metrics import confusion_matrix

confusion_matrix(y_train_5, y_train_pred)

运行结果

上面的结果表明：第一行所有’非5’(负类)的图片中,有53417被正确分类(真负类)，1162，错误分类成了5(假负类)；第二行表示所有’5’（正类）的图片中，有1350错误分类成了非5(假正类)，有4071被正确分类成5(真正类).
一个完美的分类器只有真正类和真负类，所以其混淆矩阵只会在其对角线(左上到右下)上有非零值

y_train_perfect_predictions = y_train_5

confusion_matrix(y_train_5, y_train_perfect_predictions)

运行结果

10. 精度和召回率

混淆矩阵能提供大量信息，但有时我们可能会希望指标简洁一些。正类预测的准确率是一个有意思的指标,它也称为分类器的精度(如下)。
(精度)= /（+）
其中TP是真正类的数量，FP是假正类的数量。做一个简单的正类预测，并保证它是正确的，就可以得到完美的精度(精度=1/1=100%)
这并没有什么意义，因为分类器会忽略这个正实例之外的所有内容。因此，精度通常会与另一个指标一起使用，这就是召回率，又称为灵敏度或者真正类率(TPR)：它是分类器正确检测到正类实例的比率(如下):
(召回率)= / （+）
FN是假负类的数量

# 使用sklearn的工具度量精度和召回率
from sklearn.metrics import precision_score, recall_score

precision_score(y_train_5, y_train_pred)

运行结果

recall_score(y_train_5, y_train_pred)

运行结果

我们可以看到，这个5-检测器，并不是那么好用，大多时候，它说一张图片为5时，只有77%的概率是准确的，并且也只有75%的5被检测出来了
下面，我们可以将精度和召回率组合成单一的指标，称为F1分数。

要计算F1分数，只需要调用f1_score()即可

from sklearn.metrics import f1_score
f1_score(y_train_5, y_train_pred)

运行结果

F1分数对那些具有相近的精度和召回率的分类器更为有利。这不一定一直符合预期，因为在某些情况下，我们更关心精度，而另一些情况下，我们可能真正关系的是召回率。

例如：假设训练一个分类器来检测儿童可以放心观看的视频，那么我们可能更青睐那种拦截了好多好视频(低召回率),但是保留下来的视频都是安全(高精度)的分类器，而不是召回率虽高，但是在产品中可能会出现一些非常糟糕的视频分类器(这种情况下，你甚至可能会添加一个人工流水线来检查分类器选出来的视频)。

反过来说，如果你训练一个分类器通过图像监控来检测小偷:你大概可以接受精度只有30%，只要召回率能达到99%。(当然，安保人员会接收到一些错误的警报，但是几乎所有的窃贼都在劫难逃)

遗憾的是，鱼和熊掌不可兼得：我们不能同时增加精度并减少召回率，反之亦然，这称为精度/召回率权衡

11. 精度/召回率权衡

在分类中，对于每个实例，都会计算出一个分值，同时也有一个阈值，大于为正例，小于为负例。通过调节这个阈值，可以调整精度和召回率。

y_scores = sgd_clf.decision_function([some_digit])
y_scores

运行结果

threshold = 0
y_some_digit_pred = (y_scores > threshold)
y_some_digit_pred

运行结果

threshold = 200000
y_some_digit_pred = (y_scores > threshold)
y_some_digit_pred

运行结果

# 返回决策分数，而不是预测结果
y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3,
                             method="decision_function")
y_scores.shape

运行结果

from sklearn.metrics import precision_recall_curve

precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2)
    plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
    plt.xlabel("Threshold", fontsize=16)
    plt.title("精度和召回率VS决策阈值", fontsize=16)
    plt.legend(loc="upper left", fontsize=16)
    plt.ylim([0, 1])

plt.figure(figsize=(8, 4))
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
plt.xlim([-700000, 700000])
plt.show()

运行结果

可以看见，随着阈值提高，召回率下降了，也就是说，有真例被判负了，精度上升，也就是说，有部分原本被误判的负例，被丢出去了。

你可以会好奇，为什么精度曲线会比召回率曲线要崎岖一些，原因在于，随着阈值提高，精度也有可能会下降 4/5 => 3/4(虽然总体上升)。另一方面，阈值上升，召回率只会下降。

现在就可以轻松通过选择阈值来实现最佳的精度/召回率权衡了。还有一种找到最好的精度/召回率权衡的方法是直接绘制精度和召回率的函数图。

def plot_precision_vs_recall(precisions, recalls):
    plt.plot(recalls, precisions, "b-", linewidth=2)
    plt.xlabel("Recall", fontsize=16)
    plt.title("精度VS召回率", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])

plt.figure(figsize=(8, 6))
plot_precision_vs_recall(precisions, recalls)
plt.show()

运行结果

可以看见，从80%的召回率往右，精度开始急剧下降。我们可能会尽量在这个陡降之前选择一个精度/召回率权衡–比如召回率60%以上。当然，如何选择取决于你的项目。

假设我们决定瞄准90%的精度目标。通过绘制的第一张图(放大一点)，得出需要使用的阈值大概是70000.要进行预测(现在是在训练集上),除了调用分类器的predict方法，也可以使用这段代码：

y_train_pred_90 = (y_scores > 70000)
precision_score(y_train_5, y_train_pred_90)

运行结果

recall_score(y_train_5, y_train_pred_90)

运行结果

现在我们就有了一个精度接近90%的分类器了，如果有人说，“我们需要99%的精度。”，那么我就要问：“召回率是多少？”

12. ROC曲线

还有一种经常与二元分类器一起使用的工具，叫做受试者工作特征曲线(简称ROC)。它与精度/召回率曲线非常相似，但绘制的不是精度和召回率，而是真正类率(召回率的另一种称呼)和假正类率(FPR)。FPR是被错误分为正类的负类实例比率。它等于1-真负类率(TNR)，后者正是被正确分类为负类的负类实例比率，也称为奇异度。因此ROC曲线绘制的是灵敏度和(1-奇异度)的关系

~	1	0
1	TP	FN
0	FP	TN

# 使用 roc_curve()函数计算多种阈值的TPR和FPR
from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)
def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.axis([0, 1, 0, 1])
    plt.xlabel('False Positive Rate', fontsize=16)
    plt.ylabel('True Positive Rate', fontsize=16)

plt.figure(figsize=(8, 6))
plot_roc_curve(fpr, tpr)
plt.show()

运行结果

这里同样面对一个折中权衡:召回率(TPR)很高,分类器产生的假正类(FPR)就越多。虚线表示纯随机的ROC曲线；一个优秀的分类器(向左上角)。
有一种比较分类器的方式是测量曲线下面积(AUC)。完美的ROC AUC等于1，纯随机分类的ROC AUC等于0.5

from sklearn.metrics import roc_auc_score

roc_auc_score(y_train_5, y_scores)

运行结果

ROC曲线和精度/召回率(或PR)曲线非常相似，因此，你可能会问，如何决定使用哪种曲线。

一个经验法则是，当正类非常少见或者你更关注假正类而不是假负类时，应该选择PR曲线，反之选择ROC曲线。

例如，看前面的ROC曲线图时，以及ROC AUC分数时，你可能会觉得分类器真不错。但这主要是应为跟负类(非5)相比，正类(数字5)的数量真的很少。相比之下，PR曲线清楚地说明分类器还有改进的空间(曲线还可以更接近右上角)

13. 训练一个随机森林分类器，并计算ROC和ROC AUC分数

# 具体RF的原理，第七章介绍
from sklearn.ensemble import RandomForestClassifier
forest_clf = RandomForestClassifier(n_estimators=10, random_state=42)
y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3,
                                    method="predict_proba")
y_scores_forest = y_probas_forest[:, 1] # score = proba of positive class
fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5,y_scores_forest)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, "b:", linewidth=2, label="SGD")
plot_roc_curve(fpr_forest, tpr_forest, "Random Forest")
plt.title("SGD和RL的ROC曲线对比")
plt.legend(loc="lower right", fontsize=16)
plt.show()

运行结果

roc_auc_score(y_train_5, y_scores_forest)

运行结果

测量精度和召回率

y_train_pred_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3)
precision_score(y_train_5, y_train_pred_forest)

运行结果

recall_score(y_train_5, y_train_pred_forest)

运行结果

iOS 18 系统功能解析目录蓝鲸忘了海 IOS 1-18系统功能解析 ios cocoa macos
iOS18系统功能解析目录iOS18系统功能解析引言第一部分：iOS18系统架构全解析1.1全新系统设计理念1.2核心架构与硬件协同1.3安全架构与隐私保护1.4跨平台生态协同第二部分：用户界面与交互体验的革新2.1全新视觉设计2.2自定义UI与多任务切换2.3通知中心与交互体验2.4动态交互动画与手势识别第三部分：人工智能与机器学习的深度整合3.1新一代智能助手3.2CoreML与机器学习框架进
阿里云人工智能与机器学习 HaoHao_010 阿里云云服务器云计算服务器
阿里云的人工智能（AI）与机器学习（ML）服务为企业提供了全面的AI解决方案，帮助用户在多个行业实现数据智能化，提升决策效率，推动业务创新。阿里云通过先进的技术和丰富的工具，支持用户开发、部署和管理AI应用。以下是阿里云在人工智能和机器学习方面的主要产品与服务：1.云上机器学习平台—PaaS服务PAI(PlatformforAI)PAI是阿里云推出的人工智能平台，提供一系列机器学习与深度学习工具和
数据安全_笔记系列09_人工智能（AI）与机器学习（ML）在数据安全中的深度应用宁宁可可数据安全数据安全
数据安全_笔记系列09_人工智能（AI）与机器学习（ML）在数据安全中的深度应用人工智能与机器学习技术通过自动化、智能化的数据分析，显著提升了数据分类、威胁检测的精度与效率，尤其在处理非结构化数据、复杂威胁场景和降低误报/漏报率方面表现突出。以下从技术原理、应用场景、实施流程、工具与案例展开解析：一、AI/ML如何提升数据安全能力？1.核心价值复杂数据识别：解析非结构化数据（文本、图像、音视频）中
Python常见库的使用浪子西科 Python python 开发语言
文章目录人工智能与机器学习1.NumPy2.Pandas3.Scikit-learn4.TensorFlow5.PyTorch数据可视化1.Matplotlib2.Seaborn网络请求与爬虫1.Requests2.Scrapy自动化测试1.unittest2.pytest自然语言处理1.NLTK2.SpaCy数据库操作1.SQLite32.SQLAlchemy日期和时间处理1.datetime2
《人工智能之高维数据降维算法：PCA与LDA深度剖析》机器学习人工智能
在人工智能与机器学习蓬勃发展的当下，数据处理成为关键环节。高维数据在带来丰富信息的同时，也引入了计算复杂度高、过拟合风险增大以及数据稀疏性等难题。降维算法应运而生，它能将高维数据映射到低维空间，在减少维度的同时最大程度保留关键信息。主成分分析（PCA）与线性判别分析（LDA）作为两种常用的降维算法，在人工智能领域应用广泛。本文将深入探讨它们的原理。PCA：无监督的降维利器核心思想PCA基于最大方差
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
人工智能与机器学习入门：决策树应用决策树机器学习入门
在人工智能与机器学习入门：使用Kaggle完成Titanic推断学习一文中，给出了使用Kaggle进行机器学习入门的方法，本文基于上文的需求。尝试使用决策树模型来训练数据，并进行test数据集的测试。什么是决策树决策树，简单来讲可以认为是一个大的ifelse判断树，有了决策树后，测试集中的数据便可以使用该决策树进行判断了。比如根据Titanic的训练数据构造了上次决策树后，便可以根据测试数据的性别
2024年技术总结与2025年最有潜力的技术发展方向 Allen-Steven python相关应用深度学习
2024年是技术领域高速发展的一年。从人工智能到量子计算，从物联网到区块链，各项技术都取得了显著突破。本文将回顾2024年的关键技术成果，并展望2025年的技术发展趋势，附加一些具有代表性的开源项目例子，供大家参考。2024年技术总结1.人工智能与机器学习2024年，生成式人工智能（GenerativeAI）技术继续扩展应用范围。从文本生成到图像、音频、视频生成，这些技术被广泛应用于教育、娱乐、医
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
人工智能与机器学习原理精解【18】叶绿先锋基础数学与应用数学人工智能机器学习
文章目录决策树基础决策树的定义决策树的计算决策树的例子决策树的例题决策树算法一、决策树的算法过程二、决策树的性质Julia中实现框架使用`DecisionTree.jl`使用`MLJ.jl`Julia包的教程一、了解Julia包生态系统二、安装Julia包1.打开JuliaREPL2.使用Pkg包管理器三、使用Julia包四、查找和了解Julia包1.Julia官方文档2.JuliaHub3.Gi
人工智能与机器学习原理精解【1】叶绿先锋基础数学与应用数学神经网络人工智能深度学习
文章目录Rosenblatt感知器感知器基础收敛算法算法概述算法步骤关键点说明总结C++实现要点代码参考文献Rosenblatt感知器感知器基础感知器，也可翻译为感知机，是一种人工神经网络。它可以被视为一种最简单形式的前馈式人工神经网络，是一种二元线性分类器。Rosenblatt感知器建立在一个非线性神经元上，但是它只能完成线性分类硬限幅与超平面局部诱导域v=∑i=1mwixi+b从上面公式看来，
人工智能与机器学习原理精解【16】叶绿先锋基础数学与应用数学人工智能机器学习
文章目录因果推理概率空间模型一、定义二、性质三、构建步骤四、示例五、应用联合分布概述联合分布函数和概率密度函数之间的主要关系离散型联合分布连续型联合分布联合分布函数一、定义二、性质三、计算四、例子五、例题Reichenbach的共同原因原则定义与背景主要内容数学原理概述应用与推断应用领域注意事项Reichenbach共同原因原则（赖兴巴赫共同原因原理）的实例1.自然科学领域实例一：地震与海啸的相关
人工智能与机器学习原理精解【17】叶绿先锋基础数学与应用数学人工智能机器学习概率论
文章目录贝叶斯贝叶斯定理的公式推导一、条件概率的定义二、联合概率的分解三、贝叶斯定理的推导四、全概率公式的应用五、总结全概率公式推导一、全概率公式的定义二、全概率公式的推导三、全概率公式的应用贝叶斯定理的原理一、基本原理二、核心概念三、数学表达式四、原理应用五、原理特点朴素贝叶斯定理一、贝叶斯定理基础二、朴素贝叶斯的原理三、朴素贝叶斯的特点朴素贝叶斯公式一、贝叶斯定理二、特征独立性假设三、朴素贝叶
未来行业走向：探索变革与机遇安西宁
引言随着科技的迅猛发展和社会的不断变迁，未来的行业走向将会面临新的挑战和机遇。本文将对未来行业的几个关键领域进行分析，并探讨相关变革所带来的影响和可能的机遇。一、人工智能与机器学习人工智能（AI）和机器学习（ML）将成为未来行业发展的关键驱动力。AI技术的广泛应用将改变许多行业的工作方式和商业模式。例如，在医疗领域，AI可以帮助医生进行更准确的诊断和治疗方案选择；在交通领域，自动驾驶技术的发展将彻
政安晨：【完全零基础】认知人工智能（一）【超级简单】的【机器学习神经网络】 —— 预测机政安晨政安晨的机器学习笔记政安晨的人工智能笔记人工智能神经网络深度学习机器学习原理超级简单零基础
开个头很多小伙伴们很想亲近人工智能与机器学习领域，然而这个领域里的核心理论、算法、工具给人感觉都太过“高冷”，让很多小伙伴们望而却步，导致一直无法入门。如何捅破这层窗户纸？让高冷的不再高冷，让神秘的不再神秘！不要怕它，伙计们，咱们以这个小系列文章零基础入门。（这个系列的文章仅需要您稍微听说过一点点编程语言即可，比如Python）如果是对IT这个产业了解不深的小伙伴，可以先快速浏览一下我的这两篇文章
探索嵌入式系统的未来发展趋势迷璃学妹人工智能
嵌入式系统是一种专门设计用于特定应用领域的计算机系统，它通常被嵌入到更大的设备中，以执行特定的任务。随着科技的不断发展，嵌入式系统的未来发展趋势将受到多方面的影响，包括技术进步、市场需求和应用场景的拓展等。以下将从多个角度对嵌入式系统未来的发展趋势进行分点论述。1.人工智能与机器学习的融合随着人工智能和机器学习技术的快速发展，嵌入式系统将更多地融合这些先进技术。未来的嵌入式系统将具备更强大的智能和
大数据思考：面对海量数据时，选择哪种模式才是更适合自己的？ Akamai中国云计算大数据云计算 Akamai Linode 数据仓库
如果您从事科技行业或者您不在这个行业，也许您已经听说过很多关于AI的信息。我所说的不仅仅是多年来我们都喜欢的科幻小说中“天网正在接管地球”式的人工智能，而是人工智能和机器学习已经逐渐成为我们日常生活中的实际应用.大数据是人工智能与机器学习的生命线和支柱。庞大的数据，或者说海量数据，一直驱动着当今的人工智能与机器学习的发展。虽然我们总是希望数据量越大越好，但近年来组织已经开始从追求大数据转向选择小而
ChatGPT学习大纲冷暖从容 ChatGPT chatgpt 学习人工智能
引言在2023年2月份左右开始使用ChatGPT时，就被它强大的理解能力和应答效果所折服，这期间一直在断断续续的学习和使用，也没形成一个完整的学习过程，最近刚好有空，就寻思着好好再学习总结一下，故写出了ChatGPT学习系列的文章，供与大家学习交流。第1周-ChatGPT基础知识ChatGPT简介了解ChatGPT的基本功能和应用场景。人工智能与机器学习基础学习AI和机器学习的基本概念，为理解
人工智能与机器学习——开启智能时代的里程碑洁洁！人工智能机器学习
写在前面前言人工智能与机器学习的概述监督学习、无监督学习和强化学习的基本原理监督学习：无监督学习：强化学习：机器学习的算法和方法常见的机器学习算法和方法线性回归：决策树：支持向量机：神经网络：人工智能与机器学习的应用领域人工智能与机器学习的未来发展结论：图书推荐主要内容作者简介推荐语前言人工智能是指使计算机系统表现出类似于人类智能的能力。其目标是实现机器具备感知、理解、学习、推理和决策等智能行为。
【网络安全|信息泄露】谷歌容器云曝“严重风险”：上千 Kubernetes 集群可能暴露，涉某上市公司网安老伯 web安全 kubernetes 安全网络安全 xss 开发语言 googlecloud
有消息称：谷歌刚刚修复了一个影响重要云服务的漏洞。此前研究人员发现，多家组织（包括一家上市公司）的系统容易受到该漏洞影响。该问题影响了谷歌Kubernetes引擎（GKE），这是一种用于部署、扩展和管理应用程序“容器化”的系统。GKE是谷歌针对Kubernetes开源项目的商用服务，广泛用于医疗保健、教育、零售和金融服务，以及数据处理和人工智能与机器学习操作。云安全厂商OrcaSecurity的研
人工智能与机器学习在工业质量检测中的融合发展 matlabgoodboy 人工智能机器学习
人工智能与机器学习在工业质量检测中的融合发展随着科技的进步，人工智能和机器学习已经成为引领工业质量检测变革的重要力量。它们在工业领域的应用，不仅提高了检测的准确性和效率，也为企业带来了前所未有的发展机遇。一、机器学习在工业质量检测中的优势机器学习技术可以通过训练模型，让机器自动识别和检测产品的缺陷和异常，大大提高了检测的效率和准确性。相比传统的人工检测方式，机器学习能够处理大量数据，快速准确地定位
2023年全球软件质量&效能大会（QECon深圳站）：核心内容与学习收获（附大会核心PPT下载）百家峰会软件质量效能 QECon 程序人生软件开发 QECon
随着科技的快速发展，软件行业面临着越来越多的挑战和机遇。为了更好地应对这些挑战，不断提升软件的质量和效能，大会将汇聚全球的软件开发者、架构师和项目经理，共同探讨和分享关于软件质量保证、测试、性能优化、用户体验设计、人工智能与机器学习、安全与隐私保护等方面的最佳实践和技术趋势。通过本次大会，深入了解行业动态和前沿技术，从中汲取灵感和知识。一、大会核心内容1、软件质量保证和测试：这一板块将重点关注软件
2023年全球软件开发大会（QCon北京站2023）9月：核心内容与学习收获（附大会核心PPT下载）百家峰会程序人生软件开发 QCon 软件开发大会 QCon 软件人生
随着科技的飞速发展，全球软件开发大会（QCon）作为行业领先的技术盛会，为世界各地的专业人士提供了交流与学习的平台。本次大会汇集了全球的软件开发者、架构师、项目经理等，共同探讨软件开发的最新趋势、技术与实践。本文将深入解析大会的核心内容，并探讨从中可以学到的东西。一、核心内容1、人工智能与机器学习在本次大会上，人工智能与机器学习成为核心议题之一。专家们深入探讨了如何运用机器学习技术优化软件开发流程
人机对话：程序设计，学哪种语言好？明月看潮生码农视角少年软件工程师少年工程师编程语言职业发展前景未来
人机对话：程序设计，学哪种语言好？程序设计，学哪种语言好？学习目的：职业发展：个人兴趣：go语言怎么样？优点：缺点：要开发手机APP，还需要学习哪些技术？编程语言：前端开发技术：后端开发技术：移动网络技术：本地存储与数据管理：性能优化：安全开发实践：测试技术：那是学的范围广一些好呢，还是专门钻研一种技术呢？就目前来说，哪种技术更好价值？人工智能与机器学习：前端Web全栈技术：移动开发：区块链技术：
基于Java的人工智能与机器学习初探 naer_chongya 人工智能 java 机器学习
随着人工智能和机器学习的快速发展，Java作为一种流行的编程语言，被广泛应用于许多AI和机器学习应用程序的开发中。本文将介绍Java在AI和机器学习开发中的基本概念和技术。Java在AI和机器学习中的应用Java可以广泛应用于人工智能和机器学习应用程序的开发中，包括数据预处理、特征选择、模型训练和评估等。Java还具备跨平台的能力，能够在各种操作系统上运行，这使得Java成为机器学习和AI领域的重
图像识别的技术前沿：人工智能与机器学习的融合 matlabgoodboy 人工智能机器学习
图像识别的技术前沿在于人工智能（AI）与机器学习（ML）的融合。这种融合使得图像识别系统能够从大量数据中自动学习并识别出各种模式，从而在复杂和动态的环境中实现更高的准确性和鲁棒性。机器学习在图像识别中发挥着越来越重要的作用。传统的图像识别方法通常依赖于手工制作的特征提取和特征匹配，而机器学习则通过训练神经网络自动学习图像中的特征，并做出准确的分类或识别。深度学习，特别是卷积神经网络（CNN），已经
搜索与人工智能码海串游人工智能
前言第一：通过博弈树搜索和启发式搜索的例子了解基于搜索的通用问题求解方法第二：了解人工智能发展的历程和社会影响第三：了解机器学习的基本思想和典型应用第四：了解人工智能应用开发的基本模式内容1.博弈树与剪纸、零和博弈，极大极小策略博弈树与搜索，α与β剪枝以及著名的计算机博弈的例子2.启发式搜索启发式函数，启发式搜索过程，3.人工智能与机器学习人工智能发展历程，专家系统，机器学习，神经网络与深度学习。
图像识别的技术前沿：人工智能与机器学习的融合 matlabgoodboy 人工智能机器学习
图像识别的技术前沿在于人工智能（AI）与机器学习（ML）的融合。这种融合使得图像识别系统能够从大量数据中自动学习并识别出各种模式，从而在复杂和动态的环境中实现更高的准确性和鲁棒性。机器学习在图像识别中发挥着越来越重要的作用。传统的图像识别方法通常依赖于手工制作的特征提取和特征匹配，而机器学习则通过训练神经网络自动学习图像中的特征，并做出准确的分类或识别。深度学习，特别是卷积神经网络（CNN），已经
斯坦福AI百年报告2017：人工智能与机器学习全景式概览智能交通技术人工智能游戏大数据机器学习深度学习
“AIIndex”（AI指数）近日重磅发布，这是斯坦福大学AI百年研究（AI100）的一个项目，旨在追踪人工智能的活动和进展。该报告列出了2017年人工智能在计算机视觉、自然语言理解等方向上的最新进展，分学术、产业多个角度盘点人工智能进度。报告还综合学术论文数量、招生数量和VC投资数量，得出AI发展活力指数，数据显示，最新一波AI浪潮在2015年活力最高，自那以后其实活力开始有小幅减弱。报告全文：
AI和人工智能与机器学习全景报告人工智能学派人工智能
今天分享的是AI系列深度研究报告：《AI和人工智能与机器学习全景报告》。（报告出品方：appen）报告共计：30页获取数据获取仍是AI应用构建团队的主要瓶颈。原因各不相同。例如，特定用例的数据可能不足，新的机器学习技术需要更多的数据，或者并未建立轻松高效获取所需数据的适当流程。受访者对AI生命周期数据管理的看法有着强烈的共识，即企业领导者了解AI生命周期数据管理的价值(90%同意)，AI生命周期数
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

人工智能与机器学习——分类器 Jupyter编程完成对手写体Mnist数据集中10个字符 （0-9）的分类识别