Zzay_naw

Ex3_机器学习_吴恩达课程作业（Python）：多分类和神经网络（Multi-class Classification & Neural Networks）

文章目录

Ex3_机器学习_吴恩达课程作业（Python）：多分类和神经网络（Multi-class Classification & Neural Networks）
0. Pre-condition
00. Self-created Functions
- - - loadData(path)：读取.mat数据
    - loadWeight(path)：用于前置传播算法，读取神经网络各层的权重数据
    - plotOneImage(X, y)：读取并处理被压缩的灰度图像数据，可视化之
    - plot100Images(X)：读取并处理100条被压缩的灰度图像数据，可视化之
    - sigmoid(z)：激活函数
    - logisticRegCost(theta, X, y, l)：计算正规化逻辑回归的损失
    - logisticRegGradient(theta, X, y, l)：计算正规化逻辑回归的梯度
    - oneVsAll(X, y, l, K)：训练一对多分类的分类器，返回参数数组
    - predictOneVsAll(X, all_theta)：用训练得到的多分类器进行预测
1. Multi-class Classification
- 1.1 Dataset
- 1.2 Visualization
- 1.3 Vectorize Logistic Regression
- - 1.3.1 Cost function
  - 1.3.2 Gradient
- 1.4 One-vs-all Classification
2. Neural Networks
- 2.1 Model Representation
- 2.2 Feed Forward Propagation and Prediction

使用说明：

本文章为关于吴恩达老师在Coursera上的机器学习课程的学习笔记。

本文第一部分首先介绍课程对应周次的知识回顾以及重点笔记，以及代码实现的库引入。

本文第二部分包括代码实现部分中的自定义函数实现细节。

本文第三部分即为与课程练习题目相对应的具体代码实现。

0. Pre-condition

This section includes some introductions of libraries.

# This file includes self-created functions used in exercise 3
import numpy as np
import matplotlib.pyplot as plt
import scipy.optimize as opt
from scipy.io import loadmat

00. Self-created Functions

This section includes self-created functions.

loadData(path)：读取.mat数据

# Load data from the given file  读取数据
def loadData(path):
    df = loadmat(path)
    X = df['X']
    y = df['y']
    return X, y

loadWeight(path)：用于前置传播算法，读取神经网络各层的权重数据

# Load weight data from the given file  读取权重数据
def loadWeight(path):
    df = loadmat(path)
    return df['Theta1'], df['Theta2']

plotOneImage(X, y)：读取并处理被压缩的灰度图像数据，可视化之

# Randomly pick a training example and visualize it
# 随机选取一个训练样本，并且将其可视化
def plotOneImage(X, y):
    # Randomly pick a number ranging from 0 to the size of given training examples
    index = np.random.randint(0, X.shape[0])
    # Get the data of the random image  获取灰度图像数据
    image_data = X[index, :]
    # Reshape the vector into the gray image matrix  还原被压缩的图像数据向量为20x20数组
    image = image_data.reshape((20, 20))
    # Plot the figure  可视化
    fig, fig_image = plt.subplots(figsize=[4, 4])
    fig_image.matshow(image, cmap='gray_r')
    plt.xticks([])  # 去除图像上的刻度
    plt.yticks([])
    plt.title('Image: ' + format(y[index]))
    # print('This image should be ', format(y[index]))
    plt.show()

plot100Images(X)：读取并处理100条被压缩的灰度图像数据，可视化之

# Randomly pick 100 training examples and visualize them
# 随机选取100个训练样本，并且将其可视化
def plot100Images(X):
    # Randomly pick 100 numbers ranging from 0 to the size of given training examples
    indexes = np.random.choice(np.arange(X.shape[0]), 100)
    # Get the data of random images  获取灰度图像数据
    image_data = X[indexes, :]  # shape: (100, 400)
    # Plot the figure  可视化
    fig, fig_images = plt.subplots(figsize=[8, 8], nrows=10, ncols=10,
                                   sharex=True, sharey=True)
    for row in range(10):
        for col in range(10):
            # Reshape vectors into gray image matrices
            image = image_data[10 * row + col, :].reshape((20, 20))
            fig_images[row, col].matshow(image, cmap='gray_r')
    plt.xticks([])  # 去除图像上的刻度
    plt.yticks([])
    plt.show()

sigmoid(z)：激活函数

# Sigmoid function  激活函数
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

logisticRegCost(theta, X, y, l)：计算正规化逻辑回归的损失

# Cost function of regularized logistic regression (Vectorized)
# 向量化计算逻辑回归的损失函数
# Args: { theta: 训练参数; X: 训练集; y: 标签集; l: 正则化参数lambda }
def logisticRegCost(theta, X, y, l):
    # Remember not to penalize 'theta_0'
    theta_reg = theta[1:]
    # Compute (tips: both results are a number rather than vector or matrix)
    cost_origin = (-y * np.log(sigmoid(X @ theta))) - (1 - y) * np.log(1 - sigmoid(X @ theta))
    cost_reg = l * (theta_reg @ theta_reg) / (2 * len(X))
    return np.mean(cost_origin) + cost_reg

logisticRegGradient(theta, X, y, l)：计算正规化逻辑回归的梯度

# Gradient of regularized logistic regression (Vectorized)
# 向量化计算逻辑回归的梯度
# Args: { theta: 训练参数; X: 训练集; y: 标签集; l: 正则化参数lambda }
def logisticRegGradient(theta, X, y, l):
    # Remember not to penalize 'theta_0'
    theta_reg = theta[1:]
    # Compute (insert a column of all '0' to avoid penalize on the first column)
    gradient_origin = X.T @ (sigmoid(X @ theta) - y)
    gradient_reg = np.concatenate([np.array([0]), l * theta_reg])
    return (gradient_origin + gradient_reg) / len(X)

oneVsAll(X, y, l, K)：训练一对多分类的分类器，返回参数数组

# Train on ten classifiers and return final thetas for them
# 训练十个分类器，并且最终返回一个包含它们最优训练参数的二维数组
# Args: { X: 训练集; y: 标签集; l: 正则化参数lambda; K: 类别数目 }
def oneVsAll(X, y, l, K):
    all_theta = np.zeros((K, X.shape[1]))
    for i in range(1, K + 1):
        temp_theta = np.zeros(X.shape[1])
        # Record the true labels
        y_i = np.array([1 if label == i else 0 for label in y])
        # Train
        ret = opt.minimize(fun=logisticRegCost,
                           x0=temp_theta,
                           args=(X, y_i, l),
                           method='TNC',
                           jac=logisticRegGradient,
                           options={'disp': True})
        all_theta[i - 1, :] = ret['x']
    return all_theta

predictOneVsAll(X, all_theta)：用训练得到的多分类器进行预测

# Predict using the trained multi-class classifiers
# 用多分类器进行预测，并且返回样本预测值
# Args: { X: 训练集; all_theta: 训练参数集 }
def predictOneVsAll(X, all_theta):   
    # Compute class probabilities for each class on every training example
    # 对于每个样本，计算它属于各个类别的可能性
    h = sigmoid(X @ all_theta.T)
    
    # Create an array of indexes with the maximum probability
    # Returns the indices of the maximum values along an axis
    # Since our array was zero-indexed, we need to add one for the true label prediction
    # 获取每一行数据（对每个样本的）的最大值，其对应的下标加一即为该样本最可能属于的类别的下标值
    # index_max数组包含对所有训练样本的预测值（所属类别），即此处为5000行
    # 由于数组操作时下标从零开始，此处我们需要为其加一
    index_max = np.argmax(h, axis=1) + 1
    
    return index_max

1. Multi-class Classification

For this exercise, you will use logistic regression and neural networks to recognize handwritten digits (from 0 to 9).

Automated handwritten digit recognition is widely used today - from recognizing zip codes (postal codes) on mail envelopes to recognizing amounts written on bank checks.

This exercise will show you how the methods you’ve learned can be used for this classifification task.

调用的相关函数在文章头部"Self-created functions"中详细描述。

我们将扩展我们在ex_2中写的logistic回归的实现，并将其应用于一对多的分类。

1.1 Dataset

首先，加载数据集。这里的数据为.mat的格式，所以要使用scipy.io的loadmat函数。

数据集中有5000个训练样本，每个样本是 $20 x 20$ 像素的数字的灰度图像。每个像素代表一个浮点数，表示该位置的灰度强度。 $20 \times 20$ 的像素网格被展开成一个 $400$ 维的向量。在我们的数据矩阵 $X$ 中，每一个样本都变成了一行，这给了我们一个 $5000 \times 400$ 矩阵 $X$ ，每一行都是一个手写数字图像的训练样本。
数据集的第二部分是一个 $5000$ 维的向量 $y$ ，它包含训练集的标签。

# 1. Multi-class classification 多分类问题

# 1.1 Dataset  数据集处理
path = '../data/ex3data1.mat'
raw_X, raw_y = func.loadData(path)
X = np.insert(raw_X, 0, 1, axis=1)
y = raw_y.flatten()
print(np.unique(raw_y))  # 查看标签种类 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

1.2 Visualization

这部分代码随机从数据集 $X$ 中选择 $100$ 行并传递这些行到displayData函数。该函数将每行数据映射为 $20 x 20$ 像素的灰度图像并且最终将图像集中显示。期望输出图像为如下：

# 1.2 Visualization  可视化
func.plotOneImage(raw_X, raw_y)
func.plot100Images(raw_X)

1.3 Vectorize Logistic Regression

此时，将使用多个one-vs-all logistic model来构建一个多分类器。因为有10个分类，需要训练10个独立的logistic regression classifiers。为了使训练更有效，需要确保您的代码是良好的向量化。第一个任务是将我们的逻辑回归实现修改为完全向量化（即没有for循环）。这是因为向量化代码除了简洁外，还能够利用线性代数优化，并且通常比迭代代码快得多。

# 1.3 Vectorize Logistic Regression  向量化逻辑回归
res_cost = func.logisticRegCost(all_theta, X, y, l=1)  # all_theta在之后的代码中定义
res_gradient = func.logisticRegGradient(all_theta, X, y, l=1)
print(res_cost)
print(res_gradient)

1.3.1 Cost function

正则化的logistic回归的代价函数是：

1.3.2 Gradient

正则化logistic回归代价函数的梯度下降法如下表示，因为不惩罚 $theta_0$ ，所以分为两种情况：

1.4 One-vs-all Classification

在本部分，将通过训练多个正则化逻辑回归分类器来实现“一对多分类”，每个类别对应数据集 $K$ 类中的一个。

对于这个任务，我们有10个可能的类，并且由于logistic回归只能一次在2个类之间进行分类，每个分类器在“属于类别 i”和“不属于类别i”之间决定。我们将把分类器训练包含在一个函数中，该函数计算10个分类器中的每个分类器的最终权重，并将权重返回shape为 $(k, (n + 1))$ 的数组，其中 $n$ 是参数数量。

# 1.4 One-vs-all Classification 一对多分类
all_theta = func.oneVsAll(X, y, l=1, K=10)
predictions = func.predictOneVsAll(X, all_theta)
accuracy = np.mean(predictions == y)
print('accuracy = ' + format(accuracy * 100) + '%')

这里的 $h$ 共 $5000$ 行， $10$ 列，每行代表一个样本，每列是预测对应数字的概率。我们取概率最大对应的下标加 $1$ 就是我们分类器最终预测出来的类别。此外，最终返回的 $h\_argmax$ 是一个数组，包含 $5000$ 个样本对应的预测值。

2. Neural Networks

This section includes some details of exploring “neural networks”.

调用的相关函数在文章头部"Self-created functions"中详细描述。

第一章节使用多类logistic回归，然而logistic回归不能形成更复杂的假设，因为它只是一个线性分类器。

接下来我们用neural network (神经网络)来尝试下，神经网络可以实现非常复杂的非线性模型。我们将利用已经训练好了的权重进行预测。

# 2. Neural Networks  神经网络
path = '../data/ex3weights.mat'
theta1, theta2 = func.loadWeight(path)
print(theta1.shape)
print(theta2.shape)

2.1 Model Representation

训练样本X从1开始逐渐增加，训练出不同的参数向量θ。接着通过交叉验证样本Xval计算验证误差。

使用训练集的子集来训练模型，得到不同的θ。
通过θ计算训练代价和交叉验证代价，切记此时不要使用正则化，将 $λ = 0$ 。
计算交叉验证代价时记得整个交叉验证集来计算，无需分为子集。

# 2.1 Model Representation  模型表示
X, y = func.loadData('ex3data1.mat')
X = np.insert(X, 0, values=np.ones(X.shape[0]), axis=1)
y = y.flatten()

2.2 Feed Forward Propagation and Prediction

# 2.2 Feedforward propagation and prediction  前向传播算法
# Every hidden layer should be inserted with a bias unit  记得插入偏置单元

# Input layer 输入层
a1 = X

# Hidden layer 隐藏层
z2 = a1 @ theta1.T
z2 = np.insert(z2, 0, 1, axis=1)
a2 = func.sigmoid(z2)

# Output layer 输出层
z3 = a2 @ theta2.T
a3 = func.sigmoid(z3)

# Make predictions 做出预测
y_predictions = np.argmax(a3, axis=1) + 1
accuracy = np.mean(y_predictions == y)
print('accuracy = ' + format(accuracy * 100) + '%')

python静态方法_Python静态方法 cunchi4221 python java 深度学习设计模式 javascript ViewUI
python静态方法Python静态方法(Pythonstaticmethod)Inthisquickpost,wewilllearnhowtocreateanduseaPythonstaticmethod.Wewillalsohavealookatwhatadvantagesanddisadvantagesstaticmethodsofferascomparedtotheinstancemeth
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
Python 静态方法和类方法 a540366413 Python python
静态方法我们知道在其他语言中静态方法一般使用static修饰，静态方法的主要特点是不需要new出对象，直接通过类名就可以访问，也可以通过对象访问。需要使用staticmethod装饰器装饰方法举例：classA:@staticmethoddefstaticfunc():print("A")A.staticfunc()#A类方法类方法和静态方法类似，也可以直接通过类名访问，不过要使用classmet
25年申报工商年报前先看这篇笔记，帮你避坑，少走弯路！搬砖小杨聊资质笔记
又到工商年报申报的时候了（25年截止日期6月30日）,今年年报申报与去年有点区别，我特意整理出来与大家分享，帮助大家避坑。笔记不长，5分钟时间让你事半功倍，你就是老板眼中最靓的仔！！1、今年国家企业信用信息公示系统做了个更新，未完成年报填写或有多家公司需要申报的，一定要点击退出登录，不要直接关闭网页。否则当你想要继续填写年报或申报其他公司的，需要等待系统【自动退出登录】，时间2-3个小时，会大大影
Python静态方法 Frank_Yee python
在Python中，静态方法是一种不会自动接收类（cls）或实例（self）作为第一个参数的方法。它可以通过类直接调用，而不需要类的实例。静态方法通常用于实现与当前类的对象状态无关的功能，或者提供一些通用的工具函数。一、使用场景1.工具函数：当方法不需要访问对象属性或类属性时，可以将其定义为静态方法。2.常量类：有时候，你可能需要一个类仅仅作为一个容器，用来存储常量。3.工厂方法：在某些情况下，你可
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
基于Matlab_simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解 985计算机硕士仿真模型 matlab 算法开发语言
Matlab/simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解：1.优化算法相关：蚁群优化算法，遗传优化算法等2.控制器相关：ADRC控制，鲁棒控制，神经网络控制，MPC等3.神经网络相关：BP神经网络，RBF神经网络，LSTM神经网络等文章目录1.优化算法相关蚁群优化算法（ACO）2.控制器相关ADRC控制3.神经网络相关BP神经网络1.构建光伏系统模型1.1光伏电池模型1.2控
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
《Operating System Concepts》阅读笔记：p449-p459 操作系统
《OperatingSystemConcepts》学习第35天，p449-p459总结，总计11页。一、技术总结1.NVM&SSDFlash-memory-basedNVMisfrequentlyusedinadisk-drive-likecontainer,inwhichcaseitiscalledasolid-statedisk(SSD)(Figure11.3)。2.HDDScheduling
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Ex3_机器学习_吴恩达课程作业（Python）：多分类和神经网络（Multi-class Classification & Neural Networks）

Ex3_机器学习_吴恩达课程作业（Python）：多分类和神经网络（Multi-class Classification & Neural Networks）

文章目录

0. Pre-condition

00. Self-created Functions

loadData(path)：读取.mat数据

loadWeight(path)：用于前置传播算法，读取神经网络各层的权重数据

plotOneImage(X, y)：读取并处理被压缩的灰度图像数据，可视化之

plot100Images(X)：读取并处理100条被压缩的灰度图像数据，可视化之

sigmoid(z)：激活函数

logisticRegCost(theta, X, y, l)：计算正规化逻辑回归的损失

logisticRegGradient(theta, X, y, l)：计算正规化逻辑回归的梯度

oneVsAll(X, y, l, K)：训练一对多分类的分类器，返回参数数组

predictOneVsAll(X, all_theta)：用训练得到的多分类器进行预测

1. Multi-class Classification

1.1 Dataset

1.2 Visualization

1.3 Vectorize Logistic Regression

1.3.1 Cost function

1.3.2 Gradient

1.4 One-vs-all Classification

2. Neural Networks

2.1 Model Representation

2.2 Feed Forward Propagation and Prediction

你可能感兴趣的:(数据分析,笔记,机器学习,python,神经网络,机器学习)