cyq136403

梯度下降求解逻辑回归

来自唐宇迪——机器学习视频课的笔记。
Logistic Regression 逻辑回归

首先先看一下理论部分：

梯度下降：
引入：当我们得到了一个目标函数后，如何进行求解？
直接求解？（并不一定可解，线性回归可以当作是一个特例）

常规套路：机器学习的套路就是交给机器一堆数据，然后告诉它什么样的学习方式是对的（目标函数），然后让它朝着这个方向去做。

如何优化：一步步地完成迭代。（每次优化一点点，积累起来就相当精确了，一般是10000次或者100000次。）
m为样本数。

小批量梯度下降法中的系数 $\alpha {1\over10}$ 就是批处理数量为10。
我们现在最常用的就是小批量梯度下降法。

学习率一般取0.01，不行就再小。
批处理数量根据内存，能多大就多大，越大结果越精确，目前一般是64。

下面开始正篇，代码部分：

数据为.txt文件：LogiReg_data.txt，大家可以从我的百度网盘直接下载：
链接：https://pan.baidu.com/s/1D5jS_DTGmU1t3ZrHR8tlvw
提取码：2222

首先是数据和模型描述：

我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员，你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据，你可以用它作为逻辑回归的训练集。对于每一个培训例子，你有两个考试的申请人的分数和录取决定。为了做到这一点，我们将建立一个分类模型，根据考试成绩估计入学概率。

先对数据进行初步分析：

#三大件
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import os
os.chdir(r'C:\Users\Administrator\Desktop\python数据分析与机器学习实战\自己的学习资料\数据文件') 
# path = 'data' + os.sep + 'LogiReg_data.txt'也可以用path方法读入
pdData = pd.read_csv('LogiReg_data.txt', header=None, names=['Exam 1', 'Exam 2', 'Admitted'])
pdData.head()

这边数据的第一行直接就是是样本，所以我们要先指定header为none值，然后再重命名列名，exam1是第一次考试成绩，exam2是第二次考试成绩，admitted是是否被录取。

pdData.shape

看一下数据的维度。
(100, 3)

positive = pdData[pdData['Admitted'] == 1] # returns the subset of rows such Admitted = 1, i.e. the set of *positive* examples
negative = pdData[pdData['Admitted'] == 0] # returns the subset of rows such Admitted = 0, i.e. the set of *negative* examples

fig, ax = plt.subplots(figsize=(10,5))
ax.scatter(positive['Exam 1'], positive['Exam 2'], s=30, c='b', marker='o', label='Admitted')
ax.scatter(negative['Exam 1'], negative['Exam 2'], s=30, c='r', marker='x', label='Not Admitted')
ax.legend()
ax.set_xlabel('Exam 1 Score')
ax.set_ylabel('Exam 2 Score')

指定正例为录取的，即admitted为1的样本，负例为未录取的，即admitted为0的样本。

接下来我们来实现算法：

The logistic regression

目标：建立分类器（求解出三个参数 ₀ ₁ ₂）

设定阈值，根据阈值判断录取结果。

如果设为0.5，则大于0.5被录取，小于0.5未被录取。

要完成的模块

sigmoid : 映射到概率的函数

model : 返回预测结果值

cost : 根据参数计算损失

gradient : 计算每个参数的梯度方向

descent : 进行参数更新

accuracy: 计算精度

先写sigmoid函数：

$Sigmoid函数的定义域与值域：g:R→[0,1]；g(0)=0.5；g(-\infty)=0；g(+\infty)=1$

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

nums = np.arange(-10, 10, step=1) #creates a vector containing 20 equally spaced values from -10 to 10
fig, ax = plt.subplots(figsize=(12,4))
ax.plot(nums, sigmoid(nums), 'r')

下面写预测函数，即model函数：

def model(X, theta):
    """ Returns our model result
    :param X: examples to classify, n x p
    :param theta: parameters, 1 x p
    :return: the sigmoid evaluated for each examples in X given parameters theta as a n x 1 vector
    """
    return sigmoid(np.dot(X, theta.T))

# 注意，这个只能运行一次，第二次就会报错，因为已经存在了，就报错
pdData.insert(0, 'Ones', 1) # in a try / except structure so as not to return an error if the block si executed several times 注意，这个只能运行一次，第二次就会报错，因为已经存在了，就报错

pdData

# set X (training data) and y (target variable)
# orig_data = pdData.as_matrix() # convert the Pandas representation of the data to an array useful for further computations，新版本中没有 as_matrix 
orig_data = pdData.values   # 新版本中用这个代替上面的 as_matrix
cols = orig_data.shape[1]
X = orig_data[:,0:cols-1]
y = orig_data[:,cols-1:cols]



# convert to numpy arrays and initalize the parameter array theta
#X = np.matrix(X.values)
#y = np.matrix(data.iloc[:,3:4].values) #np.array(y.vales)
theta = np.zeros([1, 3])

首先我们要添加都是1的一列，构造出 $1,x_1,x_2]^T$

然后再构造一个[θ₁,θ₂,θ₃]，但是我们现在不关心[θ₁,θ₂,θ₃]里面的值，所以用0占位。

X[:5]

X的前5行：
array([[ 1. , 34.62365962, 78.02469282],
[ 1. , 30.28671077, 43.89499752],
[ 1. , 35.84740877, 72.90219803],
[ 1. , 60.18259939, 86.3085521 ],
[ 1. , 79.03273605, 75.34437644]])

y[:5]

y的前5列：
array([[0.],
[0.],
[0.],
[1.],
[1.]])

theta

array([[0., 0., 0.]])

X.shape, y.shape, theta.shape

((100, 3), (100, 1), (1, 3))

下面写损失函数，即cost函数：

def cost(X, y, theta):
    left = np.multiply(-y, np.log(model(X, theta)))
    right = np.multiply(1 - y, np.log(1 - model(X, theta)))
    return np.sum(left - right) / (len(X))

cost(X, y, theta)

0.6931471805599453
先试一下能不能运行出来，这里损失值有些大，不过没有关系。

下面写梯度计算公式，即gradient函数：

def gradient(X, y, theta):
    grad = np.zeros(theta.shape)
    error = (model(X, theta)- y).ravel()
    for j in range(len(theta.ravel())): #for each parmeter
        term = np.multiply(error, X[:,j])
        grad[0, j] = np.sum(term) / len(X)
    
    return grad

这一步对梯度的求解是最难的部分，这个for循环需要好好体会。

Gradient descent

我们要比较3种不同梯度下降方法：批量/整体（整体梯度下降也叫直接梯度下降）、随机（SGD）、小批量（Mini-batch）在不同学习率，不同迭代次数下的结果。

首先，在这三种梯度下降方法下，我们还要指定一个停止策略，即迭代几次后停止。

我们有3种停止策略：

第一种停止策略：根据迭代次数进行停止。更新一次参数就是一次迭代，达到我们设定的指定迭代次数，我们就停止。

第二种停止策略：根据损失进行停止。迭代前和迭代后的损失目标函数如果没有太大变化，我们就停止。

第三种停止策略：根据梯度进行停止。迭代前和迭代后的梯度如果没有太大变化，我们就停止。

下面写停止策略函数，即stopCriterion函数：

STOP_ITER = 0
STOP_COST = 1
STOP_GRAD = 2

def stopCriterion(type, value, threshold):
    #设定三种不同的停止策略
    if type == STOP_ITER:        return value > threshold
    elif type == STOP_COST:      return abs(value[-1]-value[-2]) < threshold
    elif type == STOP_GRAD:      return np.linalg.norm(value) < threshold

为了使我们的模型泛化能力更强，所以我们首先要打乱数据：

import numpy.random
#洗牌
def shuffleData(data):
    np.random.shuffle(data)
    cols = data.shape[1]
    X = data[:, 0:cols-1]
    y = data[:, cols-1:]
    return X, y

不同梯度下降策略消耗的时间对结果的影响：

参数解释：

batchsize=1：随机梯度下降
batchsize=总样本数：直接梯度下降
1 < batchsize < 总样本数：mini-batch
stoptype：停止策略
thresh：策略对应的阈值
alpha：学习率

import time

def descent(data, theta, batchSize, stopType, thresh, alpha):
    #梯度下降求解
    #初始化
    init_time = time.time()
    i = 0 # 迭代次数
    k = 0 # batch
    X, y = shuffleData(data)
    grad = np.zeros(theta.shape) # 计算的梯度
    costs = [cost(X, y, theta)] # 损失值

    #计算cost损失值
    while True:
        grad = gradient(X[k:k+batchSize], y[k:k+batchSize], theta)
        k += batchSize #取batch数量个数据
        if k >= n: 
            k = 0 
            X, y = shuffleData(data) #重新洗牌
        theta = theta - alpha*grad # 参数更新
        costs.append(cost(X, y, theta)) # 计算新的损失
        i += 1 
		#选择不同的停止策略
        if stopType == STOP_ITER:       value = i
        elif stopType == STOP_COST:     value = costs
        elif stopType == STOP_GRAD:     value = grad
        #到了停止条件我们就跳出循环
        if stopCriterion(stopType, value, thresh): break
    
    return theta, i-1, costs, grad, time.time() - init_time

def runExpe(data, theta, batchSize, stopType, thresh, alpha):
    #import pdb; pdb.set_trace();
    #这一步是核心求解
    theta, iter, costs, grad, dur = descent(data, theta, batchSize, stopType, thresh, alpha)
    #下面是展示用的辅助函数
    #根据不同的梯度下降和停止策略选择策略的名字
    name = "Original" if (data[:,1]>2).sum() > 1 else "Scaled"
    name += " data - learning rate: {} - ".format(alpha)
    if batchSize==n: strDescType = "Gradient"
    elif batchSize==1:  strDescType = "Stochastic"
    else: strDescType = "Mini-batch ({})".format(batchSize)
    name += strDescType + " descent - Stop: "
    if stopType == STOP_ITER: strStop = "{} iterations".format(thresh)
    elif stopType == STOP_COST: strStop = "costs change < {}".format(thresh)
    else: strStop = "gradient norm < {}".format(thresh)
    name += strStop
    #显示在图上
    print ("***{}\nTheta: {} - Iter: {} - Last cost: {:03.2f} - Duration: {:03.2f}s".format(
        name, theta, iter, costs[-1], dur))
    fig, ax = plt.subplots(figsize=(12,4))
    ax.plot(np.arange(len(costs)), costs, 'r')
    ax.set_xlabel('Iterations')
    ax.set_ylabel('Cost')
    ax.set_title(name.upper() + ' - Error vs. Iteration')
    return theta

不同的停止策略：

1、设定迭代次数

#选择的梯度下降方法是基于所有样本的
n=100
runExpe(orig_data, theta, n, STOP_ITER, thresh=5000, alpha=0.000001)

2、根据损失值停止
$设定阈值 1^{-6}, 差不多需要110 000次迭代。$

runExpe(orig_data, theta, n, STOP_COST, thresh=0.000001, alpha=0.001)

3、根据梯度变化停止

设定阈值 0.05,差不多需要40 000次迭代。

runExpe(orig_data, theta, n, STOP_GRAD, thresh=0.05, alpha=0.001)

对比不同的梯度下降方法

Stochastic descent

只迭代一个样本：

runExpe(orig_data, theta, 1, STOP_ITER, thresh=5000, alpha=0.001)

有点爆炸…很不稳定（结果是不会收敛的），再来试试把学习率调小一些。

下面我们把迭代次数增多，学习率调小：

runExpe(orig_data, theta, 1, STOP_ITER, thresh=15000, alpha=0.000002)

速度快，但稳定性差（收敛结果还是不尽人意），需要很小的学习率。

Mini-batch descent

一次迭代拿16个样本：

runExpe(orig_data, theta, 16, STOP_ITER, thresh=15000, alpha=0.001)

浮动仍然比较大，我们来尝试下对数据进行标准化，将数据按其属性(按列进行)减去其均值，然后除以其方差。
最后得到的结果是，对每个属性/每列来说所有数据都聚集在0附近，方差值为1。

from sklearn import preprocessing as pp

scaled_data = orig_data.copy()
scaled_data[:, 1:3] = pp.scale(orig_data[:, 1:3])

runExpe(scaled_data, theta, n, STOP_ITER, thresh=5000, alpha=0.001)

原始数据，只能达到0.61，而我们这里得到了0.38，结果明显改善。
所以我们遇到浮动比较大的情形时，先对数据下手，对数据做预处理是非常重要的。
先改数据，不行再改模型，是我们的基本套路。

进一步改进：

runExpe(scaled_data, theta, n, STOP_GRAD, thresh=0.02, alpha=0.001)

更多的迭代次数会使得损失下降的更多。

theta = runExpe(scaled_data, theta, 1, STOP_GRAD, thresh=0.002/5, alpha=0.001)

随机梯度下降更快，但是我们需要迭代的次数也需要更多，所以还是用mini-batch比较合适。

使用预处理后的数据scaled_data，样本取16，在迭代次数比较少，学习率较小的情况下结果还是不错的：

runExpe(scaled_data, theta, 16, STOP_GRAD, thresh=0.002*2, alpha=0.001)

精度
把之前结果中的概率值转换成类别值（0或1）：

#设定阈值
def predict(X, theta):
    return [1 if x >= 0.5 else 0 for x in model(X, theta)]

预测对了几个？

scaled_X = scaled_data[:, :3]
y = scaled_data[:, 3]
predictions = predict(scaled_X, theta)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y)]
accuracy = (sum(map(int, correct)) % len(correct))
print ('accuracy = {0}%'.format(accuracy))

accuracy = 89%

python-jenkins api详解小测. jenkins python 运维
最近在将小程序自动化整合到平台，主要借助的是jenkins；本文主要讲解一下jenkins常用的api1获取jenkins链接importjenkinsbase_config={'url':'jenkins_url','username':'admin','password':'123456'}jenkins_server=jenkins.Jenkins(**self.base_config)2创
请问Python怎么安装vlfeat？ cda2024 python 开发语言
在当今数据驱动的时代，图像处理和计算机视觉成为了许多前沿应用的核心技术之一。作为一门强大的编程语言，Python在这些领域中扮演着极其重要的角色。而vlfeat是一个广泛使用的计算机视觉库，它提供了许多经典的计算机视觉算法实现，如SIFT、HOG等。本文将详细介绍如何在Python中安装和使用vlfeat，帮助你在项目中高效地集成这些强大的工具。什么是vlfeat？vlfeat是一个开源的计算机视
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
Python已正确安装Numpy但无法调用？——探索背后的奥秘 cda2024 python numpy 开发语言
在Python编程的世界里，Numpy作为一款重要的科学计算库，其高效的数据处理能力深受广大开发者喜爱。然而，有时候我们明明已经成功安装了Numpy库，却在尝试导入时遇到种种问题，例如常见的ModuleNotFoundError或ImportError错误信息。这不仅令人困惑，甚至会中断我们的开发进度。那么，问题究竟出在哪里呢？本文将深入探讨这一现象背后的原因，并提出有效的解决方案。一、理解Num
Python 获取管理员权限一台电脑可以让你哭吗 Python python 开发语言
方法一：使用ctypes库调用系统APIPython中的【ctypes】库允许我们调用操作系统的动态链接库函数，来获取管理员权限。importctypesimportsysdefis_admin():try:returnctypes.windll.shell32.IsUserAnAdmin()except:returnFalseifnotis_admin():ctypes.windll.shell
深度学习篇---Anaconda&LabelImg Ronin-Lotus 深度学习篇深度学习人工智能学习 python 程序人生机器学习计算机视觉
文章目录前言第一部分：Anaconda是什么？1.简介2.特点（1）包管理器Conda（2）环境管理（3）预装包（4）跨平台（5）社区支持3.安装WindowsLinux3.基本命令（1）conda--version（2）condaupdateconda（3）condacreate--namemyenvpython=3.6（4）condaactivatemyenv（5）condadeactivat
python 清华pip镜像源报HTTP error 403 weixin_41934979 python pip 开发语言
报错信息ERROR:HTTPerror403whilegettinghttps://mirrors.tuna.tsinghua.edu.cn/pypi/web/packages/52/79/a64937a2185b91a96cc5406e3ea58120980c725543d047e112fb3084a972/fake_useragent-2.0.0-py3-none-any.whl(fromht
Python如何声明以管理员方式运行？ cda2024 python 开发语言
Python作为一门高级编程语言，以其简洁优雅的语法和丰富的库支持，在数据科学、网络爬虫、自动化脚本等领域有着广泛的应用。但在实际开发过程中，有时会遇到需要获取较高权限才能完成的任务，比如访问某些系统文件夹或者执行一些系统级别的操作。这时，就需要我们让Python程序以管理员身份运行了。那么，Python是如何做到这一点的呢？本文将带您深入了解Python声明以管理员方式运行的方法，并通过实际案例
python mysql库的三个库mysqlclient mysql-connector-python pymysql如何选择，他们之间的区别 zhangfeng1133 数据库 python mysql
三者的区别1.mysqlclient特点：是一个用于Python的MySQL数据库驱动程序，用于与MySQL数据库进行交互。依赖于MySQL的本地库，因此在安装时需要确保系统上已安装了必要的依赖项，如libmysqlclient-dev等。性能较好，但安装过程可能较为复杂，尤其是在某些操作系统上。安装：直接使用pip安装可能会遇到各种问题，如缺少依赖项、编译失败等。可以尝试使用预编译的二进制文件（
C动态库的生成与在Python和QT中的调用方法琳琳简单点 python 开发语言 qt c++c语言
目录一、动态库生成1）C语言生成动态库2）c++类生成动态库二、动态库调用1）Python调用DLL2）QT调用DLL三、存在的一些问题1）python调用封装了类的DLL可能调用不成功2）DLL格式不匹配的问题四、总结动态库文件在程序开发中运用很常见，但C和C++代码生成动态库文件，以及在使用时均存在一些差异，本文对两者的差异进行了讲解，并通过具体的实例加以说明。实例均在Windows系统下进行
python链接hbase模块_Python连接Hbase weixin_40001395 python链接hbase模块
1、安装Hbase库pipinstallhappybase2、连接Hbase2.1、查看Hbase配置image.png2.2、使用happyhase连接hbaseimporthappybase#注意protocol和transport这两个参数，需要和hbase启动命令中的相同，否则会报错connection=happybase.Connection('qa-cdh-001',port=9090
python的应用领域主要有_Python的应用领域有哪些？ weixin_39658966 python的应用领域主要有
Python的应用领域有哪些？Python是一门简单、易学并且很有前途的编程语言，很多人都对Python感兴趣，但是当学完Python基础用法之后，又会产生迷茫，尤其是自学的人员，不知道接下来的Python学习方向，以及学完之后能干些什么？以下是Python十大应用领域！1.WEB开发Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库，可以实现web开发，搭
安卓python安装库_安卓termux折腾手记：安装python库+tasker调用 weixin_39628380 安卓python安装库
1.termux简介1.1简介termux是安卓手机上的一款软件，相当于在安卓上搭建了一个Linux平台，所以在Linux上能干的事情很多在手机上也都办得到，比如本文就是介绍与python相关的内容。实际上，得益于安卓平台的开放性，类似termux的手机神器着实不少。不说各类强大的编程IDE，单是termux这样的Linux平台类软件就很多，如GnuRoot系列，LinuxDisplay系列等。这
termux使用教程python-Termux折腾记--进阶之python库使用 weixin_37988176
sshdTermux超级终端折腾记Termux超级终端的牛x之处我就不在这里描述了。这次讲的是如何在android手机上安装python的各种科学库和图形库。Jupyter是这次介绍的重点对象，先卖个关子，不忙介绍它。1.Termux超级终端下载Termux的下载链接极其介绍见我的其他博文2.安装python这一步只是作为一个提示，因为现在你不管是装Linux终端还是linux完整发行版，pyth
python packge index 的使用 weixin_34199335 python 开发工具
pythonpackgeindex（PyPI）是Python编程语言的软件存储库。可用下载各种常用库，以及自己制作并上传库官方网站https://pypi.python.org安装pip3installpymysql安装完的库在python根目录下的lib\sitepackgs\目录下如果需要在命令行窗口直接运行pip3需要配置python根目录下的script目录为环境变量转载于:https:/
精通Python (21) 码商行者人工智能 python 人工智能
Python语言进阶之并发编程Python中实现并发编程的三种方案：多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验；坏处在于并发的程序不容易开发和调试，同时对其他程序来说它并不友好。一，多线程Python中提供了Thread类并辅以Lock、Condition、Event、Semaphore和Barrier。Python中有GIL来防止多个线程同时执行本地字节
搭建本地Python Package Index(pypi)源 tmpbook python
准备一台有外网的机器：nginxpython>=2.7（needreadline-devel,sqlite-devel）1.安装pip2pipipinstallpip2pi2.创建存放软件包的仓库mkdir-d/opt/python/soft/pypi.kevingao.net/3.下载某个包和某些包并建立索引单独下载pip2tgz/opt/python/soft/pypi.kevingao.ne
python 语音识别柚梓sir 神经网络语音识别人工智能
在python中训练一个语音识别系统主要需要以下几个步骤：-语料库准备-数据预处理-特征提取-训练模型第一部分：语料库的准备什么是语料库？语料库长什么样？语料库由两部分组成，第一部分是语音，第二部分是玉莹的标注，通常为字符形式。本次项目中，我们选用的语料库是THCHS-30，这个语料库是在安静的办公室环境下，由录音人员用普通话朗读新闻的语音作为数据，总时长超过30个小时。我们利用语料库，构造转换字
python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
字符串 5. 实现 strStr() （KMP算法初探） Mophead_Zarathustra Mophead的小白刷题笔记 leetcode python 代码随想录字符串 KMP算法
字符串5.实现strStr()（KMP算法初探）28.找出字符串中第一个匹配项的下标-力扣（LeetCode）代码随想录难度3-简单（但是个人觉得用KMP算法解决并不简单）（可以直接拉到最后看KMP算法的python实现，已做好详细注释，可结合注释进行理解）看题目感觉用python不难实现，因此直接给出代码如下：代码v1，利用python的字符串比较：classSolution:defstrStr
PyPi 是什么 HoneyMoose CS
pypi是PythonPackageIndex的首字母简写，其实表示的是Python的Packag索引，这个也是Python的官方索引。你需要的包（Package）基本上都可以从这里面找到。作为开源软件，你也希望能够贡献你的Package到这里供其他用户使用。我们举个栗子，如果你希望你的Python程序能够下载金融数据，目前比较好用的金融数据来源是Yahoo和Google。你可能需要读取这2个平台
华为OD机试E卷 --字符串化繁为简 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c++算法源码题目描述给定一个输入字符串，字符串只可能由英文字母(az、AZ)和左右小括号(、)组成当字符里存在小括号时，小括号是成对的，可以有一个或多个小括号对，小括号对不会嵌套，小括号对内可以包含1个或多个英文字母也可以不包含英文字母。当小括号对内包含多个英文字母时，这些字母之间是相互等效的关系，而且等
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
python中!ls -r_光学现象的Python实现 weixin_39838798 python中!ls -r
“Youwillseelightinthedarkness。Youwillmakesomesenseofthis.”“你终将于黑暗中触摸白昼，它将如影般随行。”如果说20世纪是电子的世界，那么21世纪就是光学的舞台。光学和光子学无处不在：智能手机和计算设备上的显示方式，互联网中承载信息的光纤，先进的精密制造，大量的生物医学应用终端，全光衍射神经网络等。对光学的深入理解为每一个学习物理和工程的同学带
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
Python 3 中使用 SMTP 发送邮件：高级技巧与应用三带俩王 python 网络服务器
在现代的软件开发和自动化流程中，发送电子邮件是一项常见的任务。Python3提供了强大的工具来实现这一功能，特别是通过使用SMTP（SimpleMailTransferProtocol）协议。本文将深入探讨Python3中使用SMTP发送邮件的高级用法，展示其在不同场景下的灵活性和强大功能。一、SMTP简介SMTP是一种用于发送电子邮件的协议。它允许客户端（如Python程序）与邮件服务器进行通信
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
Python 中的complex(real[, imag])函数：高级用法与强大功能三带俩王 python 开发语言算法
在Python中，complex(real[,imag])函数是一个用于创建复数的强大工具。复数在数学、物理学、工程学等领域中有着广泛的应用，而Python的complex类型为我们提供了便捷的方式来处理复数。本文将深入探讨complex(real[,imag])函数的高级用法，展示其在不同场景下的强大功能。一、复数的基本概念复数是由实数和虚数组成的数，通常表示为a+bj的形式，其中a和b是实数，
python 利用 ddddocr包 ocr识别图片码风_流沙 python工具备忘录 python ocr 开发语言
ddddocr是一个轻量级的OCR（光学字符识别）库，适用于识别图片中的文字，包括验证码等图像文本。要使用ddddocr进行图片验证码的识别，可以按照以下步骤进行：1.安装ddddocr包首先，你需要安装ddddocr包。你可以使用pip安装：pipinstallddddocr2.使用ddddocr进行OCR识别importddddocr#创建OCR对象ocr=ddddocr.DdddOcr()#
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

梯度下降求解逻辑回归

梯度下降求解逻辑回归

你可能感兴趣的:(机器学习,机器学习,随机梯度下降,逻辑回归,python)