weixin_39831493

python数据分析实战案例logistic_Python数据分析：Logistic回归

（一）准备工作

1.编程环境：Python3.5.2(使用其自带的IDLE，并已经配置好环境变量)，win10。

2.使用到的包：matplotlib, Pandas, sklearn, OrderedDict, NumPy, imp, math, random。

（注：可用pip install xxx直接安装，有问题就直接搜索引擎解决）。

其中imp,math,random不需要另外安装。

3.数据来源：

4.参考资料：

a.《机器学习实战》第5章。

（二）逻辑(Logistic)回归介绍

假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个过程就称作回归。

而利用Losgistic回归进行分类的主要思想是：根据现有数据对分类边界建立回归公式，以此进行分类。注意，Losgistic回归是一个分类算法，但不是一个回归算法，它可以处理二元分类以及多元分类。

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程中可以由最优化算法完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法。

随机梯度梯度上升算法与梯度上升算法的效果相当，但占用更少的计算资源。此外，随机梯度上升是一个在线算法，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算。

Logistic回归的优点：计算代价不高，易于理解和实现。

Logistic回归的缺点：容易欠拟合，分类精度可能不高。

Logistic回归适用数据类型：数值型和标称型数据。

接下来对逻辑回归进行简单的演示。

1.准备数据

from collections import OrderedDict

import pandas as pd

import matplotlib.pyplot as plt

examDict = {

'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,

2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],

'考试结果':[0,0,0,0,0,0,0,0,1,0,0,1,1,1,1,1,1,1,1,1]

}

examOrderDict = OrderedDict(examDict)

exam = pd.DataFrame(examOrderDict)

打印结果：

>>> exam.head()

考试结果学习时间

0 0 0.50

1 0 0.75

2 0 1.00

3 0 1.25

4 0 1.50

接下来通过绘制散点图判断是否符合逻辑回归，继续添加以下代码：

#判断是否适用于Logisti回归。

exam_X = exam['学习时间']

exam_Y = exam['考试结果']

plt.scatter(exam_X, exam_Y, color = 'blue')

plt.ylabel('Scores')

plt.xlabel('Times')

plt.title('exam data')

plt.show() #绘制之后可注释此行代码。

效果如下：绘制数据散点图

容易得出结论，上述数据适合Logistic回归。

2.拆分数据

将上面的数据拆分为训练集和测试集，方便接下来的训练和测试，继续添加以下代码：

#拆分数据。

from sklearn.cross_validation import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(exam_X,exam_Y,train_size=0.8)

3.使用拆分好的数据集进行训练

X_train = X_train.values.reshape(-1,1) #改变数据形状

X_test = X_test.values.reshape(-1,1)

from sklearn,linear_model import LogisticRegression

model = LogisticRegression() #创建模型

model.fit(X_train, Y_train) #训练

4.测试

>>> model.score(X_test, Y_test)

1.0

由于数据量实在是太小，本次的准确率过高（或者说是过拟合了），需要多训练几次或者是增加数据集的数据量。

5.特征的概率

>>> model.predict_proba(3)

array([[0.35385898, 0.64614102]])

当输入一个特征的时候，可以返回其概率值，返回的第一个是其为0的概率值，第二个是为1的概率值。当上文散点图中 Times = 3,即x = 3时，Logistic回归的函数值就是其为1的概率值。当这个值大于0.5的时候（0.64614102），则认为它的值为1，当这个概率值小于0.5的时候（0.35385898），则认为它的值为0。

本次演示中，这个概率值为0.64614102，所以认为x=3时，y=1。

全部代码：

from collections import OrderedDict

import pandas as pd

import matplotlib.pyplot as plt

examDict = {

'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,

2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],

'考试结果':[0,0,0,0,0,0,0,0,1,0,0,1,1,1,1,1,1,1,1,1]

}

examOrderDict = OrderedDict(examDict)

exam = pd.DataFrame(examOrderDict)

#exam.head()

#判断是否适用于Logisti回归。

exam_X = exam['学习时间']

exam_Y = exam['考试结果']

plt.scatter(exam_X, exam_Y, color = 'blue')

plt.ylabel('Scores')

plt.xlabel('Times')

plt.title('exam data')

#plt.show()

#拆分数据。

from sklearn.cross_validation import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(exam_X,exam_Y,train_size=0.8)

#开始训练

X_train = X_train.values.reshape(-1,1) #改变数据形状

X_test = X_test.values.reshape(-1,1)

from sklearn.linear_model import LogisticRegression

model = LogisticRegression() #创建模型

model.fit(X_train, Y_train) #训练

#model.score(X_test, Y_test)

#model.predict_proba(3)

（三）基于Logistic回归和Sigmoid函数的分类

上文阐述了Logistic回归的定义以及一个简单的演示，接下来将介绍一些优化算法，包括基本的梯度上升发和一个改进的随机梯度上升法，这些优化算法将用于分类器的训练，最后会给出一个Logistic回归的实例，预测一匹病马是否能被治愈。

1.Sigmoid函数

Sigmoid函数具体的计算公式如下：

下面给出一张Sigmoid函数分布图：

可以看出，当x=0时，Sigmoid函数值约为0.5，随着x的增大，对应的Sigmoid值将逼近1；而随着x的减小，Sigmoid值将逼近于0.

因此，为了实现Logistic回归分类器，可以在每个特征上都乘以一个回归系数，然后把所有结果相加，将这个总和代入Sigmoid函数中，进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分为1类，小于0.5被归入0类，所以，Logistic回归也被看成是一种概率估计。

当确定了分类器的函数形式之后，现在的问题就变成了：最佳回归系数是多少？

2.基于最优化方法的最佳回归系数确定

Sigmoid函数的输入记为z，由下面公式得出：

上述公式也可以用向量的写法：

向量x是分类器的输入数据，向量w是要找到的最佳参数。

为了找到最佳参数，需要用到最优化理论的一些知识。

2.1梯度上升法

梯度上升法大体思想：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。

梯度上升算法到达每个点都会重新估计移动的方向。从P0开始，计算完该点的梯度，函数就根据梯度移动到下一点P1.在P1点，梯度再次被重新计算，并沿新的梯度方向移动到P2，如此循环迭代，直到满足条件。迭代的过程中，梯度算子总是保证我们能选取到最佳的移动方向。

梯度上升算法的迭代公式如下：

称为步长，是梯度上升时移动量的大小。∇是算子

上式将会一直被迭代执行，直至达到某个停止条件为止，比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围。

延伸：

梯度下降算法，对应的公式为：

梯度上升算法用看来求函数的最大值，而梯度下降算法用来求函数的最小值。

2.2训练算法：使用梯度上升找到最佳参数

梯度上升法的伪代码如下：

每个回归系数初始化为1

重复R次：

计算整个数据集的梯度

使用alpha x gradient更新回归系数的向量

返回回归系数

接下来的代码是梯度上升算法的具体实现：

#文件名：demo004_logRegres

import matplotlib.pyplot as plt

import numpy as np

import math

import imp

import random

def loadDataSet():

dataMat = [ ]; labelMat = [ ]

fr = open('testSet.txt')

for line in fr.readlines():

lineArr = line.strip().split()

dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])

labelMat.append(int(lineArr[2]))

return dataMat,labelMat

def sigmoid(inX):

return 1.0/(1+np.exp(-inX))

#这里不能用math.exp(),会报错：TypeError: only size-1 arrays can be converted to Python scalars

#原因是：dataMatrix 与weights均为numpy矩阵，相乘也是numpy矩阵，而math.exp()函数只处理python标准数值。

#梯度上升算法的实际工作在gradAscent()里完成。

# dataMatIn是一个2维NumPy数组，每列代表每个不同的特征，每行则代表每个训练样本。

# classLabels是类别标签，是一个1x100的行向量

def gradAscent(dataMatIn,classLabels):

#转换为NumPy矩阵数据类型。

dataMatrix = np.mat(dataMatIn)

labelMat = np.mat(classLabels).transpose() #将classLabels转换为列向量，转置。

m,n = np.shape(dataMatrix) #得到矩阵的行列数，也就是矩阵的大小。

alpha = 0.001 #alpha是向目标移动的步长。

maxCycles = 500 #maxCycles是迭代次数。

weights = np.ones((n,1))

for k in range(maxCycles):

#计算真实类别与预测类别的差值。

h = sigmoid(dataMatrix * weights) #h是一个有100个元素的列向量。

#运算dataMatrix * weights包含了300次的乘积。

error = (labelMat - h)

weights = weights + alpha * dataMatrix.transpose( ) * error

return weights

在Python提示符下：

>>>#按照差值的方向调整回归系数。

>>>import demo004_logRegres

>>>dataArr,labelMat = loadDataSet()

>>>gradAscent(dataArr,labelMat)

matrix([[ 4.12414349],

[ 0.48007329],

[-0.6168482 ]])

2.3分析数据：画出决策边界

在demo004_logRegres中继续添加代码：

def plotBestFit(weights):

dataMat, labelMat = loadDataSet()

dataArr = np.array(dataMat)

n = np.shape(dataArr)[0]

xcord1 = [] ; ycord1 = []

xcord2 = [] ; ycord2 = []

for i in range(n):

if int(labelMat[i]) == 1:

xcord1.append(dataArr[i,1]) ; ycord1.append(dataArr[i,2])

else:

xcord2.append(dataArr[i,1]) ; ycord2.append(dataArr[i,2])

fig = plt.figure()

ax = fig.add_subplot(111)

ax.scatter(xcord1, ycord1, s=30, c='red', marker = 's')

ax.scatter(xcord2, ycord2, s=30, c='green')

x = np.arange(-3.0, 3.0, 0.1)

y = (-weights[0] - weights[1]*x)/weights[2]#这里设置sigmoid函数为0，0是两个分类（类别1和类别2）的分界处。

ax.plot(x,y)

plt.xlabel('X1'); plt.ylabel('X2');

plt.show()

运行程序，在Python提示符下输入：

>>> import demo004_logRegres

>>> from imp import reload

>>> reload(demo004_logRegres)

>>> dataArr,LabelMat = loadDataSet()

>>> weights = gradAscent(dataArr,LabelMat)

>>> demo004_logRegres.plotBestFit(weights.getA())

效果如下图：

从上图看只分错了两到4个点，但是这个方法却需要大量的计算（300次乘法），需要改进。

注意：

使用reload需要先from imp import reload。

在reload某个模块的时候，需要先import来加载需要的模块。

2.4训练算法：随机梯度上升

梯度上升算法在每次更新回归系数时都需要遍历整个数据集，但是当特征成千上万时就不可行了，复杂度太高。而随机梯度上升法是用一次仅用一个样本点来更新回归系数，随机梯度上升法是一个在线学习算法，而一次处理所有数据被称作是“批处理”。

随机梯度上升算法伪代码：

所有回归系数初始化为1

对数据集中每个样本

计算该样本的梯度

使用alpha x gradient更新回归系数值

返回回归系数值

在demo004_logRegres.py中继续添加代码，随机梯度上升算法实现代码如下：

def stoGradAscent0(dataMatrix, classLabels):

m,n = np.shape(dataMatrix)

alpha = 0.01

weights = np.ones(n)

for i in range(m):

h = sigmoid(sum(dataMatrix[i]*weights))

error = classLabels[i] - h

weights = weights + alpha*error*dataMatrix[i]

return weights

运行以上程序，在Python提示符下输入：

>>> import demo004_logRegres

>>> from imp import reload

>>> reload(demo004_logRegres)

>>> dataArr,LabelMat = loadDataSet()

>>> weights = stoGradAscent0(np.array(dataArr),LabelMat)

>>> demo004_logRegres.plotBestFit(weights)

得出效果图如下：随机梯度上升算法在上述数据集上的执行结果，最佳拟合直线并非最佳分类线

在demo004_logRegres.py中继续添加代码，改进的随机梯度上升算法：

def stoGradAscent1(dataMatrix, classLabels, numIter=150):

m,n = np.shape(dataMatrix)

weights = np.ones(n)

for j in range(numIter):

dataIndex = list(range(m))

for i in range(m):

alpha = 4/(1.0+j+i) +0.01 #alpha每次迭代时需要调整。

randIndex = int(random.uniform(0,len(dataIndex))) #随机选取更新。

h = sigmoid(sum(dataMatrix[randIndex]*weights))

error = classLabels[randIndex] - h

weights = weights + alpha*error*dataMatrix[randIndex]

del(dataIndex[randIndex])

return weights

在Python提示符下输入以下命令：

>>> import demo004_logRegres

>>> from imp import reload

>>> reload(demo004_logRegres)

>>> dataArr,LabelMat = loadDataSet()

>>> weights = stoGradAscent1(np.array(dataArr),LabelMat)

>>> demo004_logRegres.plotBestFit(weights)

得出效果图：使用随机梯度上升算法得到的系数

a.第一个改进的地方在alpha = 4/(1.0+j+i) +0.01，一方面，alpha在每次迭代的时候都会调整，这会缓解数据波动或高频波动。另外，虽然alpha会随着迭代次数不断减小，但永远不会减小到0，这是因为alpha = 4/(1.0+j+i) +0.01中还存在一个常数项。

必须这样做的原因是为了保证在多次迭代之后新数据仍然能够具有一定的影响。如果要处理的问题是动态变化的，那么可以适当加大上述常数项，来确保新的值获得更大的回归系数。

值得注意的是，在降低alpha的函数中，alpha每次减少1/(j+i)，其中j是迭代次数，i是样本下标（表示本次迭代中第i个选出来的样本）。这样当j<

b.第二个改进的地方，randIndex = int(random.uniform(0,len(dataIndex)))，

通过随机选取样本来更新回归系数，这样可以减少周期性的波动。每次随机从列表中选取一个值，然后从列表中删掉该值（再进行下一次迭代）。

c.此外，改进版的算法还增加了一个迭代次数作为第3个参数，如果该参数没有给定的话，算法将默认迭代150次。如果给定，那么算法将按照新的参数值进行迭代。

3.示例：从疝气病症预测病马的死亡率

接下来使用Logistic回归来预测患有疝气病症的马的存活问题。

使用Logistic回归方法进行分类并不需要做很多工作，所需要的只是把测试集上的每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，最后输入到Sigmoid函数中即可。

3.1准备数据：处理数据中的缺失值

下面给出一些可选的做法：

a.使用可用特征的均值来填补缺失值；

b.使用特殊值来填补缺失值，如-1；

c.忽略有缺失值得样本；

d.使用相似样本的均值添补缺失值；

e.使用另外的机器学习算法预测缺失值。

使用的NumPy数据类型不允许包含缺失值。

回归系数更新公式如下：

weights = weights +alpha * error * dataMatrix[randIndex]

如果dataMatrix的某特征对应值为0，那么该特征的系数将不做更新，即：

weights = weights

3.2测试算法：用Logistic回归进行分类

在demo004_logRegres.py中继续添加代码：

#分类回归函数

def classifyVector(inX, weights):

prob = sigmoid(sum(inX*weights))

if prob > 0.5: return 1.0

else: return 0.0

def colicTest():

frTrain = open('horseColicTraining.txt')

frTest = open('horseColicTest.txt')

trainingSet = []; trainingLabels = []

for line in frTrain.readlines():

currLine = line.strip().split('\t')

lineArr = []

for i in range(21):

lineArr.append(float(currLine[i]))

trainingSet.append(lineArr)

trainingLabels.append(float(currLine[21]))

trainWeights = stoGradAscent1(np.array(trainingSet), trainingLabels, 500)

errorCount = 0 ; numTestVec =0.0

for line in frTest.readlines():

numTestVec += 1.0

currLine = line.strip().split('\t')

lineArr = []

for i in range(21):

lineArr.append(float(currLine[i]))

if int(classifyVector(np.array(lineArr), trainWeights)) != int(currLine[21]):

errorCount += 1

errorRate = (float(errorCount)/numTestVec)

print("the error rate of this test is: %f " % errorRate)

return errorRate

def multiTest():

numTests = 10; errorSum = 0.0

for k in range(numTests):

errorSum += colicTest()

print("after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests)))

解析：

a. classifyVector()，以回归系数和特征向量作为输入来计算对应的Sigmoid值。

如果Sigmoid值大于0.5返回1，否则返回0.

b. colicTest()，用于打开测试集合训练集，并对数据进行格式化处理的函数。

数据导入后，可以使用函数stoGradAscent1()来计算回归系数向量。

c.multiTest()，其功能是调用函数colicTest()10次并求结果的平均值。

运行以上程序，在Python提示符下输入：

>>> import demo004_logRegres

>>> from imp import reload

>>> reload(demo004_logRegres)

>>> demo004_logRegres.multiTest()

the error rate of this test is: 0.432836

the error rate of this test is: 0.388060

the error rate of this test is: 0.388060

the error rate of this test is: 0.373134

the error rate of this test is: 0.358209

the error rate of this test is: 0.522388

the error rate of this test is: 0.238806

the error rate of this test is: 0.358209

the error rate of this test is: 0.373134

the error rate of this test is: 0.358209

after 10 iterations the average error rate is: 0.379104

从结果可以看到，10次迭代之后的平均错误率为37%。

如果调整colicTest()中的迭代次数和stoGradAscent1()中的步长，平均错误率可以降到20%左右。

你可能感兴趣的:(python数据分析实战案例logistic_Python数据分析：Logistic回归)

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
使用tensorflow的多项式回归的例子（二） lishaoan77 tensorflow tensorflow 回归人工智能多项式回归
例2importtensorflowastfimportnumpyasnpimportmatplotlib.pyplotaspltplt.style.use('default')#importtensorflow.contrib.eagerastfe#fromgoogle.colabimportfiles#tf.enable_eager_execution()x=np.arange(0,5,0.1
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
使用tensorflow的线性回归的例子（十二） lishaoan77 tensorflow tensorflow 线性回归人工智能戴明回归
DemingRegression这里展示如何用TensorFlow求解线性戴明回归。=+y=Ax+b我们用iris数据集,特别是:y=SepalLength且x=PetalWidth。戴明回归Demingregression也称为totalleastsquares,其中我们最小化从预测线到实际点(x,y)的最短的距离。最小二乘线性回归最小化与预测线的垂直距离，戴明回归最小化与预测线的总的距离，这种
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
多模态模型在RagFlow中的创新应用与实战案例 AGI大模型老王人工智能 DeepSeek 产品经理学习 AI 大模型大模型教学
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
探索 Golang 与 Docker 集成的无限可能 Golang编程笔记 golang docker 开发语言 ai
探索Golang与Docker集成的无限可能关键词：Golang、Docker、容器化、微服务、云原生、镜像优化、CI/CD摘要：本文将带你走进Golang与Docker集成的奇妙世界。我们会从“为什么需要这对组合”讲起，用生活故事类比核心概念，拆解Go静态编译与Docker容器化的“天作之合”，通过实战案例演示如何用Docker高效打包Go应用，并探讨它们在云原生时代的无限可能。无论你是Go开发
动态时间规整（Dynamic Time Warping，DTW）介绍 EmorZhong 机器学习人工智能深度学习数据结构算法
在时序数据分析中，动态时间规整（DynamicTimeWarping，DTW）是一种经典的用于度量两个时间序列相似度的算法。它的核心价值在于解决了传统距离度量（如欧氏距离）在处理时间序列时的局限性——尤其是当序列存在时间错位（如节奏快慢不同）或长度差异时，仍能准确捕捉它们的“形状相似性”。一、为什么需要DTW？传统的距离度量（如欧氏距离）要求两个时间序列必须长度相同且时间点严格对齐。但实际场景中，
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
网络安全核心技术解析：权限提升（Privilege Escalation）攻防全景
引言在网络安全攻防对抗中，权限提升（PrivilegeEscalation）是攻击链条中关键的「破局点」。攻击者通过突破系统权限壁垒，往往能以有限权限为跳板，最终掌控整个系统控制权。本文将从攻击原理、技术路径、实战案例到防御体系，全方位解析这一网络空间的「钥匙窃取」艺术。一、权限提升的本质与分类1.1核心定义权限提升指攻击者通过技术手段，将当前运行进程或用户的权限等级突破系统预设的访问控制机制，获
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
从零到一：王者荣耀英雄数据采集与技能图谱异步爬虫实战程序员威哥爬虫 python 开发语言自动化 scrapy
引言：随着游戏行业的迅猛发展，王者荣耀作为一款深受玩家喜爱的手游，其英雄数据和技能信息成为了爬虫开发者研究的热点之一。通过抓取英雄数据并对技能图谱进行可视化，我们不仅能够更好地理解游戏数据，还可以为游戏爱好者或数据分析师提供一个有价值的数据分析平台。本篇文章将带你一步步实现王者荣耀英雄数据的采集与技能图谱的可视化，并使用异步爬虫技术提高爬取效率。我们将结合实际开发中的需求，深入讲解如何使用异步爬虫
12 | 走向元宇宙：数字化工作与生活 _Rye_ 元宇宙
专栏快接近尾声了。在之前的课程里，我们一直在用一个框架来概括元宇宙，那就是：元宇宙=立体互联网+价值互联网。这个公式可以帮助我们从宏观角度更好地理解元宇宙。当我们回归工作和生活，用更加个人化的角度来观察元宇宙时，我们可以换用另外一个等式：元宇宙=实体空间+数字空间。通过这个等式，我们可以看到，元宇宙将带给我们线上线下全面融合的数字生活。这一讲的讨论分成两个部分。首先，我们来看看自己周围的数字化发展
95%程序员不知道的JVM调优技巧：让GC时间从2秒降到50ms的实战案例小筱在线 jvm 测试工具
前言：为什么JVM调优如此重要？在现代Java应用开发中，JVM调优是提升应用性能的关键环节。一个经过精心调优的JVM可以显著减少垃圾回收(GC)停顿时间，提高吞吐量，从而为用户提供更流畅的体验。本文将分享一个真实案例，展示如何通过系统化的调优方法，将GC时间从2秒降低到50ms，提升近40倍的性能表现。第一章：理解JVM内存结构与GC机制1.1JVM内存结构详解（JDK1.8）Java虚拟机内存
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他