livan1234

实战演习（三）——被玩坏的mnist数据集

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

本文源码在github上：

https://github.com/livan123/mnist-master

https://github.com/livan123/hand_write

mnist数据集是在数据建模中常被使用的数据集，很多人机器学习的起步知识是从mnist开始的，笔者也在mnist的基础上构建了一些算法训练，mnist的数据集主要有两种：

一种是原始的官网上使用的：

data_sets = input_data.read_data_sets('E:/Python_workspace/mnist-master/Mnist_data/')

images = data_sets.train.images

labels = data_sets.train.labels

另一种是网站上一些大牛，根据官网上的资料处理出的简易版的数据集：

testDigits

trainingDigits

数据的建模存在一些基本的步骤，主要步骤如下：

1）参数的循环组合：用来做调参使用，主要是确定模型中各个节点的参数，比如：神经网络有几个隐藏层、每个隐藏层有几个隐藏节点；决策树有多少层等等~；

2）输入的数据：编写输入函数，给外界的数据提供入口，使其进入到模型中，比如手写体识别中，需要有个函数单独用来接收用户手写的数字图片，作为模型需要识别的数据；

3）训练的数据：另外再编写一个函数，用来接收训练模型时需要的数据，类似于上面的data_sets.train数据集；

4）建立的模型：根据选择的算法，构建需要用到的模型，比如说：神经网络则构建计算图；knn则编写knn算法；

5）开始训练：此处训练的目的是为了得到模型中参数的稳定值，比如w、b等~

6）开始预测：将预测集通过输入函数导入到模型中，得到预测的结果；

7）混淆矩阵：模型的评估可以有多种方式：其一：类似mnist一样的数据集，我们可以计算准确率；多个模型时可以使用混淆矩阵，选择最优模型；

在下面的案例中，笔者对两种数据集都有应用，希望对初学者有些用处：

在进行mnist使用时主要是用到了一些图片处理的知识，因此需要先了解一些图片处理的语句：

1) 图片处理

# 先将所有图片转换为固定宽高，比如：32*32，然后再转换成文本。

im = Image.open("F:/python_workspace/file/hand_write/hand_write.png")

# 另存为图片：

# im.save("F:/python_workspace/file/hand_write/hand_write.jpg")

fh = open("F:/python_workspace/file/hand_write/hand_write.txt","a")

# 获取图片的长宽高: 0:宽；1：高；

width = im.size[0]

height = im.size[1]

# 获取像素(宽为1，高为9的像素)：

# (255, 255, 255)：白色

# (0,0,0)：黑色

for i in range(0, width):

for j in range(0, height):

cl = im.getpixel((i, j))

clall = cl[0]+cl[1]+cl[2]

if(clall == 0):

# 黑色;

fh.write("1")

else:

fh.write("0")

fh.write("\n")

fh.close()

2) mnist数据提取：

data_sets = input_data.read_data_sets('E:/Python_workspace/mnist-master/Mnist_data/')

images = data_sets.train.images

labels = data_sets.train.labels

total = images.shape[0]

print(images.shape)

print(images)

im = images[7]

im2 = np.array(im)

print(im)

im2 = im2.reshape(28,28)

print(im2)

fig = plt.figure()

plotwindow = fig.add_subplot(1,1,1)

plt.imshow(im2, cmap='gray')

plt.show()

3）eval()函数的应用：

计算某一张量的取值；类似于x.value()

a = tf.constant([1.0, 2.0], name="a")

b = tf.constant([2.0, 3.0], name="b")

c = tf.add(a, b, name="sum")

sess = tf.Session()

with sess.as_default():

print(c.eval())

训练的手写体识别代码为：

1、使用knn算法进行手写字体识别，查看此程序笔者建议可以先了解一下knn算法：

# 运算knn函数：

def knn(k, testdata, traindata, labels):

traindatasize = traindata.shape[0]

dif = tile(testdata, (traindatasize, 1))-traindata

sqdif = dif**2

sumsqdif = sqdif.sum(axis=1)

distance = sumsqdif**0.5

sortdistance = distance.argsort()

count = {}

for i in range(0, k):

vote = labels[sortdistance[i]]

count[vote] = count.get(vote, 0)+1

sortcount = sorted(count.items(), key= operator.itemgetter(1), reverse=True)

return sortcount[0][0]

# 手写体数字的识别：

# 1.加载数据

def datatoarray(fname):

arr = []

fh = open(fname)

for i in range(0, 32):

thisline = fh.readline()

for j in range(0, 32):

arr.append(int(thisline[j]))

return arr

# arr1 = datatoarray("F:/python_workspace/file/hand_write/trainingDigits/0_10.txt")

# print(arr1)

# 建立一个函数取文件的前缀：

def seplabel(fname):

filestr = fname.split(".")[0]

label = int(filestr.split("_")[0])

return label

# 2.建立训练数据：

def traindata():

labels = []

# 加载当前目录下的所有文件名：

trainfile = listdir("E:/python_workspace/file/hand_write/trainingDigits")

num = len(trainfile)

# 长度为1024，即为1024列，每一行存储一个文件。

# 用一个数组存储所有训练数据，行：文件总数；列：1024

# 用zeros建立一个数组：

trainarr = zeros((num, 1024))

for i in range(0, num):

thisfname = trainfile[i]

# 返回的是训练数字labels(0--9)

thislabel = seplabel(thisfname)

labels.append(thislabel)

# 将所有文件的训练集数据内容加载到trainarr中。

trainarr[i, :] = datatoarray("F:/python_workspace/file/hand_write/trainingDigits/"+thisfname)

return trainarr, labels

# 3.用测试数据调用knn算法测试，看是否能够准确识别：

def datatest():

trainarr, labels = traindata()

testlist = listdir("F:/python_workspace/file/hand_write/testDigits")

tnum = len(testlist)

for i in range(0, tnum):

thistestfile = testlist[i]

testarr = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thistestfile)

rknn = knn(3, testarr, trainarr, labels)

print(rknn)

datatest()

# 4.抽某一个测试文件出来进行试验：

trainarr, labels = traindata()

thistestfile = "6_6.txt"

testarr = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thistestfile)

rknn = knn(3, testarr, trainarr, labels)

print(rknn)

2、贝叶斯方法进行的手写体数字识别：

#!/usr/bin/env python

# _*_ UTF-8 _*_

import numpy as npy

from numpy import *

from os import listdir

# 贝叶斯算法的应用：

class Bayes:

def __init__(self):

# -1表示测试方法没有做，表示没有进行训练。

self.length = -1

# 分类的类别标签

self.labelcount = dict()

self.vectorcount = dict()

# 训练函数：(dataSet:list 训练集指定为list类型)

def fit(self, dataSet:list, labels:list):

if(len(dataSet)!=len(labels)):

raise ValueError("您输入的测试数组跟类别数组长度不一致~")

self.length = len(dataSet[0]) # 测试数据特征值的长度。

# 所有类别的数据

labelsnum = len(labels)

# 不重复的类别的数量

norepeatlabel = set(labels)

# 以此遍历各个类别

for item in norepeatlabel:

# 计算当前类别占总类别的比例：

# thislabel为当前类别

thislabel = item

# 当前类别在总类别中的比例;

self.labelcount[thislabel] = labels.count(thislabel)/labelsnum

for vector, label in zip(dataSet, labels):

if(label not in self.vectorcount):

self.vectorcount[label] = []

self.vectorcount[label].append(vector)

print("训练结束~")

return self

# 测试数据：

def btest(self, TestData, labelsSet):

if(self.length==-1):

raise ValueError("您还没有进行训练，请先训练~~")

# 计算testdata分别为各个类别的概率：

lbDict = dict()

for thislb in labelsSet:

p = 1

# 当前类别占总类别的比例：

alllabel = self.labelcount[thislb]

# 当前类别中的所有向量：

allvector = self.vectorcount[thislb]

# 当前类别一共有多少个向量：

vnum = len(allvector)

# 数组转置

allvector = npy.array(allvector).T

for index in range(0, len(TestData)):

vector = list(allvector[index])

p = vector.count(TestData[index])/vnum

lbDict[thislb] = p*alllabel

thislabel = sorted(lbDict, key=lambda x:lbDict[x], reverse=True)[0]

return thislabel

# 手写体数字的识别：

# 1.加载数据

def datatoarray(fname):

arr = []

fh = open(fname)

for i in range(0, 32):

thisline = fh.readline()

for j in range(0, 32):

arr.append(int(thisline[j]))

return arr

# 建立一个函数取文件的前缀：

def seplabel(fname):

filestr = fname.split(".")[0]

label = int(filestr.split("_")[0])

return label

# 2.建立训练数据：

def traindata():

labels = []

# 加载当前目录下的所有文件名：

trainfile = listdir("E:/Python_workspace/hand_write/trainingDigits")

num = len(trainfile)

# 长度为1024，即为1024列，每一行存储一个文件。

# 用一个数组存储所有训练数据，行：文件总数；列：1024

# 用zeros建立一个数组：

trainarr = zeros((num, 1024))

for i in range(0, num):

thisfname = trainfile[i]

# 返回的是训练数字labels(0--9)

thislabel = seplabel(thisfname)

labels.append(thislabel)

# 将所有文件的训练集数据内容加载到trainarr中。

trainarr[i, :] = datatoarray("E:/Python_workspace/hand_write/trainingDigits/"+thisfname)

return trainarr, labels

bys = Bayes()

# 训练数据：

train_data, labels = traindata()

bys.fit(train_data, labels)

# 测试：

thisdata = datatoarray("E:/Python_workspace/hand_write/trainingDigits/8_90.txt")

labelsall = [0,1,2,3,4,5,6,7,8,9]

# 识别单个手写体数字：

rst = bys.btest(thisdata, labelsall)

print(rst)

# 识别多个手写体数字（批量测试）：

testfileall = listdir("F:/python_workspace/file/hand_write/trainingDigits")

num = len(testfileall)

x=0

for i in range(0, num):

thisfilename = testfileall[i]

thislabel = seplabel(thisfilename)

thisdataarray = datatoarray("F:/python_workspace/file/hand_write/testDigits/"+thisfilename)

label = bys.btest(thisdataarray, labelsall)

print("该数字正确的是："+str(thislabel)+",识别出来的数字是："+str(label))

if(label!=thislabel):

x+=1

print(x)

print("错误率是："+str(x/num))

3、BP神经网络实现手写体识别：

#!/usr/bin/env python

# _*_ UTF-8 _*_

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

from PIL import Image, ImageFilter

import tensorflow as tf

import matplotlib.pyplot as plt

from cv2 import *

import numpy as np

from tensorflow.examples.tutorials.mnist import input_data

# 输入图片：

def imageprepare():

file_name='E:/Python_workspace/mnist-master/Mnist_data/7.png'

im = Image.open(file_name).convert('L')

tv = list(im.getdata())

tva = [(255-x)*1.0/255.0 for x in tv]

return tva

result=imageprepare()

print(result)

# 输入训练集

mnist = input_data.read_data_sets('E:/Python_workspace/mnist-master/Mnist_data/', one_hot=True)

# 需要多少层、每层有多少个节点，多个案例循环处理，得到多组分类，然后多个结果使用混淆矩阵，判断哪个的效果比较好；

# 模型构建：

keep_prob = tf.placeholder(tf.float32)

x = tf.placeholder(tf.float32, [None, 784])

y = tf.placeholder(tf.float32, [None, 10])

w = tf.Variable(tf.zeros([784,10]))

b = tf.Variable(tf.zeros([10]))

a = tf.nn.softmax(tf.matmul(x, w)+b)

# 模型调参：

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y*tf.log(a), reduction_indices=[1]))

optimizer = tf.train.GradientDescentOptimizer(0.5)

train = optimizer.minimize(cross_entropy)

# 开始训练：

sess = tf.InteractiveSession()

tf.initialize_all_variables().run()

for i in range(10000):

batch_xs, batch_ys = mnist.train.next_batch(10)

train.run({x:batch_xs, y:batch_ys})

# prediction在此时为训练好的模型，argmax是为了获取到a的最大概率所在的下标值，并将下标值作为判断的数值传给prediction；

prediction=tf.argmax(a,1)

print(prediction)

predint=prediction.eval(feed_dict={x:[result],keep_prob:1.0}, session=sess)

print(predint)

4、CNN实现手写字体识别：

#!/usr/bin/env python

# _*_ UTF-8 _*_

# tf.nn.conv2d:给定四维的input和filter，计算出两维的结果；

# tf.nn.max_pool:最大值池化操作；

# Import data

from tensorflow.examples.tutorials.mnist import input_data

import tensorflow as tf

mnist = input_data.read_data_sets('E:/Python_workspace/mnist-master/Mnist_data/', one_hot=True)

def weight_variable(shape):

initial = tf.truncated_normal(shape, stddev=0.1) # 变量的初始值为截断正太分布

return tf.Variable(initial)

def bias_variable(shape):

initial = tf.constant(0.1, shape=shape)

return tf.Variable(initial)

def conv2d(x, W):

"""

tf.nn.conv2d功能：给定4维的input和filter，计算出一个2维的卷积结果

前几个参数分别是input, filter, strides, padding, use_cudnn_on_gpu, ...

input 的格式要求为一个张量，[batch, in_height, in_width, in_channels],批次数，图像高度，图像宽度，通道数

filter 的格式为[filter_height, filter_width, in_channels, out_channels]，滤波器高度，宽度，输入通道数，输出通道数

strides 一个长为4的list. 表示每次卷积以后在input中滑动的距离

padding 有SAME和VALID两种选项，表示是否要保留不完全卷积的部分。如果是SAME，则保留

use_cudnn_on_gpu 是否使用cudnn加速。默认是True

"""

return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):

"""

tf.nn.max_pool 进行最大值池化操作,而avg_pool 则进行平均值池化操作

几个参数分别是：value, ksize, strides, padding,

value: 一个4D张量，格式为[batch, height, width, channels]，与conv2d中input格式一样

ksize: 长为4的list,表示池化窗口的尺寸

strides: 窗口的滑动值，与conv2d中的一样

padding: 与conv2d中用法一样。

"""

return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

sess = tf.InteractiveSession()

x = tf.placeholder(tf.float32, [None, 784])

x_image = tf.reshape(x, [-1,28,28,1]) #将输入按照 conv2d中input的格式来reshape，reshape

"""

# 第一层

# 卷积核(filter)的尺寸是5*5, 通道数为1，输出通道为32，即feature map 数目为32

# 又因为strides=[1,1,1,1] 所以单个通道的输出尺寸应该跟输入图像一样。即总的卷积输出应该为?*28*28*32

# 也就是单个通道输出为28*28，共有32个通道,共有?个批次

# 在池化阶段，ksize=[1,2,2,1] 那么卷积结果经过池化以后的结果，其尺寸应该是？*14*14*32

"""

W_conv1 = weight_variable([5, 5, 1, 32]) # 卷积是在每个5*5的patch中算出32个特征，分别是patch大小，输入通道数目，输出通道数目

b_conv1 = bias_variable([32])

h_conv1 = tf.nn.elu(conv2d(x_image, W_conv1) + b_conv1)

h_pool1 = max_pool_2x2(h_conv1)

"""

# 第二层

# 卷积核5*5，输入通道为32，输出通道为64。

# 卷积前图像的尺寸为 ?*14*14*32， 卷积后为?*14*14*64

# 池化后，输出的图像尺寸为?*7*7*64

"""

W_conv2 = weight_variable([5, 5, 32, 64])

b_conv2 = bias_variable([64])

h_conv2 = tf.nn.elu(conv2d(h_pool1, W_conv2) + b_conv2)

h_pool2 = max_pool_2x2(h_conv2)

# 第三层是个全连接层,输入维数7*7*64, 输出维数为1024

W_fc1 = weight_variable([7 * 7 * 64, 1024])

b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])

h_fc1 = tf.nn.elu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

keep_prob = tf.placeholder(tf.float32) # 这里使用了drop out,即随机安排一些cell输出值为0，可以防止过拟合

h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

# 第四层，输入1024维，输出10维，也就是具体的0~9分类

W_fc2 = weight_variable([1024, 10])

b_fc2 = bias_variable([10])

y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2) # 使用softmax作为多分类激活函数

y_ = tf.placeholder(tf.float32, [None, 10])

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y_conv), reduction_indices=[1])) # 损失函数，交叉熵

train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # 使用adam优化

correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1)) # 计算准确度

accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

sess.run(tf.initialize_all_variables()) # 变量初始化

for i in range(20000):

batch = mnist.train.next_batch(50)

if i%100 == 0:

# print(batch[1].shape)

train_accuracy = accuracy.eval(feed_dict={

x:batch[0], y_: batch[1], keep_prob: 1.0})

print("step %d, training accuracy %g"%(i, train_accuracy))

train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

print("test accuracy %g"%accuracy.eval(feed_dict={

x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

上面为笔者对mnist数据集的一些理解，如有问题，欢迎留言~

你可能感兴趣的:(实战案例)

《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
Python函数完全解读：从零基础到高阶实战藍海琴泉 python 开发语言
目标读者：编程新手|转行者|需系统掌握函数用法的开发者目录一、函数是什么？为什么需要函数？二、函数基础语法详解1.定义与调用2.返回值：函数的输出结果3.参数传递机制4.案例：计算BMI指数三、变量作用域：理解局部与全局1.局部变量2.全局变量四、函数进阶：lambda与高阶函数1.lambda匿名函数2.高阶函数五、函数高级特性1.装饰器：增强函数功能2.递归函数六、实战案例：文件处理工具一、函
【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标同学小张大模型人工智能笔记经验分享 gpt agi AIGC
大家好，我是同学小张，日常分享AI知识和实战案例欢迎点赞+关注，持续学习，持续干货输出。+v:jasper_8017一起交流，一起进步。微信公众号也可搜【同学小张】本站文章一览：前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。那么如何评估RAG的效果呢？本文我们来了解一下。文章目录推荐前置阅读0.R
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
MySQL性能优化实战笔记 - 通俗易懂版泥潭硬拔 mysql 性能优化笔记
1.存储引擎选择-到底选哪个？InnoDBvsMyISAM通俗对比想象你开了一家银行：InnoDB就像是有保险柜的银行支持事务：比如转账，要么都成功，要么都失败行级锁：小明在存钱时，小红还能同时取钱缺点：需要更多内存和CPUMyISAM就像是简易储物柜不支持事务：操作简单直接表级锁：一个人在用时，其他人要等待优点：读取速度快，占用资源少2.实战案例：常见性能问题及解决方案案例1：查询特别慢--糟糕
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
【AI大模型应用开发】RAG-Fusion框架：忘掉 RAG，未来是 RAG-Fusion 同学小张大模型人工智能笔记 chatgpt agi embedding RAG prompt
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习C++进阶、OpenGL、WebGL知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。RAG目前很火，但是也有一些不足的地方。有不足就有改进方法。本文我们来看一个方法：RAG-Fusion，理解其原理，并看一下其实现源码。文章目录0.RAG的不足1.RAG-Fusion原理概述2.步骤拆解与代码示例2.1
并查集：从连通性检测到动态合并的算法艺术六七_Shmily 数据结构与算法分析算法
并查集：从连通性检测到动态合并的算法艺术（C++实现）一、并查集：算法世界的隐形支柱在算法竞赛和工程实践中，并查集（DisjointSetUnion，DSU）是解决动态连通性问题的终极武器。它能在近乎常数时间内完成集合的合并与查询操作，广泛应用于社交网络、图像处理、编译器优化等领域。本文将深入剖析并查集的核心原理，并通过实战案例揭示其精妙之处。二、并查集的三重核心1.数据结构设计classDSU{
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
需求分析与问题定义原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
需求分析与问题定义原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在软件工程领域，需求分析与问题定义是至关重要的环节。它们决定了软件项目的成功与否，直接影响着软件的质量、成本和交付时间。随着软件项目的复杂性和规模日益增加，对需求分析与问题定义的要求也越来越高。本文将深入探讨需求分析与问题定义的原理，并
AI系统API网关原理与代码实战案例讲解 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统API网关原理与代码实战案例讲解1.背景介绍在现代分布式系统中，API网关作为一个重要的组件，起到了至关重要的作用。它不仅仅是一个简单的请求路由器，更是一个集成了安全、负载均衡、缓存、监控等多种功能的综合性服务。特别是在AI系统中，API网关的作用尤为重要，因为AI系统通常需要处理大量的数据请求，并且需要保证高可用性和高性能。API网关的概念最早出现在微服务架构中，旨在解决微服务之间的通信
解释 TypeScript 中的类型保护（type guards），如何使用类型保护进行类型检查？程序员黄同学 TypeScript 前端开发 JavaScript typescript ubuntu javascript
TypeScript类型保护深度解析核心概念解析类型保护是TypeScript用于在条件分支中缩小变量类型范围的机制，通过特定的语法结构让编译器能够推导出更精确的类型信息。其核心价值在于提升代码类型安全性，同时保持开发效率。五大实现方式及实战案例1.类型谓词（TypePredicates）interfaceCat{purr():void;}interfaceDog{bark():void;}fun
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
MyBatis-Plus核心功能与实战案例千层冷面 mybatis java
MyBatis-Plus核心功能与实战案例，代码示例基于SpringBoot3.x+MyBatis-Plus3.5.3：一、MyBatis-Plus基础篇1.简介与核心优势MyBatis-Plus（MP）是MyBatis的增强工具，在保留MyBatis原生功能的基础上，通过内置通用Mapper、Service、条件构造器等，大幅简化开发。核心优势：无侵入：只做增强不做改变，可与MyBatis原生功
使用python seaborn创建配对图：从核心概念到实战案例梦想画家数据分析工程 #python 人工智能 python 机器学习
Seaborn的配对图（Pairplot）是一种用于探索多变量数据关系的可视化工具，尤其适合分析数据集中多个特征之间的相关性、分布模式或异常值。本文介绍如何生成数据集数值变量之间的配对图，并通过参数设置色系。配对图的核心作用矩阵式可视化生成一个N×N的网格图（N为特征数），每个单元格展示两列特征之间的关系。默认对角线显示单变量分布（直方图或KDE曲线），非对角线显示散点图或其他关系图。快速发现模式
淘宝API接口深度解析：用户行为分析与精准营销实战 lovelin+vI7809804594 爬虫人工智能 python 反向海淘 API
在电子商务领域，数据是驱动业务增长的关键要素之一。淘宝API接口作为连接商家与淘宝平台的桥梁，为商家提供了丰富的数据资源和强大的功能支持。其中，用户行为分析与精准营销是商家利用淘宝API接口实现业务增长的重要手段。本文将深入解析淘宝API接口在用户行为分析与精准营销方面的应用，并结合实战案例探讨其实际效果。一、淘宝API接口概述淘宝API接口是淘宝开放平台提供的一组标准化的网络接口，允许第三方开发
【AI Agent教程】各种Agent开发框架都是如何实现ReAct思想的？深入源码学习一下同学小张大模型人工智能学习笔记经验分享 AIGC AI Agent ReAct
大家好，我是同学小张，持续学习C++进阶知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。驱动大模型有很多种方式，例如纯Prompt方式、思维链方式、ReAct方式等。ReAct方式是AIAgent最常用的实现思路之一，它强调在执行任务时结合推理（Reasoning）和行动（Acting）两个方面，使得Agent能够在复杂和动态的环境中更有效地工作。本文我们来看看常用的那
Linux 权限详解（带实战案例）可问可问春风 Linux从新手到入门 linux 运维服务器
Linux权限是系统安全的核心机制，本文通过权限模型分解+20个实战案例，带你彻底掌握文件权限的控制逻辑。一、Linux权限基础模型权限三要素：user(u)：文件所有者group(g)：所属用户组others(o)：其他用户权限类型：r(read)读权限→4w(write)写权限→2x(execute)执行权限→1二、查看文件权限#查看详细信息（第一个字符为文件类型，后续9个字符为权限）$ls-
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
芒格的“清晰思考“方法在量子计算商业模式设计中的应用 AGI大模型与大数据研究院 DeepSeek 量子计算网络运维 ai
芒格的"清晰思考"方法在量子计算商业模式设计中的应用关键词：芒格、清晰思考方法、量子计算、商业模式设计、应用策略摘要：本文聚焦于将芒格的“清晰思考”方法应用于量子计算商业模式设计。首先介绍了背景信息，包括目的范围、预期读者等。接着阐述了核心概念，如“清晰思考”方法和量子计算商业模式的原理及联系，并给出相应示意图和流程图。详细讲解了核心算法原理及操作步骤，结合数学模型和公式进行说明。通过项目实战案例
百度站群收录2025最新：实战策略与趋势解读 SEO黑猫百度 dubbo
引言：重新认识站群生态最近接触到一个跨境电商案例：某服饰企业通过搭建15个行业细分站群，在2024年百度收录量同比提升380%。这不禁让人思考——2025年的站群运营，究竟需要哪些创新策略？一、2024实战案例拆解案例背景：某母婴用品品牌通过「三级站群矩阵」实现收录突破：1个品牌主站（权重培育）5个地域分站（长尾词覆盖）9个产品专题站（精准流量捕获）RewriteRule^(.*)/product
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
基于生成对抗网络（GAN）的图像超分辨率实战：从SRGAN到ESRGAN Evaporator Core #深度学习强化学习生成模型生成对抗网络人工智能神经网络
图像超分辨率（ImageSuper-Resolution）是一种通过算法将低分辨率图像转换为高分辨率图像的技术，广泛应用于医学影像、卫星图像和视频增强等领域。生成对抗网络（GAN）是图像超分辨率的经典方法，而增强型超分辨率生成对抗网络（ESRGAN）则通过引入残差网络和感知损失进一步提升了图像质量。本文将通过一个完整的实战案例，展示如何使用SRGAN和ESRGAN进行图像超分辨率，并提供详细的代码
开发规范与编码标准原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
开发规范与编码标准原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM开发规范与编码标准原理与代码实战案例讲解1.背景介绍1.1问题的由来随着软件工程的快速发展，尤其是在大型团队协作下开发复杂系统时，一致性、可读性、维护性成为影响代码质量的关键因素。不一致的开发风格、冗余的代码模式以及缺乏标准化的命名
HarmonyNext实战：基于ArkTS的高性能数据流处理框架设计与实现 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能数据流处理框架设计与实现引言在HarmonyNext生态系统中，数据流处理是构建高性能应用的关键技术之一。本文将深入探讨如何基于ArkTS构建一个高效的数据流处理框架，并适配HarmonyNext平台。我们将从架构设计、核心组件实现、性能优化等多个维度进行详细讲解，并通过实战案例展示如何在实际工程中应用这些技术。1.数据流处理框架的架构设计1.1框
基于HarmonyNext的ArkTS实战：构建高性能跨平台供应链管理系统 harmonyos-next
基于HarmonyNext的ArkTS实战：构建高性能跨平台供应链管理系统引言在现代供应链管理中，高效的数据处理和实时监控是提升运营效率的关键。随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何利用ArkTS12+的语法和HarmonyNext的特性，构建一个供应链管理系统。我们将通过一个详细的实战案例，讲解从
基于HarmonyNext的ArkTS实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何利用ArkTS12+的语法和HarmonyNext的特性，构建一个实际工程中的高性能应用。我们将通过一个详细的实战案例，讲解从项目架构设计到代码实现的完整流程，确保读者能够跟随步骤完成一个真实
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S