mosan123

深度学习·TensorFlow实现CNNs处理MNIST数据集

1. CNNs基本原理

CNNs即Convolutional Neural Networks多层卷积神经网络，专门用于图像识别
生物仿生学原理：

该网络结构模仿了人体识别图像的过程：
1 瞳孔摄入物体的像素信息
2 大脑皮层一些细胞进行初步处理：如发现物体的边缘和方向
3 抽象判断物体的形状(如是圆形或方形)
4 进一步抽象判断(如是气球或木块)

简而言之，高层是低层的抽象化表示，具体到神经网络中计算权重的过程即是每层的特征抽取过程

在实现模型之前，我们先来了解CNNs的最基本的两个基本概念：卷积和池化

我们所熟悉的一般BPNN(或是MLP)处理图像信息的过程是：先将像素信息处理成一维数组，然后进行前向传播计算权重和误差，当达到输出层后再将误差反向传播并更新每一层的权重。但这样的处理方式面临着一个问题：当处理图像是RGB 256 500*500像素时，每个神经元3*500*500=750000的计算量还要加上神网络的层数和每层的深度，此时模型的计算量将非常巨大，所以卷积和池化简单来说就起着降低特征维度和简化计算的作用

卷积
基本原理:

卷积即是我们使用卷积核(一个二维矩阵)去按照一定步长和边距扫描(矩阵点乘)原始图像的像素矩阵，得到一个相对初始像素矩阵特征更清晰也更抽象的矩阵(也称为特征平面)的过程
但与BPNN的前后神经元全连接不同，CNN只是部分连接，由全局感知变为局部感知从而实现了降维的目的
个人理解：一般来说图像的像素矩阵在使用神经网络处理之前是先将原始的2维数据转换为1维的向量才方便计算，而卷积的作用就是在模型中逐渐把1维的向量变得立体起来，通过不同的卷积核将数据进行分块处理，比如在识别汽车时一个卷积核只识别反光镜，而另一个卷积核只识别轮胎等等

池化
基本原理：

又成为子采样，是特殊的卷积(相当于卷积核元素都是1的矩阵)，用于对卷积之后特征矩阵进行降维，一般有两种类型：
1 最大池化，即只取矩阵中元素的最大值
2 平均池化，即取矩阵中所有元素的平均值

还有结构概念，即经过一系列的卷积和池化作用后，得到的结果仍然是矩阵，我们就需要在最后的处理步骤通过一个结构转化为输出所需要的向量
除此之外还有误差反向传播的过程，要涉及池化层和卷积层的向上传播略微复杂在此就先不展开说明了

2. 建立多重卷积神经网络

封装权重和偏置量的初始化

# initialize weight
# use ReLU neuron, so initialize to small positive value to void 
# output forever 0
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

注解：

因为接下来要使用ReLU为神经元间的激活函数，所以初始值不能为0
tf.truncated_normal()表示输出来自截断正态分布(即限制变量x的取值范围的一种分布)的随机值，其中
- shape是1维整数张量，表示输出张量的大小
- stddev表示在截断前正态分布的标准偏移量
tf.constant()创建一个常量增量，第一个参数是张量中每个元素的初始值

封装卷积和池化

# Revolution and pooling, vanilla version
# Revolution
# stride size: 1
# padding size: 0
# Pooling
# 2 * 2 max pooling
def conv2d(x, W):
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
                         strides=[1, 2, 2, 1], padding='SAME')

注解：

使用Vanilla版本，即卷积步长为1，边距为0；池化使用基本的2x2矩阵做最大池化
tf.nn.conv2d()表示对给定的4维的输入和卷积核张量计算2维的卷积，其中，
- 四个维度分别表示[批数，高，宽，频道数]
- 第1、2个参数分别为输入和卷积核(即权重)
- strides参数为1个长为4的1维张量，表示在每个维度每次滑动的步长，即本例中每个维度的移动步长都是1
- padding参数表示当滑动时剩下的列数不够一次滑动时(例如设定滑动步长是2，但是总列数只有5列，就必然导致了最后一次滑动时只剩下一列)的处理方式，’SAME’表示不够的列以0填充，而’VALID’表示停止当前滑动并舍弃多余的列
tf.nn.max_pool()即对输入进行最大池化，其中，
- 第1个参数是输入
- ksize参数是有4个整形数值的列表或元组表示池化窗口的大小，而[1, 2, 2, 1]表示使用2x2的矩阵进行池化，批数和频道数都为1表示不对二者做池化
- strides和padding参数与tf.nn.conv2d()相同

进行第1次卷积

# 1st convolution
W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
x_image = tf.reshape(x, [-1, 28, 28, 1])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

注解：

W_conv1为5x5x1x32的权重张量作为第1层卷积核(各个维度我们可以理解为卷积核是5x5的矩阵，然后输入通道的数目为1(灰度图)，输出通道数目为32)，即每个5x5的卷积核会得到32个特征
b_conv1 为32组偏置值
x_image为[-1, 28, 28, 1]将原始的1维向量转换为28x28的矩阵，其中值得一提的是tf.reshape()中的第二个参数shape中当传入值-1时表示表示在该维度使用适应值(可以理解为可使每次变换大小都有效的值，比如1x4矩阵可以变换成2x2矩阵，但是不能变为2*3，若使用[4 -1]就自动变为4x1矩阵，此时-1变为1)，与placeholder中的None异曲同工
h_conv1为使用线性修正激活函数将从输入层提取的特征进行转化，得到的特征大小为[-1, 28, 28, 32]
h_pool1为将上个步骤得到的矩阵(特征平面)进行降维，得到[-1, 14, 14, 32]特征

第2层卷积

# 2nd convolution
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

因为过程类似，不再赘述

再卷积后得到的特征矩阵为[-1, 14, 14, 32]
再池化后得到的特征矩阵为[-1, 7, 7, 64]

密集连接层(即全连接层)

# Dense link layer
W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

注解：

由于经过两次卷积池化后，图片的大小已变为7x7，则下一层使用有1024个神经元的全连接层，使得便于处理整个图片(至于全连接层的神经元个数为什么取1024，暂时找不到相应的解释)
此外需要注意的是计算权重时使用了线性回归算法

dropout操作
原理：

为了减少模型的过拟合，在网络的训练过程中，按照一定的概率将神经网络单元暂时丢弃(为什么这样做能减少过拟合，请看)

# Add dropout
# to minus overfit
keep_prob = tf.placeholder('float')
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

注解：

首先使用1个占位符来表示1个神经单元的输出在dropout操作中能保持不变的概率，即不会被暂时舍弃
tf.nn.dropout()除了能屏蔽神经元的输出外，还能自动处理神经元输出值的单位

输出层

# Output layer
# add softmax layer
W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)

注解：
- 也就是上文提到的结构所起到的作用，将卷积的结果转换为所需的输出向量
- 此外需注意的是，本层的激励函数使用的softmax来计算特征属于某个标签的概率

3. 训练和评估

# Use more comlicated optimizer ADAM to perform gradientdescent
# add keep_prob argument into feed_list to contral size of dropout
cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, 'float'))

sess.run(tf.global_variables_initializer())

for i in range(20000):
    batch = mnist.train.next_batch(50)
    if i % 100 == 0:
        train_accuracy = accuracy.eval(feed_dict={
            x: batch[0], y_: batch[1], keep_prob: 1.0
        })
        print('step %d, training accuracy %g' % (i, train_accuracy))
    train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})

print('test accuracy %g' % accuracy.eval(feed_dict={
    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0
}))

注解：
- 本次训练使用的代价函数仍是交叉熵函数，但梯度下降算法变为ADAM(即随机梯度算法的扩展，具体请看)，模型评估指标仍使用准确率
- 使用每批50张图片的速度进行训练，并将dropout的参数keep_prob放入feed_list中一起进行传递
- 训练时使每次训练的dropout保留概率为0.5，此外每训练100次评估一下当前训练效果(keep_prob设置为1表示不舍弃保留全部神经元)
- 最后打印出的训练结果(略长完整版附在文章末尾)：

step 0, training accuracy 0.02
step 100, training accuracy 0.84
step 200, training accuracy 0.86
…
step 19700, training accuracy 1
step 19800, training accuracy 1
step 19900, training accuracy 1
test accuracy 0.9919

由此可见CNN模型最终得到的效果要好于简单的单层softmax模型，但不得不提的一点是训练过程很耗时。
另外通过观察完整训练过程后我们可以发现在训练14100次后模型效果才基本趋于稳定，因此要想模型效果好足够训练时间确是必不可少的。

参考博客：
0. TensorFlow中文社区MNIST进阶
1. 卷积神经网络CNN（一）基本概念、卷积
2. 卷积神经网络CNN（二）池化、结构、误差反向传播
3. 深入MNIST
4. 理解dropout
5. 深度学习最常用的学习算法：Adam优化算法

附表1

step 0, training accuracy 0.02
step 100, training accuracy 0.84
step 200, training accuracy 0.86
step 300, training accuracy 0.98
step 400, training accuracy 0.96
step 500, training accuracy 0.96
step 600, training accuracy 0.94
step 700, training accuracy 0.98
step 800, training accuracy 0.94
step 900, training accuracy 0.98
step 1000, training accuracy 0.94
step 1100, training accuracy 0.98
step 1200, training accuracy 1
step 1300, training accuracy 1
step 1400, training accuracy 0.98
step 1500, training accuracy 0.96
step 1600, training accuracy 1
step 1700, training accuracy 1
step 1800, training accuracy 1
step 1900, training accuracy 0.98
step 2000, training accuracy 0.92
step 2100, training accuracy 0.98
step 2200, training accuracy 0.98
step 2300, training accuracy 0.94
step 2400, training accuracy 0.98
step 2500, training accuracy 0.98
step 2600, training accuracy 0.98
step 2700, training accuracy 1
step 2800, training accuracy 0.98
step 2900, training accuracy 0.96
step 3000, training accuracy 0.98
step 3100, training accuracy 0.96
step 3200, training accuracy 1
step 3300, training accuracy 0.98
step 3400, training accuracy 0.98
step 3500, training accuracy 0.98
step 3600, training accuracy 1
step 3700, training accuracy 0.98
step 3800, training accuracy 1
step 3900, training accuracy 0.96
step 4000, training accuracy 0.98
step 4100, training accuracy 0.98
step 4200, training accuracy 0.98
step 4300, training accuracy 0.98
step 4400, training accuracy 1
step 4500, training accuracy 0.98
step 4600, training accuracy 1
step 4700, training accuracy 1
step 4800, training accuracy 1
step 4900, training accuracy 1
step 5000, training accuracy 0.98
step 5100, training accuracy 0.96
step 5200, training accuracy 1
step 5300, training accuracy 1
step 5400, training accuracy 1
step 5500, training accuracy 0.96
step 5600, training accuracy 1
step 5700, training accuracy 1
step 5800, training accuracy 1
step 5900, training accuracy 1
step 6000, training accuracy 1
step 6100, training accuracy 1
step 6200, training accuracy 0.96
step 6300, training accuracy 1
step 6400, training accuracy 0.98
step 6500, training accuracy 1
step 6600, training accuracy 1
step 6700, training accuracy 0.98
step 6800, training accuracy 1
step 6900, training accuracy 0.98
step 7000, training accuracy 0.98
step 7100, training accuracy 1
step 7200, training accuracy 1
step 7300, training accuracy 0.98
step 7400, training accuracy 1
step 7500, training accuracy 1
step 7600, training accuracy 0.98
step 7700, training accuracy 0.98
step 7800, training accuracy 0.98
step 7900, training accuracy 1
step 8000, training accuracy 1
step 8100, training accuracy 1
step 8200, training accuracy 1
step 8300, training accuracy 1
step 8400, training accuracy 0.98
step 8500, training accuracy 1
step 8600, training accuracy 1
step 8700, training accuracy 1
step 8800, training accuracy 0.98
step 8900, training accuracy 1
step 9000, training accuracy 1
step 9100, training accuracy 1
step 9200, training accuracy 1
step 9300, training accuracy 0.98
step 9400, training accuracy 1
step 9500, training accuracy 0.98
step 9600, training accuracy 0.98
step 9700, training accuracy 1
step 9800, training accuracy 1
step 9900, training accuracy 0.98
step 10000, training accuracy 1
step 10100, training accuracy 0.98
step 10200, training accuracy 1
step 10300, training accuracy 0.98
step 10400, training accuracy 1
step 10500, training accuracy 1
step 10600, training accuracy 1
step 10700, training accuracy 0.98
step 10800, training accuracy 1
step 10900, training accuracy 0.98
step 11000, training accuracy 1
step 11100, training accuracy 1
step 11200, training accuracy 1
step 11300, training accuracy 1
step 11400, training accuracy 1
step 11500, training accuracy 0.96
step 11600, training accuracy 1
step 11700, training accuracy 1
step 11800, training accuracy 1
step 11900, training accuracy 0.98
step 12000, training accuracy 1
step 12100, training accuracy 1
step 12200, training accuracy 1
step 12300, training accuracy 1
step 12400, training accuracy 1
step 12500, training accuracy 1
step 12600, training accuracy 1
step 12700, training accuracy 1
step 12800, training accuracy 0.96
step 12900, training accuracy 1
step 13000, training accuracy 1
step 13100, training accuracy 1
step 13200, training accuracy 1
step 13300, training accuracy 1
step 13400, training accuracy 1
step 13500, training accuracy 1
step 13600, training accuracy 1
step 13700, training accuracy 1
step 13800, training accuracy 1
step 13900, training accuracy 1
step 14000, training accuracy 0.98
step 14100, training accuracy 0.98
step 14200, training accuracy 1
step 14300, training accuracy 1
step 14400, training accuracy 1
step 14500, training accuracy 1
step 14600, training accuracy 1
step 14700, training accuracy 1
step 14800, training accuracy 1
step 14900, training accuracy 1
step 15000, training accuracy 1
step 15100, training accuracy 1
step 15200, training accuracy 1
step 15300, training accuracy 1
step 15400, training accuracy 1
step 15500, training accuracy 1
step 15600, training accuracy 1
step 15700, training accuracy 1
step 15800, training accuracy 1
step 15900, training accuracy 1
step 16000, training accuracy 1
step 16100, training accuracy 1
step 16200, training accuracy 1
step 16300, training accuracy 1
step 16400, training accuracy 1
step 16500, training accuracy 1
step 16600, training accuracy 1
step 16700, training accuracy 1
step 16800, training accuracy 1
step 16900, training accuracy 1
step 17000, training accuracy 1
step 17100, training accuracy 1
step 17200, training accuracy 1
step 17300, training accuracy 1
step 17400, training accuracy 1
step 17500, training accuracy 1
step 17600, training accuracy 1
step 17700, training accuracy 1
step 17800, training accuracy 1
step 17900, training accuracy 1
step 18000, training accuracy 0.98
step 18100, training accuracy 1
step 18200, training accuracy 1
step 18300, training accuracy 1
step 18400, training accuracy 1
step 18500, training accuracy 1
step 18600, training accuracy 1
step 18700, training accuracy 1
step 18800, training accuracy 1
step 18900, training accuracy 1
step 19000, training accuracy 1
step 19100, training accuracy 1
step 19200, training accuracy 1
step 19300, training accuracy 1
step 19400, training accuracy 1
step 19500, training accuracy 1
step 19600, training accuracy 1
step 19700, training accuracy 1
step 19800, training accuracy 1
step 19900, training accuracy 1
test accuracy 0.9919

Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架 Python进阶者中间件 python web http docker
点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤借问酒家何处有，牧童遥指杏花村。0前言前几天给大家分别分享了（入门篇）简析Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架和（进阶篇）Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架。今天欢迎大家来
【Python报错】成功解决error: subprocess-exited-with-error：安装lxml模块不再报错云天徽上 python运行报错解决记录 python 开发语言 lxml
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
揭秘互联网大数据求职面试：从Zookeeper到数据挖掘小葛呀大数据面试宝典互联网大数据 Zookeeper Yarn Redis Kafka HDFS
场景：互联网大数据求职者面试角色介绍：面试官老黑:严肃而专业，技术深入，擅长引导候选人展示自己。程序员小白:搞笑且略显紧张，对基础问题能应付自如，但面对复杂问题时经常词穷。第一轮提问：老黑:"小白，你对Zookeeper的理解是什么？它在分布式系统中扮演什么角色？"小白:"Zookeeper...是个协调者，负责管理配置和同步数据...就像一个团队的协调员，确保每个节点都知道该做什么。"老黑:"没
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？量化价值投资入门到精通数据挖掘人工智能 ai
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？关键词：另类数据、网络搜索数据、业绩预测、文本挖掘、机器学习、量化投资、自然语言处理摘要：本文探讨了如何利用网络搜索数据这一另类数据源来预测上市公司业绩。我们将从理论基础出发，详细分析搜索数据与公司业绩之间的关联机制，介绍完整的数据采集、处理和分析流程，并通过实际案例展示如何构建预测模型。文章还将讨论该方法的局限性、实际应用场景以及未来发展方向，为
解锁数据宝藏：数据挖掘之数据预处理全解析奔跑吧邓邓子必备核心技能数据挖掘数据预处理机器学习
目录一、引言：数据预处理——数据挖掘的基石二、数据预处理的重要性2.1现实数据的问题剖析2.2数据预处理的关键作用三、数据预处理的核心方法3.1数据清洗3.1.1缺失值处理3.1.2离群点处理3.1.3噪声处理3.2数据集成3.2.1实体识别3.2.2冗余处理3.2.3数据值冲突处理3.3数据变换3.3.1平滑处理3.3.2聚合操作3.3.3离散化3.3.4归一化四、数据预处理的实践流程4.1数据
数据挖掘助力AI人工智能提升竞争力 AI大模型应用工坊人工智能数据挖掘 ai
数据挖掘助力AI人工智能提升竞争力关键词：数据挖掘、AI人工智能、竞争力提升、数据处理、算法应用摘要：本文深入探讨了数据挖掘如何助力AI人工智能提升竞争力。首先介绍了数据挖掘与AI的背景知识，包括目的、预期读者、文档结构和相关术语。接着阐述了数据挖掘和AI的核心概念及联系，详细讲解了核心算法原理和具体操作步骤，并辅以Python代码。随后分析了相关的数学模型和公式，通过具体例子加深理解。在项目实战
NLPIR智能语义：大数据精准挖掘是信息化发展趋势 weixin_33778544 大数据数据库人工智能
随着信息技术的高速发展、数据库管理系统的广泛应用，人们积累的数据量急剧增长，大量的信息给人们带来方便的同时，也带来了诸如：信息过量难以消化，信息真假难以辨识，信息安全难以保证，信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。数据挖掘就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其
KNN算法数字识别实战：训练集、测试集与代码实现 Aurora曙光
本文还有配套的精品资源，点击获取简介：KNN算法，作为一种经典的监督学习方法，特别适用于分类和回归问题，在模式识别和数据挖掘中应用广泛。本文通过构建数字识别任务的训练集和测试集，并提供完整的代码实现，向读者展示如何使用KNN算法进行数字识别。文章详细解释了K值选择、数据预处理、距离计算、最近邻选择、类别决定以及模型评估等关键步骤，并强调了KNN在大数据集中的效率问题。1.KNN算法概述与在数字识别
解锁决策树：数据挖掘的智慧引擎
目录一、决策树：数据挖掘的基石二、决策树原理剖析2.1决策树的基本结构2.2决策树的构建流程2.2.1特征选择2.2.2数据集划分2.2.3递归构建三、决策树的实践应用3.1数据准备3.2模型构建与训练3.3模型评估四、决策树的优化策略4.1剪枝策略4.1.1预剪枝4.1.2后剪枝4.2集成学习五、案例分析5.1医疗诊断案例5.2金融风险评估案例六、总结与展望一、决策树：数据挖掘的基石在当今数字化
Python爬虫实战：研究concurrent.futures相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 php mr
一、引言1.1研究背景与意义随着互联网的迅速发展，网络上的信息量呈爆炸式增长。网络爬虫作为一种自动获取网页内容的技术，在搜索引擎、数据挖掘、舆情分析等领域有着广泛的应用。然而，面对海量的网页资源，传统的单线程爬虫效率低下，无法满足实际需求。因此，开发高效的并发爬虫系统具有重要的现实意义。1.2国内外研究现状国外在网络爬虫领域的研究起步较早，技术相对成熟。例如，Google的爬虫系统能够在短时间内抓
Python爬虫实战：研究threading相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html scrapy
1.引言1.1研究背景与意义随着互联网的快速发展，网页数据量呈爆炸式增长。网络爬虫作为一种自动获取网页内容的工具，在搜索引擎优化、数据挖掘、舆情分析等领域具有广泛应用。传统的单线程爬虫在面对大规模数据采集任务时效率低下，无法充分利用多核CPU资源。多线程技术可以显著提高爬虫的并发处理能力，加快数据采集速度。1.2国内外研究现状国外在网络爬虫领域起步较早，Google、Bing等搜索引擎公司拥有大规
如何运用 AI 工具运营海外社媒账号引量AI 人工智能大数据海外社媒 tiktok矩阵矩阵
在全球化与数字化深度融合的当下，海外社交媒体成为企业拓展国际市场、塑造品牌形象的关键平台。借助AI工具能显著提升海外社媒账号运营效率与效果，特别是在构建和运营TikTok矩阵等方面，AI的赋能作用不容小觑。下面我们就来详细探讨如何应用AI工具运营海外社媒账号。一、借助AI进行精准市场分析与账号定位剖析海外市场需求AI工具凭借强大的数据挖掘和分析能力，可深入剖析海外不同地区、不同文化背景下用户的兴趣
微博商业数据挖掘方法社会我857 程序员杂志-大数据技术深度实践
本文主要介绍微博商业数据挖掘的体系及方法，但并不注重模型和算法这些细节，而是阐述数据如何贴近、支持和引导业务，如何建立合理的评价体系，以及如何围绕这两点建设数据挖掘架构。业务及产品微博广告生态的复杂程度在业界数一数二。由于微博本身的开放性，微博广告客户天生就有如下多样性：类型电商类型：投放方式大多比较传统，投放目标主要是注册或购买；App类型：投放目标主要是App下载或者用户唤醒；O2O：投放目标
【数据挖掘】期末复习模拟题（暨考试题） chaser&upper 数据分析随笔小记数据挖掘 python 聚类
数据挖掘-期末复习试题挑战全网最全题库单选题多选题判断题填空题程序填空sigmoid曼哈顿距离泰坦尼克号披萨价格预测鸢尾花DBSCN密度聚类决策树购物表单-关联规则火龙果-关联分析数据非线性映射高斯朴素贝叶斯分类器手写数字识别k1-10聚类平均偏差程序分析PM2.5线性回归Titanic数据清洗KNN鸢尾花Kmeans聚类KNN电影分类频繁k项集混淆矩阵OverlookMOOC总结挑战全网最全题库
Turkey HSD检验法/W法 weixin_30746117 python r语言 matlab
sklearn实战-乳腺癌细胞数据挖掘（博主亲自录视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share医药统计项目联系QQ：231469242python2.7#-*-cod
python中Scikit-learn模块介绍不会仰游的河马君 python python scikit-learn 开发语言
Scikit-learn是Python中一个开源的机器学习库，它提供了简单高效的工具，用于数据挖掘和数据分析。该库包含了各种分类、回归、聚类算法，以及数据预处理、模型选择、模型评估等功能。Scikit-learn的特点是接口统一、使用简单、运行高效，并且有一个活跃的社区不断维护和更新。它广泛应用于数据科学、机器学习、人工智能等领域。应用和发展趋势Scikit-learn在机器学习和数据科学领域的应
Python爬虫实战：模拟登录微博 – 通过POST请求获取Cookie Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium beautifulsoup
1.引言在现代的互联网应用中，爬虫技术作为数据收集的重要手段，广泛应用于社交媒体、电商平台、新闻网站等各种领域。社交媒体平台，特别是微博，作为中国最受欢迎的社交网站之一，聚集了海量的用户数据和内容。通过爬取微博数据，开发者可以获取到大量的用户信息、热门话题、微博动态等数据，对分析社交趋势、舆情监测、数据挖掘等具有重要意义。在这篇博客中，我们将通过模拟登录微博的方式，爬取需要登录后才能访问的微博数据
数据挖掘与机器学习期末复习整理无敌摸鱼高手数据挖掘与机器学习数据挖掘机器学习人工智能期末复习知识总结
1.分类：–有类别标记信息,因此是一种监督学习–根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。2.聚类：–无类别标记,因此是一种无监督学习–无类别标记样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系3.聚类方法：划分方法-（分割类型）K-均值K-Means顺序领导者方法基于模型的方法
简历模板1——王明 | 高级数据挖掘工程师 | 5年经验 XiaoQiong.Zhang 数据挖掘人工智能
王明|高级数据挖掘工程师|5年经验(+86)189-xxxx-xxxx|[email protected]|深圳市GitHub|LinkedIn工作经历科技前沿集团|高级数据挖掘工程师2021.06-至今核心贡献：主导建立公司AI中台，整合10+业务线数据资源，支撑日均5亿+数据处理研发自适应特征工程框架，特征生成效率提升3倍，减少人工特征工程工作量70%设计模型健康监测系统，关键业务模型异常响
线性代数导引：附录：行列式几何解释 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍线性代数是数学中的一个重要分支，它研究的是向量空间和线性变换。在计算机科学中，线性代数被广泛应用于图形学、机器学习、数据挖掘等领域。行列式是线性代数中的一个重要概念，它可以用来求解线性方程组的解、计算矩阵的逆、判断矩阵是否可逆等问题。本文将介绍行列式的几何解释，帮助读者更好地理解行列式的概念和应用。2.核心概念与联系2.1向量的叉积向量的叉积是指两个向量的乘积得到的另一个向量。设向量$
爬虫技术：数据挖掘的深度探索与实践应用代码老y 爬虫数据挖掘人工智能 python
一、爬虫技术的深度应用爬虫技术的应用范围非常广泛，从简单的网页数据抓取到复杂的多源数据整合，爬虫技术都能发挥重要作用。以下是一些常见的深度应用场景：（一）多源数据整合在许多情况下，单一数据源往往无法满足我们的需求。例如，在进行市场研究时，可能需要从多个电商平台、社交媒体平台和新闻网站获取数据。爬虫技术可以同时从多个数据源抓取数据，并将这些数据进行整合和分析，从而提供更全面的市场洞察。（二）数据实时
mysql查询每种产品的销售总额_MDX示例：统计各产品每个季度的销售排名爱喝冰红茶
ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4销售额排名销售额排名销售额排名销售额排名产品130002200035000140ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4
AI人工智能领域的智能社交影响力分析 AI算力网络与通信人工智能 ai
AI人工智能领域的智能社交影响力分析关键词：智能社交影响力分析、AI算法、社交网络、用户行为建模、影响力传播、数据挖掘、社交平台摘要：本文从社交网络的“意见领袖”现象出发，结合AI技术揭秘智能社交影响力分析的核心逻辑。通过生活类比、技术原理解析、代码实战和应用场景说明，系统讲解如何用AI识别社交网络中的关键节点、预测信息传播路径，并探讨其在营销、舆情、内容推荐等领域的价值。无论你是想精准投放广告的
基于大数据的数据挖掘、数据中台、数据安全架构设计方案：核心技术与架构、大数据平台与数据管理、建模平台与数据治理、应用案例与优势公众号：优享智库数字化转型数据治理主数据数据仓库大数据数据挖掘架构
本文介绍了基于大数据的数据挖掘、数据中台、数据安全架构设计方案，涵盖了从技术架构到功能应用的全方位内容。核心技术与架构IT环境融合：构建了包含网关、云端、终端、物联网、反病毒技术、PC、核心层、物理机、IOT终端、基于操作系统的文件识别、反黑客技术、大数据技术、移动、汇聚层、虚拟化、工业控制系统、基于网络的协议解析、基于大数据的数据挖掘、信创、接入层、云/容器、工业互联网、身份安全技术、基于密码的
【2025年8月全国各地学术会议推荐】计算机科学、虚拟现实、图像信号、计算建模、人工智能、物联网、云计算技术、机械自动化、自然语言处理、互联网金融、算法、信息安全、数据挖掘、仿真建模等主题可选！...
组团投稿会更加优惠（2篇即开团，享受团购价）会议名称会议时间地点第19届复合医学工程国际会议（CME2025）2025年8月1-3日兰州第五届计算机科学与区块链国际学术会议（CCSB2025）2025年8月1-3日深圳第二届虚拟现实、图像和信号处理国际学术会议（VRISP2025）2025年8月1-3日长沙第二届计算建模与应用数学国际学术会议（CMAM2025）2025年8月1-3日南京第二届可持
【数据挖掘】动态正则格兰杰因果学习方法 hans汉斯论文荐读数据挖掘学习方法人工智能大数据 python 算法动态规划
导读在医学和金融学等实际领域中，了解动态系统中的底层结构关系对于调节系统中的变量和预测系统未来状态至关重要。系统的动态变化会生成时间序列数据，通过观察时间序列数据可以分析系统的底层结构。格兰杰因果关系分析方法可以应用于一维或多维时间序列系统，现有的方法以组件式的建模方式分析每个系统变量特定的因果关系，受限于时间方向的强假设性和组件模型的单一性，其无法准确地挖掘出时间序列中的因果关系结构。本文提出了
大数据、数据挖掘技术收集（Vivo互联网技术） XiaoQiong.Zhang 数据挖掘大数据
Hudi在vivo湖仓一体的落地实践用户行为分析模型实践（四）——留存分析模型用户行为分析模型实践（三）——H5通用分析模型用户行为分析模型实践（二）——漏斗分析模型用户行为分析模型实践（一）——路径分析模型AB实验遇到用户不均匀怎么办？——vivo游戏中心业务实践经验分享HBaseCompaction原理与线上调优实践vivo游戏黑产反作弊实践Kafka实时数据即席查询应用与实践Hive和Spa
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

深度学习·TensorFlow实现CNNs处理MNIST数据集

1. CNNs基本原理

2. 建立多重卷积神经网络

3. 训练和评估

你可能感兴趣的:(数据挖掘)