joker-smart

python实现梯度下降优化算法

友情链接

结合numpy及mnist库的简单神经网络演练
用numpy构造多种损失函数
使用Numpy实现简单二层神经网络
实现二层神经网络反向传播

文章目录

友情链接
前言
正文

SGD

算法基础

优点
缺点

简单实现

momentum

算法基础

优点
缺点

简单实现

AdamGrad

算法基础

优点

缺点
简单实现

RMSProp

算法基础

优点
缺点

简单实现

Adam

算法基础

优点

实现

实践证明

总结

前言

在前面的博客中，我们已经能够基本完成一个简单神经网络的编写，通过使用反向传播的方式来有效地提高了计算速率。而前面构造的简单神经网络除了使用最普通的SGD外，像mini-batch一样对梯度下降法优化的方案非常多，并且这样的优化基本是基于SGD方式，因此一次迭代更新所需要的时间就会比BGD要大幅度短得多。
但是稍微了解SGD（随机梯度下降法）的都会知道，SGD虽然能够减小时间成本，但是随机性较大，落到局部最优点之前会出现震荡现象，因此就出现了本节要复习的多种优化方案。

正文

SGD

算法基础

在介绍其他方法之前，显然打好基础是非常的重要，SGD是由于BGD以及mini-batch消耗资源巨大的基础上提出的，对比前两者，其算法基础是根据某一点（或者说某一条训练数据）的梯度来更新权重参数的值，通过这样一条一条的进行梯度下降，最终到达局部最优点。
$x_t=x_{t-1}-η\frac{αL}{αW}$

优点

（1）相比较于BGD与mini-batch，其训练数据时少了很多冗余重复的计算，速度更快
（2）不想SGD那样相对固定，可以灵活的向数据集中添加样本，而不必重新训练所有数据集

缺点

（1）由于每条数据求出的梯度并不是严格遵循最优梯度下降方向，因此精确度变低，需要迭代更多次
（2）损失会出现大的颠簸，不会迅速向最优值收敛

简单实现

传入两个参数params以及grads，分别对应权重参数集以及权重参数的梯度矩阵

    @classmethod
    # 随机梯度下降方法, 为固定参数方法，不做任何多余处理，通过对每个点的损失求参数梯度
    # 更新权重参数，直至达到局部最优
    def sgd(cls, params, grads, lr=0.01):
        for key in params.keys():
            params[key] -= lr * grads[key]

momentum

算法基础

momentum是结合动量定理来理解，由于震荡时的拐弯过于尖锐，所以如果模拟从高处向低处s型运动时，梯度如同加速度，而速度则是上一秒的速度减去这一秒的平均加速度，也就是说前面的梯度对后续梯度下降会产生一定的影响，这正是算法优化的最基本思想。而小球不会拐直角的原因主要由于摩擦阻力对小球的影响，让其有一定弧度的绕回。
$v_t=av_{t-1}-η\frac{αL}{αW}$
$x_t = x_{t-1}+v_t$
其中参数a可以理解为摩擦阻力系数，因为摩擦阻力一般与v成正比，（1-a）v_{t-1}即可以理解为摩擦阻力这一秒抵消掉的速度。

优点

（1）由于这种方式对于梯度方向不变的维度速度不断加快，而对于梯度方向变化的维度则起着一定的抑制作用，有效的抑制了震荡

缺点

（1）如同小球滚动一般，如果到达最低点的速度还没有减为0，则会上坡一段距离再返回，因此就会形成在最小值点来回震荡的现象

简单实现

    @classmethod
    # 动量方式优化SGD，通过加入一个超参数，模拟存在摩擦系数或者空气阻力的情况
    # 不断削减损失值，减小SGD震荡程度
    def momentum(cls, params, grads, lr=0.01, momentum=0.9):
        if len(cls.momentum_v) == 0: 
	        for key, val in params.items():
	            cls.momentum_v[key] = np.zeros_like(val)
        for key in params.keys():
            cls.momentum_v[key] = momentum * cls.momentum_v[key] - lr * grads[key]
            params[key] += v[key]

AdamGrad

算法基础

全称Adaptive gradient algorithm，这是一种自适应学习率的算法，有时候我们就是希望在开始时步长可以大一些，而后续我们可以缩减学习步长，让其逐渐逼近局部最小值点。因此我们采用梯度平方和累加的方式，通过不断累加梯度的方式不断减小学习率，最终合理的达到局部最优解。
$h_t=h_{t-1}+\frac{αL}{αW}*\frac{αL}{αW}$
$x_t=x_{t-1}-η\frac{1}{\sqrt{h_t}+ε}\frac{αL}{αW}$

优点

（1）其动态调节学习率η的方式值得深思采纳
（2）对于大多数情况能够实现快速收敛

缺点

（1）经过不断迭代，学习率会达到非常小的情况，最后几乎停止更新
（2）学习率不断减小容易陷入局部最小值而跳不出来，显得有些强制收敛的意思

简单实现

    @classmethod
    # AdaGrad（Adaptive Gradient Algorithm）这种方式采用衰减学习率的方式来不断减小学习率
    # 从而使得在接近最小值点是不会发生偏离震荡，对于低频的参数会进行较大的更新，实现了学习率的自动更新
    # 缺点是最终学习率会陷入停滞状态
    def adaGrad(cls, params, grads, lr=0.01):
        if len(cls.adagrad_h) == 0:
	        for key, val in params.items():
	            cls.adagrad_h[key] = np.zeros_like(val)
        for key in params.keys():
            cls.adagrad_h[key] += grads[key] * grads[key]
            params[key] -= lr * grads[key] / (np.sqrt(cls.adagrad_h[key]) + 1e-7)

RMSProp

算法基础

这种方法正是为了解决学习率急剧下降的问题，是对于AdamGrad的优化算法。其主要思想采用的是指数加权平均的思想，通过制定参数β，来平均1/(1-β)个近来梯度，通过对指数的不断乘方，使得前面传来的梯度影响不断减小，最终忽略，而不至于出现学习率快速递减的现象。

如上的例子，当β=0.9时，（0.9）¹¹ ≈ 0.3，几乎减小到可以忽略的地步，这样就相当于对前面10项进行加权平均的得数，指数加权平均得名因此而来。

$h_t=β·h_{t-1}+（1-β）·\frac{αL}{αW}*\frac{αL}{αW}$
$x_t=x_{t-1}-η\frac{1}{\sqrt{h_t}+ε}\frac{αL}{αW}$

优点

（1）与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。
（2）允许使用一个更大的学习率η来开始一开始的迭代，从而加快逼近局部最小值。

缺点

（1）在实际使用中似乎存在着一定的问题，对于β的参数设定较为难以考察

简单实现

    @classmethod
    # 为了克服AdaGrad最终学习率陷入停滞状态，因此出现了AdaGrad的优化算法
    # 使用了指数加权平均的方式，减小前面权重的同时对当前权重进行累加，防止出现学习率急剧衰减的情况
    def rmsProp(cls, params, grads, lr=0.01, b=0.9):
        if len(cls.rms_h) == 0:
	        for key, val in params.items():
	            cls.rms_h[key] = np.zeros_like(val)
        for key in params.keys():
            cls.rms_h[key] = b * cls.rms_h[key] + (1.0 - b) * (grads[key]*grads[key])
            params[key] -= lr * grads[key] / (np.sqrt(cls.rms_h[key]) + 1e-7)

Adam

算法基础

Adam可以说是Momentum以及RMSProp的结合算法，同时设定两个可调参数β₁以及β₂，既保存了梯度平均，又保存了梯度平方和平均，下降过程中保持较稳定的趋势，并且损失下降速度也比SGD要快了很多。

$v_t=β_1v_{t-1}+(1-β_1)\frac{αL}{αW}$
$h_t = β_2h_{t-1}+(1-β_2)(\frac{αL}{αW})^2$
$X_t = X_{t-1}-η\frac{v_t}{\sqrt{h_t^2}+ε}$

优点

（1）属于算法优化方法，损失下降速度较快，效果较好
（2）对于多数深度学习算法有着非常好的效果

实现

    @classmethod
    # 该方法相当于Momentum与RMSProp算法，同时使用了动量方式以及指数加权平均
    # 该方法既减缓震荡又能动态调整学习率，多种神经网络算法都使用此方式
    def adam(cls, params, grads, lr=0.01, b1=0.9, b2=0.99):
        if len(cls.adam_h)==0 or len(cls.adam_v) == 0:
	        for key, val in params.items():
	            cls.adam_h[key] = np.zeros_like(val)
	            cls.adam_v[key] = np.zeros_like(val)
        for key in params.keys():
            # 包含了一步偏差校正
            cls.adam_v[key] = (b1 * cls.adam_v[key] + (1.0 - b1) * grads[key])
            cls.adam_h[key] = (b2 * cls.adam_h[key] + (1.0 - b2) * (grads[key]*grads[key]))
            params[key] -= lr * cls.adam_v[key] / (np.sqrt(cls.adam_h[key]) + 1e-7)

实践证明

分析完了理论，当然需要通过实践来分析一下各个梯度下降算法的迭代效果，因此还是使用熟悉的mnist数据来对我们前面博客的反向传播二层神经网络进行迭代：
我们实践中依然比较推荐使用mini-batch来选择一批数据来进行训练，因为对于神经网络来说，如果每次只是放入一条数据，那么可能权重更改会非常小，甚至超出了float保存的最大范围，就无法更改权重，即无法进行训练。（这里没有加入rmsProp）

	# 迭代次数
    iter_num = 2000
    # 初始学习率
    lr = 0.01
    # mini-batch抽取数据量
    batch_size = 200

    (X_train, Y_train), (X_test, Y_test) = load_mnist(one_hot_label=True)
    epoch = max(X_train.shape[0] / batch_size, 1)
    m = 1
    methods= {"sgd": ["o", 'r'], "momentum": ["d", "b"], "adaGrad": ["x", "y"],  "adam": ["s", "black"]}
	# 使用mnist数据测试下降能力

    fig = plt.figure(111)
    for name, val in methods.items():
        loss_history = []
        # 每次使用一种梯度下降前创建一个新的神经网络，重新进行训练
        network = TwoLayer(input_layer_size=784, hidden_layer_size=100, output_layer_size=10)
        for i in range(iter_num):
            x_batch_num = np.random.choice(X_train.shape[0], batch_size)
            x_batch = X_train[x_batch_num]
            y_batch = Y_train[x_batch_num]
            # 获取神经网络梯度
            grads = network.gradient(x_batch, y_batch)
            # 反射方式调用相关梯度下降函数
            getattr(GradientMethod, name)(network.params, grads)
            loss_history.append(network.last_layer.loss)
			# 每隔一定时间输出一下训练准确率
            if (i+1)%epoch == 0:
                print("iter_time: "+str(i+1)+" methods: "+name+" current loss:"+str(loss_history[i])+\
                      " accuracy:"+str(network.get_accuracy(X_test, Y_test)))
           	print("iter_time: " + str(2000) + " methods: " + name + " current loss:" + str(loss_history[i]) + \
              " accuracy:" + str(network.get_accuracy(X_test, Y_test)))
        plt.plot(np.arange(len(loss_history)), loss_history, c=val[1])
    plt.legend([name for name in methods.keys()])
    plt.show()

打印出的不同梯度下降的测试集准确率统计如下（只展示最终结果）：


iter_time: 2000 methods: sgd current loss:0.480851670890771 accuracy:0.8736

iter_time: 2000 methods: momentum current loss:0.48494613357437694 accuracy:0.8713

iter_time: 2000 methods: adaGrad current loss:0.45390115929663927 accuracy:0.9628

iter_time: 2000 methods: adam current loss:0.2246958390517225 accuracy:0.9242

以及相应的损失波动图：

总结

通过简单测试我们可以了解这几种梯度下降算法的特点
（1）BGD与Momentum的loss下降趋势基本一致，momentum主要是对BGD震荡的优化，从图中基本可以看出loss的波动momentum要比BGD小一些
（2）AdaGrad对于少量数据的训练时，开始的下降速度非常快，但是后期由于学习率减小较快，因此损失基本不再减小，波动也比较大；但是从准确率来看，AdaGrad的预测准确率确实最高的，这说明对于少量迭代，其效率远超其他算法。（不过如果将迭代次数从2000到达20000，AdaGrad将不占优势）
（3）Adam方式显然相比于BGD和Momentum要快得多，并且随着迭代进行，其损失的波动也越来越小，并且准确率也较高，并且随着迭代次数的增大，其准确率保持持续提升的能力较强，因此深度学习中Adam可以说优于其他算法。

你可能感兴趣的:(大数据分析)

python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
2022-04-17 图灵基因
NatBiotech|组织中单细胞转录组的空间图谱原创图灵基因图灵基因2022-04-1707:03收录于话题#前沿生物大数据分析单细胞RNA测序（scRNA-seq）已经彻底改变了单细胞水平上的基因表达研究。最近，空间技术通过添加空间信息将转录组学提升到了一个新的水平。但是，它缺乏单细胞分辨率。现在，来自德克萨斯大学MD安德森癌症中心的一个小组开发了一种名为CellTrek的计算方法，将这两个数
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
Python在金融大数据分析中的AI应用实战田野猫咪 python 金融数据分析
随着人工智能时代的到来，Python作为一种功能强大的编程语言，在金融领域的大数据分析中扮演着日益重要的角色。本文将探讨Python在金融领域的应用，重点介绍其在大数据分析方面的实际应用案例，涉及股票市场分析、投资组合优化、风险管理等方面，并提供相关的代码示例。引言随着金融市场数据规模的不断增长，金融机构和投资者们越来越依赖于大数据分析和人工智能技术来做出更准确、更智能的决策。Python作为一种
2021-10-15 图灵基因
Science|三篇背对背Science论文揭示肿瘤蛋白质相互作用图谱原创图灵基因图灵基因今天收录于话题#前沿生物大数据分析与科学界的许多其他成员一样，NevanKrogan博士去年将他的加州大学旧金山分校（UCSF）实验室转为研究COVID-19。结果是《Nature》杂志发表了一篇引人注目的文章，描述了SARS-CoV-2如何在感染过程中劫持和重新连接宿主。这一发现在很大程度上依赖于实验室最擅
Python基础（十二）：字典的详细讲解 m0_60707685 程序员 python 学习面试
感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：①2000多本Python电子书（主流和经典的书籍应该都有了）②Python标准库资料（最全中文版）③项目源码（四五十个有趣且经典的练手项目及源码）④Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）⑤Python学习路线图（告别不入流的学习）网上学习资料一大堆，但如果学到的知识不成体系，遇到问题
【区块链 + 物联网】可信保密的海洋大数据分析平台 | FISCO BCOS应用案例 FISCO_BCOS 2023FISCO BCOS产业应用发展报告区块链物联网
海洋大数据蕴含着难以估量的巨大价值，可为气候、航海、生态、灾害等领域提供科学依据，是实施海洋强国战略、拉动海洋经济、打造海洋文化的重要基础。但是海洋大数据来源广泛，包括各个海洋检测站点、船只等不同主体，在进行统计分析、建模预测等多个使用环节时，需要融合多个机构的数据才能达到更精准更有参考价值的结果。在此背景下，广电运通公司联合上海海洋大学、微众银行，基于FISCOBCOS区块链技术以及和安全多方计
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
基于Echarts+HTML5可视化数据大屏展示—新能源车联网综合大数据平台_新能源汽车大数据分析网站代码 2401_84181070 程序员 echarts html5 大数据
主要代码实现：主页HTML布局：新能源车联网综合大数据平台实时统计<divclass="info-text
浙江省某市监局 API 敏感数据保护与全链路数据安全管控实践原点安全数据安全
背景随着政务服务数字化转型的加速，政府信息化建设、大数据分析应用以及智慧监管建设等现代化、智能化转型持续推进，新的数据安全风险也暗藏其中。为加强公共数据安全体系建设，提升数据安全主动防御能力、监测预警能力、应急处置能力、协同治理能力，切实防范公共数据篡改、泄露、滥用。2023年，浙江省市网信办联合机要保密局、大数据局联合发布《政务信息系统安全自查对照表》，要求各部门开展数据安全自检自查工作。N市市
EI会议推荐-第二届大数据与数据挖掘国际会议（BDDM 2024） shiyuankeyan 数据挖掘大数据
第二届大数据与数据挖掘国际会议（BDDM2024）1、基本信息大会官网：http://www.icbddm.org/官方邮箱：[email protected]主办方：武汉纺织大学会议时间：2024年12月13日-12月15日会议地点：湖北武汉02征稿主题：包含（但不限于）以下领域：大数据：大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对点搜索、基于大数据的机器学习、大数据可视化
2023年哪些副业兼职受青睐？氧惠佣金真的高
近日，专业兼职招聘平台兼职猫发布的一份疫情期间兼职用户研究报告显示，受疫情影响，用户对于兼职的需求整体在向线上偏移。而拥有“一技旁身”的职场人士，如老师、设计师、编辑等会更容易找到待遇更优的兼职岗位。据介绍，该报告数据来源通过兼职猫用户大数据分析及10万份用户调研问卷获得。据统计，疫情期间新注册用户年龄以22岁以下为主，占平台总用户的68%，其中18岁以下未成年人突增，占据平台用户的30.9%；从
人工智能在现代科技中的应用和未来发展趋势。爱掉发的小龙人工智能 git
人工智能（AI）已经成为现代科技中的一个核心领域，广泛应用于各行各业，并且未来发展潜力巨大。以下是人工智能在现代科技中的主要应用以及未来的发展趋势。一、人工智能的应用领域医疗保健：疾病诊断：AI可以分析医学影像、基因数据等，帮助医生更快速地诊断疾病，如癌症筛查和心脏病预测。药物研发：通过模拟和大数据分析，AI加速了新药研发过程，缩短了药物上市时间。个性化治疗：AI能够根据患者的个人数据，推荐最适合
商业分析能力是怎样炼成的？ R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。作者：接地气的陈老师链接：https://www.zhihu.com/question/
Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2) 2401_84139095 程序员 python 开发语言
感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：①2000多本Python电子书（主流和经典的书籍应该都有了）②Python标准库资料（最全中文版）③项目源码（四五十个有趣且经典的练手项目及源码）④Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）⑤Python学习路线图（告别不入流的学习）网上学习资料一大堆，但如果学到的知识不成体系，遇到问题
疫情3年你还好吗 011551462e4f
谁也不会想到，21世纪的今天，能有被禁足3年，不能随性旅游、随性就餐、随性交往的漫长的3年，一个初中、高中阶段，也就3年，大学才4年，3年的网课，剩一年实习、找工作……大数据分析结论：疫情后抑郁、焦虑的人，较之前大幅增加，年轻人考公、考研的比例越来越高，为什么？见过世人疫情下的艰难生活，就知道了：只有公务员的工作，疫情禁足在家依旧工资照发，不用单位倒闭和被炒、降薪……毕业生就业压力山大，考研自然是
Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression) 猫猫姐 Spark 实战回归 spark-ml 线性回归 spark
SparkMLlib模型训练—回归算法GLR(GeneralizedLinearRegression)在大数据分析中，线性回归虽然常用，但在许多实际场景中，目标变量和特征之间的关系并非线性，这时广义线性回归（GeneralizedLinearRegression,GLR）便应运而生。GLR是线性回归的扩展，能够处理非正态分布的目标变量，广泛用于分类、回归以及其他统计建模任务。本文将深入探讨Spar
综合治税的发展前景 alankuo 人工智能人工智能
综合治税的发展前景较为广阔，主要体现在以下几个方面：-技术应用持续深化：-大数据与人工智能助力精准治税：随着大数据技术的不断发展，税务部门能够整合来自多部门、多渠道的海量数据，包括企业的财务数据、交易数据、银行流水等，通过对这些数据的深度分析和挖掘，可以精准识别税收风险点和潜在的偷逃税行为。例如，利用大数据分析企业的销售数据与申报纳税数据的匹配度，发现异常及时预警和查处。人工智能技术则可以辅助税务
【华为OD】2024D卷——精准核酸检测简单.is.good Python解应用题华为od python
题目描述：为了达到新冠疫情精准防控的需要，为了避免全员核酸检测带来的浪费，需要精准圈定可能被感染的人群。现在根据传染病流调以及大数据分析，得到了每个人之间在时间、空间上是否存在轨迹的交叉。现在给定一组确诊人员编号（X1，X2，X3....Xn），在所有人当中，找出哪些人需要进行核酸检测，输出需要进行核酸检测的人数。（注意：确诊病例自身不需要再做核酸检测）需要进行核酸检测的人，是病毒传播链条上的所有
基于hadoop+spark的旅游大数据分析平台源码空间站11 hadoop spark 旅游
S2023132基于hadoop+spark的旅游大数据分析平台使用BeautifulSoup爬取数据，爬取成功以后使用spark分析数据，将分析的结果保存到mysql，flask读取mysql数据，结合echarts制作可视化大屏
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
基于Spark的云南旅游大数据分析平台 Sweican 毕业设计 spark 大数据分布式
一、项目概述Hi，大家好，今天分享的项目是《基于Spark的云南旅游大数据分析平台》。随着旅游业的发展和数字化进程的加速，智慧旅游已成为旅游业的重要发展方向。智慧旅游大数据平台的建设，能够为旅游业提供更加高效、智能的数据处理和分析能力，帮助旅游企业更好地了解市场需求、优化资源配置。平台将互联网采集的有关云南旅游信息的数据，结合Spark对数据进行过滤分析和可视化，最终实现了一个对云南旅游数据进行分
大数据分析与大数据开发两者的区别是怎样的? 泰迪智能科技01 就业班大数据
大数据主要分为两个就业方向：①大数据开发②大数据分析大数据分析：主要负责现有数据价值提炼与挖掘，包括业务增长点挖掘，产品改进点挖掘，业务分析指标体系构建，业务分析报告出具等大数据开发：主要负责大数据平台与应用开发，包括数据仓库构建，离线计算、实时计算应用开发，大数据应用后端开发，企业数据标准制定等就业岗位薪资（平均月薪如下）大数据的培训目标是什么呢？大数据分析方向：从企业实际数据分析需求出发，满足
Kylin的工作原理及使用分享操作指南 vvvae1234 kylin
ApacheKylin是一个分布式的分析引擎，专为大数据环境中的快速分析和查询而设计。它通过构建OLAP（联机分析处理）立方体，使得对海量数据的实时分析成为可能，极大地提升了数据查询的效率。本文将详细介绍Kylin的工作原理，结合实际操作案例，分享如何有效使用Kylin进行大数据分析。1.Kylin概述Kylin是一个开源项目，支持SQL查询，兼容与Hive和MapReduce等大数据技术的集成。
Python大数据学习day01——大数据开发概论笨小孩124 python 学习总结大数据学习 python
目录大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线1.大数据解决问题海量数据存储——海量数据运算——海量数据迁移2.大数据特点（大、多、值、快、信）数据体量大种类和来源多源化实现低价值密度速度快数据的质量准确可信3.大数据应用4.大数据分析步骤明确分析目的思路——数据收集——数据处理（ETL）——数据分析——数据展现——撰写报告5.大数据职业规划6.大数据学习路线
一分钟了解Galaxybase银河图数据库先锋版升级功能！创邻科技数据库图技术
Galaxybase银河图数据库是一款创邻科技自主研发的商用图数据库，具有高性能、高可用、企业级安全等特性，支持大规模数据查询实时返回，快速挖掘关联关系，发现深层商业洞见，可广泛应用于金融、能源、电信、政企等行业中的大数据分析场景等场景。2022年7月，创邻科技公开发布Galaxybase银河图数据库社区免费版。相较于企业版，Galaxybase社区免费版对存储容量及横向扩展能力有所限制，但足以支
基于spark+hadoop+hive大数据分析的电影推荐系统的设计与实现毕设木哥 spark spark hadoop hive spring java
作者主页：计算机毕设小程精彩专栏推荐订阅：在下方专栏Java实战项目文章目录Java实战项目一、开发介绍1.1开发环境二、系统介绍2.1图片展示三、部分代码设计3.1.部分代码如下：**总结****大家可以帮忙点赞、收藏、关注、评论啦****有问题评论区交流**一、开发介绍1.1开发环境技术栈：spark+hadoop+hive离线ETL+在线数据分析(OLAP)+流计算+机器学习+图计算二、系统
外卖骑手平台有哪些可以选择？赚钱最多福利最好的外卖骑手平台推荐高省APP
根据大数据分析，以下几个外卖平台比较好:1、美团外卖现在市场占有率非常高的一款外卖平台，有美团专送和美团众包之分，如果只想兼职的话，可以申请众包服务，想什么时候跑就什么时候跑，特点是单子非常多。2、饿了么阿里巴巴旗下的外卖平台，遇到优惠活动的时候订单量也非常大，同样为兼职人员提供了抢单服务。3、口碑外卖业内知名的020餐饮平台，与高德地图对接，在路线规划上有优势，而且依托于口碑网的用户群体，每天订
开发一个小程序需要多少钱｜需要多少资金红匣子实力推荐
开发一个小程序需要多少钱？这个问题并没有一个确定的答案，因为它取决于多个因素，例如小程序的功能、复杂度、开发团队的规模、开发地点等等。下面是一些关于小程序开发成本的因素和建议:开发-联系电话：13642679953（微信同号）功能复杂度：小程序的功能复杂度对开发成本有很大的影响。如果一个小程序需要复杂的功能和技术，例如人工智能、大数据分析、支付功能等等，那么开发成本可能会更高。因此，开发者建议开发
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他