数据工程师陈晨

大数据与机器学习的平台化建设

8 月 11 日，「AI+Cloud 赋能行业新未来」为主题的 NIUDAY 成都站中，Camera360 数据部门技术总监龚俊衡为大家带来了关于「大数据与机器学习平台话建设」的分享，龚老师有超过 12 年的研发经验和拥有 4 年相关大数据架构师的经验。

本文是对分享内容的实录整理。

今天分享的主要是我们在大数据和机器学习方面的积累。从一开始到最后，基于我们自己面临的技术问题和一些业务需求，所踩过的一些坑。实际上我们尝试重新造过轮子，自己搭了一个平台。

在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：957205962，即可免费领取套系统的大数据学习教程

我们为什么要自己搭平台？

第一个问题：海量的数据

Camera360 有非常多的用户，遍布全球绝大多数地区，尤其是以东南亚、日韩这些地方的用户为主。Camera360 一个产品每天单纯收到的原始数据压缩之后高达 200G，还不包括小的产品，总存量数据超过 300T。所以面临着问题是：这些数据存在哪里？

因为所有数据都跟用户行为有关，比如每天用户什么时候使用我们的 APP，他喜欢自拍还是喜欢拍风景，还是喜欢用滤镜拍照等。这些数据都存储在这里，数据的安全性和可靠性非常重要。建设平台时，首先就要考虑安全性和可靠性，因为所有数据都是宝贵的用户资料，一旦丢失或者是一旦被人窃取会造成非常大的问题。

基于这些数据，我们光存在那里是没有用的。很多人提「大数据」会提到「大」这个字。为什么要存储那么大的数据量？存储是为了做什么？存在那里是为了提供价值，其中一个价值就是对 BI 产生支撑。

最早 Camera360 有了一批不小用户之后，对于工具类产品的管理人员、运营人员来说，我看看我的这些用户活跃情况、新增情况、在线时长，这些是最基本的需求。这些需求最早是利用一些第三方的 SDK，例如友盟等一些工具支撑，但是这些工具会有一些问题，就是没有办法基于运营人员需求切入更细层面的用户具体行为。

比如说用户用贴纸拍照，在前面经过哪些选择才会选择用贴纸拍照；用贴纸拍照会不会跟他用某一个滤镜有关；他用贴纸拍照是从什么路径进来，是基于首页进来，还是因为其他其他圈分享进来。这些非常细的是第三方 SDK 难以做到的事情，这块就需要我们自建数据计算逻辑来支撑，我们存在那里更多数据，其中一个作用就是提供 BI 支撑。

如果运营人员，产品人员对用户如何使用产品的细节搞不清楚，或者用户在某一些场景下容忍度比较低，比如说拍照滤镜速度太慢这些搞不清楚，就很难对下一步规划做出有效的判断。

我个人认为，我们存那么多数据最重要的一点，是为机器学习提供服务。说到机器学习就有无限的想象空间。即使对于工具类产品，它不像是什么抖音、今日头条这种内容性产品，我们在其中也能发现非常多的机器学习应用。

举一个最简单的例子，我们都要给用户发推送。一般来说怎么发呢？先说最简单的情况，看一下历史数据。看看过去一到五个月，这个地区可能是国家层面的属性，这些用户在什么时间拍照，或者是更细一点，这些用户在什么时间用什么贴纸拍照，是男的还是女的。我决定每天下午 7 点钟在泰国发一条什么贴纸信息，一下子就发出去。这种情况就会有一个问题，我们看数据，那个时间点愿意启动我们 APP的占所有用户的 8% 左右。如果在这个时间点又愿意使用贴纸拍照那数量更低，可能占总体用户的 1%。也就是说你对所有用户发一条消息，你真正命中用户，有可能在那一段时间启动的用户只有8%，可能真正用这个拍照的可能 1%，甚至 1% 都不到，这是对资源的浪费。如果用户心情不好一点可能就把你卸掉了。你要做的，不是仅仅针对一个国家在特定时间点做策略。

现在 Camera360 里的用户行为大概有上万个特征，我们把上万个特征全部拿过来，包括过去 30 天，70 天，90 天甚至 1 年前贴纸拍照的习惯。哪一个国家用户、平时在什么时间启动APP，甚至还有其他更详细特征，我们把这些东西都拿进来设置一个模型，这个模型很简单。第一，我预测用户在接下来一天使用贴纸或者是滤镜拍照概率取决于运营主题。另外预测这个用户大概在什么时间段启动 APP 的概率最大。有了这些数据，一旦决定推送 APP 后，我可以设定一个阈值。比如说 10%，用户对这个贴纸接受度至少达到 10%，基于每个用户每天使用 APP 不同时间频率发推送，效果会很好。我们预测过，机器学习预测用户启动时间和使用贴纸概率准确率，大概是 80% 左右，人工基于统计直接确定用户使用时段给所有人一起发，这个时间点准确率就是 8%，很简单的分类模型我们就达到了 1000 左右的提升，这是机器学习的例子。

我们有了这么多数据，有了这么多细节的用户学习后，就要产生价值。这么多的数据，每天还以这么快的速度增长，公司要对数据存储付出的成本非常大，这个成本只涨不跌，除非云厂商给我们来一个折扣，这个可遇不可求。面对这些数据，首先要考虑一个成本的问题。成本问题，我个人觉得最基本的一点是，对象存储或者是你自己的存储要分冷热平台，近期一年内的数据放比较热的数据，做到可以随时读取。数据归档后的存储，比较长的时间放在冷的平台里比较好。

这是我们面临第一个问题，海量数据以及我们为什么会有海量的数据。

第二个问题：机器学习的快速发展

这也是绝大多数公司遇到的问题。机器学习从 2012 年开始处于快速发展的周期，尤其是近 1-2 年发展非常快。我在做 PPT 时，上 ArXiv.org 网站上查 Machine Learning 关键字的论文，在上个月是 319 篇。公司为什么要追最新技术？比如说公司一个系统，准确率和召回率，NDCG 可能是 0.63 左右，新论文提出来 0.63 会提升到 0.65，甚至更高。你不跟进，那么对方就比你有优势。

因为我们现在的互联网用户跟之前 2012 年、2013 年的用户有一个最大的区别是选择太多。一个拍照软件去App Store 随便搜一下几百个，用户为什么用你这个东西。假如说，大部分这样应用有一个智能滤镜模块，如果我这边的模块效果，没有让用户达到想自拍的时候可以自动选择比较适合当前场景，或者是适合这些人肤色、脸形等更为合适的滤镜。用户很有可能直接选竞品就走掉了，这是搞机器学习算法要不断更新的原因。这些对用户体验、公司收入、用户留存等都会产生影响。

之前提到的一个月 319 篇，按照正常毕业 3-4 年的数学系、计科系的毕业生，在具备一定机器学习背景经验上做一篇论文要花多长时间呢？目前公开发表的很多论文不提供源代码，只有原理阐述，大部分基于相对靠谱的公开数据集, 在 2017 年我们数学底子比较好的工程师复现一篇论文大概是超过两周时间，最好一点就是工程师数学底子好，大概一周多时间。加入说这 300 多篇论文只有 10% 跟我公司有关，我要用多少工程师把这些论文复现，这是很大的问题。如果公司产品存在很多相关竞争对手，漏掉几篇就有可能导致竞争对手对你的超越，这是复现。还不包括我们需要自己实现一些算法改进，这种情况需要消耗更多的时间。要么我投入很多资源，我招很多优秀的人才跟进机器学习技术的发展，要么能不能采用其他的手段提高现有开发人员效率来复现论文呢？这是我们面临的第二个问题。

第三个问题：机器学习模型的复杂性

在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：957205962，即可免费领取套系统的大数据学习教程

很多机器学习模型已经迁移到深度学习，包括我们公司在内，公司从去年六七月之后再也没有部署新的传统模型了。我们这样做的一个前提是大数据，手上有很多的用户数据千万甚至上亿，我们要用一个模型把这些数据都用上。所有这类模型一定有一个特点，这个模型复杂度要非常高，否则根本无法利用如此多的数据。假如在有很多的数据使用了相对非常简单的模型，可能模型根本跑不完数据就完全收敛了并可以观察到大量的偏差，这种情况下就要提高模型复杂度降低偏差，基于这个特点上千万上亿的训练参数模型都可能存在。这样的模型就会存在比较多的超参数，用什么样的优化器，网络都少层, 每层多大, 需要 BN 或者 Dropout 不，这么多超参数加这么复杂模型带来非常大的挑战，这个模型不是效果好坏的问题, 而是需要训练多少时间到底跑不跑得出来的问题。

我们之前训练一个大概 7000 万多个参数的推荐模型，中间可能复合几个小规模模型，一个 GPU 上要跑两天时间，两天时间跑完一遍训练。如果在几十个超参数上完成搜索要跑多久，几个月时间吗？这很明显是不现实的事情。现在机器学习复杂性就摆在这里。

这种情况下，唯一一个办法就是分布式训练。根据我们经验，模型分布式会面临一个新的问题，我们要去找一个工程和算法能力比较强的人才非常难得，现在又加上一条要求熟悉分布式，你要让他学会在分布式环境里怎么解决网络瓶颈、IO 瓶颈。去哪里找这样的人?，如果有可以推荐给我。

深度学习如果过于复杂，你提供一个小数量量可能会过拟合，这么大的数据我们就加大数据量，十万、二十万、三十万、一百万、二百万慢慢往上提，训练成本非常高，训练一个深度模型的成本非常高。

第四个问题：有限的资源和成本

在有限的资源和成本的情况下，诚挚给大家一个建议：尽量不要自己造轮子。后面会跟大家讲如何造轮子，但是我还是要跟大家说不要自己造轮子。中小型公司面临一个问题，就是说在大数据和机器学习这边的资源投入一定是非常有限，以后绝大多数资源需要投入运营、市场、App 本身开发，或者是新方向的尝试上去。如果我们维护一个 20 - 30 人这样相对比较大的团队，单纯只是为这方面服务，我觉得对中小规模公司不太现实。我个人建议去选一个靠谱的 AI 大数据平台解决方案。

我们自己怎么造轮子？

下面介绍一下我们自己是怎么造轮子的，不然今天 PPT 绝大多数的内容就没了。主要介绍我们建设这个平台时，中间走过什么路、踩过什么坑。

最早我们想看一下用户行为统计、日活、月活等基本用户，我们当时用 HDFS、Hbase，搭建了数据脚本化查询的东西。每天很简单，在这个部门工作的同事也很枯燥，运营人员、公司管理层或者是产品提一个需求，然后他们就写完跑，等 3 个小时甚至更长时间才能跑出来，有时想看 1、2 年数据就要跑更长时间，可能用 1 到 2 天。那时候我们还在使用机房，当时团队 6 个人，运维占 2 个人，超过 1/3 资源投入在运维上。这个阶段主要是提供 BI 支持。

2016年问题逐渐出现了，就是需求越来越多，不是简单一个开发人员就可以做完的。这种情况下没办法每次新提需求就写一个，我们可以提供离线查询你们自己做，2016 年就是在做这件事情。2016 年机器学习已经兴起，产品内的一些细节的数据需求，比如关于滤镜、贴纸细节使用这样的也开始增加了。产品本身功能也越来越复杂，当时公司想做内容方面的尝试，我们就开始准备特征仓储，专门为机器学习服务。因为运营人员想看到的数据层面和我们机器学习用到的数据层面不太一样，希望我们特征库在任意一个时间尺度上捕捉到用户的行为特征。因为开始并不知道用户哪些特征管用，哪些特征会好，我们尽可能把特征全面的准备出来，预先计算好存在那里。

我们主要做两块，一个是刚才提到的特征库，另外是机器学习的算法。当时是用 Spark MLib 做推荐，内置一些算法，比较简单就可以实现，能够实现相关业务比较与人工基线 20% 左右的提升，在当时来说也算是小突破。大家不要小看 Spark MLib，我们完成这样简单的模型后几乎没有调参，也没有更多算法层面的工作，用户对贴纸接受度提升了 20% 以上，对次留也提高了 1%，这给我们当时非常大的信心，就是促使我们在机器学习方面做更大投入。

2017 年开始进行落地，2017 年都是离线，如果我想给用户提供贴纸，必须等到次日凌晨数据计算。模型对所有用户预测后才能看到我们推荐的贴纸和模型。工具类产品有很大一部分用户留存时间会非常短，可能就下载下来用 2 - 3 个月用户就走掉，如果模型还是离线模式工作很难对这部分用户产生价值，这部分用户还是会和人工推荐发生一些关系，当时我们开始向实时化迁移。因为之前做立宪这块，基本上利用图像存储、利用 Park 存储算，最多就是注册一个表，这样相对快一点。一旦写了就不可改变的行为，不适合我们的场景，所以我们就做了实时的数据仓储。

实时数据仓库做的事情，相当于把之前数据实时性做一次提升。其实很简单，用户本来每天凌晨对当天特征做聚合计算，然后存储在上面。实时计算用户以 5 - 10 秒为一个 Batch，把 24 小时降低到 5 秒，计算完立刻更新。我们有了实时计算后，因为我们之前 Spark MLib 中的算法也不支持实时增量，就把 Spark MLib 向 Tensorflow。在这里可能只有一句话，但是做还是花不少时间，到 2017 年初时还没有任何机器学习平台，我们做所有模型是一个工程师从头走到尾。MLib 的矩阵分解算法迁移到自编解码的协同过滤算法花了半个多月。我们迁移到 Tensorflow 之后，获得了一些实时性上的好处. 这是 2017 年初的进度。

2017 之后经过这次模型迁移之后，我们意识到一个问题，后面想做更多的机器学习相关业务，或者是机器学习及 AI 相关的东西来增强我们的产品。像现在的这种开发模式肯定是不行的，一个原型模型需要花两周甚至更长时间。基于这个原因我们就需要进行平台化建设，首先是对我们数据平台进行一下梳理。离线存储还是需要，不可能所有都存储实时介质的中去，十几台成本还可以接受，上百台可能就接受不了。最底层需要有成本可控的一个分布式文件系统(或者对象存储)，最上面有一个计算平台，可以是 Spark、Hive 都可以，我们最主要是 Spark Sql, 我们搭了一个集群.

数仓主要是为业务方服务，快速查询数据。之前提到的近线查询系统，它和数仓有一定的相似性，我们所有用户行为数据是实时增量计算并落地，每天晚上在统一导入数仓，实际上计算成本并没有增加，再一个就是就是特征数据计算平台。特征数据计算平台我们基于 Zeppelin 定制了一个数据交互式平台(包括对应的 IntelliJ 插件)。如果没有这个平台开发人员要跑一个任务很麻烦，你在云端起了一个集群，自动安装很多软件，然后本地一个脚本提交上去跑，还不一定能跑成功。起始阶段多半是失败，反复尝试终于成功，稳定运行了才能放到我们的调度平台里面去。有交互是查询平台之后，起一个计算集群，起完就会有这样一个网页(类似 Juypter)，在里面做交互查询，写代码都可以，这块主要是给我们的开发人员用。用这个的好处是，绝大部分特征抽取任务在这个平台里都以通用框架的方式，框架包含了特征预处理的各种工具, 也能输出不同的格式, 比如 csv, parquet, tfrecords 等，有了数据平台后开发人员大部分的任务不需要从头到尾写。

机器学习平台是这样，我们平台比较简单，后端基本上只有 Tensorflow。这里有一个比较重要就是模型在线服务, 可以考虑使用它的 Serving, 或者自己基于 Flask 写一个 Web Service这块下来看文档就行了，但是我更想说的是参数搜索框架和分布式训练平台。分布式训练平台比较简单也比较容易理解，之前提到训练大规模模型时通常需要非常多的时间，这种情况下单机多卡方式训练它，等几个小时或者一两天训练完开发人员来看看指标，不行再调，这种工作模式效率实在太低。首先我们需要一个支持数据并行的分布式平台，并行计算多个批次的数据，求梯度均值之后再更新到参数服务器，这块是非常必要的一个东西。但这块也没什么好说，像 Tensorflow，像绝大部分的机器学习框架都是提供分布式的功能, 当然这里面有比较大的学习成本，所以我建议选择比较成熟的机器学习平台，绝大多数情况只需要告诉它你这个模型需要多少计算资源就行了。

还有一个非常重要，但是很多人都没意识到，开发人员做完数据准备和模型设计, 剩下的就是两个字「调参」。很多人说机器学习就是花九天时间准备一个数据，花一个小时建立模型，再花九天调参和优化，确实是很枯燥。开发人员输入一组参数，跑完看结果，甚至是边跑边看，一天让他对黑绿屏幕终端发呆，这很明显是很低效率的工作。参数搜索就是开发人员提供一个参数空间，定义这个模型需要多少层、每层什么样的参数、每一层放什么, 甚至是不同的模型结构，我们把参数都提供给他。他需要做的首先是计算这次的参数空间有多大。因为我们平台是基于云平台，知道参数空间有多大之后，就可以知道大概需要多少次的计算，就能够搜索完绝大部分的参数组合。这种情况下，框架会去后台自动启动多个计算集群，并行去跑。最多启动 1 - 200 台 GPU 机器搜索模型参数，听着很吓人，但是算下来成本并不是很高。

接下来我会说成本的问题。使用参数搜索框架是因为不想让开发人员更多时间浪费在这方面。现在其实有更好的做法，谷歌很早就提供一个 AutoML 的东西，官方宣传很奇妙。你给它样本之后就不用管了，可以自动生成模型。现在不仅参数，开发架构都不用，扔上去让平台帮你搞定，但是这个东西一小时 20 美金，我们完全用不起。

前两天我看到一篇论文，论文很长，从头到尾描述了一个基于 ENAS 实现，这个作者非常厚道, 大部分其他的论文长篇大论完了之后没有代码只有理论，但是这个论文很厚道给了 github 上的源代码。基于这个算法搜索出可用的网络，在给足够资源情况下，比我们人工设计的更好。如果我们把这个东西拿过来，基于 Tensorflow，稍微改一下和自己的系统对接起来，再用机器学习就非常简单，我们只需要开发人员把数据处理好、特征工程做好、标签设定好，提供资源让框架跑就行，跑完就可以拿到可用模型。开发人员也很开心，他只需要维护这套框架就行。

在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：957205962，即可免费领取套系统的大数据学习教程

为什么我刚才说一次几百台机器搜索参数不要紧，原因是这样的。看上面的图，在资源有限的情况下，假设我自己有一个机房，我有十几台按月租的机器，我要做同样一件事，总成本是红框的面积大小，所消耗的时间是下面轴长的大小，可以看到成本就那么多。跟左边图比一下，左边图上面是资源数，绿色框最上面就是我们说的几百台机器，运行时间可以大大缩小，中间数学原理其实是很简单的。基于云平台做这件事情最大的好处是，我司花很大的代价迁到云平台，就是因为总成本不变、耗时更少，我们会有很大的时间优势在里面。

总结一下做机器学习最好有个参数搜索，甚至模型搜索的框架。第二，这套东西一定要跑到云上。最后，有了这两个东西之后，我们去做机器学习的效率就会大大的提升。

以上就是今天分享的全部内容，感谢。

践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

大数据与机器学习的平台化建设

你可能感兴趣的:(大数据)