智能推荐系统

搜索推荐项目EFLS开源 | 阿里妈妈联邦学习解决方案详解

▐ 项目背景

移动互联网时代出于隐私保护和数据安全，APP 之间的开放与互联越来越少，使大量的信息孤岛逐渐形成，限制了信息技术更好地服务广大用户的能力。2016年 Google 提出了以保护终端隐私为前提的机器学习方法——联邦学习[1]。为了将联邦学习理论更好地引入到阿里妈妈业务场景，发挥其隐私保护和算法理论的优势，阿里妈妈算法工程团队 与 阿里妈妈大外投广告算法团队 于近期开源了 Elastic-Federated-Learning-Solution（弹性联邦学习解决方案，以下简称 EFLS）项目。该项目经过阿里妈妈外投广告业务与业界多个合作方深入大规模实践，旨在沉淀归纳出联邦学习场景下通用的解决方案及算法实践经验，希望未来可以对搜推广业务在大规模稀疏场景下的联邦学习应用产生参考价值和加速作用。

本文将对 EFLS 项目的业务价值、核心功能以及关键实现做简要介绍，希望给从事相关工作的同学带来一点启发和帮助，欢迎试用及交流讨论。

GitHub地址：

https://github.com/alibaba/Elastic-Federated-Learning-Solution

▐ 业务应用

业务背景

目前联邦学习技术已经在金融领域大规模应用，在广告搜索推荐这种大规模稀疏场景领域的应用和研究尚处于发展初期。作为 EFLS 的诞生地，阿里妈妈大外投业务具有如下特点：

伴随着外部媒体短视频流量异军突起，商家有从媒体引流电商的需求，而商家在媒体直投存在后链路效果分析成本高、无法同时在多个媒体投放的问题。阿里妈妈大外投能够建立统一的外投能力，服务商家一键投放多个媒体，同时在商家营销服务上可以提供强大的营销效果分析能力解决商家在外部媒体投放的痛点。
不同于淘内广告建模中我们能获取丰富的前链路行为，我们在外投广告中对用户在媒体端的前链路行为一无所知。由于企业数据互为商业机密，媒体不能共享用户的内容偏好，而我们也不能透出用户的电商偏好，外投广告系统无法像内投场景能够形成数据闭环进行全链路优化。
为了更好的服务商家，媒体和阿里妈妈都有通过个性化建模提升商家roi的效果优化诉求，伴随着越来越强的隐私监管，双方的合作必须在更加合规的隐私保护的前提下进行。

应用方案

如上图所示（图中术语释义请见附录2），阿里妈妈大外投业务的在线广告投放阶段，媒体方和电商方会在双方严格保护其各自用户隐私的前提下，基于联邦学习训练的点击转化率预估模型和ocpx机制为用户推荐感兴趣的广告，以保证用户体验和商家的广告投放效果。用户根据兴趣点击后，将跳转到电商平台，电商侧会存有商品特征、用户历史特征以及本次点击收藏加购成交等信息。由于隐私数据不能泄漏，从媒体方的广告推荐到电商方的收藏加购整个过程将被使用 instance_id 进行标识。在离线训练阶段，媒体方与电商方将先通过在线模型产生的 log 结合 instance_id、加密设备id、广告id 等生成样本数据，随后双方将采用样本集合求交，通过加密传递instance_id等标签的方式，将样本数据对齐。样本数据对齐后，媒体方与电商方将采用对齐的样本数据，同时进行模型训练。在训练过程中，有 label 的电商一方作为主导方，协同方媒体方会将一个训练的中间结果经过隐私加密之后发送给主导方，主导方在计算反向的梯度之后，将协同方发送来的中间结果对应的梯度经过加密后发送给协同方，完成训练迭代。从而实现在不共享隐私数据的情况下，同时进行媒体方与电商方的模型训练。

业务价值

依托于 EFLS，阿里妈妈 Unidesk 产品已助力珀莱雅、卡姿兰、薇诺娜、花西子、修正等多个企业实现品牌和业务双丰收。其中一些合作品牌在2个月时间内获得品牌 ROI 15% 的提升，经营效果提升明显，且放量也在逐步提高。

EFLS 希望能够为隐私计算领域贡献一份力量，在如今人们越来越注重隐私保护的大背景下，构成在搜推广的大规模稀疏场景下高效隐私计算的完整解决方案。接下来将重点介绍我们从业务中抽象和开源出来的 EFLS 的架构与核心功能。

▐ 项目架构与核心功能

常用的联邦学习主要有纵向联邦学习和横向联邦学习两种。当两个数据集的用户特征重叠较多，而用户重叠较少时，一般采用横向联邦学习，把数据集按照横向（即用户维度）切分，并取出双方用户特征相同而用户不完全相同的部分数据进行训练。当两个数据集的用户重叠较多而用户特征重叠较少时，一般采用纵向联邦学习把数据集按照纵向（即特征维度）切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。[2]

EFLS v0.1 版本主要针对于两方纵向联邦学习场景，即支持两个合作方在特征维度拓展样本，并进行联合训练。在系统部分包含三个主要模块：EFLS-Data（样本集合求交）、EFLS-Train（联邦联合训练）以及 EFLS-Console（产品控制台），在 EFLS-Algo 联邦学习算法包部分提供了两种在联邦场景较为有效的算法模型。EFLS 的使用者可以在此基础上根据自身情况自行生成样本并选择存储方式，根据需要使用或者设计联邦学习算法，并采用提供的 Web 控制台管理与合作方的连接关系，并维护己方的样本集合求交任务和联邦联合训练任务。

目前开源项目的核心功能主要有：

基于workflow的抽象开发的可视化web界面，便于进行用户、任务、数据和权限的管控，缩短开发周期。
基于Flink on K8S[4][5]云原生实现方案的样本集合求交方案，方便资源按需调度和水平扩展，最大能够支持百亿规模样本数据求交。
轻型的样本求交客户端方案，适用于服务端搭建好后，快速测试Flink on K8S集群公网连通情况，以及数据量小的客户端在不配置Flink环境的情况下快速部署与服务端进行样本集合求交任务。
采用简化协议、全C++通信实现的联邦联合训练框架，尽可能的提升训练性能。并实现了更精细的数据状态恢复与模型加载校验机制，能够保证任务恢复的模型一致性与数据的零损失。
针对纵向联邦场景，业内首次开源了基于水平聚合的联邦学习方法和基于层次聚合的联邦学习方法两种算法模型，通过设计更高效的特征融合方法，充分发挥联邦框架的算法能力。

▐ 技术详解

整个系统架构从业务处理流程角度分为三个模块: Data Store（样本生成与存储）、EFLS-Data（样本集合求交）和EFLS-Train（联邦联合训练）。三个模块基于云上基础设施(OSS等)进行数据读取与存储，采用开源框架（Flink）实现分布式处理，整体运行在Kubernetes上。为方便用户使用，采用WebConsole对接K8S服务接口，实现用户管理，数据、模型和作业的可视化管控。

样本集合求交

样本生成后，需要将样本根据标签求交对齐后，才能用于模型训练。

常规的流程分为样本分桶、对应桶样本求交和结果检验三步：

当求交任务到达时，常驻的Master会按需调度资源。在样本分桶流程中，Master调出n个worker，并行读入样本，将每个样本根据其哈希值分入到m个桶中。
整个样本集合求交任务被分治为了相应桶之间的样本集合求交任务。Master再次调度出m个worker，客户端第i个桶的worker与服务端第i个桶的worker进行连接并采取gRPC远程通信求交。
求交完成后，客户端与服务端分别计算各自求交结果的checksum值，并通过gRPC通信传输进行比较。

另外在一些业务场景中，可能需要使用诸如用户昵称等敏感字段作为关联键进行样本集合求交，为避免此类隐私字段泄漏给联邦合作方，EFLS支持了经典的 Blind RSA-based PSI 协议[3]，即在gRPC数据传输前通过RSA加密等秘钥方法，使得集合求交过程中联邦双方不能获悉对方的原始信息。

联邦模型训练

对于一个传统的深度学习模型来说，训练方持有全部的训练所需要的特征和模型，可独自完成前后向计算、更新梯度完成一次训练迭代。而在纵向联邦学习的场景下，训练所需要的数据特征和模型分别由两个联邦计算方持有，不对对方泄露。在训练过程中协同方会将一个训练的中间结果经过隐私加密之后发送给主导方，主导方在计算反向的梯度之后，除了更新本方的参数，还需将协同方发送来的中间结果对应的梯度经过加密后发送给协同方，协同方使用该梯度进行自身的参数更新。

EFLS-Train 基于社区 Tensorflow1.15 版本开发，通过扩展的方式实现了一套完整的联邦学习训练方案。整个训练框架主要包括数据协同(联邦Dataset)，安全通信层(gRPC)，隐私加密(保护前后向交互数据)和高层训练API几个部分。在保证数据安全的基础上，我们还着重考虑了联邦训练的性能和稳定性，在数据交互协议、通信层和分布式容灾等方面进行了多项优化，保证联邦训练任务能够高效稳定的运行。

EFLS-Train 各核心模块的主要功能如下：

数据协同：提供一套标准的联邦Dataset接口，封装主从双方的数据读取及协同逻辑，保证双方训练样本的一致性。通过记录样本读取进度，在发生错误的情况下，训练任务能够以最小的代价恢复到最近的状态。
安全通信层：负责两个联邦计算方之间的通信，核心部分采用C++实现，通过gRPC的SSL接口保证了通信安全。
隐私加密模块：同时支持对前向数据和后向梯度进行加密保护，其中差分隐私加密方案允许用户自定义加密程度，可以灵活的在安全和性能两个方面进行取舍
联邦训练API：提供了类似Keras的高层API封装，尽可能对用户屏蔽了联邦训练和普通训练的实现差异，让用户更容易上手使用。

CTR = efl.FederalModel()
CTR.input_fn(input_fn)
CTR.loss_fn(model_fn)
CTR.optimizer_fn(efl.optimizer_fn.optimizer_setter(tf.train.GradientDescentOptimizer(0.001)))
CTR.compile()
CTR.fit(efl.procedure_fn.train(), log_step=1, project_name="train")

联邦算法创新

在外投广告场景中，融合电商侧和媒体侧各自的特征优势，将媒体侧学习到的用户兴趣引入到电商侧模型中，可以充分发挥双方特征优势来提升电商侧模型预估效果。双方的用户原始数据出于保护用户隐私的目的不能互传。因此，在互不透出自身原始数据的情况下，我们希望利用媒体侧学习到的特征表示来媒体侧包含用户丰富的媒体侧特征，包括媒体兴趣标签、转发/点赞等社交行为，电商侧包括用户购买兴趣、电商行为等。如果能够提升电商侧模型预估能力，联邦学习为这一诉求提供了解决方案，媒体侧发送其模型学习到的能够反映用户在媒体侧偏好的低维特征向量(而非原始特征)到电商侧，电商侧融合该特征向量后给出预估结果，并将梯度发送给媒体侧来更新特征表示。在这个过程中，每一方仅拥有自身的用户原始数据和模型参数，而不能获取对方的信息。

我们将电商特征和媒体特征融合问题定义为 Cross Domain 预估问题。一种直接的方法是将媒体侧发送过来的特征向量拼接到电商侧特征向量的方式进行整合，该方法显然难以充分挖掘双方特征的潜力。EFLS针对纵向联邦场景，业内首次开源了两种算法模型，通过设计更高效的特征融合方法，充分发挥联邦框架的算法能力。

基于水平聚合的联邦学习方法： 传统的纵向联邦通常将媒体侧和广告主侧特征简单进行拼接，该方法难以充分挖掘双方特征潜力。我们提出基于注意力机制的方法，将媒体侧发送过来的特征向量与电商侧模型的特征进行融合。注意力机制，是一种能让模型对重要信息重点关注并充分学习吸收的方法。我们将电商侧用户、广告、场景 Embedding ，与媒体侧发送过来的特征向量通过多层感知机方式计算注意力权重，然后加权求和计算得到基于注意力的融合特征向量。通过上述水平融合方式，我们能够直接令模型从 low-level 部分就开始吸收媒体特征，进而充分融合来给出预估结果。

基于层次聚合的联邦学习方法：为进一步吸收媒体侧模型的表征，我们提出基于层次表示自动聚合的联邦学习(AutoHERI)[7]方法。将媒体侧特征向量层次化地聚合连接到电商侧预估模型的中间层，以提升模型的特征学习能力。由于聚合连接的组合方式随着网络层数增长而指数级增加，我们通过神经网络架构搜索技术，自动搜索最优的连接组合，使电商侧模型学习到有效的特征聚合模式，整合不同域空间信息。通过高维空间融合方式，我们能够从模型 high-level 部分自动学习特征聚合，进而通过利用更丰富的媒体侧特征向量来给出更好的预估结果。

产品控制台

联邦学习过程中有多方参与，流程相对复杂，因此对隐私和权限管控要求较高，需要参与方频繁协调。因此为了降低用户使用成本，我们设计了一套联邦学过程的抽象，在此基础上开发了Web产品控制台，支持使用者可视化地进行用户、任务、数据和权限的管控，提升联邦学习样本模型实验的迭代效率，缩短开发周期。

▐ 未来规划

接下来 EFLS 计划在系统功能方面支持可扩展性更强的多方联邦能力、自动弹性伸缩能力以及面向高效隐私加密的性能优化，同时在算法方面将考虑通过多方联邦、联邦图学习等算法创新挖掘多场景异质数据源中蕴含的知识，并尝试图学习与加密算法高效融合的方法，确保在数据安全用户隐私保护前提下，建立适用于搜推广的召回、精排等模块的预训练模型，探索研究针对样本不足情况下，进一步加强预训练阶段对于外投广告投放场景的感知能力。

「更多干货，更多收获」

【免费下载】2021年9月份热门报告盘点

美团大脑系列之：商品知识图谱的构建及应用

【干货】2021社群运营策划方案.pptx

大数据驱动的因果建模在滴滴的应用实践

联邦学习在腾讯微视广告投放中的实践如何搭建一个好的指标体系？如何打造标准化的数据治理评估体系？

【干货】小米用户画像实践.pdf（附下载链接）

短视频爆粉表现指南手册.pdf（附下载链接）

推荐系统架构与算法流程详解如何搭建一套个性化推荐系统？某视频APP推荐策略详细拆解（万字长文）

2021年轻人性生活报告

关注我们

智能推荐

个性化推荐技术与产品社区

长按并识别关注

您的「在看」，我的动力

数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
差分进化算法DE DroidMind 智能算法与机器学习差分进化算法
差分进化算法DE属于进化算法，这里算法还包括依次遗传算法、进化策略、进化规划。差分进化算法包括三个基本的操作：变异操作、交叉（重组）操作和选择操作。一、算法建模：1、假设我们希望得到函数f(x)的最优解，这个函数有D个解。2、为函数f(x)设置一个解的组数N，N至少为4。3、这样我们就得到了N组并且每组解的个数为D的集合，它可以使用N个D维参数向量来表示。因为它类似于遗传算法进化一样，是一代一代的
在 Python 中等待 5 秒迹忆客 Python 实用技巧 python java 前端
Python具有各种功能和库来创建交互式应用程序，用户可以在其中提供输入和响应。我们可以创建需要暂停应用程序执行的情况。本篇文章将讨论如何在Python中等待5秒。在Python中使用time.sleep()函数等待5秒Python的time模块提供了存储和操作时间的功能和对象。该库中的sleep()函数增加了执行延迟；该函数接受以秒为单位的时间。例如，importtimeprint("Befor
[转载]Python量化交易平台开发教程系列0-引言 dijiesa4351 c#操作系统 c/c++
原文出处：http://vnpy.org/2015/03/04/20150304_Python%E9%87%8F%E5%8C%96%E4%BA%A4%E6%98%93%E5%B9%B3%E5%8F%B0%E5%BC%80%E5%8F%91%E6%95%99%E7%A8%8B%E7%B3%BB%E5%88%970-%E5%BC%95%E8%A8%80/为什么用Python来开发量化交易平台目前本人所
os模块 datbgd1130 python
os.getcwd()获取当前工作目录，即当前python脚本工作的目录路径os.path.abspath(path)返回path规范化的绝对路径os.path.split(path)将path分割成目录和文件名二元组返回os.path.dirname(path)返回path的目录。其实就是os.path.split(path)的第一个元素os.path.basename(path)返回path最
python 快速拆分含有多种分隔符的字符串风陵苑主 python
importres='ab;cd|efghij,lmn;opq,rst,uvwx\yz're.split(r'[,;\\|]+',s)
华为OD机试 -TLV解码（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 c++java 华为od 华为华为od机试 python javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述TLV编码是按[TagLengthValue]格式进行编码的，一段码流中的信元用Tag标识，Tag在码流中唯一不重复，Length表示信元Value的长度，Value表示信元的值。码流以某信元的Tag开头，Tag固定占一个字节，Length固定占两个字节，字节序为小端序。现给定TLV格式编码的码流，以及需要解码的信元T
股票量化交易进阶：构建回测框架backtrader InUnix python 开发语言
在量化交易领域，回测是一个重要的环节。回测框架可以帮助我们验证投资策略的有效性，并评估其在历史数据上的表现。backtrader是一个功能强大且灵活的Python回测框架，它为量化交易提供了丰富的工具和功能。本文将介绍如何使用backtrader构建一个简单的回测系统，并给出相应的源代码示例。首先，我们需要安装backtrader库。可以使用pip命令进行安装：pipinstallbacktrad
Python延时函数详解及实例代码 HackDyno python java 前端 Python
Python延时函数详解及实例代码在Python编程中，有时我们需要在程序中添加延时，以便在执行特定操作之前等待一段时间。延时函数允许我们在代码中创建一个暂停的时间间隔。本文将详细介绍Python中的延时函数，并提供一些实例代码供参考。Python中的延时函数可以通过time模块来实现。time模块是Python标准库中的一部分，提供了与时间相关的函数和方法。我们可以使用time.sleep()函
Python中删除文件和目录湫兮之风 python java 开发语言
python中分别提供os包下的os.remove()与shutil包下的shutil.rmtree()函数，其中os.remove(）的主要作用是删除一个具体的文件，shutil.rmtree()主要作用是删除一个具体的目录。os.remove()这个函数需要一个参数，即要删除的文件的路径。importosfile_path="/path/to/your/file.txt"#将此处的路径替换为你
python os.path.basename()方法 Arthur-Ji python
返回path最后的文件名。如果path以／或\结尾，那么就会返回空值。即os.path.split(path)的第二个元素。?12345>>>importos>>>path='/Users/beazley/Data/data.csv'>>>#Getthelastcomponentofthepath>>>os.path.basename(path)'data.csv'
Python path模块倾听冷暖 python 策略模式开发语言
在Python中，你可能说的是os.path模块（它属于os模块下专门处理路径相关操作的部分）或者是pathlib模块（Python标准库中用于面向对象风格的路径操作模块），以下分别为你详细介绍这两种与路径相关的内容：os.path模块os.path模块提供了一系列用于处理文件路径的实用函数，能帮助开发者方便地操作路径、获取路径相关信息等，且可以适配不同的操作系统（Windows、Linux、ma
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
差分进化算法(Differential evolution,DE)(附详细注释的Python代码) XijueJa 算法 python 开发语言
概念与基本原理差分进化算法（DifferentialEvolution，简称DE）是一种基于种群的随机优化算法，由Storm和Price在1995年提出。它主要应用于解决非线性、非凸、连续和离散的优化问题。DE算法以其简单性、鲁棒性和高效性而受到广泛关注。差分进化算法的基本思想是通过模拟自然进化过程中的遗传和变异机制来寻找问题的最优解，类似于遗传算法。通过变异、交叉与选择，使得初始化的种群不断朝最
Python常用OS库之path模块学习风陵苑主 python 学习
学习python没有太多捷径，有也只有技巧，更重要的是要多学多练，个人觉得练更重要，读万卷书不如行万里路。编程是一门技能，所以除了看还要多实践，写得多了自然也就有了路。如果看全部的标准库文档，可以访问这个链接os---多种操作系统接口—Python3.12.3文档接下来就来敲敲OS库下的path方法，这里只是记录一下，搬运工作，加深印象。那就开始吧。os.path常用方法一、os.path.abs
python 删除文件、目录（文件夹） 2301_78094384 python python
最近使用python进行文件，目录的操作，实在难以相信，python这么简单，易用的语言，竟然没有一个库很好的支持删除文件、目录（文件夹），于是把最近收集到的一些信息做下整理。删除文件：Pathlib:file_path.unlink()os:os.remove(file_path)删除目录（文件夹）：空目录（Path库）：dir_path.rmdir()非空目录（shutil）：shutil.r
python与mysql的交互（一） xiaoking32 Python python
python与mysql的交互（一）在mac上装mysqlpython操作mysql的步骤解析sql注入什么是sql注入？怎么防止？在mac上装mysql下载mysqlformac:https://dev.mysql.com/downloads/mysql/解压dmg文件，点击pkg文件进行安装Continue->Continue,Agree->Install->输入管理员密码->设置root用户
手把手教你 AI 顾投：在 Ollama 中使用 Python 调用金融 API 服务老余捞鱼 AI探讨与学习人工智能 python 金融 llama
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：尽管Ollama本身不是一个大型语言模型（LLM）开发工具，而是一个LLM的平台。但它最近宣布了其系统中直接使用工具调用的功能，本文主要介绍了最新版本的主要更新，特别是关于功能调用的使用，并演示了如何在Ollama中使用Python调用外部API服务。一、部署Ollama在本地运行1.1设置开发环境在开始编写代码之前，最好的做法是建立一
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
力扣刷题之——旋转矩阵 say-input 矩阵 leetcode 算法
给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]作者：力扣(LeetCode)链接：https://leetcode.cn/leetbook/read/array-an
大模型系列-GPT算法樨潮人工智能
https://blog.csdn.net/None_Pan/article/details/106392965
PyMySQL 详解一只猪皮怪5 SQL 数据库 mysql python
PyMySQL是一个纯Python实现的MySQL客户端操作库，支持事务、存储过程、批量执行等。PyMySQL遵循Python数据库APIv2.0规范，并包含了pure-PythonMySQL客户端库。安装pipinstallPyMySQL创建数据库连接importpymysqlconnection=pymysql.connect(host='localhost',port=3306,user='
python界面小游戏贪吃蛇_用Python实现童年小游戏贪吃蛇 weixin_39627052 python界面小游戏贪吃蛇
贪吃蛇作为一款经典小游戏，早在1976年就面世了，我最早接触它还是在家长的诺基亚手机中。尽管贪吃蛇的历史相对比较久远，但它却有着十分顽强的生命力，保持经久不衰，其中很重要的原因便是游戏厂家不断的对其进行更新迭代。现在，这款游戏无论是游戏场景、规则等都变得十分丰富。接下来，我们看一下如何通过Python简单的实现这款小游戏。规则要有游戏主界面、贪吃蛇、食物能够控制贪吃蛇移动并获取食物贪吃蛇吃了食物后
python怎么安装pymysql_Python中操作mysql的pymysql模块详解 weixin_39634876
前言pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。本文测试python版本：2.7.11。mysql版本：5.6.24一、安装pip3installpymysql二、使用操作1、执行SQL#!/usr/bin/envpytho#-*-coding:utf-8-*-importpymysql#创
用python操作浏览器的三种方式_经验 | python 操作浏览器的三种方式 weixin_39642619
第一种：selenium导入浏览器驱动，用get方法打开浏览器，例如：importtimefromseleniumimportwebdriverdefmac():#browser=webdriver.Chrome()#browser=webdriver.Firefox()browser=webdriver.Ie()browser.implicitly_wait(5)browser.get("htt
python与mysql交互_Python和Mysql交互 weixin_39703561 python与mysql交互
安装引入模块~安装mysql模块sudoapt-getinstallpython-mysqldb~在文件中引入模块importMySQLdbConnection对象用于建立与数据库的连接，创建对象：调用connect()方法conn=MySQLdb.connect(参数列表)其中参数列表有：host:连接的mysql主机，如果本机是'localhost'；port:连接的mysql主机的端口，默认
python中redirect如何传值_传递参数时重定向 - python 叫我柴先生
在烧瓶中，我可以这样做:render_template("foo.html",messages={'main':'hello'})如果foo.html包含{{messages['main']}}，则页面将显示hello。但是，如果有一条通往foo的路线怎么办:@app.route("/foo")defdo_foo():#dosomelogicherereturnrender_template("f
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro