轻春

计算广告CTR预估系列(六)--阿里Mixed Logistic Regression

计算广告CTR预估系列(六)–阿里Mixed Logistic Regression

计算广告CTR预估系列(六)–阿里Mixed Logistic Regression
- 一、技术背景
- 二、研究现状
- 三、MLR算法
  - 3.1 结构化先验
  - 3.2 线性偏置
  - 3.3 模型级联
  - 3.4 增量训练
  - 3.5 L1，L2,1正则化 / 分组稀疏
- 四、实现技巧
  - 4.1 并行化
  - 4.2 Common Feature Trick
- 五、总结
- Reference
- 彩蛋

一、技术背景

CTR(Click-Through-Rate)即点击通过率，是指网络广告的点击到达率。网络广告包括：文字广告、图片广告、关键词广告、排名广告、视频广告等。CTR预估是很多互联网主流应用（广告、搜索、推荐）的核心算法问题，包括Google和Facebook都一直在投入研究该领域。

二、研究现状

传统的CTR预估主要是使用Logistic Regression，外加人为特征工程。LR是线性模型，它的学习能力有限，所以需要引入大量的领域知识人为进行特征工程，构造交叉特征来间接补充算法的非线性拟合能力。但是LR模型的优点是可以很容易的实现并行化，轻松的处理上亿条训练样本不成问题。

之后，业界一直在研究新的非线性模型。有成果但是也伴随着一些缺点，比如Kernel方法，因为复杂度太高在高维度稀疏输入的前提下很难实现；Facebook在2014年提出了LR + GBDT的模型，Tree-Based有效的解决了LR模型的特征组合问题，但是输入全是id的情况下，树模型更多的是对历史行为的一种记忆，缺乏推广性；FM（Factorization Machine）模型能够自动学习高阶特征的权重，不用人工来做特征交叉，而且解决了在高维度样本下数据量不充分导致的问题，但是FM模型只能拟合特定的非线性模式。比如最常用的二阶FM模型，只能拟合线性模式和二阶非线性模式，缺乏对高阶非线性模式的学习。深度神经网络的非线性拟合能力非常强，但是面对广告这种大规模工业级稀疏数据，适合数据规律、具备推广性的模型结构仍然在探索中。

那么如何从大规模工业级稀疏数据中，挖掘出一个具备推广性的非线性模型那？

三、MLR算法

2011-2012年期间，阿里妈妈盖坤团队给出了答案：MLR(mixed logistic regression)，在论文中的名称是LS-PLM(Large Scale Piece-wise Linear Model).
总的来说，MLR应用分而治之的思想，通过将特征空间划分成多个区域，每个区域都学习一个线性模型LR，来学习非线性模式。MLR可以基于数据自动挖掘非线性模式，把算法工程师从繁琐的特征工程中拯救出来，更具有推广性。
同时MLR还引入了结构化先验、L1 L21正则化，分组稀疏、线性偏置、模型级联、增量训练、Common Feature Trick来提升模型性能。

MLR就像它的名字一样，由很多个LR模型组合而成。用分片线性模式来拟合高维空间的非线性模式，形式化表述如下：

g保证最终的预测结果是一个概率，π用来划分区域，η用来在区域内学习LR线性模型。论文中给出的函数选取如下：
g(x) = x,π(x)=softmax,η(x)=sigmoid
即：

目标函数：

MLR主要适合在大规模工业级稀疏数据，通过分片线性模型来学习高维下的非线性模式，主要优势有两点：

端到端的非线性学习：从数据中自动挖掘蕴含的非线性模式，不在需要人工特征工程的干预。这使得MLR可以端到端的的完成训练，在不同场景中迁移非常轻松。
稀疏性：MLR在建模时使用了L1，L2,1正则化，实现了分组稀疏，使得训练出来的模型具有较高的稀疏度。无论是在模型的训练还是在线预测性能更好，当然，目标函数非凸非光滑为算法优带来了新的挑战。

看个例子：

这种菱形分界面其实非常难学，MLR表现出色。通过控制分片数量m，可以平衡模型的拟合能力和过拟合。上图m=4。论文中m=12得到了不错的效果。

理论上来说，增大m可以带来无限制的非线性拟合能力，但是同样会增加计算、存储的开销，同时会带来过拟合的风险。具体如何选取m要

针对MLR上面提到的各种特性，现一一介绍.

3.1 结构化先验

MLR中非常重要的就是如何划分原始特征空间。通过引入结构化先验，我们使用用户特征来划分特征空间，使用广告特征来进行基分类器的训练，减小了模型的探索空间，收敛更容易。
同时，这也是符合我们认知的：不同的人群具有聚类特性，同一类人群具有类似的广告点击偏好。

3.2 线性偏置

针对CTR预估问题中存在的两种偏置：

Position Bias：排名第1位和第5位的样本，点击率天然存在差异。宝贝展示的页面、位置影响点击率
Sample Bias：PC和Mobile上的样本，点击率天然存在差异。

在原来宝贝特征X的基础上，增加偏移向量y(场景、页数、位置等)。如果直接学习联合概率P(X,Y)面临问题：学习联合概率一定需要x和y的大部分组合，但是实际情况，并不是所有的x，y的组合都能有采样。针对这个问题，提出了带偏移MLR算法，形式化表述如下：

或：

而且，大规模非线性CTR预估和偏移变量的分解一起优化。并且，只需要很少的一些x，y组合就可以了。从盖坤给出的数据中，AUC提高了2-8个百分点。

3.3 模型级联

虽然论文里没说，但是在阿里技术中有讲到，MLR支持与LR的级联式训练。有点类似于Wide & Deep，一些强Feature配置成级联形式能够提高模型的收敛性。例如典型的应用方法是：以统计反馈类特征构建第一层模型，输出FBctr级联到第二级大规模稀疏ID特征中去，能得到更好的提升效果。

反馈特征常用的如反馈CTR，是指系统上线一段时间之后得到的历史CTR值。

3.4 增量训练

实践证明，MLR利用结构先验（用户特征进行聚类，广告特征进行分类）进行pretrain，然后再增量进行全空间参数寻优训练，会使得收敛步数更少，收敛更稳定。

3.5 L1，L2,1正则化 / 分组稀疏

L2,1公式如下：

d是特征维度，m是划分的区域个数。

L2,1正则化实现了分组稀疏的特性。从MLR形式化的公式中可以发现，每一个维度的特征都对应多个参数。包括区域划分函数的参数、分类函数的参数。针对一个特征，L2,1首先对其所有的参数都进行L2正则化，然后每个维度的特征都得到了一个非负数，再在特征维度上进行L1正则化。导致的效果就是，对于不是很重要的特征，L2,1会使得它的所有参数都为0，也就是分组稀疏。

在目标函数中，还增加了L1正则化，尽一切可能只为得到一个稀疏模型。下面是实验结果：

可以看到L2,1的稀疏效果略差与L1.两者结合起来得到了最稀疏的模型，并且AUC也是最高的。

四、实现技巧

4.1 并行化

论文里的实现基于分布式，包括两个维度的并行化，模型并行化，数据并行化。每一个计算节点中都包含两种角色：Server Node, Worker Node，这样做的好处有两点：

最大化利用CPU计算资源。之前大多数Server Node单独放到一台服务器上，造成CPU资源的极大浪费。
最大化利用Memory资源。

4.2 Common Feature Trick

一个用户在一次pageview中会看到多个广告，每个广告都组成一条样本。所以这些样本之间很多特征都是重复的。这些特征包括：用户特征（年龄、性别等）、用户的历史访问信息（之前购买的物品、喜欢的店铺等）。那么我们对于向量内积的计算分成两部分：common和non-common parts:

利用Common Feature Trick可以从三个方面来优化并行化：

对于有Common Feature的样本作为一组一起训练，并保证在存储在一个worker上
对于Common Feature仅仅保存一次，以便来节省内存
对于Common Feature的loss和梯度更新只需要一次即可

下面是实验结果：

可以看到Common Feature Trick效果还是非常明显的。

五、总结

MLR从2012年就开始在阿里内部使用，到2017年才发表论文。不出意料，现在的模型应该已经不再是MLR这么简单了。另外，从MLR和LR进行级联，以便加强强特征来看，MLR还是有很大的局限性。个人感觉模型理论上来说确实非常棒，利用分片线性来模型高维非线性，但是分片函数的选择以及全局最优解的寻优都带来了非常大的挑战。

总结起来，MLP主要特性原理如下：

LS-PLM或者是MLR针对大规模工业级稀疏数据，采用分而治之的思想，在多个区域学习线性分类器，来在高维特征空间中学习非线性模型；
应用L1和L2,1正则化实现了分组稀疏，得到了稀疏模型；
Common Feature Trick极大的降低了内存开销，缩短了训练时间；
另外一些高级特性：结构化先验、线性偏置、模型级联、增量训练；

Reference

Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
盖坤讲MLR视频 https://v.youku.com/v_show/id_XNjA1MDEyNDU2.html
阿里技术 https://mp.weixin.qq.com/s/MtnHYmPVoDAid9SNHnlzUw?scene=25#wechat_redirect
《海量数据下的非线性模型探索》

论文和PPT资料，点击公众号底部资料获取

彩蛋

说个小花边，阿里内部最开始的CTR不能算机器学习模型，就是一个纯的规则：
ad_ctr, cate_ctr, ad_pv为特征，预测下一天ad的ctr：

一共用了三个特征 + 一个if-else使用了很多年。听说是打败了很多机器学习工程师设计的LR模型（你气不气…）

你可能感兴趣的:(机器学习,机器学习荐货情报局)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
目前哪里有卖高仿包包，推荐十个渠道已更新富腕表之家
1、工厂购买，推荐微信:【76929666】目前买的人最多的渠道。2、某宝购买，价格较高，质量没有保障。3、拼夕夕，价格是便宜，但是质量不敢想象。4、专柜购买，数量较少，经常断货，价格也太高不好接受。5、批发市场购买，可遇不可求，一般生活在批发市场附近的，根本不用考虑在哪里买高仿包包分几个级别？在当今的包类市场中，广州作为一个知名的货源地，已经成为高仿包行业的一个重要标志。随着市场的需求增加，高仿
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
京券东券优惠券领取网站-点击进入高省爱氧惠
嘿，小伙伴们，你们知道吗？京东商城可是有好多超值优惠券等着我们领取哦！不论是京券还是东券，都有好多好多的优惠等着我们呢！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。想要领取这些优惠券，
微信母婴闲置群如何盈利赚钱母婴优惠券群主怎么做古楼
宝妈闲置群群主怎么赚钱微信母婴闲置群如何盈利赚钱怎么做母婴优惠券群作为宝妈闲置群群主，你可以通过以下几种方式赚取收益：1.分享优惠券和佣金实现带货赚钱：宝妈闲置群群主带货赚钱最常见的方式就是直接做母婴优惠群群分享商品赚钱。母婴闲置群群主通过对接高省优惠券返利app这类第三方平台分享优惠券获得推广购物返利佣金赚钱。高省，含有自动云发单功能，开通云发单，宝妈闲置群群主就可以解放双手，自动分享商品优惠券
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
分享十个渠道：高仿手表在哪里买最好的优选渠道百奢之家
1、工厂购买，推荐靠谱手表商家微信:【15266277】目前买的人最多的渠道。2、某宝购买，价格较高，质量没有保障。3、拼夕夕，价格是便宜，但是质量不敢想象。4、专柜购买，数量较少，经常断货，价格也太高不好接受。5、批发市场购买，可遇不可求，一般生活在批发市场附近的，根本不用考虑在哪里买手表作为一件配饰品，不仅可以提升整体造型品味，还能展现个人的时尚态度。而对于很多人来说，高仿手表是一种经济实惠又
日更第120天-顺其自然，为所当为飞翔001
在教培业务萎缩之后，新东方前不久宣布转型带货，初期人气寥寥，直播间也就几千人观看，近日，新东方的“东方甄选”因英语老师双语直播带货爆火，直播间人数过万，6月10日，新东方在线股价暴涨近40%，单日成交额突破1000万元，累计近400万人观看了直播。当晚俞敏洪来到直播间，和老师们一起直播带货。俞敏洪称，这是新东方老师们非常关键的转型，他们老师转型做带货主播，受到了大家的关注和部分的肯定，感谢各位网友
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
外卖优惠券公众号哪个好?外卖领券公众号高省爱氧惠
随着外卖行业的不断发展壮大，越来越多的外卖平台开始推出各种优惠券活动，吸引用户下单。而在这些外卖优惠券公众号中，我最常用的就是【氧惠】了？不知道大家都在用什么。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
股票公众号怎么赚钱的？炒股公众号靠什么赚钱？氧惠评测
股票公众号赚钱的方式主要有以下几种：别指望别人对你好，你没有价值，别人怎么可能会对你好，要知道:人生都是相互的，你要让自己有价值，只要你有价值了，水到自然渠成了。氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
副业送外卖一个月能赚多少？现在有什么副业比较赚钱？氧惠评测
副业送外卖一个月能赚多少也取决于多种因素。领购物大额优惠券、赚返利佣金用氧惠~氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）氧惠是公认的返利最好用的软件。注册即可享受高补贴+0撸+捡漏等带货新体验。氧惠邀请码888999，送万元推广大礼包，教你如何1年做到百万团队。首先，所在
抖音返利平台有哪些?值得推荐抖音返利app有哪些? 氧惠超好用
随着抖音电商的崛起，越来越多的用户开始关注抖音返利平台希望通过这些平台在享受购物乐趣的同时，也能获得一定的返利优惠。那么，面对众多的抖音返利平台，哪个返利最高呢？本文将为您深入解析，助您找到最优选择。氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新
网络上赚钱的方法有哪些？推荐十个真实靠谱网络上赚钱的方法？好项目高省
现在有太多人感到生活的重压，而发展自己的副业就是最好的出路，看看现在有多少明星出来直播带货就知道了。随着互联网的发展，网上赚钱已经成为很多人追求的职业方向，在网上赚钱已经是很普遍的事了，今天就为大家分享在家也能赚钱的10种方法。一、推广类网络推广带货已经成为商家卖货的常态，无论你擅长写文章带货、短视频带货还是直播带货，这种分享商品的副业方式在很多副业方式中都是最赚钱的。如果你选择佣金高的商品，随意
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
有没有那么一个人或东西会让你一见或一吃就心情愉悦，嘴角上扬的..... 若然小妖
今天忙了半天，有点累。打开美团点了一份水果捞。吃到嘴里，那一瞬间疲倦全无，那一瞬间心情愉悦，嘴角上扬.....哇塞！这感觉真的是太美好啊！我还记得我每次生病的时候，那个时候妈妈总会给我买一瓶桃罐头，就那种玻璃瓶的大黄桃罐头，不知道为什么每次生病只要一吃就算再难受，心情都会瞬间愉悦，嘴角也会不经意上扬......还有火锅，还有小龙虾.....或许看到这里你会说这是吃货的本质啊！嘿嘿……其实不光对食物
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
直返APP的支付方式是否安全？如何保护个人财产安全？氧惠超好用
直返的东西是否正品，以及直返APP是否安全，这是一个相对复杂的问题，需要具体分析。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。首先，关于直返的东西是否正品，这主要取决于直返的来源和渠道
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
京东和唯品会哪个可信？唯品会和京东价格差距大日常购物小技巧
京东和唯品会做为两大电商平台，里面的产品都是有品质保证的，大部份人也都是比较了解，可是京东和唯品会哪个是真正的正品?二者有何不同?现在我们根据下列文章来详细讲解。唯品会和京东哪个正品?京东和唯品会都是正品，京东主打的是他们家的物流，京东自家的物流效率很高，唯品会主营打折的正品，很适合淘货。2个都是正品，看自己的需求来选择，我认为我比较喜欢去京东选购，物流快，今日下单或许明天就可收到货，假如是买些打
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他