Wand 算法介绍与实现

本文主要介绍 Wand(Weak And) 算法的原理和实现, Wand 算法是一个搜索算法，应用在 query 有多个关键词或标签，同时每个document 也有多个关键词或标签的情形（如搜索引擎）；尤其是在 query 中的关键词或标签较多的时候，通过 Wand 能够快速的选择出 Top n 个相关的 document，算法的原始论文见 Efficient Query Evaluation using a Two-Level Retrieval Process，本文主要讲述这个算法的原理以及通过 python 实现这个算法。

一般来说，检索往往会利用倒排索引，倒排索引能够根据 query 中的关键词快速检索到候选文档，然而当候选文档集合较大时，遍历整个候选文档所需要的时间也很大。

但是检索需要得到的往往只是 Top n 个结果，在遍历候选文档过程中能否跳过一些与 query 相关性较低的文档，从而加速检索的过程呢？Wand 算法就是干这个事的。

Wand 原理介绍

Wand 算法通过计算每个词的贡献上限来估计文档的相关性上限，并与预设的阈值比较，进而跳过一些相关性一定达不到要求的文档，从而得到提速的效果。

上面这句话涵盖了Wand 算法的思想，下面进行详细说明：

Wand 算法首先要估计 每个词对相关性贡献的上限（upper bound），最简单的相关性就是 TF-IDF，一般IDF是固定的，因此只需要估计一个词在各个文档中的词频TF上限(即这个词在各个文档中最大的TF)，该步骤通过线下计算即可完成。

线下计算出各个词的相关性上限，可以计算出 一个 query 和一个文档的相关性上限值，就是他们共同出现的词的相关性上限值的和，通过与预设的阈值比较，如果query 与文档的相关性大于阈值，则进行下一步的计算，否则丢弃。

在上面过程中，如果还是将 query 和一个一个文档分别计算相关性，并没有减少时间复杂度， Wand 算法通过一种巧妙的方式使用倒排索引，从而能够跳过一些相关性肯定达不到要求的文档。

Wand 算法步骤如下

建立倒排索引，记录每个单词所在的所有文档ID(DID)，ID 按照从小到大排序
初始化 posting 数组，使得 posting[pTerm] 为词 pTerm 倒排索引中第一个文档的 index
初始化 curDoc = 0（文档ID从1开始）

接着可以执行下面的 next 函数(摘自原始论文),

上面流程中用到的几个函数的含义如下

1. sort(terms, posting)：根据 posting 数组指向的当前文档 ID，对所有的 terms 从小到大排序。如下是三个 term 及其对应的索引文档的 ID，此时的 posting 数组为 [1, 0, 1], 则根据各个 term 当前文档 ID 排序的结果应该是 t1, t2, t3

t0: [3, 26]
t1: [ 4, 10, 100]
t2: [2, 5, 56]

2. findPivotTerm(terms, θ)：按照之前得到的排序，从第一个 term 开始累加各个 term 的相关性贡献的上限（upper bound，UB），这个在之前已经通过离线计算出来；直到累加和大于等于设定的阈值 θ, 返回当前的 term。这里应用这篇文章的一个例子，下面为通过 sort(terms, posting) 后的倒排索引，假设阈值 θ = 8

对于doc 2，其可能的最大得分为2<8 对于doc="" 4，其可能的最大得分为2+1="3<8" 5，其可能的最大得分为2+1+4="7<8" 23，其可能的最大得分为2+1+4+3="10">8
因此，t3 为pivotTerm，doc 23 为pivot

3. pickTerm(terms[0..pTerm])：在0到pTerm(不包含pTerm)中选择一个term，关于选择策略，当然是以 可以跳过最多的文档为原则，论文中选择了 IDF 最大的term。以上面的图为例子，此时可以选择 t2, t1 或 t4, 根据其 IDF 值选择最大的 term 即可

4. aterm.iterator.next(n)：返回 aterm 这个单词对应的倒排索引中的文档ID(DID)，这个DID要满足DID >= n。则 posting[aterm] ← aterm.iterator.next(n) 其实就是更新了 aterm 在 posting 数组中的当前文档，从而跳过 aterm 对应的索引中一些不必要计算的文档。

还是以上面的图为例子，假如选择的 aterm 为 t2, 则 t2 中指向 2 的指针要往后移动直至 DID >= 23 ,这样便跳过了部分不必计算文档。

实际上，t1, t4 也可以执行上面这个操作，因为在 doc 23 之前的 doc 的得分不可能达到阈值 θ(因为 DID 是经过排序的) ，所以t2、t1、t4对应的 posting 数组中的项都可以直接跳到大于等于doc23的位置，但是论文中每次只选择一个 term ，虽然多迭代几次也能达到同样效果，但是我认为这里可以三个 Term 可以一起跳。

介绍了上面过程中几个重要函数，下面来看一下上面的几个分支分别表示情况

if (pTerm = null) return (NoMoreDocs)表示当前所有 term 的 upper bound 和达不到阈值 θ ，结束算法
if (pivot = lastID) return (NoMoreDocs) 表示当前已经没有满足相关性大于阈值 θ 的文档，结束算法
if (pivot ≤ curDoc) 表示当前 pivot 指向的 DID 已经计算过相关性，需要跳过，这部分代码会在下面第4步执行后在进入循环时执行
if (posting[0].DID = pivot) 表示当前 pivot 对应的文档的相关性有可能满足大于阈值 θ ，返回这篇文档的 ID 并计算这篇文档和 query 的相关性； posting[0].DID = pivot 表示从第一个term到当前的term所指向的文档都是同一篇
if (posting[0].DID = pivot) 对应的else语句 表示前面遍历过的那些 term 的当前 DID 都不可能满足大于阈值 θ，因此需要跳过，也正是这里大大减少了需要计算相关性的文档数量

Wand 的实现代码

实现 Wand 算法的 Python 代码见这里，参考这篇文章的代码进行了修改，并增加了评估文档和query相似性的函数，代码中有以下几点需要注意

当一个 term 对应的所有 document 遍历完后，有两种处理方法。第一种方法是直接删除，这样会降低每次排序的时间复杂度和内存占用率，但是每次删除时候是要在一个有序列表内删除，时间复杂度为 $O(n)$, $n$ 为 terms 的个数；第二种方法是在每个 term 的 document list 最后增加一个比所有文档ID都要大的数(LastID)，这样被遍历完的term会自然被排序到最后，整个代码更加简洁。两种方法都尝试了一下，详细代码可见上面的代码连接的提交历史
pickTerm 方法原论文采用的是选择 idf 最大值的term，这里直接选择第一个，因为代码仅用于阐述算法的流程，各个 term 没有 idf 值。当然，如果有各个 term 的 idf 值，是可以根据 idf 选择的
上面伪代码的算法流程中最后的 else 语句是选择 pivotTerm 中的任意一个并跳过相关性低的文档，但是从前面的解释可知，可以 pivotTerm 前面的所有 term 都可进行这一操作，因此代码里面的这部分跟伪代码不同

这里还是给出完整代码，可以对照着上面的伪代码看，命名方法基本都保持了一致，如有错漏，欢迎指出

import heapq     
     
UB = {"t0":0.5,"t1":1,"t2":2,"t3":3,"t4":4} #upper bound of term's value     
LAST_ID = 999999999999 # a large number, larger than all the doc id in the inverted index     
THETA = 2 # theta, threshold for chechking whether to calculate the relevence between query and doc     
TOPN = 3 #max result number      
     
class WAND:     
    def __init__(self, InvertIndex):     
        """init inverted index and necessary variable"""     
        self.result_list = [] #result list     
        self.inverted_index = InvertIndex #InvertIndex: term -> docid1, docid2, docid3 ...     
        self.current_doc = 0     
        self.current_inverted_index = {} #posting     
        self.query_terms = []     
        self.sort_terms = []     
        self.threshold = THETA     
        self.last_id = LAST_ID     
     
    def __init_query(self, query_terms):     
        """init variable with query"""     
        self.current_doc = 0     
        self.current_inverted_index = {}     
        self.query_terms = []     
        self.sort_terms = []     
             
        for term in query_terms:     
            if term in self.inverted_index:  # terms may not appear in inverted_index     
                doc_id = self.inverted_index[term][0]     
                self.query_terms.append(term)     
                self.current_inverted_index[term] = [doc_id, 0] #[ docid, index ]     
                self.sort_terms.append([doc_id, term])     
     
    def __pick_term(self, pivot_index):     
        """select the term before pivot_index in sorted term list     
         paper recommends returning the term with max idf, here we just return the firt term,     
         also return the index of the term instead of the term itself for speeding up"""     
        return 0     
             
    def __find_pivot_term(self):     
        """find pivot term"""     
        score = 0     
        for i in range(len(self.sort_terms)):     
            score += UB[self.sort_terms[i][1]]     
            if score >= self.threshold:     
                return [self.sort_terms[i][1], i] #[term, index]     
        return [None, len(self.sort_terms)]     
     
    def __iterator_invert_index(self, change_term, docid, pos):     
        """find the new_doc_id in the doc list of change_term such that new_doc_id >= docid,     
        if no new_doc_id satisfy, the self.last_id"""     
        doc_list = self.inverted_index[change_term]     
        # new_doc_id, new_pos = self.last_id, len(doc_list)-1 # the case when new_doc_id not exists     
        for i in range(pos, len(doc_list)):     
            if doc_list[i] >= docid:   # since doc_list contains self.last_id, this inequation will always be satisfied     
                new_pos = i     
                new_doc_id = doc_list[i]     
                break     
        return [new_doc_id, new_pos]     
     
    def __advance_term(self, change_index, doc_id ):     
        """change the first doc of term self.sort_terms[change_index] in the current inverted index     
        return whether the action succeed or not"""     
        change_term = self.sort_terms[change_index][1]     
        pos = self.current_inverted_index[change_term][1]     
        new_doc_id, new_pos = self.__iterator_invert_index(change_term, doc_id, pos)     
        self.current_inverted_index[change_term] = [new_doc_id, new_pos]     
        self.sort_terms[change_index][0] = new_doc_id     
     
    def __next(self):     
        while True:     
            self.sort_terms.sort() #sort terms by doc id     
            pivot_term, pivot_index = self.__find_pivot_term() #find pivot term > threshold     
            if pivot_term == None: #no more candidate     
                return None     
            pivot_doc_id = self.current_inverted_index[pivot_term][0]     
            if pivot_doc_id == self.last_id: # no more candidate     
                return None     
            if pivot_doc_id <= self.current_doc:     
                change_index = self.__pick_term(pivot_index)     
                self.__advance_term(change_index, self.current_doc + 1)     
            else:     
                first_doc_id = self.sort_terms[0][0]     
                if pivot_doc_id == first_doc_id:     
                    self.current_doc = pivot_doc_id     
                    return self.current_doc # return the doc for fully calculating     
                else:     
                    # pick all preceding term instead of just one, then advance all of them to pivot     
                    change_index = 0     
                    while change_index < pivot_index:     
                        self.__advance_term(change_index, pivot_doc_id)     
                        change_index += 1     
            # print(self.sort_terms, self.current_doc, pivot_doc_id)     
     
    def __insert_heap(self, doc_id, score):     
        """store the Top N result"""     
        if len(self.result_list) < TOPN:     
            heapq.heappush(self.result_list, (score, doc_id))     
        else:     
            heapq.heappushpop(self.result_list, (score, doc_id))     
     
     
    def __calculate_doc_relevence(self, docid):     
        """fully calculate relevence between doc and query"""     
        score = 0     
        for term in self.query_terms:     
            if docid in self.inverted_index[term]:     
                score += UB[term]     
        return score     
     
     
    def perform_query(self, query_terms):     
        self.__init_query(query_terms)     
        while True:     
            candidate_docid = self.__next()     
            if candidate_docid == None:     
                break     
            #insert candidate_docid to heap     
            print('candidata doc', candidate_docid)     
            full_doc_score = self.__calculate_doc_relevence(candidate_docid)     
            self.__insert_heap(candidate_docid, full_doc_score)     
            print("result list ", self.result_list)     
        return self.result_list     
     
     
if __name__ == "__main__":     
    testIndex = {}     
    testIndex["t0"] = [1, 3, 26, LAST_ID]     
    testIndex["t1"] = [1, 2, 4, 10, 100, LAST_ID]     
    testIndex["t2"] = [2, 3, 6, 34, 56, LAST_ID]     
    testIndex["t3"] = [1, 4, 5, 23, 70, 200, LAST_ID]     
    testIndex["t4"] = [5, 14, 78, LAST_ID]     
         
    w = WAND(testIndex)     
    final_result = w.perform_query(["t0", "t1", "t2", "t3", "t4"])     
    print("=================final result=======================")     
    for i in reversed(range(len(final_result))):     
        print("doc {0}, relevence score {1}".format(final_result[i][1], final_result[i][0]))

参考资料

wand(weak and)算法基本思路
WAND算法核心部分梳理

送给网络小白的行业术语，开启赚钱第一步九骁
在互联网行业，尤其是一些刚学习网赚方面的小白，在读一些文章时，一些专业术语可能读不懂，云里雾里的，这也是九骁在很久之前刚接触这个行业时所遇到的。那么今天，就来给小白们专门写一下。大佬勿喷。【CPA】（每次行动成本，CostPerAction）比较常用的一种广告计费方式,根据用户的行为来计算广告费,比如点击、下载、注册或者填写调查问卷等,都可以叫CPA。计价方式是指按广告投放实际效果，即按回应的有效
干货 | PID算法在广告成本控制领域的应用携程技术广告算法人工智能 python 深度学习
作者简介JasonPei，携程高级算法工程师，对计算广告、推荐系统、NLP等领域有浓厚兴趣。一、背景介绍在商品服务高度发达，信息爆炸的市场经济体制下，企业之间的竞争日益激烈，广告作为一种重要的营销手段，肩负着将企业自身的品牌形象及产品服务准确传达给消费者，促进企业商业利益达成的使命。可以说广告对于企业的生存发展至关重要。随着信息技术的进步，互联网广告由于投放周期短、触达范围广、可精准投放等优点，近
策略产品推荐书单 Stacy_商业PM
1.计算广告①了解广告系统基本知识、属于、应用。不同计价方式在一定程度上代表了平台的议价能力。例如CPM，广告主承担预测CTR职责，广告平台议价能力强例如CPC、CPA，广告平台承担预测CTR职责，广告平台议价能力相对较弱OCPX②了解在线广告产品主要逻辑：合约广告、搜索与竞价广告、程序化交易广告、原生广告③在线广告产品的技术实现，策略产品对技术实现有基本认识非常关键，策略产品需求相对抽象，懂技术
计算广告-chapter04 合约广告喜欢絮叨的爱美丽
定向方法2性能：定向的效果，即符合该定向方式的流量上高出平均ecpm的水平定向的规模，即这部分流量占整体广告库存流量的比例合约广告产品案例Yahoo!GD市场标签的人群规模更有说服力延伸思考？1.除了广告位合约和展示量合约，是否可以设计一种点击量合约的交易模式，它会遇到什么样的挑战？点击量合约常理上来说有点不太可能实现，因为点击量与需求方的定向以及创意文案都有关系，且都有需求方提供，因此供给方没有
王喆：计算广告技术综述与思考夕小瑶
‍编｜王喆源｜DataFunTalk导读：大家好，我是《深度学习推荐系统》的作者王喆，很多同行可能读过这本系统性介绍推荐系统的书，但大多数人可能不知道我职业生涯的头四年都在做广告系统，之后才在推荐系统方向工作了四年，这两年又回到了广告方向。既然是重操旧业，就不免想对计算广告这个方向做一次全面的再思考。深度学习浪潮如火如荼的这些年间，计算广告到底发生了哪些深刻的变化？相比于推荐系统，广告系统有哪些独
效果广告基础 iOS开发by唐巧
前言前阵子工作涉及一些效果广告投放，也看了一些书，写个效果广告的基础文章分享给大家。广告的类型广告收入撑起了中国互联网行业收入的半壁江山，本质上百度、阿里、头条系的大部分收入，都是来自广告。腾讯虽然游戏收入很多，但广告收入也不少。而广告的类型，我个人理解主要分为：品牌广告和效果广告。品牌广告不容易直接计算广告的效果。比如今年猿辅导与《最强大脑》节目合作，在节目中做一些宣传，就属于品牌广告。其部分效
搜索算法和推荐算法、广告算法的区别邴越互联网电商架构推荐算法算法机器学习
广告和推荐算法的技术框架比较相似，在线计算时都分为召回（candidatesgenerating）和排序（candidatesranking）两个阶段（这似乎是计算资源有限条件下，所有检索问题的通用架构）。在某角度上可以把推荐系统理解成计算广告的一部分。不考虑品牌广告等其他广告形式，在我看来，计算广告和推荐系统的联系在于业务上的融合和技术上的重合。搜推广要解决的问题区别：回到根本问题上来，三个方向
【好书推荐-第30期】开发者请注意！因果推断与机器学习,终于有人能讲明白啦! 程序员洲洲送书福利项目踩坑机器学习人工智能
本文目录一、因果推断二、因果推断的前世今生三、总结四、赠书条件今天给各位读者推荐一本好书：《机器学习高级实践：计算广告、供需预测、智能营销、动态定价》，好书链接。2023年初是人工智能爆发的里程碑式的重要阶段，以OpenAI研发的GPT为代表的大模型大行其道，NLP领域的ChatGPT模型火爆一时，引发了全民热议。而最新更新的GPT-4更是实现了大型多模态模型的飞跃式提升，它能够同时接受图像和文本
推荐系统，计算广告模型论文，代码与数据集汇总 JackHCC Paper：论文集推荐算法
Rec-Models更多细节参考项目：https://github.com/JackHCC/Rec-Modelshttps://github.com/JackHCC/Rec-ModelsSummaryofrecommendation,advertisingandsearchmodels.RecallPapersPaperResourceOthers[2019阿里SDM模型]SDM:Sequenti
聊聊互联网广告前世今生，你想不想要流量？反正我想！ Thesmophoria 笔记
计算广告中，什么是CPC、CPM、CPA、CPL、CPS、CPR先通过一个浅显易懂的例子，给大家分析整理清楚1、你出差，住酒店傍晚住酒店，想看看都能提供什么服务，于是想收集一些小卡片：叫做精准广告投放（平台、时间、人群）；2、你远远的看到了卡片：叫做CPM（曝光）；3、你感兴趣，走过来捡起了卡片：叫做CPC（点击）；4、你来回翻看着卡片，最终没能忍住诱惑，拨打了卡片上的电话：叫做CPA（行为）；5
Flink SQL JOIN ambitfly flink sql 数据库
双流JOIN(RegularJoin)RegularJoin就是大家熟知的双流Join，语法上就是普通的JOIN语法。图中案例是通过广告曝光流关联广告点击流将广告数据打宽，打宽后可以进一步计算广告费用。从图中可以看出，曝光流和点击流都会存入join节点的state，join算子通过关联曝光流和点击流的state实现数据打宽。RegularJoin的特点是，任意一侧流都会触发结果的更新，比如案例中的
逻辑回归 kwunkau 机器学习
目录一、前言二、什么是逻辑回归1.1线性回归能解决分类问题么？1.2用逻辑回归解决分类问题一、前言逻辑回归（LogisticRegression，LR）。在Kaggle竞赛的统计中，LR算法以63.5%的出产率，荣获各领域中“出场率最高的算法”这一殊荣。在实际场景中，逻辑回归同样应用广泛，大到国家各项经济政策的制定，小到计算广告CTR，都能看到LR算的身影。除了应用广泛外，LR的建模过程还体现了数
【推荐与广告】积累与发现 dominic_z 机器学习与数据挖掘 python
文章目录特征计算广告业务计费方式竞价策略评价指标广告归因综合介绍DMP推荐算法概述协同过滤深度推荐矩阵分解SVDLFM分解机文本主题模型基于图的推荐排序学习简介PairwiseCTR预估CTR校准数据优化FTRL多任务学习丹核心思想特征推荐系统的特征工程数据分析经典分析方法-TGI分析计算广告业务计费方式CPM(CostPerMille)：每千人成本。按展示数量收费。CPC(CostPerClic
阅读笔记-计算广告第十一章-合约广告核心技术 phenomenona
合约广告的关键特征，是广告投放的价格和量由双方协商约定，合约广告的最初形式是按广告位售卖的CPT广告。合约广告的重点形式是按指定受众购买的、按CPM计费的展示量合约广告。展示量合约广告的投送系统称为担保式投送系统。它依赖于受众定向、流量预测、点击率预测这三项基本技术，并采用在线分配的方式完成实时决策。合约广告的担保式投送决策逻辑比较复杂，这里主要从两个方面介绍此问题的一般性思路：一是在未来流量分布
暴雨将至：真正可行的区块链计算广告达秦
以前的区块链+计算广告为什么失败？如何从现在开始，构建一个区块链计算广告平台？他如何让用户不再反感广告？如何提高广告质量和效果？如何让媒体获得更多收益？如何让让品牌主获得更好效果？讲解视频：区块链规模化应用手册2：区块链计算广告。
精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN PaperWeekly 大数据算法 python 机器学习人工智能
©作者|Glenn单位|腾讯研究方向|数据挖掘、计算广告背景如下图[1][2]，阿里妈妈的精排模型，经历了从传统LR、MLR到深度模型GwEN，再到用户兴趣建模的过程。传统的深度模型（如GwEN），一般采用Embedding&MLP的形式，它会将用户的所有兴趣信息转化为一个定长的向量。但用户的兴趣是多样的，定长的向量可能不足以表达。而且评估用户对于不同商品/广告的兴趣时，应该使用不同的行为（判断用
《计算广告》：互联网时代广告人的新兴必修课结课了把名字改掉
在今年四月份我有幸阅读刘琴老师与祝翔老师在今年三月份发表的论文《迷思与反思:计算广告学的演进逻辑与现实判断》，看完论文之后我就对“计算广告”这一新兴的研究课题很感兴趣。在论文中，刘琴老师与祝翔老师先是介绍了“计算广告”的国内外研究现状，后从模式、市场、平台三个角度三个方面阐释了计算广告的演进逻辑与路径，又从“数据—思维力”“决策—统筹力”“创意—创新力”三个方面介绍了计算广告需要构建的三种知识能力
计算广告在线产品逻辑-计算广告3-8章 phenomenona
之前跳读了技术相关的计算广告后几章，感觉还是很缺乏对业务的理解，所以跳回来一次读完了广告业产品业务相关的几章，这里来做一次总结，无论是广告产品经理亦或是广告业务相关算法和开发人员，都建议可以读读。这里一定一定建议在阅读本文时去结合目前接触到的所有电脑和移动端的广告去分析，这样可以更有助于理解广告产品以及其所含有的业务逻辑。在线广告的产品形式相当丰富。由于之后会涉及到相当多的业务逻辑和产品业务，这里
（知识卡片）品牌广告如何考量效果产品经理充电宝
【信息】感冒药是品牌广告，那怎么衡量效果呢？【思考】计算广告领域各类技术的产生背景梳理【出处】日常思考【时间】22.02.07
javascript 如何判断一个元素是否在可视区域中？幸宇
用途可视区域即我们浏览网页的设备肉眼可见的区域，如下图image.png在日常开发中，我们经常需要判断目标元素是否在视窗之内或者和视窗的距离小于一个值（例如100px），从而实现一些常用的功能，例如：图片的懒加载列表的无限滚动计算广告元素的曝光情况可点击链接的预加载实现方式判断一个元素是否在可视区域，我们常用的有三种办法：1、offsetTop、scrollTop2、getBoundingClie
排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别？王喆的机器学习笔记
这里是「王喆的机器学习笔记」的第三十八篇文章。今天我们聊一聊推荐、广告、搜索算法的区别。我自己在推荐系统和计算广告这两个方向分别工作了4年和5年的时间，对兄弟团队的搜索算法也有比较多的了解，再加上近来陆续有不少同行邀请过回答类似问题，所以这里就写一篇文章总结一下自己的思路。作为互联网的核心应用“搜广推”，三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、
《计算广告》第二章计算广告基础 SHAN某人
前言关注两个关键问题在线广告中的计算到底是为了解决什么问题？解决这些问题需要什么样的业务描述框架？1广告有效性原理广告从产生用户接触开始是如何产生最终效果的?广告学界提出一个三段式的信息传播模型来描述广告从物理性产生到最终转化为受众行为的全过程：广告有效性模型（1）曝光这一阶段指广告物理上展现出来的过程，此阶段有效程度主要与广告位的物理属性有关，并无太多技术优化空间。Q：如何提高此阶段效果？（2）
2017校招面经（BAT、搜狗、搜狐、一点资讯、360、华为优招）婉妃
1.简单介绍面试岗位：机器学习|数据挖掘|算法工程师|基础研究比赛经历：天池比赛Top10，滴滴算法大赛Top5，京东算法大赛Top1科研经历：实验室主要方向：计算机视觉+生物信息。在研一上课的时候，实验室有师兄在做计算广告ctr预估、异构平台搭建，自己也算是耳融目染，学习了一些吧。个人背景：本科普通院校信息管理与信息系统（计算机与管理的交叉学科），考研到哈工大，到找工作的时候刚好一年（工大本部2
《计算广告》第三章在线广告产品概览 SHAN某人
1在线广告产品分类在线广告产品分类合约广告产品由线下广告的交易形式衍生而来，又可以分为按照时段售卖的CPT广告和按照约定展示量售卖的CPM广告。这类广告产品主要服务于后续效果不宜直接衡量的品牌类广告主，在门户网站和视频网站比较常见。移动端的开屏广告，应该也是新时代的合约广告形式竞价广告产品其最主要的方式就是搜索广告，其产品形式为对搜索关键词的竞价，这种广告在扩展到站外展示广告流量时，演进成了对页面
阅读笔记-计算广告第九章-计算广告技术概览 phenomenona
注：计算广告3-8章主要面向的是广告产品、运营销售人员撰写，这边先跳了，之后有时间再回来阅读，该章内容很繁琐，属于综述，这里拷贝了很多书上的原文。个性化系统与搜索系统都采用检索加排序这样类搜索的系统架构，个性化系统与搜索系统的主要差别在于大量的用户特征的使用。计算广告是根据个体用户信息投放个性化内容的典型系统之一，类似的系统还有推荐系统等。个性化系统个性化系统框架一般的个性化系统由四个主体部分构成
读《计算广告》——看不懂其实没关系 _咩咩_
利益相关：某新贵互联网公司的商业化pm如果说世界上只有两类书可以读，那么我首选人物传记和教科书，一个让你看见更大的格局，知历史的兴替，另一个高密度的向你呈现人类智慧的结晶，是获取知识的捷径。按这个标准看，《计算广告》是一本非常值得阅读的书，它输入起名，信息量非常非常非常大。笔者入职某互联网新贵的商业化部门已经一年了，这本书从入职前到今天已读过三遍，每读一遍都会在自己知识体系中查漏补缺，有所更新；直
《计算广告》第一章计算广告综述 SHAN某人
互联网关键思维模式正面的免费服务是为了获得流量和数据。背面的广告业务则是将这些流量和数据变成金钱。在能够获得充分的流量或高价值数据以后，所有能够传播信息的商品，其售价都会趋向其边际成本。广告业务的收益来自于三个方面：数据，流量和品牌属性。其中后两点是媒体的专属。而大量广告平台在做的事情，主要就是数据的加工与利用。其根本目的是广告主通过媒体达到低成本的用户接触。什么是广告？WilliamF.Aren
阅读笔记-计算广告第十章-基础知识准备 phenomenona
计算广告并不是一门独立的学科，它更应该被看成是一个工业界的具体问题。在进入具体的广告技术和算法之前，先概要性的介绍几个相关领域的技术和算法，为后面的算法章节做铺垫。1.信息检索1.1倒排索引倒排索引是现代搜索引擎的核心技术之一，其核心目的是将从大量文档中查找某些词的文档集合这一任务，用o（1）或o（logn）的时间复杂度完成。假设有如下几篇文档：D0=“谷歌地图之父跳槽Facebook”D1=“谷
推荐算法持续成长的mage
一、头条（DATA核心团队）推荐系统高级工程师位置：知春路职位描述：1、参与头条品的推荐效果研发2、在头条十几亿VV的产品上继续挖掘改进空间3、参与全新的产品的推荐架构搭建职位要求：1、具备强悍的编码能力和扎实的数据结构和算法功底2、有推荐系统相关经验，熟悉常用的推荐算法3、熟悉常见的开源组件，参与过高性能在线服务研发者优先4、有大规模海量数据机器学习/数据挖掘/计算广告/搜索引擎相关经验者优先5
计算广告-chapter02 计算广告基础喜欢絮叨的爱美丽
广告有效性原理广告有效性原理互联网广告的技术特点1.技术和计算导向数字媒体的特点使在线广告可以进行精细化的受众定向，技术使得广告决策和交易朝着计算驱动的方向发展。2.效果的可衡量性曝光、ctr等维度可以表现出广告优劣。3.创意和投放方式的标准化标准化的驱动力来自于受众定向与程序购买。4.媒体概念的多样化互联网的发展催生了多种性质的媒体，应注重各种媒体的配合关系，以整合营销的手段来做roi的最大化。
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

Wand 算法介绍与实现

Wand 原理介绍

Wand 的实现代码

你可能感兴趣的:(计算广告,计算广告)