weixin_44422539

用户画像

基于用户搜索关键词数据为用户打上标签（年龄，性别，学历）

整体流程

（一）数据预处理

编码方式转换
对数据搜索内容进行分词
词性过滤
数据检查

（二）特征选择

建立word2vec词向量模型
对所有搜索数据求平均向量

（三）建模预测

利用逻辑回归模型对用户类别进行预测
将原始数据转换成utf-8编码，防止后续出现各种编码问题

import csv

def code_coversion(filename):
    #原始数据存储路径
    data_path = 'F:\\data_load\\' + filename
    #生成数据路径
    csvfile = open(data_path + '.csv', 'w')
    writer = csv.writer(csvfile)
    writer.writerow(['ID', 'age', 'Gender', 'Education', 'QueryList'])
    #转换成utf-8编码的格式
    with open(data_path, 'r',encoding='gb18030',errors='ignore') as f:
        lines = f.readlines()
        for line in lines[0:-1]:
            try:
                line.strip()          
                data = line.split("\t")
                writedata = [data[0], data[1], data[2], data[3]]
                querystr = ''
                data[-1]=data[-1][:-1]
                for d in data[4:]:
                    try:
                        cur_str = d.encode('utf8')
                        cur_str = cur_str.decode('utf8')
                        querystr += cur_str + '\t'
                    except:
                        continue
                        #print (data[0][0:10])
                querystr = querystr[:-1]
                writedata.append(querystr)
                writer.writerow(writedata)
            except:
                #print (data[0][0:20])
                continue
    csvfile.close()

code_coversion('user_tag_query.10W.TRAIN')
code_coversion('user_tag_query.10W.TEST')

生成对应的数据表

import pandas as pd

#编码转换完成的数据
trainname = 'F:\\data_load\\user_tag_query_TRAIN.csv'
testname = 'F:\\data_load\\user_tag_query_TEST.csv'
data = pd.read_csv(trainname, encoding='gbk')
print(data.head())

#分别生成三种标签数据（性别、年龄、学历）
data.age.to_csv('F:\\data_load\\train_age.csv',index=False)
data.Gender.to_csv('F:\\data_load\\train_gender.csv',index=False)
data.Education.to_csv('F:\\data_load\\train_education.csv',index=False)
#将搜索数据单独拿出来
data.QueryList.to_csv('F:\\data_load\\train_querylist.csv', index=False)

#导入测试数据
data = pd.read_csv(testname, encoding='gbk')
print(data.info())
data.QueryList.to_csv('F:\\data_load\\test_querylist.csv', index=False)

对用户的搜索数据进行分词与词性过滤

这里需要分别对训练集和测试集进行相同的操作，路径名字要改动一下

import pandas as pd
import numpy as np
import jieba
import jieba.posseg
import time
import os, sys

def input(trainname):
    traindata = []
    with open(trainname, 'rb') as f:
        line = f.readline()
        count = 0
        while line:
            try:
                traindata.append(line)
                count += 1
            except:
                prit('error:', line, count)
            line= f.readline()
    return traindata

start = time.clock()

filepath = 'F:\\data_load\\test_querylist.csv'
QueryList = input(filepath)

writepath = 'F:\\data_load\\test_querylist_writefile.csv'
csvfile = open(writepath, 'w')
POS = {}
for i in range(len(QueryList)):
    s = []
    str=""
    words = jieba.posseg.cut(QueryList[i])#带有词性的精确分词模式
    allowPOS = ['n', 'v', 'j']
    for word, flag in words:
        POS[flag] = POS.get(flag, 0) + 1
        if (flag[0] in allowPOS) and len(word) >= 2:
            str += word + ' '
    cur_str = str.encode('utf8')
    cur_str = cur_str.decode('utf8')
    s.append(cur_str)
    csvfile.write(' '.join(s)+'\n')
csvfile.close()

end = time.clock()
print('total time: %f s' % (end - start))

total time: 10012.192463 s

使用Gensim库建立word2vec词向量模型

参数定义：

sentences：可以是一个list
sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。
size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
window：表示当前词与预测词在一个句子中的最大距离是多少
alpha: 是学习速率
seed：用于随机数发生器。与初始化词向量有关。
min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
workers参数控制训练的并行数。
hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0（defau·t），则negative sampling会被使用。
negative: 如果>0,则会采用negativesamp·ing，用于设置多少个noise words
iter：迭代次数，默认为5

from gensim.models import word2vec
#将数据变换成list of list 格式
train_path = 'F:\\data_load\\train_querylist_writefile.csv'
with open(train_path, 'r') as f:
    My_list = []
    lines = f.readlines()
    for line in lines:
        cur_list = []
        line = line.strip()
        data = line.split(' ')
        for d in data:
            cur_list.append(d)
        My_list.append(cur_list)
    model = word2vec.Word2Vec(My_list, size=300, window=10, workers=4)
    savepath = '_word2vec_' + '300'+'.model' #保存model
    
    model.save(savepath)

接下里看一下模型的效果：

model.wv.most_similar('大哥')

[(‘黑社会’, 0.5804992914199829),
(‘大嫂’, 0.562471330165863),
(‘男儿’, 0.49141111969947815),
(‘二哥’, 0.48255860805511475),
(‘四爷’, 0.48209255933761597),
(‘莫磊’, 0.4794856309890747),
(‘阿哲’, 0.47818657755851746),
(‘铁蛋’, 0.4763179421424866),
(‘招惹’, 0.4760439097881317),
(‘钟情’, 0.4748595356941223)]

可以看到依据训练数据可以得到于大哥相近的向量有以上这些

model.wv.most_similar('清华')

[(‘清华大学’, 0.6093192100524902),
(‘劝阻’, 0.5702500343322754),
(‘北大’, 0.5518572330474854),
(‘开课’, 0.5475547909736633),
(‘闹事’, 0.5349792242050171),
(‘特教’, 0.5277222394943237),
(‘附属中学’, 0.5266857147216797),
(‘北京大学’, 0.5259680151939392),
(‘校长’, 0.516852617263794),
(‘补课’, 0.4978478252887726)]

从结果来看还是蛮不错的

加载训练好的word2vec模型，求用户搜索结果的平均向量

import gensim
train_path = 'F:\\data_load\\train_querylist_writefile.csv'
from gensim.models import word2vec
cur_model = word2vec.Word2Vec.load('_word2vec_300.model')
with open(train_path, 'r') as f:
    cur_index = 0
    lines = f.readlines()
    doc_cev = np.zeros((len(lines), 300))
    for line in lines:
        word_vec = np.zeros((1,300))
        words = line.strip().split(' ')
        word_num = 0
        #求模型的平均向量
        for word in words:
            if word in cur_model:
                word_num += 1
                word_vec += np.array([cur_model[word]])
        doc_cev[cur_index] = word_vec / float(word_num)
        cur_index += 1

接下来构建用户的标签：分别位性别、教育程度、年龄

genderlabel = np.loadtxt(open('F:\\data_load\\train_gender.csv','r')).astype(int)
educationlabel = np.loadtxt(open('F:\\data_load\\train_education.csv', 'r')).astype(int)
agelabel = np.loadtxt(open('F:\\data_load\\train_age.csv', 'r')).astype(int)

由于数据中有些类别数据采取不全而采用0值替代的异常值，且数据量较多，可以将异常值去掉

def removezero(x, y):
    nozero = np.nonzero(y)
    y = y[nozero]
    x = np.array(x)
    x = x[nozero]
    return x, y

gender_train, genderlabel = removezero(doc_cev, genderlabel)
age_train, agelabel = removezero(doc_cev, genderlabel)
education_train, educationlabel = removezero(doc_cev, genderlabel)
print (gender_train.shape,genderlabel.shape)
print (age_train.shape,agelabel.shape)
print (education_train.shape,educationlabel.shape)

(87790, 300) (87790,)
(87790, 300) (87790,)
(87790, 300) (87790,)

绘图函数，以性别为例，绘制混淆矩阵

import matplotlib.pyplot as plt
import itertools
%matplotlib inline

def plot_confusion_matix(cm, classes, title='Gender_Confusion matrix', cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)
    
    thresh = cm.max() / 2
    for i,j in itertools.product(range(cm.shape[0], cm.shape[1])):
        plt.text(j, i, cm[i,j],
                horizontalalignment='center',
                color = 'white' if cm[i, j] > thresh else 'black')
    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predict label')

先建立一个基础分类模型

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

#gender_train 为每个用户搜索的数据的词向量，genderlabel 为用户的性别
X_train, X_test, y_train, y_test = train_test_split(gender_train, genderlabel,\
                                                   test_size=0.2, random_state=0)
lr_model = LogisticRegression()
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
print(lr_model.score(X_test, y_test))

cnf_matrix = confusion_matrix(y_test, y_pred)
print('Recall metric in the testing dataset:', cnf_matrix[1,1] / (cnf_matrix[1,1] + cnf_matrix[1,0]))
print('accuracy metric in the testing dataset:', (cnf_matrix[0,0] + cnf_matrix[1, 1]) / \
     (cnf_matrix[0,0] + cnf_matrix[0,1] + cnf_matrix[1,0] + cnf_matrix[1,1]))

#Plot non_normalized confusion matrix
classes = [0, 1]
plt.figure()
plot_confusion_matix(cm=cnf_matrix, 
                     classes=classes,
                    title='Gender_Confusion matrix')
plt.show()

可以看到已经成功的将准确率达到了81.7%，但是召回率确实只有77.2%，效果一般。这里只是以性别为例子，后续还可已将用户年龄、教育程度、喜好等分类出来给用户贴上标签，逐渐完善用户画像，具体得看业务需求。
本次的例子由于是类别样本分布不均匀导致效果一般，严格来说，任何数据集上都有数据不平衡现象，我们可以通过一下几点去解决类别分布不均匀的问题：
1、采样：
采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集，在大部分情况下会对最终的结果带来提升。采样分为上采样（Oversampling）和下采样（Undersampling），上采样是把小众类复制多份，下采样是从大众类中剔除一些样本，或者说只从大众类中选取部分样本。
2、数据合成
数据合成方法是利用已有样本生成更多样本，这类方法在小数据场景下有很多成功案例，比如医学图像分析等。
目前我只接触到了这两种方法，如有需求可以观看这篇博客：https://blog.csdn.net/lujiandong1/article/details/52658675

你可能感兴趣的:(用户画像)

Python数据获取——图片数据提取，2024中级Python开发面试解答 2401_83977580 2024年程序员学习 python 面试开发语言
比如我随便从手机上传一张图片到我的电脑里，通过python可以获取这张照片的所有信息。如果是数码相机拍摄的照片，我们在属性里可以找到照片拍摄的时间，拍摄的经纬度，海拔高度。那么这些信息有什么作用呢？有很多功能…比如用户画像，客户信息标签设定等等，用户喜欢拍摄照片的季节，时间点，所使用的相机的参数指标可以反应出一个人的金钱状况，对于其拍摄的内容，我们可以通过AI的方式对照片的内容信息进行提取，从而判
AI 内容创作：思考与实践三余知行「计算通践」人工智能内容创作 RAG 强化学习协同思考与实践
文章目录LLM与RAGLLMRAGRAG定制策略AI写作助手演示内容层次结构与内容深度优化有效的主题与段落结构内容深度的多样性与独特性提高文本逻辑性与连贯性模拟实践内容评测与优化迭代机制内容评测自动迭代优化机制评估指标模拟实践个性化写作与AI协同写作用户画像与需求分析内容推荐用户体验增强语气调节技巧实时协作与版本控制任务自动分配创意碰撞伦理与责任原创性与抄袭问题社会责任透明性与用户知情权偏见与公平
电商平台的用户画像标签体系建设里外00
01整体思路电商平台连接了卖家和买家两端，最终目的都是促进交易，从而追求更高的销售额。提高人货匹配度是促进交易的关键，而提高人货匹配度的关键就是“让买家找到想要的货物”。本文结合“人、货、场”理论模型，尝试建立电商平台的用户画像标签体系。02三大类标签用户在平台购物的整体流程可以概括为：进入平台、选择商品、下单付款。可以将该过程抽象为“人、货、场”。即用户通过什么途径进入什么商品的页面，完成选择并
深入 Rust 标准库，Rust标准库源代码系统分析青花科技 rust 开发语言后端
系列文章目录送书第一期《用户画像：平台构建与业务实践》送书活动之抽奖工具的打造《获取博客评论用户抽取幸运中奖者》送书第二期《SpringCloudAlibaba核心技术与实战案例》送书第三期《深入浅出Java虚拟机》送书第四期《AI时代项目经理成长之道》送书第五期《Kubernetes原生微服务开发》文章目录系列文章目录★前言☆一、推荐☆二、内容简介2.1、通过本书能学到什么？☆三、作者简介☆四、
用户画像尹二尹
用户名需求性别特征适合商场大明，需求明确。男人，。京东笨笨。大概需求。女人。小红书小闲。打发时间。腾讯
让数据在业务间高效流转，镜舟科技与NineData完成产品兼容互认镜舟科技数据库云计算
近日，镜舟科技与NineData完成产品兼容测试。在经过联合测试后，镜舟科技旗下产品与NineData云原生智能数据管理平台完全兼容，整体运行高效稳定。镜舟科技致力于帮助中国企业构建卓越的数据分析系统，打造独具竞争力的“数据护城河”，其基于全球领先的开源项目StarRocks研发了两款企业级软件——镜舟分析型数据库和镜舟湖仓加速引擎，在用户画像分析、指标平台建设、固定报表加速、实时数据查询分析等领
11.26日工作心得词妈
重庆新思维学校铁军教练团每日工作心得分享：时间：11.26部门名称:校区岗位名称：执行总校长分享人：黄苹今日完成工作：休息明日重点工作：江北开会今日工作心得：早上学习以后思考到一个一直无法破解的问题，看来越学习越聪明今日阅读心得：你要规划一个产品，需要问自己七个问题：第一，我的产品解决了什么问题？是痛点、痒点，还是爽点？第二，我在为谁解决这个问题？他得到即刻满足了吗？这是用户画像的问题。第三，有多
60-文文-Day5-裂变增长实验室文文_c6ac
我叫文文，第05天打卡首先交代一下我的行业背景:一家实体美容店，我们的客户分为两大类:一类是纯客户，直接是过来做服务的；一类是我们招品牌代理商，（我们招来的代理，我们提供美容养生手法教学，提供我们平台产品进货折扣和渠道，培育代理拓客走市场的一套方法。我们店就有点像共享美容院的感觉。）【用户画像】一、基本情况1.用户对象职业:宝妈群体、女性白领群体2.用户对象细分：宝妈，白领，有二次创业意向的女性群
【一点分享】Sql笔记：3天就可以写出很溜的Sql，飞一样的感觉（第3天）或许能用上
1、日期维表日期维表的提前生成，请参考后续公众号文章。2、维表参与统计承接昨天文章的任务，维度表参与统计。将昨天的sql进行改造。3、行转列4、行错位运算5、分析函数6、用户留存7、用户画像标签昨天文章有案例，可再扩展。8、纵表存储标签中间数据上个标签案例，一条sql出了多个标签。实践中，会将标签分别存到中间表，再统一整理为标签大宽表，即行转列。ok，3天的内容已经过完，是否有感觉呢。建议对照sq
三分钟入门大数据之什么是用户画像？汉斯的工作站
哈喽，大家好，我是汉斯老师。近几年来，互联网行业由于较高的薪资收入，受到许多人的追捧。很多年轻的学子，或是其他行业的有志青年，都想要投身到这个行业中来。然而一方面受到“互联网寒冬”的影响，最近频频传出各家知名互联网公司裁员缩编的消息；另一方面，大量的人才涌入，又使得互联网产业在职场上呈现出供过于求的特征，并最终导致了职场上的激烈竞争。那么互联网行业未来的潜力在哪里？我们又应该在哪个方向上发力，才能
2018-11-15 shiyuqi
虚拟社区的涌现周期闭包：指网络结点倾向于和自己在网络中邻居的邻居建立连接关系而形成的结构偏好连接：真实网络中新加的边倾向于和度数较大的边连接社交网络群体行为形成和互动规律用户行为分析用户采纳和用户忠诚（期望确认理论）社交网络情感分析技术面向短文本的情感分析技术基于群体智能的社交网络的垃圾意见挖掘技术！社交网络分析的应用社交推荐舆情分析？？用户画像**通过研究用户的资料和行为，将其划分为不同的类型，
端银朋友圈特训营+127+九久同学+第六次作业+实操九久同学
这几天突然想到新的用户画想，便再次把自己的受众人群，用户画像重新梳理了一遍。我的受众是上班族（工薪族）1.普通的有稳定收入的上班族2.忙碌，高收入的上班族痛点：理财意识不足，没系统学习就去投资了，投资亏损需求：怎样简单有效的去理财，投资赚钱？老师说用户在哪，你的钩子就要放在哪。有理财需求的用户可在优质的付费群，星球，挖财里寻找，我们要找的是精准的粉，这样才最高效。找到了用户，接下来就是放钩子。我准
为什么你写的文章没人看没人赞爱呆墨
为什么有些人能写出10万+的爆文，而你写的文章却没人看，看了也没有点赞，没有评论，没有转发？这话是问你，同时也是在问我自己。其实动笔之前，我们可以先问自己5个问题：第一，读者是谁？分析你的读者用户画像，你写的文字到底是要给谁看的？是男是女？年龄多大？有什么习惯和偏好？正在经历什么样的心路历程？如果你的读者只是你自己，那么你写的是日记，只适合自己读读，不是给别人看的。第二，他们内心有什么痛苦？你经历
文案实操心得㈠北夜极星
这几天，因为有份文案要写，所以暂时不会继续解读新书了。但会分享一下写文案时的心得。今天，按照雨涛老师的建议，由重新听了课程，看了笔记后，结合手头现有的资料，做了产品和用户画像分析。图片发自App说实话，虽然是第一次独立完成文案，但没有想象中的手忙脚乱。因为仔细听了课程，对操盘文案的整个过程有了整体的概念。只是，还需要时不时地去翻看笔记。当然，有时还会去《销售脑》中寻找些建议。按照老师的课程一步一步
APP用户流量分组管理，挖掘更大广告变现收益 AdSet聚合广告平台
流量分组是指开发者根据一定的规则对用户群体进行分组，包括用户属性、用户行为、地理位置等，同时支持开发者自定义属性和规则。开发者可对不同分组配置不同的瀑布流，实现精细化运营。流量分组通常在2种情况下使用：①在APP稳定运营前，通过流量分组功能，对不同的用户进行分组测试，找到比较适配自身用户人群的广告变现策略。②在APP稳定运营后，针对用户画像调整或者产品变化（如新版本，新渠道等），做广告精细化调优使
揭秘抖音招商团长：引爆商机，创造巨大财富！氧惠爱高省
抖音作为全球领先的短视频平台，蕴含着巨大的商机和创富机会。越来越多的商家意识到，在抖音上拥有一支高效的招商团队是获取市场份额和扩大销售的关键。本文将深入探讨成为抖音招商团长的必备条件及其背后隐藏的无限商机。一、了解抖音平台：招商团长要成功的第一步，是深入了解抖音平台的特点和运营机制。从用户画像、流量分布到热门话题和内容趋势，充分掌握这些信息是迎合用户需求，实现精准推广的基础。同时，招商团长需要了解
今日头条竞品分析报告黑白小白
目录一、项目描述31.1竞品分析描述31.2测试环境3二、市场31．行业概述32、行业描述6（1）政策7（2）经济8（3）社会10（4）技术11三、商业模式带价格和数字，要详细和具体13四、用户场景151、用户标签152、用户行为173、用户群体194、用户画像195、需求痛点20五、腾讯新闻——网易新闻产品分析221、战略层22（一）腾讯新闻——网易新闻产品战略层分析222、结构层23（二）腾讯
用户调查四川邻水
模型1单个用户10秒钟变成经典用户，进入他的外在场景同理心其内在需求，情绪感受，体验流程，选择对比优势，付款评价2群体用户用户画像和行为，属性，分层，分群，多种需求的多种需求做调查，确定目的，问题，吸引，引用数据做优化改进产品和运营方式场景目标为什么分解核心点下一步行动拒绝失败跟进时间甘特图复盘改进
【大数据存储与处理】花落随风轻飘舞 big data 大数据 tomcat java hadoop
目录1.任务说明1.1任务描述1.2架构设计1.3数据流动图1.4运行环境2.数据生成2.1生成数据属性说明2.2数据生成代码3.数据存储3.1数据存入Hbase3.1.1hbase存储设计3.1.2数据存入hbase代码4.数据处理4.1Maven环境依赖4.2数据处理代码5.可视化展示1.任务说明1.1任务描述用户画像可以了解用户对哪些类型的短视频感兴趣，推荐用户喜欢的短视频，吸引更多的用户使
Java实现用户画像活动推荐系统 JAVA+Vue+SpringBoot+MySQL customer08 java vue.js spring boot mysql 开发语言
目录一、摘要1.1项目介绍1.2项目录屏二、功能模块2.1数据中心模块2.2兴趣标签模块2.3活动档案模块2.4活动报名模块2.5活动留言模块三、系统设计3.1用例设计3.2业务流程设计3.3数据流程设计3.4E-R图设计四、系统展示五、核心代码5.1查询兴趣标签5.2查询活动推荐5.3新增活动报名5.4新增活动收藏5.5新增活动留言六、免责说明一、摘要1.1项目介绍基于JAVA+Vue+Spri
2019-2-28晨间日记温暖妈妈小小
今天是什么日子起床：7:15就寝：10:30天气：阴心情：平纪念日：无任务清单昨日完成的任务，最重要的三件事：1、向老大请教怎样谈实体2、大群分享曾经害怕的事，做了以后，不过如此3、私信10人，3人回复改进：1、沟通对象有针对性，即用户画像，年轻人，实体店，宝妈2、分享多语音习惯养成：1、多用语音分享沟通2、每天多沟通周目标·完成进度线上变现计划学习·信息·阅读阅读定位2章健康·饮食·锻炼头疼，睡
第五周功能点调研商冰
功能点调研-网易蜗牛读书写书评功能分析调研目的体验产品网易蜗牛读书，了解其“写书评”板块的功能特点、底层业务逻辑，并分析是否有适用于微信读书借鉴的功能点。体验环境机型：iphoneX系统：IOS12.1版本：1.8.0功能分析用户画像数据来源：艾瑞数据根据以上用户画像可知，蜗牛读书主要用户集中在20-35岁间，整体较年轻化，他们对自我成长有要求，认可电子阅读方式的便利性，有阅读习惯并且喜欢记录，因
移动app广告变现，对接广告联盟还是选择第三方聚合广告平台？ AdSet聚合广告平台
作为互联网广告的载体，APP天生就比线下传统广告位更具优势，不受地域限制可以辐射到地球上的每一个角落，可以让广告获得更广的覆盖面。通过丰富的广告形式，精准的目标用户画像，也可以更好地实现品牌广告或效果广告的投放目的。AdSet官方资讯-上海神蓍信息科技有限公司接入广告联盟第三方APP（一般称为流量方，区别于第二方平台和第一方广告主），向广告联盟平台请求并曝光广告，并以一定比例和平台进行广告收入分成
如何跟陌生客户聊产品？大伟传说
图片发自App高手训练营有战友问：跟客户聊什么都行，但是如何切换到产品呢？对于这个问题，我们要知道，并非所有的客户是我们的目标客户。第一步是要对自己的目标客户有一个准确的画像，也就是用户画像。如果通过各种途径，我们遇到了，是我们用户画像的客户。我们想办法去跟他沟通。一般的步骤是需要先了解客户的认知，也就是对于这个领域，或者说对这个概念的认知。比如健康行业，比如减肥，明明这个人很胖，他不在乎，对于健
大数据用户画像系统架构设计充电了么
文章目录一、用户画像数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、JavaWeb毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结用户画像是一个非常通用普遍使用的系统，从我们的架构图中可以看出，从数据计算时效性上来讲分离线计算和实时计算。离线计算一般是每天晚上全量计算所有用户，或者按需
抖音招商团长怎么对接达人的运营业务一起高省
随着抖音平台的崛起，越来越多的企业开始认识到通过与抖音达人合作来推广产品和提升品牌影响力的重要性。作为一名抖音招商团长，如何能够有效地对接达人并开展运营业务，是每个团长都需要面对的挑战。首先，了解抖音平台及用户需求。作为一个成功的招商团长，你需要深入了解抖音平台的特点和用户的喜好。熟悉平台的运营规则、用户画像以及热门内容类型，可以帮助你更准确地选择适合合作的达人，并为其定制运营策略。其次，建立良好
如何设计一套支付系统–对账模块给支付公司将产品
业务背景：对账模块是支付系统的核心能力之一，是信息流和资金流关联的重要依据，平台如果只使用渠道的单边账单或者平台流水订单，出现差错或渠道恶意扣单的风险极高。为提高资金账务的正确性和保障平台的利益，需要通过平台系统对账能力与上游渠道对账单逐笔勾兑确认，如有差异能及时解决或归档。用户画像：1）清结算专员：负责发起清分的操作者，首先确保信息流对平，然后确认资金流应收款和信息流平账账单金额一致。希望能及时
数仓：用户行为类指标一网打尽大数据左右手大数据大数据
前言用户行为分析是对用户在产品或触点上产生的行为及行为背后的数据进行分析，通过构建用户行为数据分析体系或者用户画像，来改变产品、营销、运营决策，实现精细化运营，指导业务增长。总之，很重要。关注公众号，回复关键字【资料】，获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】先来看下用户类行为指标说明，然后下面详解常写的指标。指标名称解释说明新增用户首次联网使用应用的用户，如果一个用户首次打
机器学习聚类算法小森( ﹡ˆoˆ﹡ ) 机器学习算法算法聚类机器学习
聚类算法是一种无监督学习方法，用于将数据集中的样本划分为多个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。在数据分析中，聚类算法可以帮助我们发现数据的内在结构和规律，从而为进一步的数据分析和挖掘提供有价值的信息。聚类算法在现实中的应用：用户画像，广告推荐，搜索引擎的流量推荐，恶意流量识别，新闻聚类，筛选排序；图像分割，降维，识别；离群点检测；在聚类算法中根据样本之间的相似性，将样
复杂世界的“明灯”——确定性尝试新角度
这个世界是复杂多变的，甚至有句名言来专门形容这种状态：唯一不变的就是改变。但无论怎么改变，不变才是我们心底的永恒追求。追求不变，即为追求确定性，它是我们在复杂世界的“明灯”。关于确定性，有三次比较深的体会。第一次比较系统认识不确定性，是在梁宁老师的课程《产品思维30讲》。课程中，介绍了很大做产品的方法，比如“点线面体”、“用户画像”等。但在最后总结排序的时候，梁宁老师还是将确定性定为“大王”，排在
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他