OneTenTwo76

【用户画像】用户画像简介、用户画像的架构、搭建用户画像管理平台

文章目录

一用户画像简介
- 1 用户画像
- 2 定位
- 2 应用
- 3 用户标签
- - （1）标签分级
  - （2）标签分类
二用户画像的架构
- 1 画像处理流程
- 2 画像标签数据应用
- 3 用户画像管理平台
三搭建用户画像管理平台
- 1 一些问题
- 2 启动服务
- - （1）数据库建表脚本
  - （2）配置修改

一用户画像简介

1 用户画像

数据仓库是大数据体系的基石，用户画像是建立在数仓之上的一种应用，类似的应用还有商业智能，推荐系统等。

用户画像，英文: User Profile，( 也有少数称： User Portrait 或User Persona)。

一句话概念就是将用户信息标签化（Tag或者Label），以用户为中心，将各种各样的标签对应到其身上，一般表现为《人 – 标签 – 标签值》。

通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，进而对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌。

2 定位

相对于数据仓库而言，用户画像属于“上层建筑”，以数据仓库沉淀的数据为基础，提炼出更有价值的信息。

同时用户画像也是一种数据服务，在它之上还有“更高的建筑”，比如推荐系统，营销系统、风控系统、用于广告投放的DMP系统等等。这些系统往往需要对用户进行识别定位，那么用户画像就是最重要的数据来源。

画像中心的数据全部来源于数仓，但是其又不能直接使用数仓，所以需要按照画像的标准，以用户为单位，将数据再次进行提炼、加工组合，形成以用户标签为中心的数据。

2 应用

画像数据的主要应用类型：

运营决策：了解用户群体，聚焦目标用户，定位产品方向。
精准营销：营销活动推送、广告投放、个性化推荐。
用户分群：寻找高价值用户，挽留待流失用户，提升用户活跃。

3 用户标签

（1）标签分级

不同公司分级不同，最常见的为以下四级标签，又可以分为三种：

有的公司分为5级标签或者6级标签，不同在类目，5/6级标签的类目更加详细。

少数公司不分级，第一种称为标签的分类，第二种称为标签，第三种称为值

（2）标签分类

各个公司的标签分类都大差不差，分为以下三类：

统计类标签

统计类标签的规则放之四海皆准，每个公司的定义都差不多，如性别指的就是人的性别，不会有歧义，偏客观。

直接提取的标签，又叫事实标签。

比如：性别，年龄，最近一次登录时间，月均消费。

有非常通用且明确的定义，是最为常见的标签。
规则类标签

规则类标签与统计类标签不同在于概念上的差别，技术上差不多，往往各个公司的业务人员根据公司的需求灵活定义，偏主观。

从程序员角度来说，统计类标签与规则类标签没有本质差别。

需要自定义规则。

比如：高价值用户、意见领袖、电子产品爱好者、黄牛党。

需要运营、产品、业务人员，根据企业自身的业务特征，设计适合自身的规则定义。往往同一个名称的标签，在不同企业的规则不同。
挖掘类标签

挖掘类标签是企业做用户画像的分水岭，通常来说，这个标签不是由人来制定规则，因为有些规则没有办法通过人类语言描述清楚，或者人类语言描述的不准确，尤其是预测相关的规则，规则随着时间的变化也在不停的变化。

一般通过机器学习算法进行预测的标签。又叫预测类标签。

比如：预测性别、预测年龄、潜在流失用户。

通常是很难根据某一个规则得到的标签。需要机器学习通过系统现有的数据，反复迭代获得一个模型算法，再根据算法得到标签。

开发周期长，难度大，准确度不能保证。但是往往也是最有价值的标签，因为从数据得到的数据，有时往往比定死的规则更反映真实情况。

二用户画像的架构

用户画像架构如图：

1 画像处理流程

画像处理流程主要是根据标签及整个流程的规则计算标签，把数据仓库中的数据进行重组。

一般统计类和规则类标签使用spark-sql即可，复杂的规则类标签和挖掘类标签可以使用spark-core和spark-mllib完成。

是一个标准的ETL（清洗、转移、提取）流程，将数仓中的数据提取为以用户和标签为结构的数据，流程类似于数仓中的由ODS – DWD – DWS – DWT – ADS 逐层计算的过程，与数仓不同的是，画像处理中不全是SQL，并且不只是用一个数据库。

一般这个流程使用shell + 定时调度（Azkaban）就可以完成。

数仓计算的最终结果如果数据量小一般存放在MySQL中，数据量大一般存放在Kylin，Presto，HBase等容器中。

2 画像标签数据应用

用户画像最终的计算结果一般存放在ClickHouse中，目的主要有两个。

用户标签明细及分析：以用户的维度对数据进行统计分析。
用户分群：是画像最核心的需求，使用各种标签，通过标签的筛选，快速定位到目标群体，通过在数据库中编写配置文件可以完成。

画像提供了分群操作所以要操作支持即席查询的OLAP，对标签及人群进行操作。

根据实际需要一般选择性能较好，支持即席查询的OLAP数据库。用于组合和多个条件来筛选用户，比如Clickhouse或者Elasticsearch。同时也会使用K-V数据库用于精确查询用户和人群，比如Redis、Hbase 、Pika。

以上1 2 两个过程除用户标签明细及分析，其余过程均可以实现无界面化。

3 用户画像管理平台

在画像管理平台提供可视化页面，对标签及标签产生的规则进行定义，甚至直接提供可视化开发页面。

提供后台调度系统，根据标签定义的规则，从数仓中抽取计算。

计算后的用户画像标签也由平台管理，通过标签的组合，把用户分成不同的群体。为其他业务系统提供支持。

技术实现：

用户画像系统本质上是一个内部的管理系统，方便用户画像开发团队，搭建标签管理任务的。基于标准的Web应用的技术。

Vue.js：负责前端页面。
Springboot ：负责后台应用，数据保存在Mysql数据库中，相关的技术框架还包括MybatisPlus、StringTask。因为还需要把spark程序任务提交到Yarn，所以还用到SparkLauncher插件。

各个模块任务：

标签规则定义：计算哪些标签，标签任务的定义。
标签任务调度：标签何时执行，如计算性别，机器学习的预测。
任务监控：调度配置好后，到达运行条件，可以对任务进行观察，哪些标签计算成功哪些计算失败。
分群管理：标签全部运行成功之后，可以对标签进行筛选，分组管理，需要提供一个界面，这个界面可以供数据分析、营销等人员进行使用。对人群的定义，称为人群包。分群又称人圈（人群圈选）。

画像处理流程都是批处理（夜里计算），人圈则一般是即时产生的（白天计算），即筛选完几个条件，当场把目标群体圈出来，要求及时性更强。
标签数据支撑：标签数据计算完成之后，供其他部门查询这些标签，做一些数据支持或者是接口。

三搭建用户画像管理平台

gitee仓库地址

1 一些问题

导入代码之后，初始化完成之后，project一栏只出现pom.xml 和 external libraries原因是idea没有将项目识别为一个Maven工程或SpringBoot工程，解决办法点击file – new – Module from Existing Sources… 重新选择该项目，一路next。
如果src – main – java 不是蓝色目录，说明idea没有找到对应的源码目录，需要手动设置，在java上右键 – Mark Directory as – Source Root。
搭建平台时，代码中可能会有getter、setter方法飘红，不影响运行，修复飘红方法，Settings – Plugins – 搜索栏搜索lombok – 安装 – 重启idea。lombok能在编译时给实体Bean自动生成getter、setter方法。

忘记MySQL密码

# 1.修改配置文件 my.ini，在配置文件 [mysqld] 下添加 skip-grant-tables，重启MySQL服务即可免密码登录
# 其中 --skip-grant-tables 选项的意思是启动 MySQL 服务的时候跳过权限表认证。 启动后，连接到 MySQL 的 root 将不需要口令(危险)。
# 用空密码的 root 用户连接到 MySQL，并且更改 root 口令
# 免密码登录MySQL数据库：
mysql -u root
# 重置密码：
use mysql;
update user set password=password('你的密码') where user='root';
# 3.到 my.ini 中删除 skip-grant-tables 选项，然后重启MySQL服务。

2 启动服务

（1）数据库建表脚本

创建数据库 – utf8 – utf8_general_ci

建表语句

/*
SQLyog 
MySQL - 5.7.16 : Database - user_profile_manager
*********************************************************************
*/


/*!40101 SET NAMES utf8 */;

/*!40101 SET SQL_MODE=''*/;

/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
/*Table structure for table `file_info` */

CREATE TABLE `file_info` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `file_name` varchar(200) DEFAULT NULL COMMENT '文件名',
  `file_ex_name` varchar(20) DEFAULT NULL COMMENT '扩展名',
  `file_path` varchar(200) DEFAULT NULL COMMENT '文件路径',
  `file_system` varchar(20) DEFAULT NULL COMMENT '文件系统',
  `file_status` bigint(20) DEFAULT NULL COMMENT '文件状态 1 正常 2 弃用',
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB    ;

/*Table structure for table `tag_common_task` */

CREATE TABLE `tag_common_task` (
  `id` bigint(20) NOT NULL,
  `task_file_id` bigint(20) DEFAULT NULL,
  `main_class` varchar(200) DEFAULT NULL,
  `update_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  ;

/*Table structure for table `tag_info` */

CREATE TABLE `tag_info` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `tag_code` varchar(200) DEFAULT NULL,
  `tag_name` varchar(200) DEFAULT NULL,
  `tag_level` bigint(20) DEFAULT NULL,
  `parent_tag_id` bigint(20) DEFAULT NULL,
  `tag_type` varchar(20) DEFAULT NULL,
  `tag_value_type` varchar(20) DEFAULT NULL COMMENT '1 整数 2 浮点 3 文本 4 日期',
  `tag_value_limit` decimal(16,2) DEFAULT NULL COMMENT '数值预估上限 数字型填写',
  `tag_value_step` bigint(20) DEFAULT NULL COMMENT '1,10,100,1000',
  `tag_task_id` bigint(20) DEFAULT NULL,
  `tag_comment` varchar(2000) DEFAULT NULL,
  `update_time` datetime DEFAULT NULL,
  `create_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_tag_level_id` (`tag_level`,`id`)
) ENGINE=InnoDB   ;

/*Table structure for table `task_info` */

CREATE TABLE `task_info` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `task_name` varchar(200) DEFAULT NULL COMMENT '任务名称',
  `task_status` varchar(20) DEFAULT NULL COMMENT '任务状态',
  `task_comment` varchar(2000) DEFAULT NULL COMMENT '任务说明',
  `task_time` varchar(10) DEFAULT NULL COMMENT '任务作业时间(小时分)',
  `task_type` varchar(20) DEFAULT NULL COMMENT '任务类型(标签,流程)',
  `exec_type` varchar(20) DEFAULT NULL COMMENT '执行方式(jar,sparksql)',
  `main_class` varchar(200) DEFAULT NULL COMMENT '启动执行的主类',
  `file_id` bigint(200) DEFAULT NULL COMMENT '程序jar文件id',
  `task_args` varchar(500) DEFAULT NULL COMMENT '启动任务的参数',
  `task_sql` varchar(5000) DEFAULT NULL COMMENT '启动的执行的sql',
  `task_exec_level` bigint(20) DEFAULT NULL COMMENT '执行层级',
  `create_time` date DEFAULT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`),
  KEY `idx_task_time` (`task_time`)
) ENGINE=InnoDB   ;

/*Table structure for table `task_process` */

CREATE TABLE `task_process` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `task_id` bigint(20) DEFAULT NULL COMMENT '任务id',
  `task_name` varchar(100) DEFAULT NULL COMMENT '任务名称',
  `task_exec_time` varchar(10) DEFAULT NULL COMMENT '任务触发时间',
  `task_busi_date` varchar(10) DEFAULT NULL COMMENT '任务执行日期',
  `task_exec_status` varchar(100) DEFAULT NULL COMMENT '任务阶段 TODO ,START,SUBMITTED,RUNNING,FAILED,FINISHED',
  `task_exec_level` bigint(20) DEFAULT NULL COMMENT '任务执行层级',
  `yarn_app_id` varchar(100) DEFAULT NULL COMMENT 'yarn的application_id',
  `batch_id` varchar(100) DEFAULT NULL COMMENT '批次id',
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  `start_time` datetime DEFAULT NULL COMMENT '启动时间',
  `end_time` datetime DEFAULT NULL COMMENT '结束时间(包括完成和失败)',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB    ;

/*Table structure for table `task_tag_rule` */

CREATE TABLE `task_tag_rule` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `tag_id` bigint(20) DEFAULT NULL COMMENT '标签主键',
  `task_id` bigint(20) DEFAULT NULL COMMENT '任务id',
  `query_value` varchar(200) DEFAULT NULL COMMENT '查询值',
  `sub_tag_id` bigint(20) DEFAULT NULL COMMENT '对应子标签id',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB   ;

/*Table structure for table `user_group` */

CREATE TABLE `user_group` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT 'id',
  `user_group_name` varchar(200) DEFAULT NULL COMMENT '分群名称',
  `condition_json_str` varchar(2000) DEFAULT NULL COMMENT '分群条件(json)',
  `condition_comment` varchar(2000) DEFAULT NULL COMMENT '分群条件(描述)',
  `user_group_num` bigint(20) DEFAULT NULL COMMENT '分群人数',
  `update_type` varchar(20) DEFAULT NULL COMMENT '更新类型(手动,自动按天)',
  `user_group_comment` varchar(2000) DEFAULT NULL COMMENT '分群说明',
  `update_time` datetime DEFAULT NULL COMMENT '更新时间',
  `create_time` datetime DEFAULT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB    ;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

（2）配置修改

在idea中修改application.properties配置文件中的mysql相关配置（地址、用户名、密码）

在UserProfileManagerApplication中启动

将hadoop101地址与 userprofile.gmall.com进行映射（C:\Windows\System32\drivers\etc目录下的host文件中进行修改）

现在就可以在浏览器中进行访问了（输入userprofile.gmall.com 或者 hadoop101地址）

从MVC实战学习网站编写（一）初识MVC 璞瑜无文 MVC 架构 mvc 设计结构
前情概要：曾是学生时代的我，初识架构是一个传说中的三层架构。这可是鼻祖啊！因为我个人认为这是第一个让我明白高内聚低耦合的一种写代码的方式。刚接触写程序统统都是把所有的东西放一起，自己找一段代码得花很长时间（哪个时候还不知道VS有F12的存在）。简单的说就是UI层（界面），BLL层（业务处理），DAL层（数据处理）。就是分工明确在不同的包里分别编译，便于管理。今天我们从MVC基础开始穿插Knocko
Calico与eBPF知多少：高性能网络与可观测性实践指南磐基Stack专业服务团队 Calico 网络 php 开发语言
#作者：邓伟文章目录摘要1.引言1.1背景1.2目的2.Calico简介2.1功能概述2.2架构概览3.理解eBPF3.1定义3.2应用场景系统监控：内核级可观测性革命网络过滤：高性能流量治理性能分析：函数级瓶颈定位4.Calico与eBPF的融合4.1集成方式4.2优势分析5.实践指南5.1部署步骤5.1.1准备环境5.1.2安装Calico并启用eBPF模式5.1.3配置要点5.2配置示例6.
PXI PXIe控制器：4Link架构+16GB带宽，兼容主流机箱，设计文件涵盖原理图、PCB和FPGA源码，实现可直接制板，高带宽PXI PXIe控制器，4Link架构，兼容主流机箱，提供设计文件、 suRQWcVNi fpga开发程序人生
PXIPXIe控制器4Link架构16GB带宽兼容主流PXIe机箱设计文件原理图&PCBFPGA源码可直接制板ID:8245999662600997605浪里个浪里个浪001PXI和PXIe控制器是一种用于测量和自动化测试的高性能仪器。它们采用了4Link架构，可以提供高达16GB的数据传输带宽。同时，这些控制器还兼容主流的PXIe机箱，具有很好的兼容性。在设计文件方面，PXI和PXIe控制器提供
PXI/PXIe控制器 4Link架构 16GB带宽兼容主流PXIe机箱设计文件原理图&PCB FPGA源码可直 FjtKvOwLaGa fpga开发架构
PXI/PXIe控制器4Link架构16GB带宽兼容主流PXIe机箱设计文件！！！原理图&PCBFPGA源码可直接制板PXI和PXIe技术在现代仪器仪表领域中扮演着重要角色。其中，PXI（PCIeXtensionsforInstrumentation）是一种基于PCI总线的测试和测量平台，而PXIe则是对PXI进行扩展和增强的新一代标准。在PXI和PXIe平台中，控制器是关键组件之一，而PXIPX
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
【系统架构设计师-2018年】案例分析-答案及详解数据知道系统架构软考高级系统架构设计师
试题一（25分）阅读以下关于软件系统设计的叙述，在答题纸上回答问题1至问题3。【说明】某文化产业集团委托软件公司开发一套文化用品商城系统，业务涉及文化用品销售、定制、竞拍和点评等板块，以提升商城的信息化建设水平。该软件公司组织项目组完成了需求调研，现已进入到系统架构设计阶段。考虑到系统需求对架构设计决策的影响，项目组先列出了可能影响系统架构设计的部分需求如下：（a）用户界面支持用户的个性化定制；（
DNS污染：网络世界的“隐形劫持”与防御 dns劫持dns网络安全
在互联网的底层架构中，DNS（域名系统）如同数字世界的“导航员”，将用户输入的域名翻译成机器可读的IP地址。然而，DNS污染（DNSPoisoning）正像一场无声的“地址篡改”危机，威胁着全球网络的安全与稳定。本文将深入拆解DNS污染的技术原理、现实危害及应对策略，帮助个人与企业构建安全防线。一、DNS污染的本质：一场“地址簿”的篡改DNS污染，指攻击者通过技术手段向DNS服务器注入虚假的域名解
spring5-介绍Spring框架 m0_74824845 面试学习路线阿里巴巴 spring java 后端
Spring框架是一个Java平台，它为开发Java应用程序提供全面的基础架构支持。Spring负责基础架构，因此您可以专注于应用程序的开发。Spring可以让您从“plainoldJavaobjects”（POJO）中构建应用程序和通过非侵入性的POJO实现企业应用服务。此功能适用于JavaSE的编程模型，全部的或部分的适应JavaEE模型。2.1依赖注入和控制反转Java应用程序-这是一个宽松
【总结】常用API架构类型软件测试 API
引言在现代软件开发中，API(应用程序编程接口)已经成为各类系统之间交互的核心。不同的API架构类型适用于不同的业务需求和技术场景，选择合适的架构可以提高系统的性能、可维护性和扩展性。本文将介绍几种常见的API架构类型，并分析它们的特点、适用场景及优缺点。1.RESTfulAPI简介REST(RepresentationalStateTransfer)是一种基于HTTP协议的架构风格，强调使用标准
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
Webrtc音频技术（未完）会头痛的可达鸭 WebRTC webrtc
一、概述1、架构上图中发送方（或叫上行、TX）将从MIC采集到的语音数据先做前处理，然后编码得到码流，再用RTP打包通过UDPsocket发送到网络中给对方。接收方（或叫下行、RX）通过UDPsocket收语音包，解析RTP包后放入jitterbuffer中，要播放时每隔一定时间从jitterbuffer中取出包并解码得到PCM数据，做后处理后送给播放器播放出来。二、NetEQ1、简介netEQ是
ESP32学习 -从STM32工程架构进阶到ESP32架构古希腊掌握嵌入式的神学习 stm32 架构 esp32
ESP32与STM32项目文件结构对比解析以下是对你提供的ESP32项目文件结构的详细解释，并与STM32（以STM32CubeIDE为例）的常见结构进行对比，帮助你理解两者的差异：1.ESP32项目文件解析文件/目录作用STM32对应或差异settingsIDE（如VSCode或Eclipse）的用户配置文件，存储个性化设置。STM32CubeIDE中类似配置存储在.settings目录或IDE
oceanbase 是不是架构比较复杂和mysql对比分析 hxsln11 金融数据库 oceanbase 架构 mysql
我先来分析用户的需求。用户的问题是关于OceanBase和MySQL的架构复杂度对比，并希望了解两者在架构上的具体差异。这是一个技术性较强的问题，用户可能是数据库开发者、架构师或者对分布式数据库感兴趣的学习者。结合上下文，用户之前已经提到过OceanBase的学习曲线较陡峭，可能是因为其分布式架构的复杂性，所以这次的问题很可能是想进一步明确OceanBase和MySQL在架构上的具体差异，以及为什
云原生技术的风口来了！！ Real Man★ 云原生
云原生技术（Cloud-NativeTechnologies）是一种基于云计算架构设计和运行应用程序的方法，旨在充分利用云计算的弹性、可扩展性和敏捷性。它的核心思想是通过容器化、微服务、DevOps和持续交付等技术，构建高效、可靠且易于维护的应用系统。未来，云原生技术将继续演进，成为企业数字化转型的核心驱动力。云原生技术的核心组件容器化（Containerization）：使用容器（如Docker
AI-智能体修炼十万年的狗尾巴草人工智能大数据
什么是AI智能体？「AI智能体」这个术语并没有真正被定义，对智能体究竟是什么也存在很多的争议。AI智能体可以定义为「一个被赋予行动能力的LLM（通常在RAG环境中进行函数调用），以便在环境中对如何执行任务做出高层次的决策。」当前，构建AI智能体主要有以下两种架构方法：**单一智能体：**一个大型模型处理整个任务，并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力，避免了将
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？ AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型人工智能架构 agi DeepSeek
关键技术创新DeepSeek的成本优势主要源于以下几个方面的技术创新：混合专家（MoE）架构：通过选择性激活特定专家网络，大幅降低了计算成本。具体而言，DeepSeekMoE架构实现了：仅用大约40%的计算量，便达到了与LLaMA2-7B差不多的效果。这种选择性激活的方式大大提高了模型的参数效率，从而在保持高性能的同时，也能在计算资源的使用上保持高效。FP8低精度训练：DeepSeek采用了FP8
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Android的Camera架构介绍 live123 android Android JNI UI C#C++
第一部分Camera概述Android的Camera包含取景器（viewfinder）和拍摄照片的功能。目前Android发布版的Camera程序虽然功能比较简单，但是其程序的架构分成客户端和服务器两个部分，它们建立在Android的进程间通讯Binder的结构上。以开源的Android为例，Camera的代码主要在以下的目录中：Camera的JAVA程序的路径：packages/apps/Cam
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
Android Camera 架构 2501_90226133 android 架构
二、CameraApp层简述三、CameraFramework层简述四、CameraHal3子系统五、下面需要梳理的重点-正在进行一.AndroidCamera整体架构简述自Android8.0之后大多机型采用CameraAPI2HAL3架构,先盗改谷歌的一张图,读完整部代码后再看这张图,真的是很清晰,很简洁,很到位.原图:https://source.android.google.cn/devi
HarmonyOS 5 开发环境介绍 harmonyos-next
一、HarmonyOS5是什么？HarmonyOS5是华为推出的新一代分布式操作系统，基于微内核架构，专注于鸿蒙原生应用开发，不再兼容安卓APK。其核心目标是通过"一次开发、多端部署"的能力，实现全场景设备（手机、平板、智能穿戴、车机、智能家居等）的无缝协同。核心特性包括：分布式架构：设备间可自由组网，共享算力与资源；高性能内核：基于开源鸿蒙（OpenHarmony）优化，支持64位ARM、x86
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
Dify - 架构、部署、扩展与二次开发指南花千树-010 AIGC 架构 AIGC prompt embedding llama gpt agi
本文详细解析Dify的架构、部署流程、高可用中间件的独立部署方法，以及二次开发流程，帮助开发者更高效地管理和扩展Dify。1.本地DEMO部署安装Docker，执行下面脚本，可能需要配置镜像。gitclonehttps://github.com/langgenius/dify.gitcddifycddockercp.env.example.envdockercomposeup-d1.Dify部署后
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
一个完整的小项目案例，涉及到项目的规划，模块的设计功能的衔接等。 PyAIGCMaster 我的学习笔记学习
以下是一个基于分层架构和模块化设计的项目规划，使用Tkinter作为GUI框架，Playwright进行浏览器操作，SQLite作为数据库：项目结构```web_checker/├──__main__.py#程序入口├──config.py#配置管理├──gui/#图形界面模块│├──__init__.py│└──main_window.py├──services/#业务逻辑│├──__init_
MySQL 进阶学习文档你曾经是少年数据库
一、存储引擎1.1核心架构四层架构：连接层→服务层→引擎层→存储层插件式存储引擎：不同引擎独立管理数据存储，可动态选择1.2主流引擎对比特性InnoDB（默认）MyISAMMemory事务支持✅支持❌不支持❌不支持锁粒度行锁表锁表锁外键支持✅支持❌不支持❌不支持存储位置磁盘磁盘内存适用场景高并发事务读多写少临时数据缓存选择建议：优先选InnoDB（支持事务和外键）读多写少且无需事务选MyISAM临
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite