OneTenTwo76

【用户画像】Redis_Jedis测试、将人群包存放到Redis中、挖掘类标签处理过程、决策树、用SparkMLLib实现决策树

文章目录

一 Redis_Jedis_测试
- 1 Jedis所需要的jar包
- 2 连接Redis注意事项
- 3 测试相关数据类型
- - （0）测试连接
  - （1）Key
  - （2）String
  - （3）List
  - （4）set
  - （5）hash
  - （6）zset
  - （7）连接池
二将人群包存放到Redis中
- 1 思路分析
- 2 代码实现
- - UserGroupMapper.java
  - UserGroupServiceImpl.java
- 3 结果验证
三挖掘类标签
- 1 挖掘类标签与机器学习
- 2 模型建立过程
- - （1）数据预处理
  - （2）特征工程
  - （3）算法选取
  - （4）模型训练
  - （5）评估优化
  - （6）投放使用、验证优化
四决策树算法
五用SparkMLlib实现决策树的使用
- 1 利用流水线完成模型训练
- 2 数据准备
- - （1）建表语句
  - （2）模拟数据
- 3 模块搭建
- 4 创建流水线对象
- 5 增加流水线组件（三个徒弟，一个师傅）
- - （1）创建标签索引
  - （2）创建特征集合
  - （3）创建特征向量索引
  - （4）创建分类器
- 6 初始化对象
- 7 训练和预测
- 8 调用工具类，进行测试
六完整代码
- 1 MyPipeline
- 2 StudentGenderTrain

一 Redis_Jedis_测试

1 Jedis所需要的jar包


    redis.clients
    jedis
    3.2.0

2 连接Redis注意事项

禁用Linux的防火墙：Linux(CentOS7)里执行命令
systemctl stop/disable firewalld.service   
redis.conf中注释掉
bind 127.0.0.1
然后将安全模式关闭
protected-mode no

或者不关闭安全模式，设置密码在配置文件中的requirepass中修改
然后执行命令前需要先输入密码
AUTH 密码 之后再执行命令

新建工具类 user_profile_manager_0224\src\main\java\com\atguigu\userprofile\utils\RedisUtil.java

3 测试相关数据类型

（0）测试连接

public class RedisUtil {
    public static void main(String[] args) {
        Jedis jedis = new Jedis("hadoop101", 6379);
        System.out.println(jedis.ping());  // 输出PONG
    }
}

（1）Key

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.set("k1000","v1000");
    jedis.set("k2000","v2000");
    jedis.set("k3000","v3000");
    Set<String> keys = jedis.keys("*");
    System.out.println(keys.size());
    for(String key:keys){
        System.out.println(key);
    }
    System.out.println(jedis.exists("k3000"));
    System.out.println(jedis.ttl("k2000"));
    System.out.println(jedis.get("k1000"));
}

（2）String

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.mset("str1", "v1", "str2", "v2", "str3", "v3");
    System.out.println(jedis.mget("str1", "str2", "str3"));
}

（3）List

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.lpush("mylist","v1","v2","v3");
    List<String> list = jedis.lrange("mylist", 0, -1);
    for(String element : list){
        System.out.println(element);
    }
}

（4）set

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.sadd("sets1","set01","set02","set03","set04");
    jedis.sadd("sets2","set02","set03","set04","set05");
    Set<String> smembers = jedis.smembers("sets1");
    for (String set : smembers) {
        System.out.println(set);
    }
    System.out.println("===================");
    jedis.srem("sets1","set02");
    System.out.println(jedis.scard("sets1"));
    Set<String> sinter = jedis.sinter("sets1", "sets2");
    for (String s : sinter) {
        System.out.println(s);
    }
    System.out.println("===================");
    Set<String> sunion = jedis.sunion("sets1", "sets2");
    for (String s : sunion) {
        System.out.println(s);
    }
    System.out.println("===================");
    Set<String> sdiff = jedis.sdiff("sets1", "sets2");
    for (String s : sdiff) {
        System.out.println(s);
    }
}

（5）hash

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.hset("hash1","userName","zhangsan");
    System.out.println(jedis.hget("hash1", "userName"));

    HashMap<String, String> map = new HashMap<>();
    map.put("userName","lisi");
    map.put("age","20");
    map.put("gender","nv");
    jedis.hmset("hash2",map);
    List<String> res = jedis.hmget("hash2", "userName", "age", "gender");
    for (String re : res) {
        System.out.println(re);
    }
}

（6）zset

public static void main(String[] args) {
    Jedis jedis = new Jedis("hadoop101", 6379);
    System.out.println(jedis.ping());  // 输出PONG

    jedis.zadd("zset01", 100d, "z3");
    jedis.zadd("zset01", 90d, "l4");
    jedis.zadd("zset01", 80d, "w5");
    jedis.zadd("zset01", 70d, "z6");
    Set<Tuple> zrange = jedis.zrangeWithScores("zset01", 0, -1);
    for (Tuple tuple : zrange) {
        System.out.println(tuple);
    }
}

（7）连接池

为了节省每次连接redis服务带来的消耗，把连接好的实例反复利用。

通过参数管理连接的行为

代码如下

public class RedisUtil {
    public static void main(String[] args) {
        //Jedis jedis = new Jedis("hadoop101", 6379);
        Jedis jedis = RedisUtil.getJedisFromPool();
        System.out.println(jedis.ping());  // 输出PONG
        
        jedis.close();
    }

    private static JedisPool jedisPool=null;

    public static  Jedis getJedisFromPool(){
        if(jedisPool==null){
            JedisPoolConfig jedisPoolConfig =new JedisPoolConfig();
            jedisPoolConfig.setMaxTotal(200); //最大可用连接数
            jedisPoolConfig.setMaxIdle(30); //最大闲置连接数
            jedisPoolConfig.setMinIdle(10); //最小闲置连接数
            jedisPoolConfig.setBlockWhenExhausted(true); //连接耗尽是否等待
            jedisPoolConfig.setMaxWaitMillis(2000); //等待时间
            jedisPoolConfig.setTestOnBorrow(true); //取连接的时候进行一下测试 ping pong

            jedisPool=new JedisPool(jedisPoolConfig,"hadoop101", 6379 );
            return jedisPool.getResource();
        }else{
            return jedisPool.getResource();
        }
    }
}

链接池参数说明

MaxTotal：控制一个pool可分配多少个jedis实例，通过pool.getResource()来获取；如果赋值为-1，则表示不限制；如果pool已经分配了MaxTotal个jedis实例，则此时pool的状态为exhausted。
maxIdle：控制一个pool最多有多少个状态为idle(空闲)的jedis实例；
minIdle：控制一个pool最少有多少个状态为idle(空闲)的jedis实例；
BlockWhenExhausted：连接耗尽是否等待
MaxWaitMillis：表示当borrow一个jedis实例时，最大的等待毫秒数，如果超过等待时间，则直接抛JedisConnectionException；
testOnBorrow：获得一个jedis实例的时候是否检查连接可用性（ping()）；如果为true，则得到的jedis实例均是可用的；

二将人群包存放到Redis中

1 思路分析

查询出人群包 uids的集合
写入redis
- type：set（不需要有序，排除zset；需要单值排除hash；list中很多不是幂等操作，最终选择set）
- key：user_group: 101（user_group：user_group_id）
- value：uid …
- field score：无
- 写api：sadd
- 读api：smembers
- 失效：不是临时值，不设失效

2 代码实现

UserGroupMapper.java

添加方法

/**
 * 数组无法存入到List中，mybatis进行封装，想要封装到List中，需要变为一行一行的值
 * 数组是一行值，不同uid间以逗号分隔
 * 将数组变为很多行，在ClickHouse中可以使用arrayJoin函数将数组炸开
 * @param userGroupId
 * @return
 */
@Select("select arrayJoin( bitmapToArray(us) ) as us from user_group where user_group_id=#{userGroupId}")
@DS("clickhouse")
public List<String> userGroupUidList(@Param("userGroupId") String userGroupId);

UserGroupServiceImpl.java

添加代码

// 3 人群包（包含所有uid）以应对高QPS访问
// redis（bitmap/set）
/**
 * - 查询出人群包 uids的集合
 *
 * - 写入redis
 *   - type：set（不需要有序，排除zset；需要单值排除hash；list中很多不是幂等操作，最终选择set）
 *   - key：user_group: 101（user_group：user_group_id）
 *   - value：uid ...
 *   - field score：无
 *   - 写api：sadd
 *   - 读api：smembers
 *   - 失效：不是临时值，不设失效
 */
List<String> uidList = super.baseMapper.userGroupUidList(userGroup.getId().toString());
Jedis jedis = RedisUtil.getJedisFromPool();
String key = "user_group:" + userGroup.getId();
String[] uidArr = uidList.toArray(new String[]{});
jedis.sadd(key,uidArr);
jedis.close();

3 结果验证

在网页创建分群，然后在redis中查看是否存在数据

keys *
smembers user_group:id(会有具体的数字)

三挖掘类标签

1 挖掘类标签与机器学习

挖掘类标签需要用算法挖掘用户的相关特征，比如：性别预测、年龄预测、用户流失预测、风险欺诈预测。

相比统计、规则类这些通过专业人员制定明确规则的标签，挖掘类的标签完全是另一套处理思路。

获得挖掘标签过程：

2 模型建立过程

整个挖掘的过程的核心就是建立、完善模型的过程。

一个模型完善的过程是个没有尽头的迭代。

（1）数据预处理

主要是对数据的初步的清洗加工，这个过程一般可以在数仓中完成，然后在数仓中稍微的添加一些操作。

（2）特征工程

主要是特征的选择和提取。比如想预测用户的流失，那就要选择哪些指标字段会和用户的流失有比较强的相关性。要从数仓中，把这些指标提取出来并进一步加工。

除了获得特征，还需要“参考答案”，比如抽选出来的这些用户特征，那这些用户到底是不是流失的，要标记出来，用于机器学习。

特征的选取往往不能一蹴而就，需要反复的迭代尝试。

（3）算法选取

目前机器学习的算法种类繁多，比如分类算法领域中：决策树、随机森林、逻辑回归、GBDT、XGBoost。

回归算法领域中：线性回归、多项式回归、岭回归、Lasso回归、弹性回归。

在画像领域中，主要使用分类算法。但具体使用哪种分类算法，也是需要不断尝试验证的，没有一定的标准。

（4）模型训练

通过代码实现“数据 + 算法 = 模型”，可以使用scala调用sparkMLlib工具包实现机器学习训练，将模型存储在hdfs。

（5）评估优化

一般会把数据进行分组，训练组和验证组，然后对模型组进行准率的评估。

根据准确率，对模型进行优化：

优化一般主要是三个方面：

特征选取和提炼
算法的比较和选择
算法的参数调整

（6）投放使用、验证优化

把模型投放到实际的标签生产中去观察，比如预测流失的用户，一段时间是否真的会流失。

或者进行A/B测试，对预测的一部分用户采取某种措施，另一部分用户不作处理。观察两组人的变化效果。

通过实际生产中的预测效果，不断的反复调整模型、算法。

四决策树算法

机器学习【决策树算法1】

机器学习【决策树算法2】

使用决策树需要解决的问题：

选取什么特征进行判断
特征判断的先后顺序
连续值如何切分

五用SparkMLlib实现决策树的使用

1 利用流水线完成模型训练

训练 + 预测的完成过程如下图：

2 数据准备

（1）建表语句

create table student 
( uid  bigint ,
  hair string,
  height bigint ,
  skirt string,
  age  string ,
  gender string
)

（2）模拟数据

insert overwrite table   student
values 
(   1,'长发' ,155,'是', '80后','女' ),
(   2,'短发' ,156,'否', '90后','女' ),
(   3,'长发' ,157,'是', '00后','女' ),
(   4,'短发' ,158,'否', '80后','女' ),
(   5,'长发' ,159,'是', '90后','女' ),
(   6,'短发' ,160,'否', '00后','女' ),
(   7,'长发' ,161,'否', '80后','女' ),
(   8,'短发' ,162,'否', '90后','女' ),
(   9,'长发' ,163,'是', '00后','女' ),
(   10,'短发' ,164,'否', '80后','女' ),
(   11,'长发' ,165,'是', '90后','女' ),
(   12,'短发' ,166,'否', '00后','女' ),
(   13,'长发' ,167,'是', '80后','女' ),
(   14,'短发' ,168,'否', '90后','女' ),
(   15,'板寸' ,169,'是', '00后','女' ),
(   16,'短发' ,160,'否', '80后','女' ),
(   17,'长发' ,171,'是', '90后','女' ),
(   18,'短发' ,162,'否', '00后','女' ),
(   19,'长发' ,173,'是', '80后','女' ),
(   20,'短发' ,174,'否', '90后','女' ),
(   21,'长发' ,175,'是', '00后','女' ),
(   22,'短发' ,155,'否', '80后','女' ),
(   23,'长发' ,156,'否', '90后','女' ),
(   24,'短发' ,157,'否', '00后','女' ),
(   25,'长发' ,158,'否', '80后','女' ),
(   26,'短发' ,159,'否', '90后','女' ),
(   27,'长发' ,160,'是', '00后','女' ),
(   28,'短发' ,161,'否', '00后','女' ),
(   29,'长发' ,162,'是', '80后','女' ),
(   30,'短发' ,163,'否', '00后','女' ),
(   31,'长发' ,164,'是', '80后','女' ),
(   32,'短发' ,165,'否', '00后','女' ),
(   33,'长发' ,166,'是', '00后','女' ),
(   34,'短发' ,167,'否', '80后','女' ),
(   35,'长发' ,169,'是', '90后','女' ),
(   36,'短发' ,170,'否', '00后','女' ),
(   37,'长发' ,171,'是', '80后','女' ),
(   38,'短发' ,172,'是', '90后','女' ),
(   39,'长发' ,173,'否', '00后','女' ),
(   40,'长发' ,174,'否', '80后','女' ),
(   41,'短发' ,175,'是', '90后','女' ),
(   42,'短发' ,165,'否', '00后','女' ),
(   43,'短发' ,166,'是', '80后','女' ),
(   44,'长发' ,167,'否', '90后','女' ),
(   45,'短发' ,168,'是', '00后','女' ),
(   46,'短发' ,169,'否', '80后','女' ),
(   47,'长发' ,170,'是', '90后','女' ),
(   48,'短发' ,171,'否', '00后','女' ),
(   49,'长发' ,172,'是', '80后','女' ),
(   50,'短发' ,173,'否', '90后','女' ),
(   51,'短发' ,165,'否', '80后','男' ),
(   52,'板寸' ,166,'否', '90后','男' ),
(   51,'短发' ,167,'否', '00后','男' ),
(   52,'板寸' ,168,'否', '80后','男' ),
(   53,'短发' ,169,'否', '90后','男' ),
(   54,'短发' ,170,'否', '00后','男' ),
(   55,'短发' ,171,'否', '80后','男' ),
(   56,'板寸' ,172,'否', '90后','男' ),
(   57,'短发' ,173,'否', '00后','男' ),
(   58,'短发' ,174,'否', '80后','男' ),
(   59,'短发' ,175,'否', '90后','男' ),
(   60,'短发' ,176,'否', '00后','男' ),
(   61,'短发' ,177,'否', '80后','男' ),
(   62,'短发' ,178,'否', '90后','男' ),
(   63,'短发' ,179,'否', '00后','男' ),
(   64,'板寸' ,180,'否', '80后','男' ),
(   65,'短发' ,181,'否', '90后','男' ),
(   66,'短发' ,182,'否', '80后','男' ),
(   67,'短发' ,183,'否', '80后','男' ),
(   68,'短发' ,184,'否', '90后','男' ),
(   69,'短发' ,185,'否', '80后','男' ),
(   70,'短发' ,166,'否', '80后','男' ),
(   71,'短发' ,167,'否', '90后','男' ),
(   72,'板寸' ,168,'否', '00后','男' ),
(   73,'短发' ,169,'否', '80后','男' ),
(   74,'短发' ,170,'否', '90后','男' ),
(   75,'短发' ,171,'否', '00后','男' ),
(   76,'板寸' ,172,'否', '80后','男' ),
(   77,'短发' ,173,'否', '90后','男' ),
(   78,'短发' ,174,'否', '00后','男' ),
(   79,'短发' ,175,'否', '80后','男' ),
(   80,'板寸' ,176,'否', '90后','男' ),
(   81,'短发' ,177,'否', '00后','男' ),
(   82,'短发' ,178,'否', '80后','男' ),
(   83,'短发' ,179,'否', '90后','男' ),
(   84,'短发' ,180,'否', '80后','男' ),
(   85,'短发' ,181,'否', '80后','男' ),
(   86,'板寸' ,182,'否', '90后','男' ),
(   87,'短发' ,183,'否', '00后','男' ),
(   88,'短发' ,184,'否', '80后','男' ),
(   89,'短发' ,185,'否', '90后','男' ),
(   90,'板寸' ,184,'否', '00后','男' ),
(   91,'短发' ,171,'否', '80后','男' ),
(   92,'短发' ,172,'否', '90后','男' ),
(   93,'短发' ,173,'否', '00后','男' ),
(   94,'短发' ,174,'否', '80后','男' ),
(   95,'短发' ,175,'否', '90后','男' ),
(   96,'板寸' ,176,'否', '00后','男' ),
(   97,'短发' ,177,'否', '80后','男' ),
(   98,'板寸' ,178,'否', '90后','男' ),
(   99,'板寸' ,179,'否', '00后','男' ),
(  100,'长发' ,180,'否', '80后','男' ) ,
(   101,'长发' ,155,'是', '80后','女' ),
(   102,'短发' ,156,'否', '90后','女' ),
(   103,'长发' ,157,'是', '00后','女' ),
(   104,'短发' ,158,'否', '80后','女' ),
(   105,'长发' ,159,'是', '90后','女' ),
(   106,'短发' ,160,'否', '00后','女' ),
(   107,'长发' ,161,'否', '80后','女' ),
(   108,'短发' ,162,'否', '90后','女' ),
(   109,'长发' ,163,'是', '00后','女' ),
(   110,'短发' ,164,'否', '80后','女' )

将数据存放到hive中。

3 模块搭建

在user-profile-task1016下创建task-ml，如下图：

在pom.xml引入依赖

<dependencies>
        <dependency>
            <groupId>com.hzy.userprofilegroupId>
            <artifactId>task-commonartifactId>
            <version>1.0-SNAPSHOTversion>
        dependency>

        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-mllib_2.12artifactId>
            <version>3.0.0version>
            <scope>providedscope>
        dependency>
    dependencies>

    <build>
        <plugins>
            
            <plugin>
                <groupId>net.alchim31.mavengroupId>
                <artifactId>scala-maven-pluginartifactId>
                <version>3.4.6version>
                <executions>
                    <execution>
                        
                        <goals>
                            <goal>compilegoal>
                            <goal>testCompilegoal>
                        goals>
                    execution>
                executions>
            plugin>

            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>3.0.0version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

4 创建流水线对象

流水线PipeLine实际上就是执行一些预处理工作，其中

标签索引：参考答案，数据集中的最后一列，将标签值转换为矢量值，也就是将男，女转换为0，1。

按照出现概率的大小次序排序，概率越大，矢量越小。
特征聚合：在原始数据中选择特征列，并集合成一列。
特征索引：将特征集合中的原值转换为矢量值，转换规则同标签索引。

需要识别哪些是连续值特征，哪些是离散值特征，具体判断标准：底层会设置一个阈值，高于阈值判断为连续值，否则为离散值，即小于等于。

class MyPipeline {

  // 5 用于接收此阶段最终的结果
  var pipeline:Pipeline = null

  //最大分类树（用于识别连续值特征和分类特征），用于3创建特征索引列
  private var maxCategories=5
  // 最大分支数
  private var maxBins=5
  // 最大树深度
  private var maxDepth=5
  //最小分支包含数据条数
  private var minInstancesPerNode=1
  //最小分支信息增益
  private var minInfoGain=0.0
}

5 增加流水线组件（三个徒弟，一个师傅）

（1）创建标签索引

// 用于1 标签索引
var labelColName: String = null
// 从外部注入
def setLabelColName(labelColName: String) : MyPipeline = {
  this.labelColName = labelColName
  this
}

// 1 创建标签索引
def createLabelIndexer():StringIndexer = {
  // 输入的原始数据 结构为DF
  val indexer = new StringIndexer()
  // 设置输入列和输出列
  // 输入列为数据的最后一列，通过外部传递进来
  // 输出列与外部数据没有关系，直接固定下来即可
  // 最终会在DF中增加一列，名称可以自己设置
  indexer.setInputCol(labelColName).setOutputCol("label_index")
  indexer
}

（2）创建特征集合

// 用于2 特征集合
var featureColNames:Array[String] = null

// 从外部注入
def setFeatureColNames(featureColNames: Array[String]) : MyPipeline = {
  this.featureColNames = featureColNames
  this
}

// 2 创建特征集合列
def createFeatureAssemble():VectorAssembler = {
  val assembler = new VectorAssembler()
  // 可以将多个列设置为特征，也可以称为维度，输出列只有一个
  assembler.setInputCols(featureColNames).setOutputCol("feature_assemble")
  assembler
}

（3）创建特征向量索引

// 3 创建特征索引列
def createFeatureIndexer():VectorIndexer = {
  val indexer = new VectorIndexer()
  // 特征集合的输出就是特征索引的输入
  // 此外还需要设置阈值，用于判断是线性值还是离散值
  indexer.setInputCol("feature_assemble").setOutputCol("feature_index").setMaxCategories(maxCategories)
  indexer
}

（4）创建分类器

// 4 创建分类器
def createClassifier():DecisionTreeClassifier ={
  val classifier = new DecisionTreeClassifier()
  // 设置标签列（1），设置特征列（3），设置预测列（自己起名）
  classifier.setLabelCol("label_index").setFeaturesCol("feature_index").setPredictionCol("prediction_col")
  classifier
}

6 初始化对象

def init():MyPipeline = {
    // StringIndexer、VectorAssembler、VectorIndexer、DecisionTreeClassifier
    // 以上四者的父类都是PipelineStage，可以理解为是流水线上的一个环节
    // 以上前三者都是这个环节中的工人，最后一个是这三个人的师傅
    // 执行此方法，师徒四人就要上岗干活了！
    pipeline = new Pipeline().setStages( Array(
      createLabelIndexer,
      createFeatureAssemble,
      createFeatureIndexer,
      createClassifier
    ))
    this
  }

7 训练和预测

// 6 训练，得到模型
def train(dataFrame:DataFrame):Unit ={
  pipelineModel = pipeline.fit(dataFrame)
}

// 7 预测
def predict(dataFrame: DataFrame):DataFrame ={
  val predictedDataFrame1: DataFrame = pipelineModel.transform(dataFrame)
  predictedDataFrame1
}

8 调用工具类，进行测试

新建类StudentGenderTrain，添加配置文件，如下图

源码如下：

package com.hzy.userprofile.ml.train

import com.hzy.userprofile.ml.pipeline.MyPipeline
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object StudentGenderTrain {
  def main(args: Array[String]): Unit = {

    val sparkConf: SparkConf = new SparkConf().setAppName("student_gender_train.app").setMaster("local[*]")
    val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

    println("查询数据")
    // 1 查询数据
    val sql =
      s"""
         | select
         |   uid,
         |   case hair when '长发' then 101 when '短发' then 102 when '板寸' then 103 end as hair,
         |   height,
         |   case skirt when '是' then 111 when '否' then 222 end as skirt,
         |   case age when '00后' then 100 when '90后' then 90 when '80后' then 80 end as age,
         |   gender
         | from
         |   default.student
         |""".stripMargin
    println(sql)
    val dataFrame: DataFrame = sparkSession.sql(sql)

    println("切分数据")
    // 2 切分数据：训练集和测试集（82 或 73）
    val Array(trainDF,testDF) = dataFrame.randomSplit(Array(0.8,0.2))

    println("创建myPipeine")
    // 3 创建myPipeine
    val myPipeline: MyPipeline = new MyPipeline()
      .setLabelColName("gender")
      .setFeatureColNames(Array("hair","height","skirt","age"))
      .init()

    println("进行训练")
    // 4 进行训练
    myPipeline.train(trainDF)

    println("进行预测")
    // 5 进行预测
    val predictedDataFrame: DataFrame = myPipeline.predict(testDF)

    println("打印预测结果")
    // 6 打印预测结果
    predictedDataFrame.show(100,false)
  }
}

运行之前需要配置hadoop用户名，集体结果分析如下：

前六列为原始值列，将文字转化为数字。
lable_index：标签矢量值，男为1女为0（女生数量多，矢量值小），标准答案。
feature_assemble：特征集合列，将所有特征整合成一列。
feature_index：将特征集合转化为矢量的集合，其中连续值不会进行转化。
rawPrediction：机器任务男和女的权重分别是的多少，前面为0号矢量的权重。
probability：根据权重预测结果。
prediction_col：最终预测结果。

六完整代码

1 MyPipeline

package com.hzy.userprofile.ml.pipeline

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.DecisionTreeClassifier
import org.apache.spark.ml.feature.{StringIndexer, VectorAssembler, VectorIndexer}
import org.apache.spark.sql.DataFrame

class MyPipeline {

  // 5 用于接收此阶段最终的结果
  var pipeline:Pipeline = null

  def init():MyPipeline = {
    // StringIndexer、VectorAssembler、VectorIndexer、DecisionTreeClassifier
    // 以上四者的父类都是PipelineStage，可以理解为是流水线上的一个环节
    // 以上前三者都是这个环节中的工人，最后一个是这三个人的师傅
    // 执行此方法，师徒四人就要上岗干活了！
    pipeline = new Pipeline().setStages( Array(
      createLabelIndexer(),
      createFeatureAssemble(),
      createFeatureIndexer(),
      createClassifier()
    ))
    this
  }

  // 模型：通过训练得来
  var pipelineModel:PipelineModel = null

  //最大分类树（用于识别连续值特征和分类特征），用于3创建特征索引列
  private var maxCategories=5
  // 最大分支数
  private var maxBins=5
  // 最大树深度
  private var maxDepth=5
  //最小分支包含数据条数
  private var minInstancesPerNode=1
  //最小分支信息增益
  private var minInfoGain=0.0

  // 用于1 标签索引
  var labelColName: String = null
  // 用于2 特征集合
  var featureColNames:Array[String] = null
  // 从外部注入
  def setLabelColName(labelColName: String) : MyPipeline = {
    this.labelColName = labelColName
    this
  }
  // 从外部注入
  def setFeatureColNames(featureColNames: Array[String]) : MyPipeline = {
    this.featureColNames = featureColNames
    this
  }

  // 1 创建标签索引
  def createLabelIndexer():StringIndexer = {
    // 输入的原始数据 结构为DF
    val indexer = new StringIndexer()
    // 设置输入列和输出列
    // 输入列为数据的最后一列，通过外部传递进来
    // 输出列与外部数据没有关系，直接固定下来即可
    // 最终会在DF中增加一列，名称可以自己设置
    indexer.setInputCol(labelColName).setOutputCol("label_index")
    indexer
  }

  // 2 创建特征集合列
  def createFeatureAssemble():VectorAssembler = {
    val assembler = new VectorAssembler()
    // 可以将多个列设置为特征，也可以称为维度，输出列只有一个
    assembler.setInputCols(featureColNames).setOutputCol("feature_assemble")
    assembler
  }

  // 3 创建特征索引列
  def createFeatureIndexer():VectorIndexer = {
    val indexer = new VectorIndexer()
    // 特征集合的输出就是特征索引的输入
    // 此外还需要设置阈值，用于判断是线性值还是离散值
    indexer.setInputCol("feature_assemble").setOutputCol("feature_index").setMaxCategories(maxCategories)
    indexer
  }

  // 4 创建分类器
  def createClassifier():DecisionTreeClassifier ={
    val classifier = new DecisionTreeClassifier()
    // 设置标签列（1），设置特征列（3），设置预测列（自己起名）
    classifier.setLabelCol("label_index").setFeaturesCol("feature_index").setPredictionCol("prediction_col")
    classifier
  }

  // 6 训练，得到模型
  def train(dataFrame:DataFrame):Unit ={
    pipelineModel = pipeline.fit(dataFrame)
  }

  // 7 预测
  def predict(dataFrame: DataFrame):DataFrame ={
    val predictedDataFrame1: DataFrame = pipelineModel.transform(dataFrame)
    predictedDataFrame1
  }
}

2 StudentGenderTrain

package com.hzy.userprofile.ml.train

import com.hzy.userprofile.ml.pipeline.MyPipeline
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object StudentGenderTrain {
  def main(args: Array[String]): Unit = {

    val sparkConf: SparkConf = new SparkConf().setAppName("student_gender_train.app").setMaster("local[*]")
    val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

    println("查询数据")
    // 1 查询数据
    val sql =
      s"""
         | select
         |   uid,
         |   case hair when '长发' then 101 when '短发' then 102 when '板寸' then 103 end as hair,
         |   height,
         |   case skirt when '是' then 111 when '否' then 222 end as skirt,
         |   case age when '00后' then 100 when '90后' then 90 when '80后' then 80 end as age,
         |   gender
         | from
         |   default.student
         |""".stripMargin
    println(sql)
    val dataFrame: DataFrame = sparkSession.sql(sql)

    println("切分数据")
    // 2 切分数据：训练集和测试集（82 或 73）
    val Array(trainDF,testDF) = dataFrame.randomSplit(Array(0.8,0.2))

    println("创建myPipeine")
    // 3 创建myPipeine
    val myPipeline: MyPipeline = new MyPipeline()
      .setLabelColName("gender")
      .setFeatureColNames(Array("hair","height","skirt","age"))
      .init()

    println("进行训练")
    // 4 进行训练
    myPipeline.train(trainDF)

    println("进行预测")
    // 5 进行预测
    val predictedDataFrame: DataFrame = myPipeline.predict(testDF)

    println("打印预测结果")
    // 6 打印预测结果
    predictedDataFrame.show(100,false)

  }
}

你可能感兴趣的:(用户画像,redis,决策树,数据库)

OnionArch：构建高效.NET Core应用的洋葱架构模板樊慈宜Diane
OnionArch：构建高效.NETCore应用的洋葱架构模板项目地址:https://gitcode.com/gh_mirrors/on/OnionArch项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了经典的洋葱架构（OnionArchitecture）。洋葱架构是一种分层架构模式，通过将核心业务逻辑与外部依赖（如数据库、UI等）分离，使得应用程序更加模块化、可维护和
llm数据存储基础设施 galileo2016 人工智能
链接:https://i68.ltd/notes/posts/20250310-llm-db/infinity专为LLM应用程序构建的AI原生数据库，可提供对密集向量、稀疏向量、张量（多向量）和全文的快速混合搜索项目仓库:https://github.com/infiniflow/infinity关键特性令人难以置信的快在百万级矢量数据集上实现0.1毫秒查询延迟和15K+QPS在33M文档的全文搜
Windows下工作组架构和域架构 weixin_33728708 数据库系统架构
工作组架构的网络工作组架构网络也被称为对等网络（peertopeer）域架构网络工作组架构网络域架构网络网络内每台计算机地位平等，资源和管理分散在各个计算机上网络内分为域控制器和成员服务器，如果有多台域控制器，则域控制器之间地位平等每台计算机都有一个本地安全账户管理器（SecurityAccountsManager,SAM）数据库，存储本地账户域内计算机共享一个集中的目录数据库（Directory
Spring Boot应用首次请求性能优化实战：从数据库连接池到JVM调优一休哥助手 java spring boot 性能优化数据库
目录问题现象与背景分析性能瓶颈定位方法论数据库连接池深度优化SpringBean生命周期调优JVM层性能预热策略全链路监控体系建设生产环境验证方案总结与扩展思考1.问题现象与背景分析1.1典型问题场景在某互联网金融项目的SpringBoot应用上线后，运维团队发现一个关键现象：应用重启后首次访问提现接口耗时约1300ms后续请求稳定在200ms以内每日凌晨服务重启后，首笔交易超时率高达30%1.2
基于Docker及Kubernetes技术构建容器云（PaaS）平台概述_基于kubernetes iaas(1) 2401_83946044 程序员 docker kubernetes paas
|组成模块|模块说明||—|—||AppRouter[流量接入层]|接收用户请求，并转发到不同的AppRuntime。||AppRuntime[应用运行层]|应用运行环境，为各个应用提供基本的运行引擎，从而让app能够运行起来。||Services[基础服务层]|各个通用基础服务，主要是对主流的服务提供通用的接入，例如数据库等。||PlatformControl[平台控制层]|整个平台的控制中心，
软件2.0的无服务器计算架构 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《软件2.0的无服务器计算架构》关键词无服务器计算软件架构软件2.0事件驱动函数编程微服务云原生摘要本文深入探讨了软件2.0时代的无服务器计算架构。首先，我们回顾了无服务器计算的兴起背景，与传统服务器计算的区别，以及其设计理念。接着，介绍了主流的无服务器平台，并探讨了无服务器计算在软件2.0中的应用。随后，我们详细阐述了无服务器计算的核心技术，包括事件驱动架构、编写无服务器函数、无服务器数据库和无
MySQL数据库备份与恢复 Kboy01 SQL 数据库 mysql 程序人生
好的，我现在需要处理用户关于MySQL数据库备份和恢复的问题。首先，我要仔细阅读提供的搜索结果，从中提取有用的信息，并按照要求引用相应的网页编号。用户的问题是关于MySQL数据库的备份和恢复，我需要确保答案涵盖备份方法、恢复步骤以及最佳实践。根据提供的搜索结果，网页[1]、[2]、[3]、[4]、[5]、[7]、[8]、[9]、[10]都提到了相关内容，而网页[6]虽然涉及远程备份，但内容可能不够
Java全栈开发学习路线：从基础到实战，掌握前后端与数据库，成为全栈软件工程师软件职业规划 java java
1.Java基础Java语法：变量、数据类型、运算符、控制流程（if、switch、循环等）面向对象编程（OOP）：类与对象、继承、多态、封装、抽象类、接口异常处理：try-catch-finally、自定义异常集合框架：List、Set、Map、ArrayList、LinkedList、HashMap等泛型：泛型类、泛型方法、泛型接口IO流：文件读写、字节流、字符流多线程：线程创建、同步、锁、线
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
我与DeepSeek读《大型网站技术架构》（6）- 上诺亚凹凸曼架构
永无止境：网站的伸缩性架构伸缩性定义与实现目标网站的伸缩性指通过增减服务器数量灵活调整服务能力，而无需改变软硬件设计。核心目标是实现线性扩容，即新增服务器数量与系统处理能力成正比。两种基本伸缩设计手段（1）物理分离功能实现伸缩纵向分层：将系统按功能分层（如应用层、数据层），分离到不同服务器集群。例如：将数据库服务与应用程序服务器分离。横向分业务：将不同业务模块（如用户系统、支付系统）部署到独立的服
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
如何进行OceanBase 运维工具的部署和表性能优化？ oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
MySql数据库等级考试学习分享3（Day7） weixin_53545579 学习
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。题目以下关于MySQL的叙述中，错误的是（）。OA、MySQL为多种编程语
草根版外卖避雷计划「数据库寄生 2.0」优化方案 cainiaojunshi 预算方案智慧城市
接上回计划省钱版【打败美团和饿了吗的机会越来越大了！#外卖避雷计划#】[特殊字符][特殊字符]-CSDN博客（含三端流程图+预算穿透表+风险应对）一、策划目标（草根版核心）实现单城外卖后厨监督轻量化：✅创作端：骑手/打假人扫码接单，视频自动同步（省90%录入时间）✅服务端：AI+算法自动跑批，日省2小时人工干预（年省2.22万）✅观看端：实时暴雷指数+悬赏助力，用户信任度提升40%✅终极目标：单城
Flask-Login完整使用案例 BirdMan98 Flask Python flask oracle 数据库
下面是一个完整的Flask-Login使用案例，涵盖以下功能：用户注册用户登录访问受保护页面退出登录1.安装依赖pipinstallflaskflask-loginflask-wtfflask-sqlalchemywerkzeug2.创建Flask项目结构flask_login_demo/│──app.py#Flask入口文件│──models.py#数据库模型│──forms.py#表单│──c
flask 如何实现高并发 Msura flask python 后端开发语言
在Flask中，可以通过一些方法来实现高并发：使用Gunicorn或uWSGI作为WSGI容器，可以将Flask应用部署到多个工作进程上，实现多进程并发处理请求。使用Flask-SocketIO可以将Flask应用扩展为WebSocket应用，可以通过它实现长连接和消息推送功能，从而实现高并发。使用Flask-SQLAlchemy可以将Flask应用与数据库进行集成，可以使用数据库连接池来实现高效
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
Flask-ORM方式操作Mongodb Enougme Flask mongodb flask
前言在实际项目中,我们有时需要存储一些json类型的字符串，这种类型的数据写入到关系型数据库，会比较麻烦。一般我们将其写入到非关系型数据库中，例如MongoDB,同样我们也可以用操作关系型数据库的ORM方式操作MongoDB。1:配置文件的(settings.py)MONGODB_SETTINGS=[{'db':'api_params','host':MONGO_DB,'port':27017,"
C/C++ R-Tree原理及源代码猿来如此yyy C/C++算法详解及源码 r-tree c语言 c++开发语言算法数据结构
R树是一种用于高维空间数据的索引结构，它是由AntoninGuttman于1984年提出的。R树旨在提高对多维数据进行范围查询的性能。它被广泛应用于空间数据库中。R树的核心思想是将数据划分为不相交的矩形区域，并逐层构建一个树结构。每个非叶子节点都是一个矩形，它覆盖了它的所有子节点。每个叶子节点都是一个数据对象与其坐标范围的组合。通过这种方式，R树能够将相邻的数据对象聚集在一起，从而减少对数据的搜索
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
如何提高Flask的高并发性能 BirdMan98 Flask Python flask python 后端
提高Flask的并发性能可以从多个方面入手，主要包括服务器优化、数据库优化、代码优化和使用异步技术。下面详细介绍几种方法：1.使用高性能WSGI服务器Flask自带的开发服务器（flaskrun）不适用于生产环境。建议使用高性能WSGI服务器来运行Flask：推荐的WSGI服务器Gunicorn（推荐）：适用于LinuxWaitress：适用于WindowsuWSGI：适用于Linux，性能更强，
【Springboot知识】开发属于自己的中间件健康监测HealthIndicate 问道飞鱼微服务相关技术 spring boot 中间件后端 HealthIndicate
文章目录**一、技术栈****二、项目结构****三、依赖配置(pom.xml)****四、配置文件(application.yml)****五、自定义健康检查实现****1.Redis健康检查****2.Elasticsearch健康检查****3.Kafka健康检查****4.MySQL健康检查****六、自定义健康检查接口(可选)****七、测试与验证****八、高级功能扩展****九、部署
Redis 源码分析-内部数据结构 robj 笨手笨脚の #Redis redis 数据结构数据库 redisObject 44字节 embStr raw
Redis源码分析-内部数据结构robjRedis中，一个database内的这个映射关系是用一个dict来维护的（ht[0]）。dict的key固定用一种数据结构来表达就够了，即动态字符串sds。而value则比较复杂，为了在同一个dict内能够存储不同类型的value，这就需要一个通用的数据结构，这个通用的数据结构就是robj（全名redisObject）。#defineLRU_BITS24/
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
redis内部数据结构(5)-quicklist Tinner丶链表数据结构算法 java redis
Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是`quicklist`。我们在讨论中还会涉及到两个Redis配置(在redis.conf中的ADVANCEDCONFIG部分)：12list-max-ziplist-size-2list-compress-depth0注：本文讨论的quicklist实现基于Redis源码的3.2分支。quicklist概述Redis对外暴露的
Redis内部数据结构quicklist详解码农单克 redis redis
在本文中，我们介绍一个Redis内部数据结构——quicklist。Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是quicklist。我们在讨论中还会涉及到两个Redis配置（在redis.conf中的ADVANCEDCONFIG部分）：list-max-ziplist-size-2list-compress-depth0我们在讨论中会详细解释这两个配置的含义。注：本文讨
Android第二次面试总结（项目拷打实战）每次的天空 android
MVVM+Jetpack组件落地采用ViewModel+LiveData实现数据驱动开发，将UI逻辑与业务逻辑解耦，通过LiveData的生命周期感知能力避免内存泄漏。使用WorkManager替代传统Service处理后台任务（如数据同步），结合Room数据库实现任务持久化，确保应用被杀后仍能恢复任务。性能优化实战集成Glide加载国风插画，结合自定义三级缓存策略（内存LRU+磁盘缓存+本地资源
基于k3s部署Nginx、MySQL、SpringBoot和Redis的详细教程
1.安装k3s集群1.1单节点快速部署#使用root或sudo权限执行curl-sfLhttps://get.k3s.io|sh-#验证安装sudokubectlgetnodes#输出应为Ready状态sudosystemctlstatusk3s1.2配置kubectl权限（可选）mkdir-p~/.kubesudocp/etc/rancher/k3s/k3s.yaml~/.kube/config
python系列【仅供参考】：python tornado 集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案坦笑&&life #python python tornado redis
pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类pythontornado集成redis消息订阅的异步任务之后tornado主程序无法启动，解决方案封装redis异步类sys_redis_helper.pyimportredis
Python通过SSH隧道访问数据库 Java菜鸟在北京 python sshtunnel paramiko SSH隧道访问数据库
本文介绍通过sshtunnel类库建立SSH隧道，使用paramiko通过SSH来访问数据库。实现了两种建立SSH方式：公私钥验证、密码验证。公私钥可读本地，也可读取AwsS3上的私钥文件。本质上就是在本机建立SSH隧道，然后将访问DB转发到本地SSH内去访问数据库。简单易懂，上代码：fromsshtunnelimportSSHTunnelForwarderfromsqlalchemyimport
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多