Jenrey

【项目】dmp项目

gitee地址：https://gitee.com/jenrey/project_1

1.项目背景：

互联网广告（本项目针对手机）的崛起得益于信息技术的发展和普及，智能的终端设备迅猛的发展。

互联网广告的优势：

1）受众多 6-7亿网民

2）可以跟踪用户的行为，进而可以做精准营销

2.dsp流程

如果用户是第一次进来，在DMP中没有信息，有默认的广告投放公司，比如可口可乐会去投（追求曝光率）

DSP主要是有两个属性，1就是广告，2就是DMP系统，里面有我们用户的信息（比如关注的物品的权重）

3.dmp系统

这是本次项目开发的部分。是用来支撑精准广告投放的。主要是用用户画像的，抽象出来一些词条

4.数据样式展示

0bb49045000057eee4ed3a580019ca06,0,0,0,100002,未知,26C7B9C83DB4B6197CEB80D53B3F5DA,1,1,0,0,2016-10-0106:19:17,139.227.161.115,com.apptreehot.horse,马上赚,AQ+KIQeBhehxf6xf98BFFnl+CV00p,A10%E55F%BC%E6%AO%B%,1,4.1.1,,760,980,,,上海市,上海市,4,3,Wifi,0,0,2,插屏,1,2,6,未知,1,0,0,0,0,0,0,0,,,,,,,,,,,,0,555,240,290,,,,,,,,,,,AQ+KIQeBhexf6x988FFnl+CVOOp,,1,0,0,0,0,0,,,mm_26632353_8068780_27326559,2016-10-01 06:19:17,,

说明：

数据一共88个字段

日志字段属性说明

序号	属性名称	描述
1	Sessionid:String	会话标识
2	Advertisers:Int	广告主id
3	Adorderid:Int	广告id
4	Adcreativeid:Int	广告创意id（>=200000:dsp）
5	Adplatformproviderid:Int	广告平台商id（>=100000:rtb）
6	Sdkversion:String	Sdk版本
7	Adplatformkey:String	平台商key
8	Putinmodeltype:Int	根据广告主的投放模式，1：显示量投放，2：点击量投放
9	Requesmode:Int	数据请求方式（1：请求，2：展示，3：点击）
10	Adprice:Double	广告价格
11	Adpprice:Double	平台商价格
12	Requestdate:String	请求时间格式为：yyyy-m-dd hh:mm:ss
13	Ip:String	设备用户的真实ip地址
14	Appid:String	应用IP
15	Appname:String	应用名称
16	Uuid:String	设备唯一标识
17	Device:String	设备型号，如：htc,iphone
18	Client:Int	设备类型（如：1：Android,2：IOS，3：wp）
19	Osversion:String	设备操作系统版本
20	Density:String	设备屏幕密度
21	Pw:Int	设备屏幕宽度
22	Ph:Int	设备屏幕高度
23	Long:string	设备所在经度
24	Lat:String	设备所在维度
25	Provincename:String	设备所在省份名称
26	Cityname:String	设备所在城市名称
27	Ispid:Int	运营商id
28	Ispname:String	运营商名称
29	Networkmannerid:Int	联网方式id
30	Networkmannername:String	联网方式名称
31	Iseffective:Int	有效标识（有效指可以正常计费的）（0：无效，1：有效）
32	Isbilling:Int	是否收费（0：未收费，1：收费）
33	Adspacestype:Int	广告位类型（1：banner2：插屏3：全屏）
34	Adspacetypename:String	广告位类型名称（banner，插屏，全屏）
35	Devicetype:Int	设备类型（1：手机:2：平板）
36	Processnode:Int	流程节点（1：请求量ktp2:有效请求3：广告请求）
37	Apptype:Int	应用类型id
38	District:String	设备所在县的名称
39	Paymode:Int	针对平台商的支付模式1：展示量投放（CMP）2：点击
40	Isbid:Int	是否rtp
41	Bidprice:Double	Rtp竞价价格
42	Winprice:Double	Rtp竞价成功价格
43	Iswin:Int	是否竞价成功
44	Cur:String	Values:umd\|rmb等
45	Rate:Double	汇率
46	Cnywinprice:Double	Rtp竞价成功转换成人民币的价格
47	Imei:String	imei
48	Imac:string	mac
49	Idfa:String	idfa
50	Openudid:String	Openudid
51	Androidid:String	Androidid
52	Rtbprovice:String	Rtb省
53	Rtbcity:String	Rtb市
54	Rtbdistrict:String	Rtb区
55	Rtbstreet:String	Rtb街道
56	Storeurl:String	App的市场下载地址
57	Realip:String	真实ip
58	Isqualityapp:Int	优选标识
59	Bidfloor:Double	低价
60	Aw:Int	广告位的宽
61	Ah:Int	广告位的高
62	Imeimd5:String	Imei_md5
63	Macmd5:String	Mac_md5
64	Idfamd5:String	Idfa_md5
65	Openudidmd5:String	Openudid_md5
66	Androididmd5:String	Androidid_md5
67	Imeisha1:String	Imei_sha1
68	Macsha1:String	Mac_sha1
69	Idfasha1:String	Idfa_sha1
70	Openudidsha1:String	Openudid_sha1
71	Androididsha1:String	Androidid_sha1
72	Uuidunknow:String	Uuid_unknow tanx密文
73	Decuuidunknow:String	解密的tanx明文
74	Userid:String	平台用户id
75	Reqdate:String	日期
76	Reqhour:String	小时
77	Iptype:Int	表示ip类型
78	Initbidprice:Double	初始出价
79	Adpayment:Double	转换后的广告消费
80	Agentrate:Double	代理商利润率
81	Lomarkrate:Double	代理利润率
82	Adxrate:Double	媒介利润率
83	Title:String	标题
84	Keywords:String	关键字
85	Tagid:String	广告位标识（当视频流量时值为视频得ID号）
86	Callbackdate:String	回调时间，格式为YYYY/mm/dd hh:mm:ss
87	Channeid:String	频道ID
88	Megratype:Int	媒体类型1：长尾媒体2：视频媒体3：独立媒体，默认：1

指标	定义
参与竞价数	本日收到ADX发来的竞价请求并成功相应次数
竞价成功数	在本日内成功竞价的次数
竞价成功率	竞价成功率=竞价成功数/参与竞价数
展示量（曝光）	广告在终端被显示的数量
点击量	广告展示后被终端用户点击的数量
点击率	点击率=点击量/展示量
ECPC	ECPC=成本/点击量
ECPM	ECPM=成本/展示量*1000
消费	收取广告主支付的用于广告投放的费用
成本	广告花费在渠道与媒体上的费用
毛利	毛利=消费-成本

5.技术选型

Spark2.3/Spark1.6.3

Hadoop2.6.x

Scala 2.11

SparkCore

SparkSQL

SparkGraphX

6.项目开发

配置maven环境pom.xml文件如下



    4.0.0

    com.jenrey.dsp
    Mydmp
    1.0-SNAPSHOT

    
        1.8
        1.8
        2.11.8
        2.3.0
        2.6.5
        UTF-8
    

    

        
            org.scala-lang
            scala-library
            ${scala.version}
        

        
            org.apache.spark
            spark-core_2.11
            ${spark.version}
        

        
            org.apache.spark
            spark-sql_2.11
            ${spark.version}
        

        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
        

        
        
            org.apache.spark
            spark-graphx_2.11
            ${spark.version}
        


        
        
            org.apache.spark
            spark-hive_2.11
            2.3.0
        


        
        
            mysql
            mysql-connector-java
            5.1.6
        

    

    
        
            
                
                    net.alchim31.maven
                    scala-maven-plugin
                    3.2.2
                
                
                    org.apache.maven.plugins
                    maven-compiler-plugin
                    3.5.1
                
            
        
        
            
                net.alchim31.maven
                scala-maven-plugin
                
                    
                        scala-compile-first
                        process-resources
                        
                            add-source
                            compile
                        
                    
                    
                        scala-test-compile
                        process-test-resources
                        
                            testCompile
                        
                    
                
            

            
                org.apache.maven.plugins
                maven-compiler-plugin
                
                    
                        compile
                        
                            compile
                        
                    
                
            

            
                org.apache.maven.plugins
                maven-shade-plugin
                2.4.3
                
                    
                        package
                        
                            shade
                        
                        
                            
                                
                                    *:*
                                    
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA

6.1 需求：日志转Parquet文件

1）要求一：将数据转换成parquet文件格式

2）要求二：序列化方式采用KryoSerializer方式

3）要求三：parquet文件采用Sanppy压缩方式

首先创建一个Logs对象（面向对象思想：把表抽象成一个对象）

使用第一种方式把RDD转换为DataFrame

package com.dmp.beans

import com.dmp.utils.Utils
import org.apache.commons.lang.StringUtils


/**
  * 面向对象的思想构造表对象
  */
case class Logs (val sessionid: String, //会话标识
val advertisersid: Int, //广告主id
val adorderid: Int, //广告id
val adcreativeid: Int, //广告创意id   ( >= 200000 : dsp ,  < 200000 oss)
val adplatformproviderid: Int, //广告平台商id  (>= 100000: rtb  , < 100000 : api )
val sdkversionnumber: String, //sdk版本号
val adplatformkey: String, //平台商key
val putinmodeltype: Int, //针对广告主的投放模式,1：展示量投放 2：点击量投放
val requestmode: Int, //数据请求方式（1:请求、2:展示、3:点击）
val adprice: Double, //广告价格
val adppprice: Double, //平台商价格
val requestdate: String, //请求时间,格式为：yyyy-m-dd hh:mm:ss
val ip: String, //设备用户的真实ip地址
val appid: String, //应用id
val appname: String, //应用名称
val uuid: String, //设备唯一标识，比如imei或者androidid等
val device: String, //设备型号，如htc、iphone
val client: Int, //设备类型 （1：android 2：ios 3：wp）
val osversion: String, //设备操作系统版本，如4.0
val density: String, //备屏幕的密度 android的取值为0.75、1、1.5,ios的取值为：1、2
val pw: Int, //设备屏幕宽度
val ph: Int, //设备屏幕高度
val longitude: String, //设备所在经度
val lat: String, //设备所在纬度
val provincename: String, //设备所在省份名称
val cityname: String, //设备所在城市名称
val ispid: Int, //运营商id
val ispname: String, //运营商名称
val networkmannerid: Int, //联网方式id
val networkmannername: String, //联网方式名称
val iseffective: Int, //有效标识（有效指可以正常计费的）(0：无效 1：有效)
val isbilling: Int, //是否收费（0：未收费 1：已收费）
val adspacetype: Int, //广告位类型（1：banner 2：插屏 3：全屏）
val adspacetypename: String, //广告位类型名称（banner、插屏、全屏）
val devicetype: Int, //设备类型（1：手机 2：平板）
val processnode: Int, //流程节点（1：请求量kpi 2：有效请求 3：广告请求）
val apptype: Int, //应用类型id
val district: String, //设备所在县名称
val paymode: Int, //针对平台商的支付模式，1：展示量投放(CPM) 2：点击量投放(CPC)
val isbid: Int, //是否rtb
val bidprice: Double, //rtb竞价价格
val winprice: Double, //rtb竞价成功价格
val iswin: Int, //是否竞价成功
val cur: String, //values:usd|rmb等
val rate: Double, //汇率
val cnywinprice: Double, //rtb竞价成功转换成人民币的价格
val imei: String, //imei
val mac: String, //mac
val idfa: String, //idfa
val openudid: String, //openudid
val androidid: String, //androidid
val rtbprovince: String, //rtb 省
val rtbcity: String, //rtb 市
val rtbdistrict: String, //rtb 区
val rtbstreet: String, //rtb 街道
val storeurl: String, //app的市场下载地址
val realip: String, //真实ip
val isqualityapp: Int, //优选标识
val bidfloor: Double, //底价
val aw: Int, //广告位的宽
val ah: Int, //广告位的高
val imeimd5: String, //imei_md5
val macmd5: String, //mac_md5
val idfamd5: String, //idfa_md5
val openudidmd5: String, //openudid_md5
val androididmd5: String, //androidid_md5
val imeisha1: String, //imei_sha1
val macsha1: String, //mac_sha1
val idfasha1: String, //idfa_sha1
val openudidsha1: String, //openudid_sha1
val androididsha1: String, //androidid_sha1
val uuidunknow: String, //uuid_unknow tanx密文
val decuuidunknow: String, // 解密的tanx 明文
val userid: String, //平台用户id
val reqdate: String, //日期
val reqhour: String, //小时
val iptype: Int, //表示ip库类型，1为点媒ip库，2为广告协会的ip地理信息标准库，默认为1
val initbidprice: Double, //初始出价
val adpayment: Double, //转换后的广告消费（保留小数点后6位）
val agentrate: Double, //代理商利润率
val lomarkrate: Double, //代理利润率
val adxrate: Double, //媒介利润率
val title: String, //标题
val keywords: String, //关键字
val tagid: String, //广告位标识(当视频流量时值为视频ID号)
val callbackdate: String, //回调时间 格式为:YYYY/mm/dd hh:mm:ss
val channelid: String, //频道ID
val mediatype: Int ) extends  Serializable
{

}

object  Logs{

  //创建空对象
  def makeLogs(): Logs = {
    new Logs("", 0, 0, 0, 0, "", "", 0, 0, 0.0, 0.0, "", "", "", "", "", "", 0, "",
      "", 0, 0, "", "", "", "", 0, "", 0, "", 0, 0, 0, "", 0, 0, 0, "", 0, 0,
      0.0, 0.0, 0, "", 0.0, 0.0, "", "", "", "", "", "", "", "", "", "", "", 0, 0.0, 0, 0,
      "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", 0, 0.0, 0.0, 0.0, 0.0, 0.0, "", "", "", "", "", 0
    )
  }

  /**
    * 只要给我们传过来一条数据，我们就可以通过line2Log转换成一个日志对象
    */
  def line2Log(line:String):Logs= {
    if (StringUtils.isNotEmpty(line)) {
      val fields = line.split(",")
      //因为有的字段被使用多次，所以只要79就可以了
      if (fields.length >= 79) {
        //创建对象
        new Logs(fields(0), Utils.parseInt(fields(1)), Utils.parseInt(fields(2)), Utils.parseInt(fields(3)), Utils.parseInt(fields(4)), fields(5), fields(6), Utils.parseInt(fields(7)), Utils.parseInt(fields(8)), Utils.parseDouble(fields(9)), Utils.parseDouble(fields(10)),
          fields(11), fields(12), fields(13), fields(14), fields(15), fields(16), Utils.parseInt(fields(17)), fields(18), fields(19), Utils.parseInt(fields(20)),
          Utils.parseInt(fields(21)), fields(22), fields(23), fields(24), fields(25), Utils.parseInt(fields(26)), fields(27), Utils.parseInt(fields(28)), fields(29), Utils.parseInt(fields(30)),
          Utils.parseInt(fields(31)), Utils.parseInt(fields(32)), fields(33), Utils.parseInt(fields(34)), Utils.parseInt(fields(35)), Utils.parseInt(fields(36)), fields(37), Utils.parseInt(fields(38)), Utils.parseInt(fields(39)), Utils.parseDouble(fields(40)),
          Utils.parseDouble(fields(41)), Utils.parseInt(fields(42)), fields(43), Utils.parseDouble(fields(44)), Utils.parseDouble(fields(45)), fields(46), fields(47), fields(48), fields(49), fields(50),
          fields(51), fields(52), fields(53), fields(54), fields(55), fields(56), Utils.parseInt(fields(57)), Utils.parseDouble(fields(58)), Utils.parseInt(fields(59)), Utils.parseInt(fields(60)),
          fields(61), fields(62), fields(63), fields(64), fields(65), fields(66), fields(67), fields(68), fields(69), fields(70),
          fields(71), "", fields(72), Utils.fmtDate(fields(11)).getOrElse("unkown"), Utils.fmtHour(fields(11)).getOrElse("unkown"),
          Utils.parseInt(fields(73)), Utils.parseDouble(fields(74)), Utils.parseDouble(fields(75)), Utils.parseDouble(fields(76)), Utils.parseDouble(fields(77)), Utils.parseDouble(fields(78)), "", "", "", "", "", 1)
      } else {
        //万一没满足条件，我们后面的代码就无法运行了。所以要创建空对象
        makeLogs()
      }

    } else {
      //万一没满足条件，我们后面的代码就无法运行了。所以要创建空对象
      makeLogs()
    }

  }

}

转化成parquet文件

package com.dmp.total

/**
  * 需求 3.1：日志转Parquet文件
  * 运行参数：C:\Users\Administrator\Desktop\x\data.txt C:\Users\Administrator\Desktop\x\a snappy
  */

import com.dmp.beans.Logs
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

/**
  * 1）要求一：将数据转换成parquet文件格式
  * 2）要求二：序列化方式采用KryoSerializer方式
  * 3）要求三：parquet文件采用snappy压缩方式
  *
  * 思路：先把文件变成rdd再变成DataFrame，然后通过df.write.format("parquet")
  * HDFS txt   -> parquet
  * var rdd=sc.textText("xxx")
  * rdd -> DataFrame
  * RowRDD+scahame  或
  * RDD[Log].toDF
  * df.write.format("parquet")
  */
object Txt2Parquet {
  def main(args: Array[String]): Unit = {
    /**
      * 第一步：判断参数是否符合需求
      * 原始的文件路径 输出的文件路径 压缩格式
      */
    if (args.length < 3) {
      println(
        """
          |com.dmp.total.Txt2Parquet   
          |:日志所在的路径
          |：结果文件存放的路径
          |：指定的压缩格式
        """.stripMargin)
      System.exit(0)
    }
    /**
      * 第二步：接收参数
      */
    val Array(dataPath, outputPath, compressionCode) = args
    /**
      * 第三步：创建SparkSession对象
      */
    val conf = new SparkConf()
    //设置序列化的格式
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    conf.setMaster("local")
    //注册Logs类的序列化格式为Kryo
    conf.registerKryoClasses(Array(classOf[Logs]))
    //指定压缩格式
    conf.set("spark.io.compression.codec", compressionCode)
    val spark = SparkSession.builder()
      .config(conf)
      .getOrCreate()

    import spark.implicits._

    /**
      * 第四步：读取文件，对文件做相对应的操作
      */
    val logRDD: RDD[Logs] = spark.sparkContext.textFile(dataPath).map(line => Logs.line2Log(line))

    //   val df = spark.createDataFrame(logRDD)

    val df = logRDD.toDF()

    /**
      * 第五步：指定文件存放的位置
      */
    df.write.parquet(outputPath)

    spark.stop()

  }

}

6.2 需求：统计各省各市数据量分布情况

package com.dmp.total

import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * 3.2.0 统计各省市数据量分布情况，结果存储到MySQL数据库
  */
object ProvniceCityAnlyse {
  def main(args: Array[String]): Unit = {
    /**
      * 第一步判断参数个数
      */
    if(args.length < 2){
      println(
        """
          |com.dmp.total.ProvniceCityAnlyse 
          | 输入是文件路径
          | 输出的文件路径
        """.stripMargin)
      System.exit(0)
    }

    /**
      * 第二步接收参数
      */
    val Array(inputFile,outputFile)=args
    /**
      * 第三步初始化程序入口
      */
    val conf = new SparkConf()
    conf.setAppName(s"${this.getClass.getSimpleName }")
    val spark=SparkSession.builder()
        .config(conf)
        .getOrCreate()
    /**
      * 第四步读取文件，进行业务逻辑开发
      * 云南省：
      * 云南省     曲靖市
      * 云南省     昆明市
      * 云南省     大理市
      */
   val df: DataFrame = spark.read.parquet(inputFile)
    df.createOrReplaceTempView("logs")
    //provincename设备所在省份名称,cityname设备所在城市名称
    val sql=
      """
         select
               count(*) ct,provincename,cityname
         from
              logs
         group by
              provincename,cityname
         order by
              provincename
      """

    /**
      * 第五步存储文件
      */
    spark.sql(sql).write.json(outputFile)
    spark.stop()
  }

}

6.3 媒体APP 报表需求

先把映射关系开发好，因为后面的需求都是维度在变化，后面的不变，所以我们先把后面的映射关系开发好

辅助报表功开发 ReportUtils.scala

package com.dmp.utils

import com.dmp.beans.Logs

/**
  * 辅助报表开发（根据指标表）
  */
object ReportUtils {
  /**
    * 统计请求数
    * @param log
    *  总请求，有效请求，广告请求
    */
  def calculateRequest(log:Logs): List[Double] ={
    if(log.requestmode == 1){
      if(log.processnode  == 1){
        List(1,0,0)
      }else if(log.processnode == 2){
        List(1,1,0)
      }else if(log.processnode == 3){
        List(1,1,1)
      }else{
        List(0,0,0)
      }

    }else{
      List(0,0,0)
    }
  }

  /**
    * 计算竞价数
    * @param log  日志对象
    * @return  参与竞价数和竞价成功数
    */
  def calculateResponse(log:Logs):List[Double]={
    if(log.adplatformproviderid >= 100000 && log.iseffective == 1 && log.isbilling == 1){
       if(log.isbid == 1 && log.adorderid !=0 ){
         List(1,0)
       }else if(log.iswin == 1){
         List(0,1)
       }else{
         List(0,0)
       }
    }else{
      List(0,0)
    }
  }

  /**
    * 计算展示量和点击量
    * @param log  输入的日志对象
    * @return  展示量  点击量
    */
  def calculateShowClick(log:Logs):List[Double]={
    if(log.iseffective == 1){
        if(log.requestmode == 2){
           List(1,0)
        }else if(log.requestmode == 3){
           List(0,1)
        }else{
          List(0,0)
        }
    }else{
      List(0,0)
    }

  }

  /**
    * 用于计算广告消费和广告成本
    * @param log
    * @return
    */
  def calculateAdCost(log:Logs):List[Double]={
    if(log.adplatformproviderid >= 100000
       && log.iseffective == 1
       && log.isbilling ==1
       && log.iswin ==1
       && log.adorderid >= 200000
       && log.adcreativeid >= 200000){
      List(log.winprice/1000,log.adpayment/1000)
    }else{
      List(0.0,0.0)
    }

  }

}

需求来了！

数据：

1 乐自游 A06 cn.net.inch.android 通过GPS的定为实现景区的自动语音讲解的功能。

package com.dmp.report

import com.dmp.beans.Logs
import com.dmp.utils.ReportUtils
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 3.2.3 媒体分析(App)报告
  * 传入参数：
  * G:\光环国际大数据开发班\大数据最后阶段-项目\21-dmp项目\资料\data.txt G:\光环国际大数据开发班\大数据最后阶段-项目\21-dmp项目\资料\appmapping.txt xx
  *
  * 运行结果：
  * 马上赚 0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
  * 其他 2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
  */
object AppReport {
  def main(args: Array[String]): Unit = {
    /**
      * 1) 判断参数个数
      */
    if (args.length < 3) {
      println(
        """
          |com.dmp.report.AppReport   
          |  日志目录
          |  映射文件目录
          |  输出结果文件目录
        """.stripMargin)
      System.exit(0)
    }
    /**
      * 2）接收参数
      */
    val Array(logDataPath, appMappingPath, outpoutPath) = args
    /**
      * 3) 初始化程序入口
      */
    val conf = new SparkConf()
    conf.setAppName(s"${this.getClass.getSimpleName}")
    conf.setMaster("local")
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(classOf[Logs]))
    val sc = new SparkContext(conf)
    /**
      * 4) 把APP映射文件作为广播变量
      * 数据格式：
      * 1	乐自游	A06		cn.net.inch.android	通过GPS的定为实现景区的自动语音讲解的功能。
      * 可能出现的原因：APP名字可能会产生变化，但是APPID号不会变化是唯一的，所以需要映射
      */
    val appMap: Map[String, String] = sc.textFile(appMappingPath).flatMap(line => {
      import scala.collection.mutable.Map
      val map = Map[String, String]()
      val fields: Array[String] = line.split("\t")
      map += (fields(4) -> fields(1))
      map
    }).collect().toMap

    val broadcastAppMap = sc.broadcast(appMap)

    /**
      * 5) 生成报表
      */
    sc.textFile(logDataPath).map(line => {
      val log = Logs.line2Log(line)
      val adRequest = ReportUtils.calculateRequest(log)
      val adResponse = ReportUtils.calculateResponse(log)
      val adClick = ReportUtils.calculateShowClick(log)
      val adCost = ReportUtils.calculateAdCost(log)
      //统计的媒体APP，.value就获取到值了。Map里面有getOrElse功能，拿着log.appid去获取映射里面的值，如果能获取到就用这个值，如果获取不到就使用log.appname
      val appName = broadcastAppMap.value.getOrElse(log.appid, log.appname)
      //List(1,1) ++ List(0,0)  => List(1,1,0,0)
      (appName, adRequest ++ adResponse ++ adClick ++ adCost)
    }).filter(tuple => {
      tuple._1.nonEmpty && !"".equals(tuple._1)
    }).reduceByKey {
      case (list1, list2) => {
        //List(1,0) .zip List(2,3)  => List((1,2),(0,3))
        list1.zip(list2).map {
          case (x, y) => x + y
        }
      }
    }.foreach(tuple => {
      val appName = tuple._1
      val report = tuple._2.mkString(",")
      println(appName + " " + report)
    })


    sc.stop()

  }

}

6.4 需求：地域分布报表

package com.dmp.report

import com.dmp.beans.Logs
import com.dmp.utils.ReportUtils
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 需求：3.2.1 地域分布（省份城市报表开发）
  * 运行参数：G:\光环国际大数据开发班\大数据最后阶段-项目\21-dmp项目\资料\data.txt xx xxx
  */
object ProvinceCityReport {

  def main(args: Array[String]): Unit = {
    if(args.length < 3){
      println(
        """
          |com.dmp.report.ProvinceCityReport   
          | 文件输入目录
          | 省份结果文件目录
          |  城市结果文件目录
        """.stripMargin)
      System.exit(0)
    }
    val Array(loginputpath,provincedatapath,citydatapath)=args

    val conf = new SparkConf()
    conf.setMaster("local")
    conf.setAppName(s"${this.getClass.getSimpleName}")
    //使用Kryo序列化
    conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(classOf[Logs]))
    val sc = new SparkContext(conf)

    val provniceCityRDD: RDD[(String, String, List[Double])] = sc.textFile(loginputpath).map(line => {
      val log = Logs.line2Log(line)
      //统计请求数
      val adRequest = ReportUtils.calculateRequest(log)
      //计算竞价数
      val adResponse = ReportUtils.calculateResponse(log)
      //计算展示量和点击量
      val adClick = ReportUtils.calculateShowClick(log)
      //用于计算广告消费和广告成本
      val adCost = ReportUtils.calculateAdCost(log)
      //返回 设备所在省份名称，设备所在城市名称，请求数+竞价数+展示量和点击量+广告消费和广告成本
      (log.provincename, log.cityname, adRequest ++ adResponse ++ adClick ++ adCost)
      //cache()的作用：变换前后的新旧RDD的分区在物理上可能是同一块内存存储，这是Spark内部做的优化。有些RDD是计算的中间结果，其分区并不一定有相对应的内存或磁盘数据与之对应，所以如果想要复用某一个RDD，需要通过Cache算子，将数据缓存（或者说固化）到内存中。
    }).cache()

    /**
      * 省份的结果
      */
    provniceCityRDD.map( tuple =>{
      (tuple._1,tuple._3)
    }).reduceByKey{
      case(list1, list2) =>{
        //List[(Int, Int)] = List((1,5), (2,6), (3,7), (4,8))
        list1.zip(list2).map{
          //List[(Int, Int)] = List(6, 8, 10, 12)
          case (x,y) => x + y
        }
      }
        //最后返回的是(各省份,15)这种的
    }.foreach( tuple =>{
      val provinceName = tuple._1
      val report = tuple._2.mkString(",")
      println(provinceName + " "+ report)
    })

    /**
      * 城市的结果
      */

    provniceCityRDD.map( tuple =>{
      (tuple._1 + tuple._2,tuple._3)
    }).reduceByKey{
      case(list1, list2) =>{
        list1.zip(list2).map{
          case (x,y) => x + y
        }
      }
    }.foreach( tuple =>{
      val provniceAndCityName = tuple._1
      val report = tuple._2.mkString(",")
      println(provniceAndCityName + " "+ report)
    })

    sc.stop()
  }

}

7. 用户画像业务

打标签

标签一：

1）广告位类型（标签格式：LC03->1或者LC16->1）xx为数字，小于10 补0

标签二：APP

2）APP名称（标签格式：APPxxxx->1）xxxx为APP的名称，使用缓存文件appname_dict进行名称转换；

标签三：

3）渠道（标签格式：CNxxxx->1）xxxx为渠道ID

标签四：

4）设备：操作系统|联网方式|运营商

设备操作系统

1 Android D0001001

2 IOS D0001002

3 Winphone D0001003

4 其他 D0001004

设备联网方式

WIFI D0002001

4G D0002002

3G D0002003

2G D0002004

NWTWORKOTHER D0004004

设备运营商方案

移动 D0003001

联通 D0003002

电信 D0003003

OPERATOROTHER D0003004

标签五：

5）关键词（标签格式：Kxxx->1）xxx为关键字。关键词个数不能少于3个字符，且不能超过8个字符；关键字中如包含”|”,则分割成数组，转化成多个关键字标签

“麻辣小龙虾|麻辣香锅|与神对话|家”

标签六：

地域标签（省标签格式：ZPxxx->1，地市标签格式：ZCxxx->1）xxx为省或市名称

标签七：

6）上下文标签：将数据打上上述6类标签，并根据【用户ID】进行当前文件的合并，数据保存格式为：

其他等等标签

需求实现：

1）广告位类型（标签格式：LC03->1或者LC16->1）xx为数字，小于10 补0

package com.dmp.tags
/**
  * 1）广告位类型（标签格式：LC03->1或者LC16->1）xx为数字，小于10 补0
  */
import com.dmp.beans.Logs

object Tags4Local extends Tags {
  /**
    * 打标签的方法
    * 广告位的标签
    */
  override def makeTags(args: Any*): Map[String, Int] = {
    var map = Map[String, Int]()
    if (args.length > 0) {
      //在scala中强制转换类型使用asInstanceOf
      val log: Logs = args(0).asInstanceOf[Logs]
      //adspacetype广告位类型（1：banner 2：插屏 3：全屏）
      if (log.adspacetype != 0 && log.adspacetype != null) {
        log.adspacetype match {
          case x if x < 10 => map += ("LC0" + x -> 1)
          case x if x > 9 => map += ("LC" + x -> 1)
        }
      }
    }
    map
  }
}

2）APP名称（标签格式：APPxxxx->1）xxxx为APP的名称，使用缓存文件appname_dict进行名称转换；

package com.dmp.tags
/**
  * 2）APP名称（标签格式：APPxxxx->1）xxxx为APP的名称，使用缓存文件appname_dict进行名称转换；
  */
import com.dmp.beans.Logs
import org.apache.commons.lang.StringUtils

object Tags4App extends  Tags{
  /**
    * 打标签的方法
    * 给APP打标签
    * @param args
    *   args0:Logs
    *   args1:Map[String,String]:
    *           key:appID
    *           value:appName
    * @return
    */
  override def makeTags(args: Any*): Map[String, Int] = {
    var map=Map[String,Int]()
    if(args.length > 1){
      val log = args(0).asInstanceOf[Logs]
      val appDict: Map[String, String] = args(1).asInstanceOf[Map[String,String]]
      val appName = appDict.getOrElse(log.appid,log.appname)
      if(StringUtils.isNotEmpty(appName) && !"".equals(appName)){
         map += ("APP"+appName -> 1)
      }
    }
    map
  }
}

3）渠道（标签格式：CNxxxx->1）xxxx为渠道ID

package com.dmp.tags
/**
  * 3）渠道（标签格式：CNxxxx->1）xxxx为渠道ID
  */
import com.dmp.beans.Logs
import org.apache.commons.lang.StringUtils

object Tags4Channel extends  Tags{
  /**
    * 打标签的方法
    * 打渠道的标签
    * @param args
    * @return
    */
  override def makeTags(args: Any*): Map[String, Int] = {
    var map=Map[String,Int]()
    if(args.length > 0){
       val log = args(0).asInstanceOf[Logs]
      if(StringUtils.isNotEmpty(log.channelid)){
        map += ("CN".concat(log.channelid) -> 1)
      }
    }
    map
  }
}

4）设备：操作系统|联网方式|运营商

下面是映射文件

1	D00010001	Android
2	D00010002	IOS
3	D00010003	WIN
4	D00010004	其他
WIFI	D00020001	WIFI   
4G	D00020002	4G
3G	D00020003	3G
2G	D00020004	2G
NETWORKOTHER	D00020005	其他
移动	D00030001	移动
联通	D00030002	联通
电信	D00030003	电信
OPERATOROTHER	D00030004	其他

package com.dmp.tags

import com.dmp.beans.Logs

/**
  * 4）设备：操作系统|联网方式|运营商
  */
object Tags4Device extends  Tags{
  /**
    * 打标签的方法
    * 设备标签：
    * 1）设备操作系统
    * 2）设备联网方式标签
    * 3）设备运营商方案标签
    * @param args
    *          args0:Logs
    *          args1:Map[String,String]
    *          key:WIFI
    *          value: D00020001
    * @return
    *
    * //注意在Map中.get("4")获取到的值是Option类型，需要再次.get()拿到里面的值
    */
  override def makeTags(args: Any*): Map[String, Int] = {
    var map=Map[String,Int]()
    if(args.length > 1){
      val log = args(0).asInstanceOf[Logs]
      val deviceDict = args(1).asInstanceOf[Map[String,String]]
      //操作系统标签
      //client 设备类型 （1：android 2：ios 3：wp）如果获取不到就是4类型，4就是其他的
      val os = deviceDict.getOrElse(log.client.toString,deviceDict.get("4").get)
      map += (os -> 1)
      //联网方式标签
      //networkmannername 联网方式名称，如果没有就给NETWORKOTHER代表 其他
      val network = deviceDict.getOrElse(log.networkmannername,deviceDict.get("NETWORKOTHER").get)
       map += (network -> 1)
      //运营商的标签
      val isp = deviceDict.getOrElse(log.ispname,deviceDict.get("OPERATOROTHER").get)
    }
    map
  }
}

5）关键词（标签格式：Kxxx->1）xxx为关键字。关键词个数不能少于3个字符，且不能超过8个字符；关键字中如包含”|”,则分割成数组，转化成多个关键字标签“麻辣小龙虾|麻辣香锅|与神对话|家”

package com.dmp.tags

import com.dmp.beans.Logs
import org.apache.commons.lang.StringUtils

/**
  * 5）关键词（标签格式：Kxxx->1）xxx为关键字。关键词个数不能少于3个字符，且不能超过8个字符；关键字中如包含”|”,则分割成数组，转化成多个关键字标签
  */
object Tags4KeyWords  extends  Tags{
  /**
    * 打标签的方法
    * 打关键字的标签
    * @param args
    * @return
    */
  override def makeTags(args: Any*): Map[String, Int] ={
    var map=Map[String,Int]()
    if(args.length > 0){
       val log = args(0).asInstanceOf[Logs]
      if(StringUtils.isNotEmpty(log.keywords)){
        val fields = log.keywords.split("\\|")
//        for(word <- fields){
//          if(word.length >= 3 && word.length <= 8){
//            map +=("K".concat(word) -> 1)
//          }
//        }
        fields.filter( word =>{
          word.length >=3 && word.length <=8
        }).map( str =>{
         map +=("K".concat(str.replace(":",""))  -> 1)
        })
      }
    }
    map
  }
}

6 )地域标签（省标签格式：ZPxxx->1，地市标签格式：ZCxxx->1）xxx为省或市名称

package com.dmp.tags

import com.dmp.beans.Logs
import org.apache.commons.lang.StringUtils

/**
  * 6)地域标签（省标签格式：ZPxxx->1，地市标签格式：ZCxxx->1）xxx为省或市名称
  */
object Tags4Area extends Tags{
  /**
    * 打标签的方法
    * 区域标签
    * @param args
    * @return
    */
  override def makeTags(args: Any*): Map[String, Int] ={
    var map=Map[String,Int]()
    if(args.length > 0){
       val log = args(0).asInstanceOf[Logs]
      //provincename 设备所在省份名称
      if(StringUtils.isNotEmpty(log.provincename)){
        map += ("ZP"+log.provincename -> 1)
      }
      //设备所在城市名称
      if(StringUtils.isNotEmpty(log.cityname)){
        map += ("ZC"+log.cityname -> 1)
      }
    }
    map
  }
}

7）合并上下文标签，将数据打上上述6类标签后根据用户id进行当前文件的合并

package com.dmp.tags

import com.dmp.beans.Logs
import com.dmp.utils.Utils
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 7）上下文标签：将数据打上上述6类标签，并根据【用户ID】进行当前文件的合并，数据保存格式为
  *
  * 运行参数为：
  * G:\光环国际大数据开发班\大数据最后阶段-项目\22-dmp项目\资料\data.txt G:\光环国际大数据开发班\大数据最后阶段-项目\22-dmp项目\资料\appmapping.txt G:\光环国际大数据开发班\大数据最后阶段-项目\22-dmp项目\资料\device_mapping.txt xx
  */
object TagsContext {
  def main(args: Array[String]): Unit = {
    //判断参数
    if (args.length < 4) {
      println(
        """
          |com.dmp.tags.TagsContext
          | 输入的日志文件路径
          | app映射文件路径 appmapping.txt
          |设备的映射文件路径 device_mapping.txt
          | 输出的结果文件存储
        """.stripMargin)
      System.exit(0)
    }
    //接收参数
    val Array(inputPath, appPath, devicePath, outputPath) = args
    //初始化对象
    val conf = new SparkConf()
    conf.setAppName(s"${this.getClass.getSimpleName}")
    conf.setMaster("local")
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(classOf[Logs]))
    //初始化程序入口
    val sc = new SparkContext(conf)
    //生成 APP映射（AppId->AppName） 广播 变量
    val appMap: Map[String, String] = sc.textFile(appPath).flatMap(line => {
      var map = Map[String, String]()
      val fields = line.split("\t")
      // 4 是APP唯一表示号
      if (fields.length > 4) {
        map += (fields(4) -> fields(1))
      }
      map
    }).collect().toMap

    val appMapBroadcast = sc.broadcast(appMap)

    //生成设备映射广播变量
    val deviceMap: Map[String, String] = sc.textFile(devicePath).map(line => {
      var map = Map[String, String]()
      val fields = line.split("\t")
      if (fields.length > 1) {
        map += (fields(0) -> fields(1))
      }
      map
    }).collect.flatten.toMap

    val deviceMapBroadcast = sc.broadcast(deviceMap)

    //进行打标签
    sc.textFile(inputPath).map(line => {
      val log = Logs.line2Log(line)
      //1）广告位类型 打标签返回Map类型
      val localTag: Map[String, Int] = Tags4Local.makeTags(log)
      //2）APP名称 打标签返回Map类型
      val appTag = Tags4App.makeTags(log, appMapBroadcast.value)
      //3）渠道 打标签返回Map类型
      val channelTag = Tags4Channel.makeTags(log)
      //4）设备：操作系统|联网方式|运营商 打标签返回Map类型
      val deviceTag = Tags4Device.makeTags(log, deviceMapBroadcast.value)
      //5）关键词 打标签返回Map类型
      val keyWordsTag = Tags4KeyWords.makeTags(log)
      //6）地域标签 打标签返回Map类型
      val areaTag = Tags4Area.makeTags(log)
      //getNotEmptyID(log)获取到一个ID，返回值是个Option，有可能有，有可能没有，如果没有打出来的标签是没有意义的，给个默认值""
      val userid: String = getNotEmptyID(log).getOrElse("")

      /**
        * (localTag ++  appTag ++ channelTag  ++ deviceTag ++ keyWordsTag ++ areaTag) 表示所有的Map都合并到同一个Map中了
        * val map3 = Map("Kmala"->1)
        * val map4 = Map("APPaiyiqi"->1)
        * map3 ++ map4 就变成下面的样子了
        * Map("Kmala"->1,"APPaiyiqi"->1)
        */
      (userid, (localTag ++ appTag ++ channelTag ++ deviceTag ++ keyWordsTag ++ areaTag).toList)
    })
      //过滤，如果userid不等于空，我们就要这个数据
      .filter(!_._1.toString.equals(""))
      .reduceByKey {
        case (list1, list2) => {
          /**
            * var b=Map("asd"->1)
            * var a=List("qwe",1)
            * b++a 后就是下面的形式
            * List((asd,1),qwe,1)
            */
          (list1 ++ list2).groupBy(_._1)
            .map {
              case (k, list) => {
                (k, list.map(t => t._2).sum)
              }
            }.toList
        }
      }.foreach(tuple => {
      println(tuple._1 + "->" + tuple._2.mkString("\t"))

    })
    sc.stop()
  }

  // 获取用户唯一不为空的ID（不需要我们管）
  def getNotEmptyID(log: Logs): Option[String] = {
    log match {
      case v if v.imei.nonEmpty => Some("IMEI:" + Utils.formatIMEID(v.imei))
      case v if v.imeimd5.nonEmpty => Some("IMEIMD5:" + v.imeimd5.toUpperCase)
      case v if v.imeisha1.nonEmpty => Some("IMEISHA1:" + v.imeisha1.toUpperCase)

      case v if v.androidid.nonEmpty => Some("ANDROIDID:" + v.androidid.toUpperCase)
      case v if v.androididmd5.nonEmpty => Some("ANDROIDIDMD5:" + v.androididmd5.toUpperCase)
      case v if v.androididsha1.nonEmpty => Some("ANDROIDIDSHA1:" + v.androididsha1.toUpperCase)

      case v if v.mac.nonEmpty => Some("MAC:" + v.mac.replaceAll(":|-", "").toUpperCase)
      case v if v.macmd5.nonEmpty => Some("MACMD5:" + v.macmd5.toUpperCase)
      case v if v.macsha1.nonEmpty => Some("MACSHA1:" + v.macsha1.toUpperCase)

      case v if v.idfa.nonEmpty => Some("IDFA:" + v.idfa.replaceAll(":|-", "").toUpperCase)
      case v if v.idfamd5.nonEmpty => Some("IDFAMD5:" + v.idfamd5.toUpperCase)
      case v if v.idfasha1.nonEmpty => Some("IDFASHA1:" + v.idfasha1.toUpperCase)

      case v if v.openudid.nonEmpty => Some("OPENUDID:" + v.openudid.toUpperCase)
      case v if v.openudidmd5.nonEmpty => Some("OPENDUIDMD5:" + v.openudidmd5.toUpperCase)
      case v if v.openudidsha1.nonEmpty => Some("OPENUDIDSHA1:" + v.openudidsha1.toUpperCase)

      case _ => None
    }

  }

}

8.问题的引出

因为我们是手机端的数据，所以每一条数据中我们有15个位置可以记录ID号，但是不代表每个位置上真的有值。

我们的每个手机上都有一个独一无二的码，用这个码作为ID的。

有的用的是imei码。有的是Android码，有的是mac码，有的是idfa码,有的是openudid码这五种形式，每种形式又有三种形式分别具有未加密码、md5加密码、sha1加密码。

有可能我看的腾讯APP点的广告，腾讯APP对我进行日志有可能不适用加密的。也有可能我点的今日头条APP的广告记录的日志对我使用md5加密，酷狗可能使用上面三种方式记录，依次类推可能有15个位置有ID

这个时候的问题就来了。下图是我们的获取用户id的算法，把第一个不为空的ID号作为用户id号，后面就直接返回了。后面就不运行了。

能解决问题的技术：Spark图计算(SparkGraphX)

图计算的教程参考本作者另一篇博客：https://blog.csdn.net/JENREY/article/details/80513456

你可能感兴趣的:(项目)

Angular 16 Standalone 项目创建指南 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在前端开发领域，Angular一直是一个强有力的框架，尤其是在处理复杂的单页应用时。随着Angular16的发布，引入了Standalone组件的概念，这为开发者提供了一种新的方式来组织和管理组件。今天，我将详细介绍如何从头开始创建一个基于Angular16的Standalone项目，并解决一些常见的问题。环境准备首先，确保你的开发环境已安装Node.js和npm（NodePackageManag
Angular 15 表单控制迁移指南 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在升级Angular项目时，经常会遇到一些需要特别注意的问题。最近，我们在从Angular10迁移到Angular15时，遇到了一个关于表单控制的错误：ERRORError:Cannotfindcontrolwithpath:'mappedHeaders->0->value'。这篇博客将详细解释这个错误的原因，并提供解决方案。问题描述在Angular10中运行良好的代码，在迁移到Angular15
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
Qt03-绘图、设置不规则窗体陈大头啊呀 Qt qt 开发语言
文章目录一、Qt操作图片二、不规则窗口一、Qt操作图片设置背景图新建Widget项目，在.h头文件中定义paintEvent(QPaintEvent*e)需要导入头文件Widget.hprotected://重写绘图时间，虚函数//如果在窗口内绘图，必须放在绘图事件里实现voidpaintEvent(QPaintEvent*event);Widget.cppvoidWidget::paintEve
nvm日常使用中常用命令总结上趣工作室 vue2.x vue3.x vue.js 前端 javascript
日常开发vue项目中，不同的项目我们可能需要安装不同的node版本，但是为了方便切换node，我们一般会安装一个名称为nvm的工具，这里总结一下，nvm常用的命令：1、为了查看可用的Node.js版本，你可以使用以下命令，这个命令会列出所有可以安装的Node.js版本。：nvmlistavailable如果你想查看特定版本，可以使用grep进行过滤，例如：nvmlistavailable|grep
RapidOCRPDF 项目教程侯深业Dorian
RapidOCRPDF项目教程RapidOCRPDFBasedonRapidOCR,extractthePDFcontent.项目地址:https://gitcode.com/gh_mirrors/ra/RapidOCRPDF1.项目介绍RapidOCRPDF是一个基于RapidOCR的开源项目，旨在快速提取PDF文件中的文字内容。该项目支持多种类型的PDF，包括扫描版PDF、加密版PDF以及可直
孪生网络模型，当训练集与测试集共用一个数据集时，训练准确率为100%，而测试准确率仍在50%左右浮动 bug菌¹ 全栈Bug调优(实战版)pytorch 机器学习
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述【问题】孪生网络模型，测试效果异常：当训练集与测试集共用一个数据集（样本、标签完全相同）时，训练准确率为100%，而测试准确率仍在50%左右浮动（正常来说测试的都
Android插件化和组件化面试题及参考答案大模型大数据攻城狮组件化插件化宿主模块通信 classloader android面试安卓面经
目录如何使用Gradle来管理Android项目中的模块依赖？Android中的Gradle插件开发如何辅助组件化开发？如何在Gradle中进行组件化项目的构建？在Android项目中，如何实现不同模块间的解耦？什么是组件化开发？组件化开发的主要优势有哪些？如何将Android应用拆分为多个组件？在Android中如何实现组件化？请描述具体的实现步骤。在组件化架构中，如何实现组件的独立运行与集成？
思特奇实践项目入选2024年“数据要素×”大赛优秀项目案例集资讯分享周科技
2024年“数据要素×”大赛是国内首个聚焦数据要素开发应用的全国性大赛,由国家数据局联合有关部门主办,活动围绕《“数据要素×”三年行动计划(2024—2026年)》部署的工业制造、现代农业、文化旅游等12个行业领域对应设置12个赛道,旨在遴选出一批应用成效显著、创新性强、引领效应好的数据要素开发利用解决方案,带动相关技术产业发展。首届“数据要素×”大赛吸引了来自政产研学用等领域的近2万支队伍、10
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
ThreeJs中使用lil-gui无法改变其所属父元素一只程序熊前端 3d
项目场景：之前一直在研究Threejs，遇到一个很头疼的问题！就是我自己使用了Vite+V3创建了一个项目框架，用来记录自己学习Three的一个过程，但是里面就存在了一个问题，我们在newGUI()后不能改变其父级元素，就像默认父级元素在body上一样问题描述GUI父级元素无法被改变letgui=newGUI()原因分析：正好这段时间有空，本主就疯狂去找了lil-gui的官方文档，还好作者是个好人
Python史上最强工具书——《Python编程从入门到实践》，允许白嫖编程咕咕gu- Python教程 python Python基础开发语言 Python书籍
今天给大家推荐一本超级适合自学的Python的工具书——《Python编程从入门到实践》。非常的适合零基础的小白来学习！备受业内人士推崇，豆瓣评分高达9.1！这本书分为两个部分：第一部分介绍了编程环境的搭建和Python编程所必须了解的基本概念；第二部分介绍了三个具体项目：分别是射击游戏、数据可视化、小型Web应用程序。部分内容截图：上面的学习教程资料已经是给大家整理打包完毕了，需要的可以直接带走
如何应对Maven中的依赖导入挑战？程序员总部 java maven 数据库 sql
在软件开发的世界里，Maven作为一个流行的项目管理工具，为开发者提供了便利，特别是在管理依赖方面。不过，在使用Maven的过程中，依赖导包问题常常困扰着很多开发者。这些问题可能会导致项目构建失败、运行时错误，甚至是难以追踪的bug！那么，如何巧妙地解决这些依赖导入问题呢？理解依赖的作用依赖在Maven中的作用非常关键。它们是项目中所需要的库或框架，比如Spring、JUnit等。每个Maven项
AI大模型测试用例生成平台王根生测试开发测试用例质量保障 AI编程 nlp 测试管理软件测试
AI测试用例生成平台项目背景技术栈业务描述项目展示项目重难点项目背景针对传统接口测试用例设计高度依赖人工经验、重复工作量大、覆盖场景有限等行业痛点，基于大语言模型技术实现接口测试用例智能生成系统。技术栈LangChain框架+GLM-4模型+PromptEngineering+Flask+Python+Bootstrap+jQuery业务描述用户在该平台上传Markdown形式的接口文档，点击生成
软件测试之测试用例详细解读隐居人家的炊烟测试用例软件测试自动化测试
一、通用测试用例八要素1、用例编号；2、测试项目；3、测试标题；4、重要级别；5、预置条件；6、测试输入；7、操作步骤；8、预期输出二、具体分析通用测试用例八要素1、用例编号一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；用例编号具有唯一性和易识别性。（比如说我们唯一标识一个人：中国-上海市
基于Java的家居设备控制系统设计与实现不知江月待何人.. java java 开发语言
目录项目目标设计思路系统架构核心实现运行演示存在问题与优化总结项目目标实现四种家居设备（灯/空调/电视/洗衣机）的智能控制系统，要求：统一管理设备开关状态支持状态反转操作提供简洁的控制接口具备扩展性支持新设备接入设计思路面向对象设计原则抽象原则：通过接口定义通用行为继承机制：建立家电父类统一管理基础属性多态应用：使用父类数组管理子类对象单例模式：控制系统唯一入口类关系图«interface»Swi
使用SetupTools 管理你的项目打包工作魔王阿卡纳兹开源项目观察 Python 学习札记 python setuptools 代码分发
Setuptools是一个用于Python的包管理工具，主要用于构建、打包和分发Python软件包。它是distutils的增强版，提供了更多的功能和灵活性，是Python包管理的核心模块之一。功能与特点依赖管理：Setuptools提供了强大的依赖管理功能，可以自动解析和安装软件包所需的依赖项。自动生成入口点：它能够自动发现并生成命令行脚本的入口点，例如将Python脚本转换为可执行文件。模块发
CSS伸缩盒模型(弹性盒子) 申朝先生 css 前端
伸缩盒模型（Flexbox，FlexibleBoxLayout）是CSS中一种一维布局模型，用于更高效地处理元素的对齐、分布和响应式布局。其核心思想是让容器内的子元素（称为“项目”）能够灵活地自动调整大小和位置以适应不同屏幕尺寸和内容变化。1.核心特性1.1容器与项目容器：使用display:flex或display:inline-flex定义的父元素。项目：容器内的直接子元素，默认沿容器的主轴排
物联网开发-jetlinks 开发协议包时引入dom4j提示 clasnotfound lynn-66 jar 物联网 spring cloud maven
在开发协议jar包时需要解析xml,但是工程引入jetlinks-core包，这个包又引用了dom4j-1.6.1.jar，所以pom就没有配dom4j,编译不报错。本地main和测试方法都正常。但是包在项目中运行时，提示ClassNotFound.检查了工程Libraries，里面有dom4j的包。打印了System.getProperty("java.class.path")发现里面没有dom
springBoot 项目GET请求包含[]报400错误解决方法。 lynn-66 tomcat GETY请求包特殊字符 java https http tomcat spring
网上好多方法试了都不行，最后解决了。tomcat下配置文件server.xml添加relaxedQueryChars="[,]"
鸿蒙初学者学习手册(HarmonyOSNext_API12)_学习资源推荐和介绍余多多_zZ 应用开发鸿蒙 harmonyos 学习华为
鸿蒙初学者学习手册_学习资源推荐和介绍今天简单介绍一下一些鸿蒙的学习途径和学习的资源的地址途径一：鸿蒙的官方文档：官方文档首先说说鸿蒙开发者官网的指南。这个指南就像是你在鸿蒙开发世界里的一本“说明书”或者“导航图”。它详细地告诉了你从入门到精通的每一步，怎么下载开发工具，怎么创建项目，怎么配置环境，怎么运行应用程序，这些都有详细的步骤和截图，让你一看就懂，一学就会。这个指南还特别贴心，考虑到你可能
AI产品经理的前世今生大语言模型人工智能产品经理 langchain python java LLM
最近大热的AI产品经理到底是个什么岗位呢？具体他们需要做些什么具体工作呢？好像听说很高大上，具体工作会不会很复杂呢？我想大家一定都会有或多或少的疑惑。别急，且听小编一点点娓娓道来。最早AI产品经理并没有这个细分岗位，这些工作都是集中于AI算法工程师为一体。从筛选项目，定义问题，拆解方案，具体执行，实际交付可能都由一人完成，所以项目质量和速度也不好保证。随着项目成熟化普遍化，公司意识到需要把岗位进行
HTML5前端页面设计,HTML5网页前端设计设计师马丁 HTML5前端页面设计
HTML5网页前端设计编辑锁定讨论上传视频《HTML5网页前端设计》是2017年6月清华大学出版社出版的图书，作者是周文洁。书名HTML5网页前端设计作者周文洁ISBN9787302463597定价59.50元出版社清华大学出版社出版时间2017年6月HTML5网页前端设计内容简介编辑本书是一本从零开始学习的Web前端开发教材，无须额外的基础。全书以项目驱动为宗旨，详细介绍了HTML5、CSS3与
记录一次通过MQTT协议进行数据采集的线上事故:EOFException _半夏曲 java 网络开发语言物联网
记录一次通过MQTT协议进行数据采集的线上事故首先查看项目报错日志：2023-04-1911:25:50-MQTT服務器連接丟失：org.eclipse.paho.client.mqttv3.MqttException:連線遺失atorg.eclipse.paho.client.mqttv3.internal.CommsReceiver.run(CommsReceiver.java:197)atj
【音视频】ffmpeg中AVpacket解析NALU总结 gma999 音视频 ffmpeg
概述项目中涉及到一些向国标平台推送视频流的逻辑，因之前没有接触过该方面的知识，所以开始走了很多错误的路线，本文主要总结H265视频中解析出NALU方法代码实现输出[tcp@0x55842b7e60]Nodefaultwhitelistset[tcp@0x55842b7e60]Originallistofaddresses:[tcp@0x55842b7e60]Address192.168.1.181
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
webpack5（Module Federation）+vue3.0实现微前端 weixin_42140041 前端奇淫技巧前端 javascript vue.js
项目源码地址：https://github.com/wuxiaohuaer/webpack5-vue-admin一、什么是微前端微前端是一个比较宏观的概念，他的核心就是独立，开发独立、部署独立，比较适合大的团队来进行重量级项目开发。从MicroFrontends官网可以了解到，微前端概念是从微服务概念扩展而来的，摒弃大型单体方式，将前端整体分解为小而简单的块，这些块可以独立开发、测试和部署，同时仍
物联网设备数据流转之搭建环境：开源高性能分布式支持SQL的时序数据库TDengine Heartsuit 时序数据库物联网分布式 TDengine 涛思数据
背景我们的项目涉及物联网相关业务，由于一开始的年少无知，传感器数据采用了MySQL进行存储，经过近两年的数据累积，目前几个核心表，单表数据已过亿，虽然通过索引优化、SQL优化以及读写分离等措施，勉强满足基本的查询，能在秒级给出数据；但是一方面当前MySQL数据表索引的大小甚至超过了数据大小，这样下去肯定不行；另一方面来自于前端感知设备的数据量还在持续增加，当面对用户多维度的统计需求，在实现上、效率
【商城实战(35)】UniApp插件集成：解锁原生功能的神秘面纱奔跑吧邓邓子商城实战 uni-app 商城实战原生功能插件集成
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【商城实战(34)】突破常规！手把手教你在uniapp中进行组件库二次开发奔跑吧邓邓子商城实战 uni-app 商城实战组件库二次开发
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option