bcdk1188

基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

项目简介
- 一、业务需求分析
- 二、系统流程及架构
- 三、系统技术版本以及相关部署配置
- 四、系统具体实施
- 五、系统运行

项目简介

由于做毕设之前学过大数据，但是一直没有做过一整套的实时数据分析系统，有点遗憾。所以毕业设计就自主选了这一套系统，算是对之前知识进行一次整合运行，也挑战一下自己。
该系统主要对用户行为日志（此项目使用的数据源是数据集，可以根据自己需求，在数据采集时监控网站用户数据存放目录或者用爬虫实时爬取数据的存放目录）进行实时分析可视化。

先放最终系统成果，才有耐心看下面的内容！！！

一、业务需求分析

采集用户行为日志数据；
实时分析数据（例如实时总订单、男女购物比例、用户各类行为分析、每段时间内最受欢迎的商品品牌、各年龄段购物比例等）；
实时数据结果存储（将需要的结果数据存储到目标数据库）；
数据可视化（将实时分析出的结果数据进行数据可视化）；

二、系统流程及架构

登录系统后，通过日志采集模块来采集目标日志数据，将采集到的数据发送给日志传输模块，数据存放于kafka对应的topic中；数据处理模块创建与kafka的连接，消费对应topic中的数据，对数据进行预处理之后再进行处理分析，处理所得的结果数据存放进对应各topic中，以便于数据可视化，同时也将结果数据存入Redis数据库，便于后期其他功能分析使用。最后通过可视化模块，后台使用Flask作为Web框架，前端使用H5+Echarts，将结果数据进行可视化。系统流程图如图所示：

系统相关技术和组件：
Hadoop、Spark、Flume、Kafka、Zookeeper、Flask、SocketIO、Echarts、Scala、Python。项目架构如图所示：

三、系统技术版本以及相关部署配置

此项目由于计算机硬件配置较低，所以采用Hadoop伪分布式集群（部署在虚拟机的linux系统上用于存放源数据和程序检查点）和单机Spark集群（部署在本地windows上）
1.Hadoop2.9.2
伪分布式搭建参考（此项目） https://blog.csdn.net/xujingran/article/details/83898140
全分布式搭建参考 https://blog.csdn.net/u011254180/article/details/77922331
2.Flume1.9.0
搭建参考 https://blog.csdn.net/caodaoxi/article/details/8885645
Flume作为kafka的sink的配置文件：

3.Kafka2.4.0
伪分布式搭建参考（此） https://blog.csdn.net/weixin_42207486/article/details/80635246
全分布式搭建参考 https://blog.csdn.net/qq_39211575/article/details/103677016
5.Spark2.4.4
Windows单机搭建参考（此） https://blog.csdn.net/Python_Big_love/article/details/81878142
6.Zookeeper3.5.6
伪分布式搭建参考（此项目）https://blog.csdn.net/MISSRIVEN/article/details/81394595
全分布式搭建参考 https://blog.csdn.net/sjhuangx/article/details/81155501
7.flask（系统Web框架）
安装参考 https://blog.csdn.net/cckavin/article/details/90766924

注意！！！
在本地（windows）Spark集群中编写SparkStreaming程序的时候，引入maven配置信息中（此项目依赖如下），scala、kafka、Spark-Streaming-kafka的版本都需要一致，高版本低版本都不行。
本系统使用scala版本为2.11、spark版本为2.4.4（此版本也有scala2.12编写版）、kafka版本为2.4.0（spark-streaming-kafka0.8最高支持kafka2.3.0以下版本，所以此项目使用0.10版本）

此外spark-streaming-kafka0.8和0.10在连接kafka时有差别，网上搜的两种连接分别为Receiver DStream和Direct DStream，但是0.10版本取消了Receiver DStream，所以只能用后面一种，而且创建实时数据流代码网上示例很多都过时了，需要用以下官网最新连接代码。（读取kafka数据会报序列化错误，需要注册序列化方式，以下代码中已加入Kryo序列化方式）

//构建conf ssc 对象
val conf = new SparkConf().
  setAppName("Kafka_director").
  setMaster("local[2]").
  set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(
  classOf[Array[org.apache.kafka.clients.consumer.ConsumerRecord[String,String]]]
))
val sc:SparkContext=new SparkContext(conf)

val ssc = new StreamingContext(sc,Seconds(3))
//设置数据检查点
ssc.checkpoint("hdfs://192.168.222.132:9000/checkpoint")
//kafka 需要Zookeeper  需要消费者组
val topics = Set("demo")

val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "192.168.222.132:9092",
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  "group.id" -> "g1",
  "auto.offset.reset" -> "latest",
  "enable.auto.commit" -> (false: java.lang.Boolean)
)

val data = KafkaUtils.createDirectStream(
  ssc,
  PreferConsistent,
  Subscribe[String, String](topics, kafkaParams))

四、系统具体实施

集群部署和启动
此处为Hadoop、Zookeeper、Flume以及Kafka整体启动。
启动Hadoop

启动Zookeeper

加载flume的sink配置文件

启动flume的采集端（采集本地文件）
用户登录：在flask框架中自己添加即可
数据处理和结果数据存储
kafka中各个topic以及对应用处

topic	用处
demo	接受源数据
ordernumall	总订单数
ordernumgender	男女购物人数
behavior	pv+buy+cart+fav
visitnum	总访问量
ordernumage	各年龄段购物人数
ordernumbrandtop	各品牌销量
ordernumcattop	各商品类别销量
ordernumregion	各地区订单量

创建kafka连接，用于消费目标topic中的数据，创建kafka生产者发送结果数据到对应的topic。设立检查点。

    //构建conf ssc 对象
    val conf = new SparkConf().
      setAppName("Kafka_director").
      setMaster("local[2]").
      set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    conf.registerKryoClasses(Array(
      classOf[Array[org.apache.kafka.clients.consumer.ConsumerRecord[String,String]]]
    ))
    val sc:SparkContext=new SparkContext(conf)

    val ssc = new StreamingContext(sc,Seconds(3))
    //设置数据检查点
    ssc.checkpoint("hdfs://192.168.222.132:9000/checkpoint")
    //kafka 需要Zookeeper  需要消费者组
    val topics = Set("demo")

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "192.168.222.132:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "g1",
      "auto.offset.reset" -> "latest",
      "enable.auto.commit" -> (false: java.lang.Boolean)
    )

    val data = KafkaUtils.createDirectStream(
      ssc,
      PreferConsistent,
      Subscribe[String, String](topics, kafkaParams))

    //kafka生产者(将处理好的数据结果传回给kafka)
    val kafkaProducer: Broadcast[KafkaSink[String, String]] = {
      val kafkaProducerConfig = {
        val p = new Properties()
        p.setProperty("bootstrap.servers", "192.168.222.132:9092")
        p.setProperty("key.serializer", classOf[StringSerializer].getName)
        p.setProperty("value.serializer", classOf[StringSerializer].getName)
        p
      }
      sc.broadcast(KafkaSink[String, String](kafkaProducerConfig))
    }

Redis工具类创建

package BeAnalysis.controller

import org.apache.commons.pool2.impl.GenericObjectPoolConfig
import redis.clients.jedis.JedisPool

object RedisClient extends Serializable {
  val redisHost = "127.0.0.1"
  val redisPort = 6379
  val redisTimeout = 30000
  lazy val pool = new JedisPool(
    new GenericObjectPoolConfig(),
    redisHost,
    redisPort,
    redisTimeout)

  lazy val hook = new Thread {
    override def run = {
      println("Execute hook thread: " + this)
      pool.destroy()
    }
  }
  sys.addShutdownHook(hook.run)
}

数据预处理，编写用户信息类（此处用户类类型设置有点粗糙，可以自行改正）和累加函数。

//统计结果
    val result = data.map(_.value()).map(
      line=>{
        val record=line.split(",")
        if(record(8).equals("0")||record(8)==null)record(8)="9"
        if(record(9).equals("2")||record(9)==null)record(9)="3"
        UserBehavior(
          record(0),//买家id
          record(1),//商品id
          record(2),//商品类别id
          record(3),//卖家id
          record(4),//品牌id
          record(5),//月份
          record(6),//日数
          record(7),//行为
          record(8),//年龄段
          record(9),//性别
          record(10)//省份
        )
      })

用户信息类

class UserBehavior(
                         user_id: String,//买家id
                         item_id: String,//商品id
                         cat_id: String,//商品类别id
                         merchant_id: String,//卖家id
                         brand_id: String,//品牌id
                         month: String,//月份
                         day: String,//天数
                         act: String,//行为,,取值范围{0,1,2,3},0表示点击，1表示加入购物车，2表示购买，3表示关注商品
                         age_range: String,//买家年龄分段：1表示年龄<18,2表示年龄在[18,24]，3表示年龄在[25,29]，4表示年龄在[30,34]，5表示年龄在[35,39]，6表示年龄在[40,49]，7和8表示年龄>=50,0和NULL则表示未知
                         gender: String,//性别:0表示女性，1表示男性，2和NULL表示未知
                         province: String //收货地址省份
                       )

累加函数

val updateFunc =(curVal:Seq[Int],preVal:Option[Int])=>{
      //进行数据统计当前值加上之前的值
      var total = curVal.sum
      //最初的值应该是0
      var previous = preVal.getOrElse(0)
      //Some 代表最终的但会值
      Some(total+previous)
    }

过滤出用户行为为购买的数据，保存中间结果，对订单数进行累计统计，将结果数据实时放入对应的topic中。

    //2.总订单数

    //redis数据库号
    val orderAllindex=2;
    //设置redis的key
    val orderKey = "orderKey"


    val order_all=result.
      filter(_.act.equals("2")).
      map(be=>("ordernum_all",1)).
      updateStateByKey(updateFunc).
      transform(rdd=>{
        rdd.foreach(record => {
          val jedis = RedisClient.pool.getResource
          jedis.select(orderAllindex);
          jedis.hincrBy(orderKey,record._1.toString,record._2);
          RedisClient.pool.returnResource(jedis);
          kafkaProducer.value.
            send("ordernumall",s"${record._1}:${record._2}")
        })
        rdd
      }).print()

过滤出用户行为为购买的数据，使用滑动窗口和topN，对各品牌销售量进行窗口统计，将结果数据实时放入对应的topic中。

    val regionCount_brand_top=result.
      filter(_.brand_id.length>=1).
      filter(_.act.equals(("2"))).
      map(be=>(be.brand_id,1)).
      reduceByKeyAndWindow(
        (v1:Int,v2:Int)=>v1+v2,
        Seconds(30),//30秒滑动窗口
        Seconds(15))//15秒刷新一次

    val BrandtopNSort = regionCount_brand_top.transform(searchWordCountsRDD => {
      val countSearchBrandRDD = searchWordCountsRDD.map(tuple => (tuple._2, tuple._1))
      val sortedCountSearchBrandRDD = countSearchBrandRDD.sortByKey(false)
      val sortedSearchBrandCountsRDD = sortedCountSearchBrandRDD.map(tuple => (tuple._1, tuple._2))

      val top10SearchBrand = sortedSearchBrandCountsRDD.take(5)
      for(tuple <- top10SearchBrand) {
        kafkaProducer.value.send("ordernumbrandtop",s"${tuple._2}:${tuple._1}")
        //println("top"+tuple)
      }
      searchWordCountsRDD
    })

    BrandtopNSort.print()

其他功能都相似，就不一一列出。
数据处理部分流程图如图所示：

4. 数据可视化（Flask框架）
页面各数据展示显示类型

功能	显示类型
总订单数统计	页面标签
男女购物比例统计	饼图
各年龄段购物比例统计	饼图
热销品牌统计	柱状图
热销商品类别统计	柱状图
用户各行为分析	柱状图
系统时间	页面标签
总订单数	页面标签

获取kakfa对应的topic节点进行数据消费。

# 获取kafka中的ordernumall节点 （总订单数）
consumer1 = KafkaConsumer('ordernumall', bootstrap_servers=['192.168.222.132:9092'])

# 获取kafka中的ordernumgender节点 （购物男女数）
consumer2 = KafkaConsumer('ordernumgender', bootstrap_servers=['192.168.222.132:9092'])

编写flask视图函数中调用的回调函数（商品类别排行）

def background_thread6():
    all_ = ""
    flag = 0
    for msg in consumer6:
        data_json = msg.value.decode('utf8')
        all_ = all_+","+data_json
        flag = flag + 1
        if flag % 5 == 0:
            socketio.emit('ordernum_cattop_web', {'data': all_.lstrip(",")})
            all_ = ""
            flag = 0

商品类别排行的视图函数

# 商品类别topN视图函数，被js调用
@socketio.on('ordernum_cattop_back')
def connect(message):
    print(message)
    socketio.start_background_task(target=background_thread6)
    socketio.emit('connected6', {'data': 'ordernum_cattop_back'})

创建SocketIO对象，并初始化

    //创建socket对象
    let socket = io.connect('http://' + document.domain + ':' + location.port);

    //调用后台初始化连接
    socket.on('connect', function () {
        //总订单数（总购买量）
        socket.emit('ordernum_all_back', {data: '总订单数连接正常!'});
        //购物性别比例
        socket.emit('ordernum_gender_back', {data: '总订单数(性别)连接正常!'});
        //总访问量
        socket.emit('visitnum_back',{data:'总访问量连接正常'});

JS代码中处理flask中回调函数发送过来的数据（商品类别排行），同时进行Echarts绘图

    //6.topN商品类别
    var data_cattop = [
        {name: "衣服", value : 0},
        {name: "电脑", value : 0},
        {name: "手机", value : 0},
        {name: "日用品", value : 0},
        {name: "家纺", value : 0}
        ];
    socket.on('ordernum_cattop_web',function (message) {
        var dataall=message.data.split(",");
        var data;
        var Flagdata=data_cattop;
        for(var i=0;i

 
   
   1 
   2 
   3 
   4 
   5 
   6 
   7 
   8 
   9 
   10 
   11 
   12 
   13 
   14 
   15 
   16 
   17 
   18 
   19 
   20 
   21 
   22 
   23 
   24 
   25 
   26 
   27 
   28 
   29 
   30 
   31 
   32 
   33 
   34 
   35 
   36 
   37 
   38 
   39 
   40 
   41 
   42 
   43 
   44 
   45 
   46 
   47 
   48 
   49 
   50 
   51 
   52 
   53 
   54 
   55 
   
  五、系统运行 
   
   启动hadoop start-all.sh 
   启动Zookeeper zkServer.sh start 
   启动kafka kafka-server-start.sh /opt/links/kafka/conf/servers.properties 
   配置kafka作为flume的sink flume-ng agent -f /home/misev/bigdata/flume/agents/b.flm -n a1 -c
 /opt/links/flume/conf/ 
   配置启动flume采集数据 flume-ng avro-client -H 192.168.222.132 -p 4141 -F /etc/passwd 
   启动本地Spark程序（windows环境下，由于硬件不支持在虚拟机中启动） 
   启动flask程序 运行效果开始已给出。

使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
可视化埋点在React Native中的实践 Shopee技术团队前端 react native 前端 react.js
本文首发于微信公众号“Shopee技术团队”。1.背景笔者所在团队为Shopee的本地生活前端团队，用户可以在我们的平台购买优惠券，然后去线下门店使用。随着用户规模不断增加，研究用户行为数据可以更好地指导产品功能设计，提供更加优秀的用户体验。用户行为数据的研究首先涉及到如何采集，即我们常说的“埋点”。一直以来，我们项目中的埋点都采用代码埋点，每次新增埋点往往是一些重复性的工作，且需要重新发布代码才
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Vue 中的日期格式化实践：从原生 Date 到可视化展示！！！小丁学Java 产品资质管理系统 vue.js 前端 javascript ts
Vue中的日期格式化实践：从原生Date到可视化展示在数据可视化场景中，日期时间的格式化显示是一个高频需求。本文将以一个邀请码关系树组件为例，深入解析Vue中日期格式化的核心方法、性能优化和最佳实践，并配合Mermaid流程图直观展示处理流程！一、️核心方法：原生Date对象处理代码实现privateformatDate(dateString:string|null):string{if(!dat
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
OpenLayers集成天地图服务开发指南喆星时瑜 WebGIS #天地图 OpenLayers GIS 天地图 WebGIS HTML 地图地图API
以下是一份面向GIS初学者的OpenLayers开发详细教程，深度解析代码：一、开发环境搭建1.1OpenLayers库引入ol.css：包含地图控件、图层等可视化样式ol.js：OpenLayers核心功能库推荐使用固定版本号（如v7.3.0）确保稳定性1.2地图容器设置.map{//设置地图控件显示尺寸height:95vh;width:95vw;}使用视口单位(vh/vw)实现响应式布局保留
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种
GIS三维可视化进阶：Three.js集成Cesium引擎实现全球地形LOD与OGC标准服务调用贝格前端工场 javascript 开发语言 ecmascript
Three.js与Cesium引擎基础介绍Three.js是一款基于JavaScript的开源三维图形库，它提供了丰富的API用于创建和操作三维场景、物体、材质等。在Web端的三维可视化领域应用广泛，因其能够在浏览器中高效渲染复杂的三维模型和场景，大大降低了开发人员创建三维交互内容的门槛。通过简单的代码，即可实现如创建三维几何体（立方体、球体等）、为物体添加材质（如纹理材质、光照材质）以及设置相机
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Pandas】pandas Series plot.box liuweidong0802 Pandas Series pandas 信息可视化数据分析
Pandas2.2SeriesPlotting方法描述Series.plot([kind,ax,figsize,…])用于绘制Series对象的数据可视化图表Series.plot.area([x,y,stacked])用于绘制堆叠面积图（StackedAreaPlot）Series.plot.bar([x,y])用于绘制垂直条形图（VerticalBarPlot）Series.plot.barh
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
大佬都在用的桑基图到底怎么做？告诉你个最简单的方法永洪科技 python
桑基图，即桑基能量分流图，也叫桑基能量平衡图。因1898年MatthewHenryPhineasRiallSankey绘制的“蒸汽机的能源效率图”而闻名，此后便以其名字命名为“桑基图”。桑基图常被用于能源损耗情况、材料成分分析、金融数据可视化；追踪用户状态；追踪跑票、变动、迁移；追踪人口流动情况等等业务场景，表现分配、归类、变化、流动情况。桑基图好在哪？它是一种特定类型的流图，图中延伸的分支的宽度
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
C# 如何给kafka消息配置优先级按序消费躺着发呆 C#大数据 kafka c#分布式开发语言
顾名思义kafka消息主题是没有优先级的配置，没办法配置消费顺序的，所有我们需要想办法给kafka消息配置消费顺序，如何做呢？下面我给大家举个简单优先级事例，比如高中低三个顺序消费消息首先要定义三个消息主题，分别是高、中、低是哪个主题，英文分别是high、medium、low这个时候他们还是没有先后消费的本领，下面需要我们赋予他们这个顺序级别思路如下消费顺序，高》中》低，高和中都是可以插队来进行消
java队列实现限流_如何使用队列实现微服务限流算法？纽太普 java队列实现限流
队列在平时开发中可能是出现频率最高的数据结构之一了，但是大部分情况下，我们都是用别人已经实现好的，比如kafka，比如redis里的list，以至于让人怀疑为什么还要去学习队列呢？希望今天的内容可以给你一些启发。什么是队列为了整个文章的完整性，我们还是来介绍一下什么是队列。我们举个生活中常见的案例，假设你在周杰伦的奶茶店买奶茶，由于人很多，为了保持公平和秩序，你被要求排队，最先来的人排到最前面，这
Java面试宝典，kafka优先级队列 m0_57081324 程序员 java 经验分享面试
为什么要分库分表？首先回答一下为什么要分库分表，答案很简单：数据库出现性能瓶颈。用大白话来说就是数据库快扛不住了。数据库出现性能瓶颈，对外表现有几个方面：大量请求阻塞在高并发场景下，大量请求都需要操作数据库，导致连接数不够了，请求处于阻塞状态。SQL操作变慢如果数据库中存在一张上亿数据量的表，一条SQL没有命中索引会全表扫描，这个查询耗时会非常久。存储出现问题业务量剧增，单库数据量越来越大，给存储
SourceTree安装与使用缘来的精彩 sourceTree git
一、简介：一个用于Windows和Mac的免费Git客户端。Sourcetree简化了如何与Git存储库进行交互，这样您就可以集中精力编写代码。通过Sourcetree的简单GitGUI可视化和管理存储库。官网下载地址：Sourcetree|FreeGitGUIforMacandWindowsSourceTree下载-SourceTree最新版下载V3.4.22-阔思亮本文介绍的版本为source
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）