王小王-123

【全网详解】从0到1搭建双十一实时交易数据展示平台——Spark+Kafka构建实时分析系统

万事具备之巧借东风

预备知识

环境搭建

Spark安装

Kafka安装

Kafka核心知识介绍

Kafka开启及测试服务

Python依赖库

PyCharm安装

搭建总结

八仙过海之各显神通

数据预处理

运行效果代码

代码展示

神笔马良之画龙点睛

Spark Streaming实时处理数据

配置Spark开发Kafka环境

建立pyspark项目

华佗在世之妙手回春

结果展示之移花接木

app.py（直接运行）

index.html

总结

每文一语

万事具备之巧借东风

预备知识

Linux系统命令使用、了解如何安装Python库、安装kafka。

熟悉Linux基本操作、Pycharm的安装、Spark安装，Kafka安装

环境搭建

Spark安装

至于如何安装好spark，我这里就不详细介绍了，请点击标题，即可跳转到文章详情页，里面有spark的安装资料和教程。

Kafka安装

点击此处下载，下载kafka_2.11-2.4.0.tgz。此安装包内已经附带zookeeper,不需要额外安装zookeeper.按顺序执行如下步骤：

首先将下载好的安装包放在我们虚拟机里面（Ubuntu）

使用命令进行解压

sudo tar -zxf /home/hadoop/kafka/kafka_2.11-2.4.0.tgz -C /home/hadoop/kafka

解压成功之后，需要我们对其进行改名，方便我们后续的操作

cd /home/hadoop/kafka

sudo mv kafka_2.11-2.4.0/  kafka

Kafka核心知识介绍

下面介绍Kafka相关概念,以便运行下面实例的同时，更好地理解Kafka.
1. Broker
Kafka集群包含一个或多个服务器，这种服务器被称为broker
2. Topic
每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）
3. Partition
Partition是物理上的概念，每个Topic包含一个或多个Partition.
4. Producer
负责发布消息到Kafka broker
5. Consumer
消息消费者，向Kafka broker读取消息的客户端。
6. Consumer Group
每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）

Kafka开启及测试服务

接下来在Ubuntu系统环境下测试简单的实例。Mac系统请自己按照安装的位置，切换到相应的指令。按顺序执行如下命令：

进入kafka所在的目录

cd /home/hadoop/kafka/kafka

输入该命令

bin/zookeeper-server-start.sh config/zookeeper.properties

命令执行后不会返回Shell命令输入状态,zookeeper就会按照默认的配置文件启动服务,请千万不要关闭当前终端.启动新的终端，输入如下命令：

cd /home/hadoop/kafka/kafka

bin/kafka-server-start.sh config/server.properties

kafka服务端就启动了,请千万不要关闭当前终端。启动另外一个终端,输入如下命令（测试）:

cd /home/hadoop/kafka/kafka

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic dblab

注意上面的步骤顺序缺一不可：初学者，千万要记住，先启动zookeeper，再启动kafka，这个很重要，不然会出错，切记！！！

topic是发布消息发布的category,以单节点的配置创建了一个叫dblab的topic.可以用list列出所有创建的topics,来查看刚才创建的主题是否存在。

bin/kafka-topics.sh --list --zookeeper localhost:2181

可以在结果中查看到dblab这个topic存在

接下来用producer生产点数据：

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic dblab

并尝试输入如下信息：

然后再次开启新的终端或者直接按CTRL+C退出。然后使用consumer来接收数据,输入如下命令：

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic dblab --from-beginning

便可以看到刚才产生的信息。说明kafka安装成功！！！

Python依赖库

本项目主要使用了两个Python库，Flask和Flask-SocketIO，这两个库的安装非常简单，请启动进入Ubuntu系统，打开一个命令行终端（可以使用快捷键Ctrl+Alt+T）。
Python之所以强大，其中一个原因是其丰富的第三方库。pip则是python第三方库的包管理工具。Python3对应的包管理工具是pip3。因此，需要首先在Ubuntu系统中安装pip3，命令如下

sudo apt-get install python3-pip

安装完pip3以后，可以使用如下Shell命令完成Flask和Flask-SocketIO这两个Python第三方库的安装以及与Kafka相关的Python库的安装：

pip3 install flask

pip3 install flask-socketio

pip3 install kafka-python

这些安装好的库在我们的程序文件的开头可以直接用来引用。比如下面的例子。

from flask import Flask
from flask_socketio import SocketIO
from kafka import KafkaConsumer

from import 跟直接import的区别举个例子来说明。
import socket的话,要用socket.AF_INET,因为AF_INET这个值在socket的名称空间下。
from socket import* 是把socket下的所有名字引入当前名称空间。

但是对于本次项目，我们使用的是pycharm开发工具，所以可以不用这样，我们直接使用anaconda里面的安装命令，这样更加的快捷。

PyCharm安装

pycharm的详解安装步骤，在之前就已经介绍的非常详细了，这里只需要点击标题即可

搭建总结

搭建成功我们就可以把我们的项目引入进来

首先利用pycharm，我们要安装第三方库

 pip --default-timeout=100 install kafka -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

安装其他的第三方库，反正没有的都可以自己安装！

pip install flask_socketio

这里先给出本项目Python工程的目录结构，后续的操作可以根据这个目录进行操作

Python工程目录结构

data目录存放的是用户日志数据；
scripts目录存放的是Kafka生产者和消费者；
static/js目录存放的是前端所需要的js框架；
templates目录存放的是html页面；
app.py为web服务器，接收Spark Streaming处理后的结果，并推送实时数据给浏览器；

至此，本项目需要的开发环境及搭建就介绍完毕！

八仙过海之各显神通

数据预处理

数据集介绍

本项目的数据集压缩包为data数据集，有需要的可以在评论区留言QQ邮箱：[email protected]

该数据集压缩包是淘宝2015年双11前6个月(包含双11)的交易数据(交易数据有偏移，但是不影响实验的结果)，里面包含3个文件，分别是用户行为日志文件user_log.csv 、回头客训练集train.csv 、回头客测试集test.csv. 在这个项目中只是用user_log.csv这个文件，下面列出文件user_log.csv的数据格式定义：

用户行为日志user_log.csv，日志中的字段定义如下：
1. user_id | 买家id
2. item_id | 商品id
3. cat_id | 商品类别id
4. merchant_id | 卖家id
5. brand_id | 品牌id
6. month | 交易时间:月
7. day | 交易事件:日
8. action | 行为,取值范围{0,1,2,3},0表示点击，1表示加入购物车，2表示购买，3表示关注商品
9. age_range | 买家年龄分段：1表示年龄<18,2表示年龄在[18,24]，3表示年龄在[25,29]，4表示年龄在[30,34]，5表示年龄在[35,39]，6表示年龄在[40,49]，7和8表示年龄>=50,0和NULL则表示未知
10. gender | 性别:0表示女性，1表示男性，2和NULL表示未知
11. province| 收获地址省份

数据具体格式如下：

user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province

328862,844400,1271,2882,2661,08,29,0,1,1,山西

这个项目实时统计每秒中男女生购物人数，因此针对每条购物日志，我们只需要获取gender即可，然后发送给Kafka，接下来Spark Streaming再接收gender进行处理。

数据预处理

本项目使用Python对数据进行预处理，并将处理后的数据直接通过Kafka生产者发送给Kafka，这里需要先安装Python操作Kafka的代码库，请在Ubuntu中打开一个命令行终端，执行如下Shell命令来安装Python操作Kafka的代码库（备注：如果之前已经安装过，则这里不需要安装）：

运行效果代码

注意：

在运行项目之前，首先要保证你的项目代码里面的第三方库是否已经全部安装完毕，如果没有，可以参考上面的步骤完成

其次在开启上述KafkaProducer和KafkaConsumer之前，需要先开启Kafka（分开执行，按照顺序，注意在开启kafka之前）

初学者，千万要记住，先启动zookeeper，再启动kafka，这个很重要，不然会出错，切记！！！

cd /home/hadoop/kafka/kafka

bin/zookeeper-server-start.sh config/zookeeper.properties

bin/kafka-server-start.sh config/server.properties

代码展示

producer.py

# coding: utf-8
from kafka import KafkaProducer
import csv
import time

producer = KafkaProducer(bootstrap_servers='localhost:9092')
csvfile = open("../data/user_log.csv","r")
reader = csv.reader(csvfile)

for line in reader:
    gender = line[9]
    if gender == 'gender':
        continue
    print(line[9])
    time.sleep(0.1)
    producer.send('sex',line[9].encode('utf8'))

上述代码很简单，首先是先实例化一个Kafka生产者。然后读取用户日志文件，每次读取一行，接着每隔0.1秒发送给Kafka，这样1秒发送10条购物日志。这里发送给Kafka的topic为’sex’

consumer.py

from kafka import KafkaConsumer

consumer = KafkaConsumer('result')
for msg in consumer:
    print((msg.value).decode('utf8'))

运行首先要运行producer.py，然后去运行consumer.py才可以正常展示和输出

如果报错：

报错原因：3.8版本中，async已经变成了关键字，所以导致不兼容
解决方案：执行 pip install kafka-python，就可以解决

pip install kafka-python

运行上面这条命令以后，这时，你会看到屏幕上会输出一行又一行的数字，类似下面的样子：

如果有上述的输出，恭喜你，Python操作Kafka运行成功。接下来，第三部分将分析Spark Streaming如何处理Kafka的实时数据。

神笔马良之画龙点睛

Spark Streaming实时处理数据

Spark Streaming实时处理Kafka数据；

将处理后的结果发送给Kafka；

本项目在于实时统计每秒中男女生购物人数，而Spark Streaming接收的数据为1,1,0,2…，其中0代表女性，1代表男性，所以对于2或者null值，则不考虑。其实通过分析，可以发现这个就是典型的wordcount问题，而且是基于Spark流计算。女生的数量，即为0的个数，男生的数量，即为1的个数。

因此利用Spark Streaming接口reduceByKeyAndWindow，设置窗口大小为1，滑动步长为1，这样统计出的0和1的个数即为每秒男生女生的人数。

配置Spark开发Kafka环境

首先下载Spark连接Kafka的代码库。然后把下载的代码库放到目录

首先将：spark-streaming-kafka-0-8-assembly_2.11-2.4.4.jar这个文件直接复制粘贴在：/home/hadoop/spark/jars

然后在/home/hadoop/spark/jars目录下新建kafka目录，把/home/hadoop/kafka/kafka/libs下所有函数库复制到/home/hadoop/spark/jars/kafka目录下，命令如下:

cd /home/hadoop/spark/jars

mkdir kafka

cd kafka

cp /home/hadoop/kafka/kafka/libs/*  .

然后,修改 Spark 配置文件,命令如下

cd /home/hadoop/spark/conf

vim spark-env.sh

把 Kafka 相关 jar 包的路径信息增加到 spark-env.sh,修改后的 spark-env.sh 类似如下:

export SPARK_DIST_CLASSPATH=$classpath:/home/hadoop/spark/jars/kafka/*:/home/hadoop/kafka/kafka/libs/*

这就配置好了相关的参数

kafka_test.py

#!/home/hadoop/anaconda3/bin/python
from kafka import KafkaProducer
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark import SparkConf, SparkContext
import json
import sys
 
 
def KafkaWordCount(zkQuorum, group, topics, numThreads):
    spark_conf = SparkConf().setAppName("KafkaWordCount").set('spark.io.compresssion.codec', 'snappy')
    sc = SparkContext(conf=spark_conf)
    sc.setLogLevel("ERROR")
    ssc = StreamingContext(sc, 1)
    ssc.checkpoint(".")
    # 这里表示把检查点文件写入分布式文件系统HDFS，所以要启动Hadoop
    # ssc.checkpoint(".")
    topicAry = topics.split(",")
        # 将topic转换为hashmap形式，而python中字典就是一种hashmap
    topicMap = {}
    for topic in topicAry:
        topicMap[topic] = numThreads
    lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(lambda x : x[1])
    words = lines.flatMap(lambda x : x.split(" "))
    wordcount = words.map(lambda x : (x, 1)).reduceByKeyAndWindow((lambda x,y : x+y), (lambda x,y : x-y), 1, 1, 1)
    wordcount.foreachRDD(lambda x : sendmsg(x))
    ssc.start()
    ssc.awaitTermination()
 
 
# 格式转化，将[["1", 3], ["0", 4], ["2", 3]]变为[{'1': 3}, {'0': 4}, {'2': 3}]，这样就不用修改第四个教程的代码了
def Get_dic(rdd_list):
    res = []
    for elm in rdd_list:
        tmp = {elm[0]: elm[1]}
        res.append(tmp)
    return json.dumps(res)
 
 
def sendmsg(rdd):
    if rdd.count != 0:
        msg = Get_dic(rdd.collect())
        # 实例化一个KafkaProducer示例，用于向Kafka投递消息
        producer = KafkaProducer(bootstrap_servers='localhost:9092')
        producer.send("result", msg.encode('utf8'))
        # 很重要，不然不会更新
        producer.flush()
 
 
if __name__ == '__main__':
    # 输入的四个参数分别代表着
    # 1.zkQuorum为zookeeper地址
    # 2.group为消费者所在的组
    # 3.topics该消费者所消费的topics
    # 4.numThreads开启消费topic线程的个数
    if (len(sys.argv) < 5):
        print("Usage: KafkaWordCount    ")
        exit(1)
    zkQuorum = sys.argv[1]
    group = sys.argv[2]
    topics = sys.argv[3]
    numThreads = int(sys.argv[4])
    print(group, topics)
    KafkaWordCount(zkQuorum, group, topics, numThreads)

上述代码注释已经也很清楚了，下面在简要说明下：
1. 首先按每秒的频率读取Kafka消息；
2. 然后对每秒的数据执行wordcount算法，统计出0的个数，1的个数，2的个数；
3. 最后将上述结果封装成json发送给Kafka。

另外，需要注意，上面代码中有一行如下代码：

ssc.checkpoint(".")

这行代码表示把检查点文件写入分布式文件系统HDFS，所以一定要事先启动Hadoop。如果没有启动Hadoop，则后面运行时会出现“拒绝连接”的错误提示。如果你还没有启动Hadoop，则可以现在在Ubuntu终端中，使用如下Shell命令启动Hadoop：

cd /home/hadoop/hadoop

./sbin/start-dfs.sh

建立pyspark项目

新建一个项目

cd /home/hadoop/spark

mkdir mycode

cp /home/hadoop/PycharmProjects/First/labproject/kafka_test.py /home/hadoop/spark/mycode

把这个加入到我们执行文件里面

/home/hadoop/spark/bin/spark-submit /home/hadoop/spark/mycode/kafka_test.py localhost:2181 1 sex 1

按照我们最初的想法，我们直接使用执行命令就可以执行了

./startup.sh

殊不知，就这样一步一步的走向深渊.......

下面是解决方法

华佗在世之妙手回春

1.首先我们发现执行之后，报错找不到这个文件路径，或者找不到这个文件，不存在这个文件

使用权限加入：chmod 777 startup.sh 或者 chmod +x startup.sh 给我们的执行文件加入可行性权限

2.接下来它依然报错，说无法找到，为什么呢？

注意要给你的Python加上可执行环境，我是使用的anaconda编译环境，anaconda比较的方便，推荐使用

sudo update-alternatives --install /usr/bin/python python /home/hadoop/anaconda3/bin/python 4

3.版本不兼容导致的问题

根据报错的信息我们可以得出，我们的spark里面的有一个文件和我们之前加入的一个文件包有冲突，所以我们的解决方法是在删除这个包（net）

其他报错可以自己参考网络解法，有一个小小的建议，遇到报错之后，很多人都喜欢直接复制报错信息提交给百度君，但是！

不建议这样，因为每一步的过程可能别人和你不一样，或者你们的环境也不同，最正确的解决方法是，你自己阅读报错信息，安装报错来解决，可以参考CSDN里面解决方法。

再次执行

执行OK！到此为止，Spark Streaming程序编写完成，下篇文章将分析如何处理得到的最终结果。

结果展示之移花接木

做好了充分的准备工作，直接可以贴代码运行了！

web展示数据

数据是动态的，不断产生，因此利用Flask-SocketIO实时推送数据 socket.io.js实时获取数据 highlights.js展示数据

目录结构：

kafka-exp
├── app.py
├── static
│   └── js
│       ├── exporting.js
│       ├── highcharts.js
│       ├── jquery-3.1.1.min.js
│       ├── socket.io.js
│       └── socket.io.js.map
└── templates
     └── index.html

app.py（直接运行）

import json
from flask import Flask, render_template
from flask_socketio import SocketIO
from kafka import KafkaConsumer
#因为第一步骤安装好了flask，所以这里可以引用
 
app = Flask(__name__)
app.config['SECRET_KEY'] = 'secret!'
socketio = SocketIO(app)
thread = None
# 实例化一个consumer，接收topic为result的消息
consumer = KafkaConsumer('result')
 
# 一个后台线程，持续接收Kafka消息，并发送给客户端浏览器
def background_thread():
    girl = 0
    boy = 0
    for msg in consumer:
        data_json = msg.value.decode('utf8')
        data_list = json.loads(data_json)
        for data in data_list:
            if '0' in data.keys():
                girl = data['0']
            elif '1' in data.keys():
                boy = data['1']
            else:
                continue
        result = str(girl) + ',' + str(boy)
        print(result)
        socketio.emit('test_message',{'data':result})
        socketio.sleep(1)
 
 
# 客户端发送connect事件时的处理函数
@socketio.on('test_connect')
def connect(message):
    print(message)
    global thread
    if thread is None:
        # 单独开启一个线程给客户端发送数据
        thread = socketio.start_background_task(target=background_thread)
    socketio.emit('connected', {'data': 'Connected'})
 
# 通过访问http://127.0.0.1:5000/访问index.html
@app.route("/")
def handle_mes():
    return render_template("index.html")
 
# main函数
if __name__ == '__main__':
    socketio.run(app,debug=True)

index.html




    
    DashBoard
    
    
    
    
    



    Girl: 
    Boy:

依次运行（保证之前的服务全部开启）

总结

在spark里面使用Python对大数据进行实时展示，是当今互联网技术的革新和必然发展，无论是淘宝、京东、拼多多还是其他各类的电商，他们都会使用这项技术，未来Python和hadoop/spark将会在大数据的时代，创造出更多未知的惊喜和迎接新的挑战！

每文一语

眼下即最好，未来方可期！

你可能感兴趣的:(大数据,hadoop,kafka,淘宝大数据,实时展示交易可视化数据)

Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
gin数据解析和绑定 rit8432499 gin iphone ios
go代码packagemainimport("net/http""github.com/gin-gonic/gin")//定义接收JSON数据的结构体typeLoginstruct{Usernamestring`form:"username"json:"username"uri:"username"xml:"username"binding:"required"`Passwordstring`fo
前后端数据交互，关于表单数据传输问题 Trust yourself243 json
表单提交varformData=newFormData();//添加每个事故ID作为单独的参数accidentIds.forEach(id=>formData.append('accidentIds',id));formData.append('status',statusText);$.messager.confirm('确认','确定要将事故记录标记为'+statusText+'吗？',fun
Python 字典(dict)和集合(set)新手指南
一、字典(dict)基础什么是字典？字典就像现实中的字典一样，通过"键(key)"快速查找对应的"值(value)"。#创建字典student_scores={"小明":90,"小红":85,"小刚":92}#查找成绩print(student_scores["小明"])#输出:90为什么字典查找快？字典使用哈希表实现，查找速度是O(1)级别，不会随着数据量增加而变慢。二、字典常用操作1.添加/修
Keepalived + VIP 高可用架构设计与实践详解：实现 Nginx 入口层的高可用要阿尔卑斯吗. nginx 运维分布式架构 java
一、背景与目标在大型网站或企业系统中，“高可用性（HighAvailability,HA）”是衡量系统稳定性的关键指标之一。任何一个节点故障都不应影响整体服务的可达性。问题背景举例：Tomcat部署了集群（后端高可用）Redis配置了主从+Sentinel（缓存高可用）数据库使用了主备或分库分表（存储高可用）但入口Nginx只有一个……Nginx宕机=全站瘫痪为了解决这个“最顶层的单点问题”，我们
Redis 之数据过期策略 JiaHao汤 Redis redis 数据库缓存
文章目录定时删除惰性删除Redis中有惰性删除与定时删除两种数据删除策略。Redis将这两种策略结合使用，是为了在性能和内存管理之间取得平衡。惰性删除策略减少了CPU开销，而定时删除策略则能及时清理部分过期键，避免大量过期键长时间占用内存。这样既保证了Redis的高性能，又能有效地管理内存资源。TTL指令说明Redis是一种内存级数据库，所有数据均存放在内存中，内存中的数据可以通过TTL指令获取其
脏读、不可重复读、幻读？一文扫盲数据库三大“读“问题
想象一下：你在银行查看账户余额时，数字在你眼前变来变去；或者明明没有记录的操作，却突然冒出新数据。这不是系统故障，而是数据库事务隔离的三大经典问题！今天我们就来揭开这些神秘现象的面纱。一、事务隔离的"三座大山"️在数据库世界中，多个事务同时操作数据时会产生三种典型问题：问题类型出现场景危害程度类比场景脏读读取未提交的数据⚠️⚠️⚠️高危看到别人未提交的草稿不可重复读同一事务内读取结果不一致⚠️⚠️
MySQL MVCC解密：多版本并发控制的魔法世界码农技术栈 MySQL mysql 数据库开发语言 java jvm 后端性能优化
当多个用户同时读写数据库时，MySQL如何避免数据混乱？本文将揭开MVCC的神秘面纱，带你探索这个让数据库高并发运行的魔法引擎！一、为什么需要MVCC？并发控制的困境想象图书馆借阅场景：传统方式：一本书只能一个人看（锁机制）MVCC方式：复印多份，每人看不同版本（多版本控制）传统锁机制的痛点：事务A读数据加锁事务B写数据等待锁释放长时间等待系统卡顿二、MVCC是什么？时间旅行的艺术MVCC核心概念
写评论2元一条靠谱吗？(帮忙写评论赚钱是真的吗）趣闲赚手机做任务赚佣金
经常逛论坛的小伙伴,一定看到过这样的兼职工作讯息:“招聘兼职评论员”,不用任何技术含量,操作简单好上手,支付报酬。这类兼职看起来不像其他工作,真正完成了一样得花时间和金钱。但是这类兼职有些类似于招发帖员、外包、淘宝刷单兼职这种,真正积攒了一笔财富。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着手机做赏金任务，1元提现秒到账，在家躺着也赚钱！点击链接或者扫码下载：http
高性能数据库-Redis详解经典1992 数据库 redis 缓存
Redis（RemoteDictionaryServer）是一款高性能的开源键值对数据库，以“快”和“灵活”为核心优势，广泛应用于缓存、会话存储、实时排行榜、消息队列等场景。下面从基础概念、核心特性、应用场景到进阶用法，带你“深入浅出”了解Redis。一、Redis核心定位：为什么选择Redis？Redis的核心竞争力可以用三个词概括：快、灵活、功能丰富。快：基于内存存储（数据直接存在内存中，而非
Redis 深度解析：从核心原理到生产实践 Pasregret 缓存 redis 数据库缓存
Redis深度解析：从核心原理到生产实践一、Redis核心定位与数据结构1.核心能力矩阵深度解析Redis作为高性能内存数据库，核心能力覆盖缓存、数据存储、消息中间件等场景，其设计哲学围绕速度优先、内存高效、功能丰富展开：内存存储特性纯内存操作：基于内存寻址的O(1)复杂度数据操作，单节点QPS可达10万+持久化方案：RDB（快照）与AOF（日志）双模式，支持数据持久化与故障恢复单线程模型：基于事
学懂C语言（十二）：C语言中的二进制原理及应用猿享天开学懂C语言-C语言从入门到精通 c语言开发语言二进制计算二进制转换二进制原理
目录1.二进制原理1.1什么是二进制？1.2如何在C语言中表示二进制？2.二进制的表示2.1二进制和其他进制的转换2.2C语言中的二进制表示3.二进制运算3.1位运算符3.2计算过程示例4.应用示例4.1使用位运算实现开关5.总结C语言中的二进制原理是计算机科学的基础之一，因为计算机内部使用二进制系统来表示数据和执行运算。以下是关于C语言中二进制的详细讲解，包括其原理、表示、计算过程及应用示例。1
IntelliJ IDEA 使用技巧与插件推荐：提升开发效率的终极指南海豹工匠 ide jetbrain JAVA 编程工具
在现代软件开发中，IntelliJIDEA作为一款功能强大的集成开发环境（IDE），深受开发者的喜爱。它不仅支持多种编程语言和框架，还提供了丰富的功能和插件，帮助开发者提高工作效率和代码质量。本文将深入探讨IntelliJIDEA的使用技巧和插件推荐，助您充分利用这款优秀的开发工具。目录IntelliJIDEA简介高效使用IntelliJIDEA的技巧快捷键大全代码导航与搜索高级重构实时错误检查与
Crossing River（信息学奥赛一本通-T1232）（上海）编程李老师信息学奥赛一本通：题解目录算法 c++动态规划矩阵
【题目描述】几个人过河，每次过两人一人回，速度由慢者决定，问过河所需最短时间。【输入】输入t组数据，每组数据第1行输入n，第2行输入n个数，表示每个人过河的时间。【输出】输出t行数据，每行1个数，表示每组过河最少时间。【输入样例】1412510【输出样例】17【源程序】#include#include#include#include#include#defineINF999999999#defin
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
淘宝优惠券去哪里领?淘宝内部优惠券怎么找凌风导师
在商品的图片下方有个【领券】，点击这个领券就可以领取面值较小的优惠券高省-各大应用商城下载即可-购物领劵返利高，邀请码切记填998888，凌风高省邀请码998888，全网唯一教你技术的老师码填对码直送2皇冠总裁等级，《凌风导师V:125130414》送价值百万引流技术推广绝密大礼包，也可以后台联系老师进高省官方群。用户们可以利用这些软件享受折扣买东西优惠，一起来看看购物省钱app网上买东西省钱的软
Java的CopyOnWriteArrayList xbmchina
简介ArrayList并不是线程安全的，在读线程在读取ArrayList的时候如果有写线程在写数据的时候，基于fast-fail机制，会抛出ConcurrentModificationException异常，也就是说ArrayList并不是一个线程安全的容器。那么并发的情况下，这就有了CopyOnWriteArrayList这个东西。下面主要以下几个方面学习CopyOnWriteArrayList
数据结构——树越来越无动于衷数据结构
1定义：树是由n（n≥0）个节点组成的有限集合。当n=0时，称为空树；在任意一棵非空树中，有且仅有一个特定的称为根（Root）的节点，当n>1时，其余节点可分为m（m>0）个互不相交的有限集T1、T2、……、Tm，其中每个集合本身又是一棵树，并且称为根的子树。2基本术语节点的度：一个节点拥有的子树个数。树的度：树中节点的最大度数。叶子节点：度为0的节点，也称为终端节点。非叶子节点：度不为0的节点，
蜜源app赚钱吗，怎么使用蜜源领券赚取佣金？小小编007
使用蜜源，不仅可以自购领券省钱，也可以分享好友购物赚钱。在蜜源，你既可以当做一个消费者自用，也可以作为一个创业者分享赚钱。随着越来越多的人使用蜜源，蜜源的曝光率与日俱增，每个人的朋友圈微信群，随处都可以看到蜜源的信息，但很多人依然怎么使用蜜源赚取佣金，下面小编就来详细解说一下。一，蜜源是什么？蜜源是一个可以领取各大网购平台优惠券的返利APP。1、蜜源是一款综合性导购返佣APP，依托于淘宝天猫、京东
流量深度链诺惜
自然流量：关键字搜索可比价款，趋势热销款，普通商品公司搜索，图片搜索，就是客户通过主页的推荐和搜索进入的就叫自然搜索流量，搜索流量：千人千面每个人搜索结果显示的商品不一样，结果是根据他本人定制的展示页面搜索流量：流量加权分为4个等级等级1新搜索上线之日起，商品在过去30天没有交易等级2新搜索上线之日起，商品在过去30天交易大于0，通过搜索指数，商品3级类目下排名在60%以外等级3，新搜索在线上之日
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
国内第一梯队终端安全产品解析：技术与场景实践粤海科技君安全腾讯iOA 零信任终端安全
国内终端安全市场的第一梯队产品，通常具备技术领先性、场景覆盖度和规模化落地能力。结合2025年最新行业动态与实战案例，以下从技术架构、核心能力和典型应用三个维度，解析当前市场的头部产品及其差异化价值。一、技术架构与市场格局国内终端安全市场呈现"平台化、智能化、场景化"三大趋势。根据赛迪顾问2023年数据，奇安信以18.7%的终端安全市场份额位居首位，其天擎系统通过"终端检测与响应（EDR）+主动防
TimSort：论Java Arrays.sort的稳定性 lifallen Java 算法排序算法算法数据结构 java 开发语言后端
TimSort是一种混合的、稳定的排序算法，结合了归并排序（MergeSort）和二分插入排序（BinaryInsertionSort）的优点，尤其适用于部分有序的数据。在Java中，Arrays.sort()对对象数组排序时内部使用了TimSort算法。对于集合的排序实际上也是使用Arrays.sort如List.javadefaultvoidsort(Comparatorc){Object[]
2022手机性价比排行榜最新手机，2022年哪一款手机值得买? 优惠券高省
大家都知道买手机最主要的是性价比高，用最少的价钱买到最好的性能配置，是大多数人的第一需求。今年什么手机性价比最高？最值得购买呢？我们一起盘点一下最具性价比的手机品牌，仅供大家参考！买手机推荐用高省【高省邀请码989898】在高省领取优惠券跳转淘宝等平台下单更优惠，下单成功还有返利折上折！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
探索数据的桥梁：Apache Olingo——您的OData之旅的最佳伙伴
探索数据的桥梁：ApacheOlingo——您的OData之旅的最佳伙伴olingo-odata4MirrorofApacheOlingo项目地址:https://gitcode.com/gh_mirrors/ol/olingo-odata4项目介绍ApacheOlingo，一个为数据而生的Java库，它围绕着强大的OData规范构建，旨在简化数据访问与共享的过程。作为一个由Apache软件基金会
基于计算实在论的智能体构建案例分析
引言：计算实在论不仅是一个哲学框架，更是一套可操作的工程设计原则。它要求我们将智能体的构建，从“模拟人类智能的表象”转向“复现智能涌现的底层计算条件”。本文将详细阐述，如何将这一深刻转变，具体落实到下一代智能体的架构、学习机制、伦理设计和终极目标之中，并通过丰富的案例分析，展示其颠覆性的实践价值。一：架构的根本转变——从“数据处理器”到“关系建模器”理论指导：宇宙的基础是“关系”，而非孤立的“数据
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p