小手の冰凉

【Spark编程基础】实验5 Spark Structured Streaming编程实践

实验5 Spark Structured Streaming编程实践

实验内容和要求

0.结构化流练习任务

0.1 讲义文件源-json数据任务。按照讲义中json数据的生成及分析，复现实验，并适当分析。

（1）创建程序生成JSON格式的File源测试数据
- （讲义1000个，本实验只生成200个）

import os
import shutil
import random
import time
TEST_DATA_TEMP_DIR = '/tmp/'
TEST_DATA_DIR = '/tmp/testdata/'
 
ACTION_DEF = ['login', 'logout', 'purchase']
DISTRICT_DEF = ['fujian', 'beijing', 'shanghai', 'guangzhou']
JSON_LINE_PATTERN = '{{"eventTime": {}, "action": "{}", "district": "{}"}}\n‘

# 测试的环境搭建，判断文件夹是否存在，如果存在则删除旧数据，并建立文件夹
def test_setUp():
    if os.path.exists(TEST_DATA_DIR):
        shutil.rmtree(TEST_DATA_DIR, ignore_errors=True)
    os.mkdir(TEST_DATA_DIR) 
# 测试环境的恢复，对文件夹进行清理
def test_tearDown():
    if os.path.exists(TEST_DATA_DIR):
        shutil.rmtree(TEST_DATA_DIR, ignore_errors=True)
 
 
# 生成测试文件
def write_and_move(filename, data):
    with open(TEST_DATA_TEMP_DIR + filename,
              "wt", encoding="utf-8") as f:
        f.write(data)
 
    shutil.move(TEST_DATA_TEMP_DIR + filename,
                TEST_DATA_DIR + filename)
 

if __name__ == "__main__":
    test_setUp()
 	# 这里生成200个文件
    for i in range(200):
        filename = 'e-mall-{}.json'.format(i)
 
        content = ''
        rndcount = list(range(100))
        random.shuffle(rndcount)
        for _ in rndcount:
            content += JSON_LINE_PATTERN.format(
                str(int(time.time())),
                random.choice(ACTION_DEF),
                random	.choice(DISTRICT_DEF))
        write_and_move(filename, content)
 
        time.sleep(1)

（2）创建程序对数据进行统计

# 导入需要用到的模块
import os
import shutil
from pprint import pprint
 
from pyspark.sql import SparkSession
from pyspark.sql.functions import window, asc
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import TimestampType, StringType
# 定义JSON文件的路径常量（此为本地路径）
TEST_DATA_DIR_SPARK = '/tmp/testdata/'
if __name__ == "__main__":
    # 定义模式，为时间戳类型的eventTime、字符串类型的操作和省份组成
    schema = StructType([
        StructField("eventTime", TimestampType(), True),
        StructField("action", StringType(), True),
        StructField("district", StringType(), True)])
 
    spark = SparkSession \
        .builder \
        .appName("StructuredEMallPurchaseCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')
    lines = spark \
        .readStream \
        .format("json") \
        .schema(schema) \
        .option("maxFilesPerTrigger", 100) \
        .load(TEST_DATA_DIR_SPARK)
 
    # 定义窗口
    windowDuration = '1 minutes'
 
    windowedCounts = lines \
        .filter("action = 'purchase'") \
        .groupBy('district', window('eventTime', windowDuration)) \
        .count() \
        .sort(asc('window')) 
	query = windowedCounts \
        .writeStream \
        .outputMode("complete") \
        .format("console") \
        .option('truncate', 'false') \
        .trigger(processingTime="10 seconds") \
        .start()
 
    query.awaitTermination()

（3）测试运行程序

0.2 讲义kafka源，2字母单词分析任务按照讲义要求，复现kafka源实验。

1. 安装kafka
- 下载安装zookeeper（新版kafka自带）
  - 下载地址：https://archive.apache.org/dist/zookeeper/
  - 安装路径：/usr/lcoal/zookeeper
- 下载安装kafka
  - 下载地址：https://kafka.apache.org/downloads
  - 解压安装路径：/usr/local/kafka
  - （idea运行大概率会报错，解决方法：）在idea终端执行命令：pip install python-kafka
1. 启动Kafka
- 在Linux系统中新建一个终端（记作“Zookeeper终端”），输入下面命令启动Zookeeper服务：
  - cd /usr/local/kafka
  - ./bin/zookeeper-server-start.sh config/zookeeper.properties
- 新建第二个终端（记作“Kafka终端”），然后输入下面命令启动Kafka服务：
  - cd /usr/local/kafka
  - ./bin/kafka-server-start.sh config/server.properties
- 新建第三个终端（记作“监控输入终端”），执行如下命令监控Kafka收到的文本：
  - cd /usr/local/kafka
  - ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic wordcount-topic
- 新建第四个终端（记作“监控输出终端”），执行如下命令监控输出的结果文本：
  - cd /usr/local/kafka
  - ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic wordcount-result-topic
1. 编写生产者（Producer）程序

# spark_ss_kafka_producer.py

import string
import random
import time
 
from kafka import KafkaProducer
 
if __name__ == "__main__":
    producer = KafkaProducer(bootstrap_servers=['localhost:9092'])
 
    while True:
        s2 = (random.choice(string.ascii_lowercase) for _ in range(2))
        word = ''.join(s2)
        value = bytearray(word, 'utf-8')
 
        producer.send('wordcount-topic', value=value) \
            .get(timeout=10)
 
        time.sleep(0.1)

1. 编写消费者（Consumer）程序

# spark_ss_kafka_consumer.py

from pyspark.sql import SparkSession
 
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("StructuredKafkaWordCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN') 
 
    lines = spark \
        .readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", 'wordcount-topic') \
        .load() \
        .selectExpr("CAST(value AS STRING)")
 
    wordCounts = lines.groupBy("value").count()
  
    query = wordCounts \
        .selectExpr("CAST(value AS STRING) as key", "CONCAT(CAST(value AS STRING), ':', CAST(count AS STRING)) as value") \
        .writeStream \
        .outputMode("complete") \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("topic", "wordcount-result-topic") \
        .option("checkpointLocation", "file:///tmp/kafka-sink-cp") \
        .trigger(processingTime="8 seconds") \
        .start()
 
    query.awaitTermination()

在终端中执行运行消费者程序：

0.3 讲义socket源，结构化流实现词频统计。按照讲义要求，复现socket源实验。

编写文件：StructuredNetworkWordCount.py：

# StructuredNetworkWordCount.py

# 步骤1：导入pyspark模块
from pyspark.sql import SparkSession
from pyspark.sql.functions import split
from pyspark.sql.functions import explode

# 步骤2：创建SparkSession对象
# 创建一个SparkSession对象，代码如下：
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("StructuredNetworkWordCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')

# 步骤3：创建输入数据源
# 创建一个输入数据源，从“监听在本机（localhost）的9999端口上的服务”那里接收文本数据，具体语句如下：
    lines = spark \
        .readStream \
        .format("socket") \
        .option("host", "localhost") \
        .option("port", 9999) \
        .load()

# 步骤4：定义流计算过程
# 有了输入数据源以后，接着需要定义相关的查询语句，具体如下：
    words = lines.select(
        explode(
            split(lines.value, " ")
        ).alias("word")
    )
    wordCounts = words.groupBy("word").count()

# 步骤5：启动流计算并输出结果
# 定义完查询语句后，下面就可以开始真正执行流计算，具体语句如下：
    query = wordCounts \
        .writeStream \
        .outputMode("complete") \
        .format("console") \
        .trigger(processingTime="8 seconds") \
        .start()
 
    query.awaitTermination()

启动hadoop：
- cd /opt/module/hadoop
- ./sbin/start-dfs.sh
新建一个终端（记作“数据源终端”）：
- nc -lk 9999
再新建一个终端（记作“流计算终端”）【idea运行会强制退出 ( - _ - !) _】：
- cd ~/IdeaProjects/sparkSql/
- /opt/module/spark/bin/spark-submit StructuredNetworkWordCount.py
在“数据源终端”内用键盘不断敲入一行行英文语句：

0.4（不选）使用rate源，评估系统性能。

代码文件spark_ss_rate.py

# spark_ss_rate.py
 
from pyspark.sql import SparkSession
 
 
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestRateStreamSource") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')
 
    lines = spark \
        .readStream \
        .format("rate") \
        .option('rowsPerSecond', 5) \
        .load()
 
    print(lines.schema)
 
    query = lines \
        .writeStream \
        .outputMode("update") \
        .format("console") \
        .option('truncate', 'false') \
        .start()
 
    query.awaitTermination()

在Linux终端中执行spark_ss_rate.py

1.日志分析任务

1.1通过Socket传送Syslog到Spark日志分析是一个大数据分析中较为常见的场景。

实验原理：
- 在Unix类操作系统里，Syslog广泛被应用于系统或者应用的日志记录中。
- Syslog通常被记录在本地文件内，比如Ubuntu内为/var/log/syslog文件名，也可以被发送给远程Syslog服务器。
- Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。
- 日志一般会通过Kafka等有容错保障的源发送，本实验为了简化，直接将Syslog通过Socket源发送。
实验过程：
- 新建一个终端，执行如下命令：
- tail -n+1 -f /var/log/syslog | nc -lk 9988“tail -n+1 -f /var/log/syslog”
  - 表示从第一行开始打印文件syslog的内容
  - “-f”表示如果文件有增加则持续输出最新的内容。
- 然后，通过管道把文件内容发送到nc程序（nc程序可以进一步把数据发送给Spark）。
- 如果/var/log/syslog内的内容增长速度较慢，可以再新开一个终端（计作“手动发送日志终端”），手动在终端输入如下内容来增加日志信息到/var/log/syslog内：
- logger ‘I am a test error log message.

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# 创建SparkContext和StreamingContext
sc = SparkContext(appName="SyslogAnalysis")
ssc = StreamingContext(sc, 1)

# 创建一个DStream，接收来自Socket的数据流
lines = ssc.socketTextStream("localhost", 9988)

# 在数据流上应用转换和操作
word_counts = lines.flatMap(lambda line: line.split(" ")) \
                   .map(lambda word: (word, 1)) \
                   .reduceByKey(lambda x, y: x + y)

# 输出结果到控制台
word_counts.pprint()

# 启动StreamingContext
ssc.start()
ssc.awaitTermination()

1.2对Syslog进行查询

由Spark接收nc程序发送过来的日志信息，然后完成以下任务：
- 统计CRON这个进程每小时生成的日志数，并以时间顺序排列，水印设置为1分钟。
- 统计每小时的每个进程或者服务分别产生的日志总数，水印设置为1分钟。
- 输出所有日志内容带error的日志。

from pyspark.sql.functions import window
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import StructType, StructField, StringType, TimestampType

# 创建SparkSession
spark = SparkSession.builder \
    .appName("LogAnalysis") \
    .getOrCreate()

# 定义日志数据的模式
schema = StructType([
    StructField("timestamp", TimestampType(), True),
    StructField("message", StringType(), True)
])

# 从socket接收日志数据流
logs = spark.readStream \
    .format("socket") \
    .option("host", "localhost") \
    .option("port", 9988) \
    .load()

# 将接收到的日志数据流应用模式
logs = logs.selectExpr("CAST(value AS STRING)") \
    .selectExpr("to_timestamp(value, 'yyyy-MM-dd HH:mm:ss') AS timestamp", "value AS message") \
    .select(col("timestamp"), col("message").alias("log_message"))

# 统计CRON进程每小时生成的日志数，并按时间顺序排列
cron_logs = logs.filter(col("log_message").contains("CRON")) \
    .groupBy(window("timestamp", "1 hour")) \
    .count() \
    .orderBy("window")

# 统计每小时每个进程或服务产生的日志总数
service_logs = logs.groupBy(window("timestamp", "1 hour"), "log_message") \
    .count() \
    .orderBy("window")

# 输出所有带有"error"的日志内容
error_logs = logs.filter(col("log_message").contains("error"))

# 设置水印为1分钟
cron_logs = cron_logs.withWatermark("window", "1 minute")
service_logs = service_logs.withWatermark("window", "1 minute")
error_logs = error_logs.withWatermark("timestamp", "1 minute")

# 启动流式处理并输出结果
query_cron_logs = cron_logs.writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query_service_logs = service_logs.writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query_error_logs = error_logs.writeStream \
    .outputMode("append") \
    .format("console") \
    .start()

# 等待流式处理完成
query_cron_logs.awaitTermination()
query_service_logs.awaitTermination()
query_error_logs.awaitTermination()

2.股市分析任务（进阶任务）

数据集采用dj30数据集，见教学平台。
实验说明：
- 本实验将使用两个移动均线策略，短期移动均线为10天，长期移动均线为40天。
- 当短期移动均线越过长期移动均线时，这是一个买入信号，因为它表明趋势正在向上移动。这就是所谓的黄金交叉。
- 同时，当短期移动均线穿过长期移动均线下方时，这是一个卖出信号，因为它表明趋势正在向下移动。这就是所谓的死亡交叉。
- 两种叉形如下图所示:dj30.csv包含了道琼斯工业平均指数25年的价格历史。
实验要求：
- 1.设置流以将数据输入structed streaming。
- 2.使用structed streaming窗口累计 dj30sum和dj30ct，分别为价格的总和和计数。
- 3.将这两个structed streaming (dj30sum和dj30ct)分开产生dj30avg，从而创建10天MA和40天MA的移动平均值。
- 4.比较两个移动平均线(短期移动平均线和长期移动平均线)来指示买入和卖出信号。
  - 您的输出[dj30-feeder只有一个符号的数据:DJI，这是隐含的。
  - 这个问题的输出将是[(<日期>买入DJI)，(<日期>卖出DJI)，等等]。
  - 应该是[(<日期>买入<符号>)，(<日期>卖出<符号>)，等等]的形式。

1.设置流以将数据输入structed streaming。

使用pandas进行数据处理

import pandas as pd

# 读取数据文件
data = pd.read_csv('/usr/local/data/dj30.csv')

# 选择需要的列
selected_data = data[['Long Date', 'Close']]

# 输出数据到控制台
print(selected_data)

# 保存数据到文件
selected_data.to_csv('/usr/local/data/dj.csv', index=False)

设置流以将数据输入structed streaming

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

# 创建SparkSession
spark = SparkSession.builder \
    .appName("StructuredStreamingExample") \
    .getOrCreate()

# 定义数据模式
schema = StructType([
    StructField("Long Date", StringType()),
    StructField("Close", DoubleType())
])

# 读取数据流
data_stream = spark.readStream \
    .format("csv") \
    .option("header", True) \
    .schema(schema) \
    .load("/usr/local/dj30.csv")

# 处理数据流
processed_stream = data_stream.select("Long Date", "Close")

# 输出到控制台
query = processed_stream.writeStream \
    .format("console") \
    .outputMode("append") \
    .start()

# 等待流处理完成
query.awaitTermination()

2.使用structed streaming窗口累计 dj30sum和dj30ct，分别为价格的总和和计数

3.将这两个structed streaming (dj30sum和dj30ct)分开产生dj30avg，从而创建10天MA和40天MA的移动平均值

4.比较两个移动平均线(短期移动平均线和长期移动平均线)来指示买入和卖出信号。

flutter 专题三十七 Flutter混合开发之FlutterFragment leluckys Flutter面试与实战 flutter gitee
我们知道，原生Android集成Flutter主要有两种方式，一种是创建fluttermodule，然后以原生module那样依赖；另一种方式是将fluttermodule打包成aar，然后在原生工程中依赖aar包，官方推荐aar的方式接入。如何在原生Android工程中以aar的方式接入Flutter，大家可以参考我之前文章的介绍：原生Android工程接入Flutteraar。今天想给大家分享
lvs、nginx、haproxy区别和使用场景？企鹅侠客 linux 聊聊运维 lvs nginx 运维
0.运维干货分享软考系统架构设计师三科备考经验附学习资料信息安全管理体系（ISMS）制度模板分享免费文档翻译工具(支持word、pdf、ppt、excel)PuTTY中文版安装包MobaXterm中文版安装包pinginfoview网络诊断工具中文版LVS（LinuxVirtualServer）、Nginx和HAProxy都是常见的负载均衡工具，它们在不同的场景中各有优势。以下是它们的区别、特点及
Git的详细使用方法 QMT量化交易 Python git
Git是一个分布式版本控制系统，用于跟踪和管理代码的变更。以下是Git的详细使用方法：1.安装GitWindows：从Git官网下载安装包。Linux（Ubuntu/Debian）sudoaptinstallgitmacOS：使用Homebrew。brewinstallgit验证安装git--version2.配置用户信息首次使用首次使用时，Git前需配置全局用户名和邮箱：gitconfig--g
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
HarmonyNext实战：基于ArkTS的高性能分布式任务调度系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能分布式任务调度系统开发引言在HarmonyNext生态系统中，分布式任务调度是一个复杂且关键的技术领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的分布式任务调度系统，涵盖从基础概念到高级优化的完整流程。我们将通过一个实际的案例——分布式计算任务调度系统，来展示如何在HarmonyNext平台上实现高效的任务调度。1.项目概述1.1目标开发
HarmonyNext实战：基于ArkTS的跨设备分布式数据同步应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨设备分布式数据同步应用开发引言在分布式系统的开发中，跨设备数据同步是一个极具挑战性的问题。随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了强大的分布式能力。本文将深入探讨如何利用ArkTS在HarmonyNext平台上开发一个跨设备分布式数据同步应用。我们将从分布式数据管理的基础理论出发，逐步构建一个完整的应用，涵盖数
雷林鹏分享：Ruby 命令行选项 weixin_30839881 ruby
Ruby命令行选项Ruby一般是从命令行运行，方式如下：$ruby[options][.][programfile][arguments...]解释器可以通过下列选项被调用，来控制解释器的环境和行为。选项描述-a与-n或-p一起使用时，可以打开自动拆分模式(autosplitmode)。请查看-n和-p选项。-c只检查语法，不执行程序。-Cdir在执行前改变目录(等价于-X)。-d启用调试模式(等
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
如何进行OceanBase 运维工具的部署和表性能优化？ oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
MySql数据库等级考试学习分享3（Day7） weixin_53545579 学习
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。题目以下关于MySQL的叙述中，错误的是（）。OA、MySQL为多种编程语
springboot 整合 elk （Elasticsearch+Logstash+Kibana）高大王竟然被注册 spring 运维
Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。Kibana也是一个开源和免费的工具，它Kibana可以为Logstash和ElasticSearch提供的日志分析友好的Web界
光伏开发：工商业光伏的流程管理全面解析鹧鸪云光伏与储能软件开发光伏设计光伏光伏发电新能源分布式
一、项目准备阶段1、资源寻觅与沟通首要任务是寻找适合的工商业屋顶或空地资源，并与业主初步交流，了解其意向、屋顶条件及用电情况。这一阶段的关键在于建立信任关系，为后续工作奠定基础。2、资料收集与核查全面收集业主资料，包括产权证明、建设规划等，确保项目合法性。同时，深入了解屋顶结构、使用年限等关键信息，为后续设计和技术评估提供依据。3、现场踏勘与技术评估实地踏勘确认项目现场情况，结合技术方案测算，评估
分布式光伏监控系统设计能源数字化创业者分布式能源管理
一、产品简介快控光伏运维云平台软件是针对工商业分布式光伏电站设计研发的一款集控管理系统。他通过智能网关采集现场逆变器、气象站、综合测控装置等各类设备的运行数据和状态，实现对光伏电站的24小时实时在线监控诊断，有效的保障了电站的安全运行。同时系统拉通线上线下运维，可极大的提高电站的运维的效率和质量。该平台软件主要有以下几大功能：1、实时在线监控，实时故障监测，第一时间通知电站运维人员及时消除隐患，确
FLASK核心操作之ORM 爬山的小明 Flask Flask ORM
ORM一、概要1、说明ORM，即Object-RelationalMapping（对象关系映射），它的作用是在关系型数据库和业务实体对象之间作一个映射，这样，我们在具体的操作业务对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作对象的属性和方法,2、核心模块SQLAlchemyORM和SQLAlchemyCoreCore是一种构建在表达式语言之上的一种API，一种SQL抽象工具包，允
一次诡异的 JVM OOM 事故原创程序员小2 mysql
当面对JVMOOM时，你会紧张吗？会不会手足无措？这篇文章，分享前段时间帮一位同学梳理面对JVMOOM事故时的解题思路。首先从对话中，我们可以看到内存溢出呈现两种情况：运行一段时间之后，CPU飙高；服务假死，表现出来日志没有任何输出。我的第一反应是：非常明显的JVM内存溢出表现，不过不知道是爆炸性的内存增长，还是缓慢的内存增长。于是，我回复：可以每隔一段时间观察top-pPid（进程号）看看应用的
分布式光伏电站经济性指标优化分析罗思付之技术屋网络通信安全及科学技术专栏分布式
摘要结合工程经验，分析了工商业分布式光伏电站平准发电成本（LevelizedCostofEnergy，LCOE）、资本金内部收益率（InternalRateofReturn，IRR）的主要影响因素，其中平准发电成本主要受静态投资影响，资本金内部收益率主要受消纳比影响。针对上述影响因素，进一步讨论了LCOE、IRR指标优化方法与在工程项目中可选用的举措。最后，结合实际项目背景，在站址条件、组件瓦单价
HarmonyNext实战：基于ArkTS的跨设备3D游戏开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨设备3D游戏开发引言随着移动设备和智能终端的普及，3D游戏开发已成为开发者关注的热点领域。HarmonyNext作为新一代操作系统，提供了强大的分布式能力和高效的图形渲染支持，结合ArkTS语言的灵活性和性能优势，为开发跨设备3D游戏提供了全新的可能性。本文将详细讲解如何基于HarmonyNext和ArkTS开发一款跨设备的3D游戏，涵盖从项目搭建到核
HarmonyNext实战：基于ArkTS的高性能区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能区块链应用开发引言区块链技术作为一种去中心化、安全可信的分布式账本技术，正在各个领域得到广泛应用。本文将深入探讨如何利用ArkTS语言在HarmonyNext平台上开发一个高性能的区块链应用，涵盖从区块链基础概念到智能合约开发的完整流程。我们将通过一个实际的案例——去中心化投票系统，来展示如何在HarmonyNext上实现区块链技术的落地应用。1.
我的创作纪念日我爱学习_zwj 前端前端框架华为
机缘在前端开发的广袤天地中，我的创作之旅始于一次充满挑战与机遇的契机。初涉前端领域时，面对复杂多变的项目需求和飞速更新的技术栈，我深刻感受到知识的浩瀚无边，也意识到自身能力的不足。在参与一个大型项目时，我遭遇了许多棘手难题，像页面加载速度的优化、不同浏览器兼容性的处理等。那时，我便产生了一个想法：把在实战中积累的经验以及过去学习的知识记录下来，既能作为自己成长的见证，也能与同行交流分享，携手攻克技
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
从前端视角理解消息队列：核心问题与实战指南秋水为渡前端
消息队列（MessageQueue）是现代分布式系统的核心组件之一，它在前后端协作、系统解耦、流量削峰等场景中发挥着重要作用。本文从前端开发者视角出发，解析消息队列的关键问题，并结合实际场景给出解决方案。一、为什么要使用消息队列？1.前端常见场景异步任务处理：用户行为日志上报、实时通知推送流量削峰：应对秒杀活动、大文件上传等瞬时高并发场景系统解耦：前端与后端服务、第三方服务之间的松耦合通信2.前端
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
鸿蒙与持续集成荔枝寄 harmonyos ci/cd 华为
鸿蒙操作系统（HarmonyOS）是华为公司开发的一款面向未来的分布式操作系统，它能够为各种设备提供统一的操作平台。为了确保鸿蒙应用的高质量和高效开发，持续集成（ContinuousIntegration,CI）实践显得尤为重要。持续集成是一种软件开发实践，即团队成员频繁地将代码集成到共享仓库中，每次集成都通过自动化的构建（包括编译、发布、自动化测试）来验证，从而尽早发现集成错误。鸿蒙与持续集成的
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

【Spark编程基础】实验5 Spark Structured Streaming编程实践

实验5 Spark Structured Streaming编程实践

实验内容和要求

0.结构化流练习任务

1.日志分析任务

2.股市分析任务（进阶任务）

你可能感兴趣的:(【作业分享交流】,spark,大数据,分布式)