亚马逊云开发者

使用 Amazon Step Functions 和 Amazon Athena 实现简易大数据编排

很多公司都在亚马逊云上围绕 Amazon S3 实现了自己的数据湖。数据湖的建设涉及到数据摄入、清洗、转换，以及呈现等多个步骤，还需要对这些步骤进行编排，这对很多人手不足或者初识数据湖的团队形成了挑战。

在本篇文章中，我将介绍一个使用 Amazon Step Functions 和 Amazon Athena 的简易大数据编排方案。如果你的团队现在已经有相当部分沉睡数据，想要利用，但是又没有专人或者专门的力量的公司，那么可以参考这个方案，在数天时间内搭建起一套可用的基础版大数据流水线，开始对数据进行一些探索和挖掘。

方案整体都采用无服务器服务，用户无需担心基建费用，完全只为用量付费，实现低成本快速启动。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

服务介绍

开始之前，我们简单介绍下方案的两个核心服务。

Amazon Athena 是一个无服务器版的 SQL 大数据查询服务，底层基于 PrestoDB 引擎。用户可以提交 SQL 语句，而这个引擎则根据语句来分布式扫描数据湖中的文件，最后汇总成结果。除了查询之外，Athena 也可以用作简单的 ETL 工具。它按照扫描的文件的大小来收费。

Amazon Step Functions 是一个无服务器编排服务。它可以帮助我们设计一个包含多个步骤的流程（有向无环图，Directed Acyclic Graph，简称 DAG），让每个步骤的输出变成下一个步骤的输入，并且支持步骤并发、条件判断以及不同的重试机制等。它和亚马逊云科技的其他服务有着很好的集成，并且也是完全按照步骤执行的次数来收费。

业务介绍

简单介绍一下业务。

假设我们是一家传统的白电公司。虽然我们追随潮流，在我们的很多新电器上搭载了 IoT 功能，并且也收到了很多的 IoT 数据，但这些数据其实并没太好地利用起来。现在，我们希望能做一个数据湖，用最低的成本，快速从这些数据里面挖掘一些价值。

目前最困扰我们的问题是电器品质和维修问题，以冰箱为例，如果商用冰箱出故障，可能会导致食品变质导致食品卫生问题，而如果保存的是药品，则更可能导致严重的问题；而家用冰箱如果出故障，也会严重影响客户体验和对品牌的信任。所以，我们希望能对设备回报的数据进行挖掘，看看冰箱在故障之前，通常出现什么指标异常，不同地区的同款冰箱在指标上是否有区别，以及不同的使用方式是否对冰箱的寿命和维修产生影响。

在这些问题之上，我们可能会形成一套预测性维护的机制，在冰箱出故障之前就做好预判，提前维护保养，避免问题的发生。

整体架构

架构的整体数据流向图上已经展示得很清楚，我们本次重点关注这些服务使用的细节，以及串接这些服务时的一些要点。

数据摄入

本次的数据源格式是 GZip 压缩好的 JSON Lines 文件，每天可能是单个或者数个文件。文件已经存放在某个内网 HTTP 节点，我们需要定期去拉取，并且上传到 S3 桶。

数据格式示范如下。

{"model": "model-1234", "city": "test-city-1", "reading_1": "15.6"}
{"model": "model-4323", "city": "test-city-2", "reading_1": "4.5"}
{"model": "model-3135", "city": "test-city-1", "reading_1": "7.4"}
{"model": "model-4237", "city": "test-city-3", "reading_1": "8.1"}
{"model": "model-9928", "city": "test-city-1", "reading_1": "6.3"}

把文件上传到 S3 桶之后，我们可以直接在 Athena 的查询编辑器中使用如下 SQL 语句创建外部表。

CREATE EXTERNAL TABLE example (
    model STRING,
    city STRING,
    reading_1 STRING
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
LOCATION 's3://{bucket-name}/'

创建成功后，我们就可以立即进行查询。

SELECT * 
FROM example;

这里需要注意的是 Athena 支持的是单个文件压缩，而不是我们常见的 TAR 包压缩。也就是说，每个文件都是通过 gzip filename.json 命令压缩成 filename.json.gz 而不是通过 tar cfz 命令打包并压缩成 .tar.gz，否则 Athena 将无法识别。

当然，通常我们的 IoT 数据都包含大量的字段，这里很可能我们不会用写 SQL 的方式来建表，而是用 Amazon Glue 的爬虫服务进行爬取，自动建表和识别字段类型。爬虫的使用不是本文的重点，如有需要，读者可参考其他关于 Glue 爬虫的文章。

无格式文本文件处理

在 IoT 场景中，有时候我们会遇到特定的原始数据格式。它并不是 JSON 格式，也不是其他认可的形式，而是取决于使用的设备，类似下面这样的格式。

DEV {model=23482, sn='238148234571', reading_1=23.5}
DEV {model=36740, sn='9942716322', reading_1=}

此时，我们可以借用 Athena 的正则表达式匹配编解码器（RegEx SerDe），来把数据读取成字符串，再进行处理。注意：数据仍然需要按行分割。

CREATE EXTERNAL TABLE example_regex (
    model STRING,
    sn STRING,
    reading_1 STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "^DEV\\s*\\{model=(.*?),\\s*sn='(.*?)',\\s*reading_1=(.*?)\\}"
) LOCATION 's3://{bucket-name}/{prefix}';

使用这种方式，所有的字段必须有固定顺序，正则表达式捕捉到的字符，会被按顺序录入到字段中，方便后续处理。

数据预处理

原始数据传输到 S3 桶后，我们需要对它做一些预处理，方便后续正式使用。

字段格式转换

首先，我们需要对字段格式转换。因为原始的 IoT 数据所有字段几乎都是字符串格式，不便于操作，所以我们需要把这些字段格式转换成正确的格式。我们先创建新的目标表。

CREATE EXTERNAL TABLE example_preprocessed (
    model STRING,
    city STRING,
    reading_1 DOUBLE
)
STORED AS PARQUET
LOCATION 's3://{bucket-name}/{prefix}'
TBLPROPERTIES ("parquet.compression"="SNAPPY");

注意，此时我们不仅转换字段格式，存储格式也换成了更便于统计操作的 Parquet，并使用 Snappy 进行了压缩。

对于 Athena 来说，字段转换非常简单，只需使用 SQL 的 CAST、DATE_PARSE 等类型转换函数。比如，我们可以使用如下方式语句把原始数据转换成正确的格式并插入到新的表。

INSERT INTO example_preprocessed 
SELECT model, city, CAST(reading_1 AS DOUBLE) as reading_1 FROM example;

动态字段映射

在 IoT 场景中，我们还可能会遇到动态字段映射问题。

比如，每个设备都会回传 data_01、data_02、date_03 这样的字段，但是不同设备、不同型号甚至不同版本的设备，所传回来的字段代表的意思可能不同。在 A 设备上 data_01 可能是温度，而在 B 设备上，data_01 则可能是门开关的角度。

这就需要我们有一个表来保存字段的映射关系，并且能动态地对这些数据进行映射。核心思路如下。

保存一份表、全字段、全映射目标字段的映射关系
遍历这个映射关系，并且使用 INSERT INTO 语句，按顺序列出所有源字段和目标字段
添加反向条件，对未在映射关系列表中的设备进行默认映射

这个思路主要是借助了 INSERT INTO 可以同时列出字段和值并按顺序来插入的功能。下面是一段示意代码。

import time
import boto3

# 只打印 SQL

dry_run = False

# 源表和目标表

source_table = 'source_table'
target_table = 'target_table'
db = 'dbname'

# 映射关系表，从数据库中取出后改成如下格式

mapping = {
  # 型号名字为 Key
  'BCD': {
    'field': 'filed',  # 所有字段都必须列出来，即便是完全对应
    'model': 'model',
    'data01': 'temperature',  # 举例映射 data01 > temperature，data01 > door_status
    'data02': 'door_status'
  },
  'ABC': {
    'field': 'field',  # 所有字段都必须列出来，即便是完全对应
    'model': 'model',
    'data01': 'door_status',  # 举例映射 data01 > door_status，data01 > temperature
    'data02': 'temperature'
  },
  # 未被匹配的型号使用默认映射
  'Other': {
    'field': 'field',
    'model': 'model',
    'data01': 'other', # 映射的目标字段必须存在于目标表，如果有目标表字段没有覆盖，就会变成 NULL
    'data02': 'other2' # 映射的目标字段不能重复
  }
}

# 封装 Athena 请求和 SQL 到函数

client = boto3.client('athena')

def insert_with_mapping(model, mapping):
  source_columns = [f'"{k}"' for k in mapping.keys()]
  target_columns = [f'"{v}"' for v in mapping.values()]

  query = f'INSERT INTO {target_table} ({",".join(target_columns)}) SELECT {",".join(source_columns)} FROM {source_table} WHERE '

  if type(model) == list:
    models = [f"'{m}'" for m in model]
    query += f'model NOT IN ({",".join(models)})'
  else:
    query += f"model = '{model}'"

  print(query)

  if (dry_run):
    return

  query_start = client.start_query_execution(
      QueryString = query,
      QueryExecutionContext = {
          'Database': db
      }, 
      ResultConfiguration = { 'OutputLocation': 's3://my-athena-result-bucket'}
  )

  max_execution = 100 # 设置最长执行时间
  state = 'RUNNING'

  while (max_execution > 0 and state in ['RUNNING', 'QUEUED', 'SUCCEEDED','FAILED']):
    max_execution = max_execution - 1
    response = client.get_query_execution(QueryExecutionId = query_start['QueryExecutionId'])

    if 'QueryExecution' in response and \
            'Status' in response['QueryExecution'] and \
            'State' in response['QueryExecution']['Status']:
      state = response['QueryExecution']['Status']['State']
      if state == 'FAILED':
          print(response)
          raise Exception(f'> {model} INSERTION FAILED.')
          break
      elif state == 'SUCCEEDED':
          results = client.get_query_results(QueryExecutionId=query_start['QueryExecutionId'])
          print(f'> {model} INSERTION SUCCEEDED.')
          break

    print('WAITING...')
    time.sleep(1)

# 遍历每个模型，分别插入

mapping_without_other = { k: v for k, v in mapping.items() if k != 'Other' }
mapping_other = mapping['Other']

for model, column_mapping in mapping_without_other.items():
  insert_with_mapping(model, column_mapping)

insert_with_mapping(list(mapping_without_other.keys()), mapping_other)

分段导入

因为INSERT INTO ... SELECT 语句会有 100 个分区的限制，如果我们按小时分区，一次导入了超过 100 个小时的数据，或者按照模型分区，一次导入超过 100 个模型，就会导入失败。

这时候，我们需要做分段导入。分段导入的方式很直白，就是用 WHERE 语句把数据分拆。比如每次插入 99 小时数据，或者每次插入 99 个模型。

清除已处理数据

最后，我们还需要删除已经预处理的数据，方便下一天导入新的数据继续处理。由于 S3 本身没有提供通配符删除的功能，所以我们只能使用一个脚本列出所有的数据文件，然后统一删除。

数据统计

业务核心的数据统计反而是整个流程中比较简单的部分，因为所有业务逻辑都使用 SQL 语句来表示。本次文章的重点不是业务梳理，所以对具体的 SQL 查询语句不再做展示，读者可根据自己需要来撰写和调用。

流水线编排

在所有流程都明确下来，并且手动执行完毕后，我们就可以开始设计自动化流水线了。

不管是 Step Functions，还是 Apache Airflow，流水线工具基本都基于「有向无环图」（Directed Acyclic Graph，简称 DAG）的理念。有向，指的是流水线中的步骤都明确指向下一个步骤，直至结束；无环，指的是步骤只往一个方向走，不能折返，形成循环。

之所以要避免循环，是因为调度器需要知道步骤的先后顺序（依赖关系）。如果出现了 A → B → A 这样的循环，那么调度器就会发现 A 需要等 B 执行完，但 B 又需要等 A 执行完，就没办法决定先执行哪一个了。反之，如果所有步骤都朝一个方向推进，又没有循环，就能明确先后顺序，并且也可以知道哪些步骤可能是可以并行执行，提升效率。

在 Step Functions 中，流水线被称作「状态机」（State Machine）。每个状态机分为多个步骤，而每个步骤则是一个亚马逊云 API 的调用。上一个步骤的输出，会作为下一个步骤的输入，直到出错或者运行结束。当然，步骤也可以调用其他状态机，从而把多个状态机串联成一个大的工作流。

数据摄入

我们原来是在 Amazon EC2 实例上直接执行命令来下载数据。现在，我们要把这个命令放到状态机里，有两个选择。

使用 Amazon Lambda 的无服务器函数直接执行这个命令
使用一台 EC2 机器来执行这个命令

这里主要需要考虑的是下载的文件大小。宁夏和北京区域的 Lambda 本地临时存储只有 512MB，海外最高可配置至 10GB，所以，如果下载的文件超过这个上限，就可能需要考虑 EFS 等外部存储方案，或者改用 EC2 来执行。

如果用 EC2 实例来执行命令，就没有执行时长和存储空间的问题。不过，我们还需要一个方便的方式可以调用实例上的命令，并且把执行结返回到步骤中。

要远程执行命令，我们可以使用 Amazon System Manager（下简称 SSM）。如果你使用的是 Amazon Linux，则其客户端已经随系统安装，我们只需要为这个实例添加如下策略即可使用。

arn:aws-cn:iam::aws:policy/AmazonSSMManagedInstanceCore，这个托管策略允许 SSM 操控该实例，包括执行命令、从浏览器中登录实例等。

因为下载和上传的时间不确定，所以我们这里需要有一个「等待」的过程。这里，我们需要调用 Step Functions 的 API，告诉它任务执行的结果。这个需要我们的 EC2 实例具备如下权限。

states:SendTaskSuccess，发送任务成功信号
states:SendTaskFailure，发送任务失败信号
states:SendTaskHeartbeat，发送任务心跳信号，确认任务还在执行

这里有一个问题，就是 EC2 上的执行者需要知道现在执行的是哪个任务，这样才能在发送信号的时候附带上任务 ID。Step Functions 提供了一个方式传入元数据，就是在参数键值后面添加 .$，然后在参数中使用 $$ 来引用。

从上图可以看出，我们把原来的 TaskToken 改成了 TaskToken.$，然后就可以直接使用 $$.Task.Token 来取出元数据中包含的「任务令牌」（Task Token）。任务执行完成时，我们只需要使用 SendTaskSuccess 并带上这个令牌，Step Functions 就会认为这个任务已经执行完成。

任意一个字符串参数，都可以用这个方式来替换成元数据中的值。借此，我们可以在任意步骤中获得任务名字、状态机原始参数等元数据。

但这里还有一个问题，那就是 SSM 的 sendCommand API 参数只支持数组，不支持字符串。这就意味着我们没办法用 .$ 后缀的方式把元数据直接传入，只能通过一个 Lambda 函数做一下转发。此时，Lambda 函数需要有调用 ssm:sendCommand 的权限。

这里我写了一个示范的 Lambda 函数。

import json
import boto3

def lambda_handler(event, context):
    print(event)
    
    client = boto3.client('ssm')

    instance_id = 'i-xxxxxxxx' # 示意代码，使用硬编码
    response = client.send_command(
        InstanceIds=[instance_id],
        DocumentName='AWS-RunShellScript',
        Parameters={
            'commands': [
                f'aws stepfunctions send-task-success --region cn-northwest-1 --task-token {event["TaskToken"]} --task-output {{}}'
            ] 
        }
    )
    return {
        'statusCode': 200,
        'body': json.dumps(response, default=str)
    }

这个函数会调用 ssm:sendCommand，在指定实例上运行命令。这里作为演示，只会发送成功信号。如需增加命令，直接在 commands 参数下，发送信号之前，增加所需的命令即可。如果要在在生产环境下使用，可能我们还会加入错误处理之类的，或者把所需要的命令直接写成一个完善的脚本。

数据处理

数据处理可能会用到「并发」（Parallel）和「判断」（Choice）两种流步骤。流步骤指的是不直接调用 API，而是做一些流程上的操作。比如「并发」让我们可以并行多个步骤，而「判断」则可以让我们根据上个步骤的不同输出来选择执行不同的步骤。

在数据处理阶段，我们可能会同时执行多个转换，比如可能按日期、城市来把不同的数据提取到不同的表内。在数据计算阶段，我们也可能会同时执行相互之间没有依赖关系的统计运算。这也是利用了 S3 存储高并发、高吞吐的优势。

此外，我们还可以使用条件判断。比如，在收到超过 10 万条记录时，才启动统计操作。再比如，当发现某个城市的故障率飙升时，发出告警等等。

定时触发

还有一个常见的需求是定时触发。如前面业务简介所言，我们可能会需要每天定时触发某个状态机，或者按周期触发，比如每 6 小时执行一次。此时，我们可以借助 Amazon EventBridge 的定时功能。

打开 Amazon EventBridge 服务，并找到「规则 > 创建规则」，「规则类型」选择「计划」。

接下来，我们就可以输入 cron 表达式，或者输入周期了。

cron 表达式需要填写所有下面的字段，比如在「分钟」框输入 1 就代表每个小时的第 1 分钟，而在「一周中的某天」框输入 2 则代表每周二。注意其中「一个月中的某天」和「一周中的某天」是有冲突的，所以二者只能输入一个，然后把另一个用 ? 代替。如果希望每分钟、每小时等都执行，那么就使用 * 代替。

输入成功时，会在下方列出下次执行的时期。注意：目前此处的 cron 表达式仅使用 UTC 时间，所以在使用时需要把时区也算进去。

接下来，我们可以把我们的状态机设置成「目标」。

保存之后，我们就可以在规则详情页面看到接下来 10 次触发时间。

总结

这篇文章中，我们以一个 IoT 场景为例，展示了如何结合 Step Functions 和 Athena 来实现简易的大数据调用。正确使用这些服务，可以让我们在数天之内就形成一个数据湖，让我们可以开始对数据湖中的数据进行探索。

很多传统公司在开拓新业务时往往会产生大量数据，但这些数据的使用需要大量专业开发和运维，这对很多刚成立的大数据团队造成了很大的压力。使用这些托管服务，用户无需再关心底层服务器，而可以把大量时间用在业务梳理和数据的价值挖掘上，大大降低了大数据的入门门槛。

当然，这篇文章主要还是抛砖引玉，有很多点因为篇幅问题未能涉及。比如：

任务出错时的恢复、告警和重试机制
任务的监控和统计
更实时的数据摄入
数据的增量更新
更高效的分区和数据查询方式
数据的安全性和权限控制

这些都是在使用更加深入后必然会遇到的问题。后续我们会有更多文章为大数据初学者介绍如何使用托管和无服务器服务来实现这些机制。

希望这篇文章对读者有所帮助，快速搭建其自己的数据湖。

本篇作者

张玳

Amazon 解决方案架构师。十余年企业软件研发、设计和咨询经验，专注企业业务与 Amazon 服务的有机结合。译有《软件之道》《精益创业实战》《精益设计》《互联网思维的企业》，著有《体验设计白书》等书籍。

文章来源：https://dev.amazoncloud.cn/column/article/630a141b76658473a321ffe7?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=CSDN

你可能感兴趣的:(大数据,数据库)

Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
如何在Spring Boot中实现数据加密后端springboot
如何在SpringBoot中实现数据加密大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！一、数据加密的重要性与应用场景在当今信息安全日益受到重视的背景下，数据加密成为保护敏感信息不被未授权访问的重要手段。SpringBoot作为一种流行的Java开发框架，提供了多种方式来实现数据加密，适用于用户密码、数据库连接、敏感配置等场景。二、
HIBERNATE - 符合Java习惯的关系数据库持久化 popkiler Atleap代码读解 hibernate 数据库 java session class payment
HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度深度学习机器大语言模型深度学习入门人工智能语言模型
一传统方法之前的文章已经介绍过向量数据库在RAG（RetrievalAugmentedGenerative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构建好的向量数据库中检索出相关的段落用户大模型生成。但是这种方法很明显会受到Embedding模型性能的影响，比
mysql 数据库部署 IT 古月方源网络安全运维网络数据库
以下是基于CentOS7系统部署MySQL数据库的详细步骤及常见问题解决方案：一、卸载旧版本MySQL/MariaDB停止服务并检查残留systemctlstopmariadb#停止MariaDB服务rpm-qa|grepmariadb#检查MariaDB安装包rpm-e--nodepsmariadb-libs-*#强制卸载MariaDB及其依赖包rm-rf/etc/my.cnf/var/lib/
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
【护网行动】最新版护网知识总结，零基础入门到精通，收藏这篇就够了网络安全小宇哥 oracle 数据库安全 web安全计算机网络网络安全网络
一、基础知识1.SQL注入：一种攻击手段，通过在数据库查询中注入恶意SQL代码，获取、篡改或删除数据库数据。（1）危害：数据库增删改查、敏感数据窃取、提权/写入shell。（2）类型：按注入点（字符型、数字型、搜索型）、提交方式（get、post、cookie）、执行效果（联合、报错、布尔、时间）分类。（3）注入方式：包括information_schema注入、基于函数报错注入（如updatex
flask实现mvc模式 dev.null Python flask mvc python
Flask默认是一个轻量级框架，并不强制使用MVC模式，但我们可以按照MVC结构来组织代码，使项目更加清晰和可维护。Flask实现MVC模式Flask本身并没有严格的Controller层，但我们可以通过视图函数（ViewFunctions）充当Controller，使其符合MVC模式。目录结构flask_mvc_app/│──app/│├──models.py#Model(数据库模型)│├──v
YashanDB归档管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...YashanDB通过开启归档模式来进行redo日志文件自动归档，用以支持生产环境中的数据热备份以及高可用主备部署场景的主备同步。当故障发生时，可以通过历史全量数据数据备份以及归档的redo日志文件重做完成数据库重建。V$DAT
Redis 主从复制机制深度解析与实践指南月落星还在 redis redis 数据库缓存
Redis的主从复制（Replication）是构建高可用、高性能分布式缓存和数据库系统的核心机制。通过主从复制，数据可以从一个主节点（Master）自动同步到多个从节点（Slave），实现读写分离、负载均衡和故障恢复。本文将深入探讨主从复制的原理、配置方法、常见问题及优化策略。一、主从复制的核心概念1.1什么是主从复制？主从复制是一种数据同步机制，允许从节点实时复制主节点的数据。主节点负责处理写
Linux下安装Mysql环境软件分享工作室 Linux linux mysql 运维
1.mysql说明MySQL是一种开源的关系型数据库管理系统，它具有高性能、可靠性和灵活性的特点。MySQL支持多种操作系统，包括Windows、Linux和MacOS等。它是最流行的数据库管理系统之一，被广泛应用于网站开发、数据存储和数据分析等领域。2.mysql优点1.开源免费：MySQL是开源软件，可以免费使用和修改，没有任何使用限制。2.跨平台：MySQL可以在多种操作系统上运行，包括Wi
达梦数据库操作日期 one 大白(●—●) 数据库达梦日期函数操作日期
排班情况获取当月获取上月和下月的数据select*fromuf_zbglbwherefind_in_set('1',zbbm)>0andrqlike'2021-03%'orrqlike'2021-3%'ordatepart(year,rq)=(selectdatepart(YEAR,ADD_MONTHS(DATE'2021-03-16',1)))anddatepart(month,rq)=(sel
高级java每日一道面试题-2025年2月20日-数据库篇-大表如何优化 ? java我跟你拼了 java每日一道面试题数据库 java 大表优化索引分页
如果有遗漏,评论区告诉我进行补充面试官:大表如何优化?我回答:在Java高级面试中讨论大表优化问题时，理解并能详细阐述各种优化策略和技术实现是至关重要的。以下是结合提供的信息进行综合后的详细解析：大表优化的背景当数据库中的单表记录数变得非常庞大时，数据库操作（CRUD）的性能会显著下降，这不仅影响应用的响应速度，还可能导致系统资源耗尽，影响业务的稳定性。因此，对大表进行有效的优化是提升数据库性能的
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
MySQL-关于如何保存“大数据” 赵师的工作日 mysql 大数据数据库
作者：赵师的工作日（赵明中）现役OracleACE、MySQL8.0ocp、TiDBPCTA\PCTP、ElasticsearchCertifiedEngineer微信号：mzzhao23微信公众号：赵师的工作日墨天轮社区：赵师的工作日CSND：赵师的工作日数据库的种类有很多，各类数据库充分发挥各自的优势从而保证业务稳定运行，mysql轻量级、关键数据，redis缓存、快，ES搜索，Mongodb
Apache Doris中都用了哪些开发语言，编译过程中用到了哪些编译器，以及用到了哪些成熟的技术框架 fzip Doris apache 开发语言
ApacheDoris作为一款高性能的实时分析型数据库，其技术栈涉及多语言开发、多种编译器支持以及多个成熟技术框架的集成。以下是综合多个来源的详细分析：一、开发语言Java•应用场景：主要用于开发Frontend（FE），负责元数据管理、查询解析、集群管理等模块。•关键模块：◦FE的元数据持久化通过BDBJE（BerkeleyDBJavaEdition）实现。◦MySQL协议兼容和HTTP服务分别
5、请简述公司的系统服务架构类型（单体架构、分布式架构、微服务架构、分层架构、集群架构、SOA 架构、中台架构）静静在思考面试经验架构分布式微服务
以下是对公司常见的系统服务架构类型的简述及架构图说明：单体架构简述：将所有功能集成在一个项目中，作为一个整体进行开发、部署和运行，所有业务逻辑、数据访问等都在一个进程内。适用于小型项目或业务简单的场景，开发、部署和维护相对简单。架构图用户界面业务逻辑数据访问数据库分布式架构简述：把系统拆分为多个子系统或服务，分布在不同节点上独立运行，通过网络通信协作完成业务功能，可扩展性和可靠性较高，能应对大规模
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
PIPCA个人信息保护合规审计师认证介绍！熙丫 13381482386 大数据
个人信息保护合规审计师"（PersonalInformationProtectionComplianceAuditor-CCRC）是中国网络安全审查认证中心与市场监管大数据中心为深入贯彻实施《个人信息保护法》，推动个人信息处理者切实履行合规审计职责，针对企事业单位及第三方机构中从事个人信息保护合规审计（简称“个保审计”）的专业人员，依据《个人信息保护法》、《网络安全从业人员能力基本要求》
MyBatis Plus 在 Java 项目中的高效使用随风九天匠心数据库 java spring java mybatis MyBatis Plus
1.前言1.1MyBatisPlus简介MyBatisPlus是一个MyBatis的增强工具，旨在简化开发人员在数据库操作上的工作量。它提供了丰富的功能，如自动化的CRUD操作、条件构造器、分页查询等，极大地提高了开发效率。1.2为什么选择MyBatisPlus简化代码：自动生成基础的CRUD方法，减少重复代码。提高效率：内置多种插件和工具，提升开发速度。易于维护：代码结构清晰，便于后续维护和扩展
掌握SQL多表连接查询_轻松处理复杂数据关系随风九天匠心数据库 java sql 数据库
1.引言1.1数据库中的多表关系概述在实际应用中，数据库通常由多个表组成，每个表存储不同类型的数据。例如，在一个电子商务系统中，可能会有用户表、订单表、产品表等。这些表之间存在关联关系，通过多表连接查询可以整合这些数据，提供更全面的信息。1.2多表连接查询的重要性多表连接查询是SQL中最常用和重要的操作之一。它允许我们从多个表中提取相关数据，并根据特定条件进行组合。掌握多表连接查询可以帮助我们更高
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于jsp+servlet+mysql实现增删改查蟹黄味汉堡 mysql servlet jsp
#声明单纯记录学习计算机当中所遇到的问题把解决问题的方法分享给大家希望大佬不要喷我这个小白#链接mysql数据库publicclassBaseDao{publicConnectiongetConnection()throwsClassNotFoundException,SQLException{//url里的demo4为数据库名称Stringurl="jdbc:mysql://localhost:
如何实现集群中的session共享存储？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
集群中Session共享存储的实现在分布式系统或集群环境中，确保用户会话（Session）能够在所有节点之间共享是一个关键问题。为了实现这一点，可以采用多种策略和技术。以下是关于如何在Java架构中实现集群中的Session共享存储的主要方面：1.使用集中式存储服务Memcached：轻量级、高性能的内存缓存系统，适用于存储短期的session数据。Redis：功能更强大的键值存储数据库，不仅支持
python mongo异步操作_让python调用mongo读写速度加速10倍的方法 weixin_39867125 python mongo异步操作
1.把mongo读写封装成api2.在api初始化时保持数据库长链接；并且用线程每2分钟遍历一次所有的表并count一次importsysimporttimeimportpymongoimportjsonimportlogimporttracebackimportthreading//库名test，表名test_tableserver_list=['test-mongos.all.serv:636
oracle date类型如何比较 &loopy& oracle 数据库
在Oracle数据库中，DATE类型用于存储日期和时间信息，精确到秒。当你需要比较两个DATE类型的值时，可以使用标准的SQL比较运算符，如=、和>=。以下是一些示例，说明如何在Oracle中比较DATE类型的值：1.等于(=)检查两个日期是否相等：sql复制代码SELECT*FROMyour_tableWHEREyour_date_column=TO_DATE('2023-10-23','YYY
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache