zhojiew

aws parallelcluster 理解 parallelcluster 集群的配置和使用

参考资料

Setup AWS ParallelCluster 3.0 with AWS Cloud9 200
HPC For Public Sector Customers 200
HPC pcluster workshop 200
Running CFD on AWS ParallelCluster at scale 400
Tutorial on how to run CFD on AWS ParallelCluster 400
Running CFD on AWS ParallelCluster at scale 400
Running WRF on AWS ParallelCluster 300
Slurm REST API, Accounting and Federation on AWS ParallelCluster 400
Running Fire Dynamics CFD Simulation on AWS ParallelCluster at scale 200
Spack Tutorial on AWS ParallelCluster

AWS ParallelCluster 是 AWS 支持的开源集群管理工具。它允许客户轻松入门，并在几分钟内更新和扩展 AWS Cloud 中的 HPC 集群环境。支持各种作业调度程序，如 AWS 批处理、 SGE、Torque和 Slurm（Amazon ParallelCluster 3. x 不支持 SGE 和 Torque 调度器），以方便作业提交

pcluster集群配置和创建

安装pcluster工具，需要依赖cdk生成cloudformation模板，因此需要预装node环境

virtualenv pvenv
source pvenv/bin/active
pip3 install --upgrade "aws-parallelcluster"
# pip install aws-parallelcluster==3.2.1
pcluster version
# pip install aws-parallelcluster --upgrade --user

生成集群配置

$ pcluster configure --config cluster-config.yaml --region cn-north-1

配置文件示例，网络配置参照后文的pcluster集群的网络配置部分

pclusterv3支持的调度器有slurm和awsbatch，这里只涉及到slurm

Region: cn-north-1
Image:
  Os: ubuntu1804
HeadNode:
  InstanceType: m5.large
  Networking:
    SubnetId: subnet-027025e9d9760acdd
  Ssh:
    KeyName: cluster-key
  CustomActions: #自定义行为
    OnNodeConfigured:
      Script: s3://parallelcluster-2e9f54dea72c8134-v1-do-not-delete/script/hello.sh
  Iam:
    S3Access: #访问s3权限
      - BucketName: parallelcluster-2e9f54dea72c8134-v1-do-not-delete
        EnableWriteAccess: false #只读
    AdditionalIamPolicies: # 访问ecr权限
      - Policy: arn:aws-cn:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess
Scheduling:
  Scheduler: slurm
  SlurmSettings:
    Dns:
      DisableManagedDns: false #默认为false，使用r53的dns解析
    ScaledownIdletime: 3 #队列中无任务时3分钟缩容
  SlurmQueues:
    - Name: queue1
      ComputeResources:
        - Name: c5large
          DisableSimultaneousMultithreading: false
          Efa:
            Enabled: false
            GdrSupport: false
          InstanceType: c5.large
          MinCount: 1 #静态实例的数量
          MaxCount: 10
      Iam:
        AdditionalIamPolicies: # 访问ecr权限
          - Policy: arn:aws-cn:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess
      Networking:
        SubnetIds:
          - subnet-027025e9d9760acdd
SharedStorage:
  - FsxLustreSettings: #配置fsx共享存储
      StorageCapacity: 1200
    MountDir: /fsx
    Name: fsx
    StorageType: FsxLustre

创建集群

默认情况下创建的 ParallelCluster 不启用 VPC 流日志

$ pcluster create-cluster --cluster-name mycluster --cluster-configuration cluster-config.yaml

查看集群

$ pcluster describe-cluster --cluster-name mycluster
{
  "creationTime": "2023-01-1xT01:33:01.470Z",
  "version": "3.4.1",
  "clusterConfiguration": {
    "url": "https://parallelcluster-2e9f54dea72c8134-v1-do-not-delete.s3.cn-north-1.amazonaws.com.cn/parallelcluster/3.4.1/clusters/mycluster-69tt2sf5bgsldktx/configs/cluster-config.yaml?versionId=Q7XO1MF.LE4sh3d.K06n49CmQIirsb3k&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=ASIAQRIBWRJKH4DPNLIN%2F20230116%2Fcn-north-1%2Fs3%2Faws4_request&..."
  },
  "tags": [...],
  "cloudFormationStackStatus": "CREATE_IN_PROGRESS",
  "clusterName": "mycluster",
  "computeFleetStatus": "UNKNOWN",
  "cloudformationStackArn": "arn:aws-cn:cloudformation:cn-north-1:xxxxxxxxxxx:stack/mycluster/b6ea1050-953d-11ed-ad17-0e468cb97d98",
  "region": "cn-north-1",
  "clusterStatus": "CREATE_IN_PROGRESS",
  "scheduler": {
    "type": "slurm"
  }
}

访问配置链接没有权限，目测是一个presign url，由于中国区账号未备案无法访问

该对象存储在专用的s3桶中

查看集群实例

$ pcluster describe-cluster-instances --cluster-name mycluster
{
  "instances": [
    {
      "launchTime": "2023-01-xxT01:35:50.000Z",
      "instanceId": "i-0c3xxxxxxxd164",
      "publicIpAddress": "xx.xx.xx.xx",
      "instanceType": "m5.large",
      "state": "running",
      "nodeType": "HeadNode",
      "privateIpAddress": "172.31.20.150"
    }
  ]
}

更新集群

$ pcluster update-cluster -n mycluster -c cluster-config.yaml

删除集群

$ pcluster delete-cluster --cluster-name mycluster

连接集群

$ pcluster ssh --cluster-name mycluster -i /home/ec2-user/.ssh/cluster-key.pem

获取日志，不需要导入到s3桶之后再下载了

$ pcluster export-cluster-logs --cluster-name mycluster --region cn-north-1 \
  --bucket zhaojiew-test --bucket-prefix logs --output-file /tmp/archive.tar.gz
$ tar -xzvf /tmp/archive.tar.gz
mycluster-logs-202301160516/cloudwatch-logs/ip-172-31-17-51.i-0b3f352aa1a503b5a.cloud-init
mycluster-logs-202301160516/cloudwatch-logs/ip-172-31-17-51.i-0b3f352aa1a503b5a.cloud-init-output
mycluster-logs-202301160516/cloudwatch-logs/ip-172-31-17-51.i-0b3f352aa1a503b5a.computemgtd
mycluster-logs-202301160516/cloudwatch-logs/ip-172-31-17-51.i-0b3f352aa1a503b5a.slurmd
mycluster-logs-202301160516/cloudwatch-logs/ip-172-31-17-51.i-0b3f352aa1a503b5a.supervisord
...
mycluster-logs-202301160516/mycluster-cfn-events

slurm

slurm部分配置

slurm配置

（1）JobRequeue

控制要重新排队的批作业的默认值。manager可能重新启动作业，例如，在计划停机之后、从节点故障恢复或者在被更高优先级的作业抢占时

This option controls the default ability for batch jobs to be requeued. Jobs may be requeued explicitly by a system administrator, after node failure, or upon preemption by a higher priority job

作业抢占的报错

slurmstepd: error: *** JOB 63830645 ON p08r06n17 CANCELLED AT 2020-08-18T21:40:52 DUE TO PREEMPTION ***

对于pcluster来说，任务失败会自动重新排队

（2）backfill

https://hpc.nmsu.edu/discovery/slurm/backfill-and-checkpoints/

当作业在回填分区中暂停时，当具有较高优先级的作业完成执行时，它将立即重新启动并从头开始计算

IBM的LSF对backfill解释的还比较清楚，但是不知道和slurm有什么区别

https://www.ibm.com/docs/en/spectrum-lsf/10.1.0?topic=jobs-backfill-scheduling

Introducing new backfill-based scheduler for SLURM resource manager

slurm常用命令

Slurm作业调度系统使用指南-USTC超算中心
Slurm资源管理与作业调度系统安装配置
北京大学国际数学中心微型工作站slurm使用参考

查看节点

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite      9  idle~ queue1-dy-c5large-[1-9]
queue1*      up   infinite      1  down~ queue1-st-c5large-1

提交任务

$ sbatch hellojob.sh

查看任务队列

$ squeue
JOBID PARTITION     NAME     USER    ST       TIME      NODES NODELIST(REASON)
1     queue1        hellojob ubuntu  R        0:01      1     queue1-st-c5large-1
$ squeue --format="%.3i %.9P %.40j %.8T %.10M %.6D %.30R %E"
JOB PARTITION                                     NAME    STATE       TIME  NODES            NODELIST(REASON)    DEPENDENCY
  2    queue1                              hellojob.sh  RUNNING       0:02      1            queue1-st-c5large-1 (null)
$ squeue --states=RUNNING -o "%i" --noheader
2

取消作业

$ scancel $(squeue --states=RUNNING -o "%i" --noheader)

查看计算结果

$ cat slurm-1.out
Hello World from queue1-st-c5large-1

可以使用ssh直接登录节点

$ ssh queue1-st-c5large-1

集群诊断和配置

$ sdiag
$ scontrol show config | grep -i time
BatchStartTimeout       = 10 sec
BOOT_TIME               = 2023-01-16T03:19:54
EioTimeout              = 60
EpilogMsgTime           = 2000 usec
GetEnvTimeout           = 2 sec
GroupUpdateTime         = 600 sec
LogTimeFormat           = iso8601_ms
MessageTimeout          = 60 sec
OverTimeLimit           = 0 min
PreemptExemptTime       = 00:00:00
PrologEpilogTimeout     = 65534
ResumeTimeout           = 1800 sec
SchedulerTimeSlice      = 30 sec
SlurmctldTimeout        = 300 sec
SlurmdTimeout           = 180 sec
SuspendTime             = 180 sec
SuspendTimeout          = 120 sec
TCPTimeout              = 2 sec
UnkillableStepTimeout   = 180 sec
WaitTime                = 0 sec
PMIxTimeout             = 300

提交示例负载程序

mpi示例程序

cat > hello.c << EOF
#include 
#include 

int main(int argc, char** argv) {
    // Initialize the MPI environment
    MPI_Init(NULL, NULL);

    // Get the number of processes
    int world_size;
    MPI_Comm_size(MPI_COMM_WORLD, &world_size);

    // Get the rank of the process
    int world_rank;
    MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);

    // Get the name of the processor
    char processor_name[MPI_MAX_PROCESSOR_NAME];
    int name_len;
    MPI_Get_processor_name(processor_name, &name_len);

    // Print off a hello world message
    printf("Hello world from processor %s, rank %d out of %d processors\n",
           processor_name, world_rank, world_size);

    // Finalize the MPI environment.
    MPI_Finalize();
}
EOF

运行结果

$ mpicc -o hello hello.c
$ mpirun -n 4 hello 
Hello world from processor ip-172-31-23-84, rank 0 out of 4 processors
Hello world from processor ip-172-31-23-84, rank 1 out of 4 processors
Hello world from processor ip-172-31-23-84, rank 2 out of 4 processors
Hello world from processor ip-172-31-23-84, rank 3 out of 4 processors

提交任务

cat > hello.sbatch << EOF 
#!/bin/bash
#SBATCH --job-name=hello-world
#SBATCH --ntasks-per-node=2
#SBATCH --output=/fsx/logs/%x_%j.out

set -x
module load openmpi
mpirun /home/ubuntu/hello
sleep 10
EOF
mkdir -p /fsx/logs
sbatch -N2 /home/ubuntu/hello.sbatch

查看计算结果和过程

$ cat hello-world_4.out
+ module load openmpi
+ mpirun /home/ubuntu/hello
Hello world from processor queue1-dy-c5large-1, rank 0 out of 4 processors
Hello world from processor queue1-dy-c5large-1, rank 1 out of 4 processors
Hello world from processor queue1-st-c5large-1, rank 3 out of 4 processors
Hello world from processor queue1-st-c5large-1, rank 2 out of 4 processors
+ sleep 10

非排他作业

#!/bin/bash
#SBATCH --output=/dev/null
#SBATCH --error=/dev/null
#SBATCH --job-name=sleep-inf
sleep inf
EOF

排他作业

cat > ~/slurm/sleep-exclusive.sbatch << EOF 
#!/bin/bash
#SBATCH --exclusive
#SBATCH --output=/dev/null
#SBATCH --error=/dev/null
#SBATCH --job-name=sleep-inf-exclusive
sleep inf
EOF

pcluster集群的网络配置

pcluster对集群的网络要求比较严格

vpc必须开启DNS Resolution和DNS Hostnames

可能的网络配置如下

（1）单个公有子网

子网启用自动分配公有ip
如果实例为多网卡，则需要开启EIP，因为公有 IP 只能分配给使用单个网络接口启动的实例

（2）头节点在公有子网，计算节点在nat私有子网

nat需要正确配置，代理计算节点流量
头节点配置同（1）

（3）使用dx连接http proxy

（4）私有子网

必须配置以下终端节点

Service	Service name	Type
Amazon CloudWatch	com.amazonaws.`region-id`.logs	Interface
Amazon CloudFormation	ccom.amazonaws.`region-id`.cloudformation	Interface
Amazon EC2	com.amazonaws.`region-id`.ec2	Interface
Amazon S3	com.amazonaws.`region-id`.s3	Gateway
Amazon DynamoDB	com.amazonaws.`region-id`.dynamodb	Gateway
Amazon Secrets Manager（AD功能需要）	com.amazonaws.`region-id`.secretsmanager	Interface

禁用route53（默认pcluster会创建，但是r53不支持vpc endpoint）并启动ec2的dns解析（使用ec2的dns主机名称）
```
Scheduling:
  ...
  SlurmSettings:
    Dns:
      DisableManagedDns: true
      UseEc2Hostnames: true
```
只支持slurm调度器

pcluster自定义ami

https://docs.aws.amazon.com/zh_cn/parallelcluster/latest/ug/building-custom-ami-v3.html

尽量使用节点自定义引导实现节点的自定义，而不是构建ami。因为ami需要在每次集群升级的时候重复构建新的ami

从3.0.0开始pcluster支持构建ami，pcluster依赖 EC2 Image Builder 服务来构建自定义 AMI

创建build配置，其中InstanceType和ParentImage是必须的，使用默认vpc启动构建实例（需要访问互联网），此处明确配置公有子网

https://docs.amazonaws.cn/zh_cn/parallelcluster/latest/ug/Build-v3.html

$ cat > image-config.yaml << EOF
Build:
  InstanceType: c5.4xlarge
  ParentImage: ami-0e726e5c50ce7e38f
  SubnetId: subnet-xxxxxxxxx
  SecurityGroupIds:
    - sg-xxxxxxxxx
  UpdateOsPackages:
    Enabled: true
EOF

image builder构建可能会花费1小时以上的时间，具体步骤如下

通过cloudformation创建基础设施
添加pcluster自定义组件

https://catalog.us-east-1.prod.workshops.aws/workshops/e2f40d13-8082-4718-909b-6cdc3155ae41/en-US/examples/custom-ami
构建完毕后启动新实例测试新的ami
构建成功删除堆栈

开始构建

$ pcluster build-image --image-configuration image-config.yaml --image-id myubuntu1804
{
  "image": {
    "imageId": "myubuntu1804",
    "imageBuildStatus": "BUILD_IN_PROGRESS",
    "cloudformationStackStatus": "CREATE_IN_PROGRESS",
    "cloudformationStackArn": "arn:aws-cn:cloudformation:cn-north-1:xxxxxxxxxxx:stack/myubuntu1804/f5c1b530-9592-11ed-ad5b-06bf38020c5c",
    "region": "cn-north-1",
    "version": "3.4.1"
  }
}

查看控制台imagebuilder，一共创建了3个components

启动新的ec2实例进行构建工作

查看构建日志

$ watch -n 1 'pcluster get-image-log-events -i myubuntu1804 \
        --log-stream-name 3.4.1/1 \
        --query "events[*].message" | tail -n 50'

查看镜像

$ pcluster describe-image --image-id myubuntu1804

删除镜像

$ pcluster delete-image --image-id myubuntu1804

列出官方镜像

$ pcluster list-official-images | grep -B 2 ubuntu1804

构建完毕后堆栈会自动删除

最佳实践

（1）实例类型

头节点协调集群的扩展逻辑，并负责将新节点连接到调度器，如果性能不足会导致集群崩溃

头节点通过nfs将任务与计算节点共享，需要确保足够和网络和存储带宽

以下目录在节点间共享

/home，默认的用户 home 文件夹
/opt/intel
/opt/slurm，Slurm Workload Manager 和相关文件

$ cat /etc/exports
/home 172.31.0.0/16(rw,sync,no_root_squash)
/opt/parallelcluster/shared 172.31.0.0/16(rw,sync,no_root_squash)
/opt/intel 172.31.0.0/16(rw,sync,no_root_squash)
/opt/slurm 172.31.0.0/16(rw,sync,no_root_squash)
$ sudo showmount -e 127.0.0.1
Export list for 127.0.0.1:
/opt/slurm                  172.31.0.0/16
/opt/intel                  172.31.0.0/16
/opt/parallelcluster/shared 172.31.0.0/16
/home                       172.31.0.0/16

（2）网络性能

使用置放群组，使用cluster策略实现最低的延迟和最高的每秒数据包网络性能
选择支持增强联网，使用EFA类型实例
保证实例具备足够的网络带宽

（3）共享存储

使用fsx或efs等外部存储，避免数据损失，便于集群迁移
使用 custom bootstrap actions 来定制节点，而非使用自定义ami

（4）集群监控

使用sar收集日志
使用node exporter收集指标

相关错误

集群自定义配置脚本出错，bash脚本格式问题，在windows下编辑的换行符问题

[ERROR] Command runpostinstall (/opt/parallelcluster/scripts/fetch_and_run -postinstall) failed
2023-01-16 03:01:40,474 [DEBUG] Command runpostinstall output: /opt/parallelcluster/scripts/fetch_and_run: /tmp/tmp.wI9VD7fhQs: /bin/bash^M: bad interpreter: No such file or directory
parallelcluster: fetch_and_run - Failed to run postinstall, s3://parallelcluster-2e9f54dea72c8134-v1-do-not-delete/script/hello.sh failed with non 0 return code: 126

构建自定义ami报错（日志来自image builder），pcluser命令行版本3.1.4，ami对应pcluster版本为3.2.1，报错如下

================================================================================
Stdout: Recipe Compile Error in /etc/chef/local-mode-cache/cache/cookbooks/aws-parallelcluster/attributes/conditions.rb
Stdout: ================================================================================
Stdout: 
Stdout: RuntimeError
Stdout: ------------
Stdout: This AMI was created with aws-parallelcluster-cookbook-3.2.1, but is trying to be used with aws-parallelcluster-cookbook-3.1.4. Please either use an AMI created with aws-parallelcluster-cookbook-3.1.4 or change your ParallelCluster to aws-parallelcluster-cookbook-3.2.1

Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
十、大数据资源平台功能架构 moton2017 大数据治理大数据大数据治理数据资产数据管理元数据架构数据资源
一、大数据资源平台的功能架构图总体结构大数据资源平台功能架构图关键组件：1.用户（顶行）此部分标识与平台交互的各种利益相关者。其中包括：市领导各部门分析师区政府外部组织公民开发人员运营经理2.功能模块（顶部水平部分）这些代表平台的主要功能区域：门户（Portal）：用户访问平台的入口。开放中心（开放中心）：方便数据共享和访问。共享中心（共享中心）：管理数据共享和协作。运营中心：监控和管理平台的运营
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
Java进阶-在Ubuntu上部署SpringBoot应用 m0_74823611 面试学习路线阿里巴巴 java ubuntu spring boot
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Java作为一种跨平台的编程语言，具有广泛的应用场景。本文将详细介绍如何在Ubuntu服务器上部署Java应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04）的服务器，具
HTML5期末大作业：基于 html css js仿腾讯课堂首页 web学生网页设计 web前端 css dreamweaver html html5期末作业
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
AWS Security Finding Format (ASFF) 与 yolov3 with mobilenet v2 的集成教程侯忱励
AWSSecurityFindingFormat(ASFF)与yolov3withmobilenetv2的集成教程ASFFyolov3withmobilenetv2andASFF项目地址:https://gitcode.com/gh_mirrors/as/ASFF1.项目介绍ASFF，全称是AWSSecurityFindingFormat，是由AWS设计的一种标准安全发现格式，用于在Securit
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
Java本地缓存技术选型（Guava Cache、Caffeine、EhCache）子龙技术 java
前言对一个java开发者而言，提到缓存，第一反应就是Redis。利用这类缓存足以解决大多数的性能问题了，我们也要知道，这种属于remotecache（分布式缓存），应用的进程和缓存的进程通常分布在不同的服务器上，不同进程之间通过RPC或HTTP的方式通信。这种缓存的优点是缓存和应用服务解耦，支持大数据量的存储，缺点是数据要经过网络传输，性能上会有一定损耗。与分布式缓存对应的是本地缓存，缓存的进程和
从0-1学习Mysql第七章: 分区与分库分表一小路一掌握 Go 语言：编程世界的进阶钥匙学习 mysql 数据库后端面试
第七章:分区与分库分表在大数据时代，单个数据库或表往往难以应对海量数据带来的存储、查询和维护压力。分区、分表和分库分表技术正是在这种背景下应运而生。它们通过将数据进行逻辑或物理拆分，实现数据管理的灵活性和系统性能的优化。1.分区表的概念与使用场景1.1什么是分区表？分区表是将一个大表按照某种规则（如范围、列表、哈希等）划分为多个逻辑子表的技术。虽然物理上数据仍存储在同一张表内，但查询时数据库可以根
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
天气API接口在日常生活与商业决策中的应用 FB13713612741 python
天气，作为自然界中最不可控却又对人类活动影响巨大的因素之一，其变化无常的特性使得人们长期以来都在寻找预测和控制它的方法。随着科技的进步，尤其是互联网和大数据技术的发展，天气信息的获取和应用变得更加便捷和高效。天气API接口，作为连接天气数据与各类应用的桥梁，正逐步渗透到我们日常生活的方方面面，并在商业决策中发挥着越来越重要的作用。一、天气API接口的基本概念与技术原理天气API接口是一种提供天气数
大数据最全大模型入门到应用——LangChain：索引（Indexes）-[文本分割器 2401_84182507 程序员 langchain
分类目录：《大模型从入门到应用》总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM（HumanInputLLM）缓存LLM的调用结果加载与保存LLM类、流式传输LLM与ChatMod
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
2025届毕业设计选题参考，包含网站管理系统开发，微信小程序开发，APP开发，大数据分析，人工智能平姐设计计算机毕业设计选题清单微信小程序开发语言人工智能数据分析
网站开发选题：1、基于Java的企业食堂管理系统的设计与实现2、基于web的办公平台3、综合学工服务系统4、超市管理系统5、基于springboot的云笔记共享系统6、毕业生实习管理系统7、驾校预约管理系统8、基于Java的航空订票系统9、企业资源规划系统10、洗衣房预约管理系统的设计与实现11、桌面端有声小说12、基于Python的毕业生就业率分析管理系统的设计与实现13、基于VUE的富平县农产
十分钟了解大数据处理的五大关键技术及其应用 IT时代周刊 2019年5月大数据程序员编程语言 hadoop
其中主要工作环节包括：♦大数据采集、♦大数据预处理、♦大数据存储及管理、♦大数据分析及挖掘、♦大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取
【FL0091】基于SSM和微信小程序的社区二手物品交易小程序猿毕设小程序微信小程序 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
Java中的堆外内存：DirectByteBuffer与Unsafe 吴晓斌kobe Java学习 java 堆外内存 Unsafe
在Java中，堆内存（Heap）是JVM管理的内存区域，用于存储对象实例。然而，Java还支持使用堆外内存（Off-HeapMemory），即直接操作操作系统分配的内存。堆外内存的使用场景广泛，尤其是在需要高性能、低延迟的应用中，如网络通信、文件IO、大数据处理等。本文将深入探讨堆外内存的使用场景、性能优势及潜在风险，并通过代码实战展示如何使用DirectByteBuffer和Unsafe来操作堆
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
汽车行业大数据应用的主要方向数据科学智慧大数据
汽车行业大数据应用的主要方向随着技术的不断发展和智能化的浪潮，大数据在汽车行业中的应用越来越广泛。下面将介绍汽车行业大数据应用的主要方向，并提供相关的源代码示例。智能驾驶与自动驾驶大数据在智能驾驶与自动驾驶技术中起着重要的作用。通过收集和分析大量的车载传感器数据、地图数据、交通状况数据等，可以实现实时的环境感知、路径规划和决策，从而提高驾驶安全性和效率。以下是一个简单的示例代码，展示了如何使用大数
基于Prometheus和Grafana的现代服务器监控体系构建丁爸运维服务器
1.简介1.1.概述基于Prometheus和Grafana的现代服务器监控体系是一种高效、灵活的监控解决方案，广泛应用于云计算和微服务架构的环境中。以下是这一监控体系的概述：Prometheus：Prometheus是一个开源的系统监控和警报工具包，由SoundCloud开发并维护。它具有强大的数据收集能力、灵活的查询语言以及与微服务架构的无缝集成。Prometheus的核心概念包括时间序列数据
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
DataFlow 模型是什么？ Shockang 大数据理论体系大数据 big data
前言本文隶属于专栏《100个问题搞定大数据理论体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见100个问题搞定大数据理论体系正文WHY无界、无序、全球规模的数据集在日常业务中越来越常见（例如网络日志、移动使用统计和传感器网络）。与此同时，这些数据集的消费者已经进化出复杂的要求，例如事件时间排序和按数据本身的特征进行窗口，此外，他们贪得无
【奥卡姆剃刀原理-如何理解云计算和边缘计算关键字摘取】严文文-Chris 科学思维修炼云计算边缘计算人工智能
云计算可能还是你相对熟悉的概念。通俗来说，就是把计算任务从本地挪到远程，往往是挪到一个大的计算中心。在那里完成计算之后，再把计算结果返回本地。这样本地就不用部署很强的硬件搞计算了。而边缘计算的介绍大都说，这是把一部分计算任务放在分散各处的本地去完成，这样可以减少云服务器的计算压力，也能缓解传输带宽上的压力。然后再套上其他流行词，比如边缘计算特别适用于物联网、车联网、AR/VR等应用场景。奥卡姆剃刀
如今传统企业如何做数字化转型？年少有为2025 saas 小程序开发 big data 人工智能大数据产品运营架构
什么是数字化转型？“数字化转型”实际上就是对业务过程进行的重塑，通过重塑使其默认就更加适应更全面的在线环境，从最终用户的接触到后端的办公室工作，全面实现无需人工接入的过程自动化。广义上的数字化，强调的是数字技术对商业网的重塑，信息技术能力。不只是单纯的解决企业的降本增效的问题，而是成为赋能企业商业模式创新和突破的核心力量。“数字化转型就是利用数字化技术，如云计算、大数据、人工智能、物联网、区块链等
深信服与泛微达成战略合作，携手打造安全可控统一身份管控平台与专属移动APP 泛微OA办公系统泛微深信服令信通统一身份
近日，网络安全知名厂商——深信服与泛微达成战略合作，双方将充分发挥在各自领域的专业优势与资源积累，从品牌、产品、技术、渠道等多方面展开深度合作。双方发挥深信服网络安全、云计算与泛微协同管理软件的组合服务优势，在统一身份管控平台与移动数字化产品上实现集成合作，共同助力组织打造：系统更安全、身份更可控、访问更灵活的全程数字化运营平台。强强联合·展开全方位合作-共同服务好客户-01.深信服·零信任平台&
【2024软考架构案例题】你知道 Es 的几种分词器吗？Standard、Simple、WhiteSpace、Keyword 四种分词器你知道吗？激流丶日常 elasticsearch 大数据搜索引擎
博主介绍：博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家，WEB架构师，阿里云专家博主，华为云云享专家，51CTO专家博主⛪️个人社区：个人社区个人主页：个人主页专栏地址：✅Java中级八股文专题：剑指大厂，手撕Java八股文文章目录1.什么是Standard分词器？2.什么是Simple分词器？3.什么是WhiteSpace分词器？4.什么是Keyword分词器？
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓