计算产业定义
计算是使用计算机的任何活动,它包括开发硬件和软件,并使用计算机来管理、处理和通信各种用途的信息。——维基百科
计算产业是IT技术的基础,是每一次产业变革的驱动力,从云计算、大数据、人工智能,到区块链、边缘计算、物联网都离不开强大的计算能力的支持。
描述HPC的概念
描述HPC常用的架构
描述HPC各层的解决方案
描述HPC的典型案例
HPC是高性能计算(High Performance Computing)
HPC指使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境,通常是将大规模运算任务拆分并分发到各个服务器上进行并行运算,再将计算结果汇总得到最终结果。
什么是边缘计算
边缘计算是边缘节点融合网络、计算、存储、控制和应用的一种计算架构,满足用户
实时、智能、数据聚合和安全的需求。
什么是智能边缘计算
智能边缘计算就是将简单的边缘节点智能化,将云上AI能力下沉到边缘节点,做到本地处理。边缘计算减轻了传统云计算架构的计算负担,作为其补充或延伸,形成云边协同的计算架构。
什么是人工智能
人工智能是利用数字计算机或者数字计算机控制的机器来模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能依赖超高计算性能。
什么是机器学习
机器学习是对能通过经验自动改进的计算机算法的研究。
本质
机器学习的本质是空间搜索和函数的泛化。
总结过去,预测未来。
通俗理解
机器学习,是计算的反问题(逆运算)。
HPC通用架构
高性能计算系统由管理网络、计算网络、存储网络三张网组成。
由计算节点、胖节点、加速节点、管理节点、登录节点、以及并行文件系统组成。
三种计算节点:
计算节点(瘦节点):高性能刀片或者机架服务器
胖服务器节点:SMP架构高性能服务器、具备多个CPU和大内存容量。
GPU计算节点:服务器中安装GPGPU卡,使用GPU进行运算加速。
三平面组网:
计算网络:用于计算过程中的消息传递
管理网络:用于集群系统管理
存储网络:用于存储或者数据传输
1.通过案例学习配置调试
2.iBMC 通过案例学习配置调试 RAID
3.通过案例学习配置调试 BIOS
某防灾学院的监测地震平台,采用机架服务器以改善数据读取速度慢、维护成本高等现状。现该学院想在这台服务器上做基本的配置调试来达到最终需求。
服务器的硬盘一般都需要配置 RAID 后,才能被控制器识别。配置 RAID 的目的在于减少错误、提高系统的性能与可靠性。
学习理解 Ansible 的安装部署模式和场景;
学习 Ansible 的 ad-hoc 命令批量管理服务器;
学习 Playbook 配置调试部署Nginx。
为了提升工作效率,消除重复任务,降低错误风险,要求尽量减少对现网服务器的改动, 因此在目前 4 大主流的运维自动化工具 (Puppet,SaltStack, Chef, Ansible) 中选择Ansible 来实现运维管理自动化。
Ansible 是一种 IT 自动化工具。它可以配置系统,部署软件以及协调更高级的 IT 任务,例如持续部署,滚动更新。Ansible 适用于管理企业 IT 基础设施,从具有少数主机的小规模到数千个实例的企业环境。
Ansible 也是一种简单的自动化语言,可以完美地描述 IT应用程序基础结构。
确认业务环境
管理端配置:
Python 版本: 2.7
操作系统:CentOS 7.2
IP 地址:192.168.1.100
被管理端配置:
Python 版本: 2.7
操作系统:CentOS 7.2
SSH 服务器软件:OpenSSH
Host01 的 IP 地址:192.168.1.101
Host02 的 IP 地址:192.168.1.102
Host03 的 IP 地址:192.168.1.103
注:建议实验环境为三台主机,一台作为管理节点,两台作为被管理节点。在本次实验设备配置中为两台,验证控制与被控制功能即可。
yum -y install epel-release ansible
yum install -y openssh-server python
ssh-keygen
ssh-copy-id 192.168.1.101
ssh-copy-id 192.168.1.102
ssh-copy-id 192.168.1.103
vi /etc/ansible/ansible.cfg
[defaults] #通用默认配置
inventory = /etc/ansible/hosts #被控制端IP或者DNS列表
forks = 5 ##并行线程数
remote_port = 22 ##远程SSH端口
host_key_checking = False ##是否检查远程主机密钥
timeout = 10 ##SSH超时时间
log_path = /var/log/ansible.log ##日志文件存放路径
private_key_file = /root/.ssh/id_rsa ##私钥文件存储位置
cat /etc/ansible/host
[webservers]
192.168.1.101
192.168.1.102
192.168.1.103
##测试各个远程主机组 webservers 连通性
ansible webservers -m ping
##查看远程主机组 webservers 的 eth0 网卡信息
ansible webservers -m command -a 'ip addr show dev eth0'
##执行远程主机脚本 test.sh
ansible webservers -m shell -a "/home/test.sh"
more test.sh
echo "Welcome to Huawei Cloud"
chmod 777 test.sh
##主控端向目标主机拷贝 test.sh 文件到/tmp/目录下,并设置该文件所有者和所属组为 root,文件权限为 rwxr-xr-x
ansible webservers -m copy -a "sec=/home/test.sh dest=/tmp/ owner=root group=root mode=0755"
##验证
ansible webservers -a “ls /home/”
##查看远程主机组 webservers 中/etc/sysctl.conf 的 uid,gid 信息
ansible webservers -m stat -a “path=/etc/sysctl.conf”
##安装 httpd 到所有远程主机组 webservers 上
ansible webservers -m yum -a "name=httpd state=latest disable_gpg_check=yes enablerepo=epel"
##开启远程主机组 webservers http 服务,并查看服务状态
##启动
ansible webservers -m servicee -a "name=httpd state=restarted"
##查看
ansible webservers -a "systemctl status httpd"
##停止
ansible webservers -m servicee -a "name=httpd state=stopped"
##在远端服务器组 webservers 上创建/home/f1 文件,并删除/home/f1
ansible all -m file -a 'name=/home/fi state=touch'
ansible all -m file -a 'name=/home/fi state=absent'
# main.yml
---
- hosts: webservers
task:
- name:Add repo
yum repository:
name:nginx
desciption:nginx repo
baseurl:http://nginx.org/packages/centos/7/$basearch/
gpgcheck:no
enabled:1
- name:Install nginx
yum:
name:nginx
state:latest
- name:Start nginx
service:
name:nginx
state:started
执行playbook: ansible-playbook main.yml
M 公司通过前期的立项调研,决定将部署建立 HPC 云仿真平台,已经完成对存储和计算平台产品选型。
假如您是工程师 A,请将 HPC 场景和普通服务器场景(如服务器虚拟化)作对比。从计算、存储、网络三个维度做出总结。
请分析 HPC 场景的计算、存储和网络部分产品与普通计算场景项目的差异。
高性能计算系统由管理网络、计算网络、存储网络三张网组成。
由计算节点、胖节点、加速节点、管理节点、登录节点、以及并行文件系统组成。
三种计算节点:
计算节点(瘦节点):高性能刀片或者机架服务器
胖服务器节点:SMP架构高性能服务器、具备多个CPU和大内存容量。
GPU计算节点:服务器中安装GPGPU卡,使用GPU进行运算加速。
三平面组网:
计算网络:用于计算过程中的消息传递
管理网络:用于集群系统管理
存储网络:用于存储或者数据传输
类型 | 特点 | 应用场景 |
---|---|---|
MPI计算节点(瘦节点) | 一般是2路服务器组成集群 | MPI集群计算,适用于绝大多数HPC应用,一般项目中MPI节点配置数量最多 |
SMP计算节点 | 4路或者8路服务器,内存容量大 | 适用于对单节点有大内存需求的应用,一般内存配置在512G以上 |
GPU计算节点 | 通过协处理器GPU/PHI加速运算,一般要求有1GPU/node、2GPU/node、4GPU/node | 一些HPC应用支持GPU计算加速,比如生命科学和石油勘探领域的部分软件,推荐配置NVIDIA tesla系列的GPU进行计算加速 |
相关手册链接: HCIA-Intelligent Computing V1.0 实验手册.pdf .
相关手册链接: HCIA-Intelligent Computing V1.0 实验手册.pdf .
// An highlighted block
1.(单选) 以下关于HPC高性能计算的说法错误的是( )
A. HPC即高性能计算,指以计算为目的,使用了很多处理器的单个计算机系统或使用了多台计算机集群的计算系统和环境
B. 早期HPC基于定制计算机,专用于基础科学研究和国防战略等特定领域,随着技术的发展,现在绝大部分HPC基于X86服务器的集群架构进行构建
C. HPC计算集群主要由计算服务器、共享存储、高速互连设备以及配套的管理软件、平台软件和应用软件构成
D. HPC就是超级计算,是用计算机去研究、设计产品及支持复杂的决策
2.(多选) 以下哪些场景属于HPC的典型应用( )
A. 卫星测绘
B. 气象科学
C. 航空航天
D. 能源勘探
3.(单选) 华为的智能边缘体系架构具有全栈立体能力,以下在智能边缘体系架构中的硬件层面不属于华为产品是( )
A. 基于AI处理器的高性能加速卡Atlas 300
B. 智能服务器G2500
C. 智能小站Atlas 500
D. InfiniBand网卡
4.(多选) 下面哪些是属于华为Altlas系列产品( )
A. Atlas 200 AI加速模块
B. Atlas 300 AI加速卡
C. Atlas 500 智能小站
D. X6800 高密服务器
E. Atlas 800 深度学习系统
5.(判断) 智能计算的本质包括:打破CPU边界,打破服务器边界,打破数据中心边界,围绕“算、管、AI、存、传”等系列芯片,打造覆盖云、边、端的全栈全场景智能解决方案。
A. TRUE
B. FALSE
6.(单选) 下列哪一项不是CPU处理器的组成部分?
A. 寄存器
B. 逻辑运算单元
C. 控制单元
D. 进程
7.(多选) 下列处理器类型中采用的指令集指令数少,芯片利用率高的是?
A. ARM
B. X86
C. PowerPC
D. MIPS
8.(单选) 系列关于RISC指令集架构说法错误的是( )
A. RISC 设计者把主要精力放在那些经常使用的指令上,尽量使它们具有简单高效的特色
B. 在RISC 机器上实现特殊功能时,效率可能较低
C. RISC 汇编语言程序一般需要较大的内存空间,实现特殊功能时程序复杂,不易设计
D. RISC CPU 包含有丰富的电路单元,因而功能强、面积大、功耗大
9.(判断) MIPS以RISC技术为基础,再加上MIPS架构中的可扩展硬软件设计,使得MIPS的解决方案比ARM的同类解决方案性能更高、功耗更低且面积更小。
A. TRUE
B. FALSE
10.(单选) ARMv7架构以后,ARM的处理器架构命名改为Cortex,华为自研的手机处理器芯片麒麟使用的是哪一种ARM架构( )
A. Cortex-A
B. Cortex-R
C. Cortex-M
11.(多选) 下列关于鲲鹏架构和X86对比的说法正确的是( )
A. X86架构采用重核、多核、多线程、高主频的方式提供算力
B. 鲲鹏架构采用轻核、众核的方式提供算力
C. 在PC领域X86和鲲鹏架构生态都比较成熟
D. X86架构采用CISC架构
12.(单选) ARM 微处理器已遍及工业控制、消费类电子产品、通信系统、网络系统、无线系统等各类产品市场,下列关于ARM架构特点描述错误的是( )
A. 同样功能、性能占用的芯片面积小、功耗低、集成度更高,更多的硬件CPU核具备更好的并发性能
B. 支持16位、32位、64位多种指令集,能很好的兼容从IOT、终端到云端的各类应用场景
C. 大量使用寄存器,大多数数据操作都在寄存器中完成,指令执行速度更快
D. 采用复杂指令集,处理效率高
13.(单选) 异构计算是继单核计算,多核并行计算之后新的计算模型,下列关于异构计算的背景描述错误的是( )
A. 摩尔定律越来越接近物理极限,提升单核性能的难度和成本越来越高
B. 多核并行带来的性能提升是有限的,随着并行度的提升,散热和能耗的问题也日益突出
C. 异构计算最大化地发挥各处理器的性能,把最适合的任务交给最擅长的计算单元
D. NUMA是异构计算的一种模式
14.(单选) 下列不属于GPU典型应用场景的是?
A. HPC 高性能加速场景
B. 通用计算,完成复杂逻辑运算
C. HPC混合应用高吞吐量场景
D. 视频图像处理场景
15.(多选) 以下关于异构计算特点理解正确的是( )
A. 异构计算就是制定出一系列软件与硬件的标准,让不同类型的计算设备能够共享计算的过程和结果
B. 异构计算的目的主要是为了解决 CPU 计算能力不足的问题
C. 常见的异构系统架构有:CPU + GPU, GPU + FPGA,CPU + 专用芯片
D. GPU和CPU协同工作可组成异构计算系统,异构计算的优势为计算加速和节能
16.(判断) 2017年柯洁与AlphaGo的人机大战2.0可以说是吸引无数人关注,Google使用的芯片是一种称为TPU的ASIC芯片。
A. TRUE
B. FALSE
17.(多选) 常见的硬件计算平台包括CPU、GPU、ASIC和FPGA。能实现多个处理单元同时执行不同指令流的高性能可编程芯片是( )
A. GPU
B. ASIC
C. FPGA
D. CPU
18.(单选) 以下对华为智能管理软件FusionDirector功能及特性的理解,错误的是( )
A. FusionDirector可完成智能软件管理、故障管理、资产管理、功耗管理、自动部署管理等
B. 可支持自动下发BMC、BIOS、RAID配置和OS安装
C. 目前FusionDirector还不能支持第三方服务器的初始化配置
D. FusionDirector支持微服务化架构,Scale-out架构,可水平弹性扩展,多节点多活架构
19.(多选) 微处理器常用指令集有精简指令集、复杂指令集、显示并行指令集等,下列关于指令集的说法正确的是( )
A. 复杂指令集微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的
B. 精简指令集对指令数目和寻址方式都做了精简,使其实现更容易,指令并行执行程度更好,编译器的效率更高
C. 显示并行指令集允许处理器根据编译器的调度并行执行指令而不用增加硬件复杂性,该架构由超长指令字架构发展而来,并做了大量改进
D. 超长指令字指令集将多条指令放入一个指令字,有效的提高了CPU各个计算功能部件的利用效率,提高了程序的性能
20.(多选) iBMC提供了丰富的接口,以下属于的是( )
A. Web界面的用户接口
B. SNMP集成接口
C. Redfish集成接口
D. IPMI集成接口
答案:
1 D / 2 ABCD / 3 D / 4 ABCE / 5 A / 6 D / 7 ACD / 8 D / 9 A / 10 A / 11 ABD / 12 D / 13 D / 14 B / 15 ABD / 16 A / 17 BC / 18 C / 19 ABCD / 20 ABCD