【RDMA】RDMA通信测试工具|RDMA信息查询工具

目录

 RDMA性能测试工具集-perftest 

perftest安装

RDMA性能测试(测试性能如何)

ibv_xxx_pingpong(带宽和往返时间)

ib_send_bw/ ib_write_bw(带宽)

ib_send_lat\ib_write_lat   (时延)

ceph_perf_msgr_client/ceph_perf_msgr_server

RDMA功能测试(测试能不能工作)

 ibping

udaddy(测试RDMA能否建立连接)

 rdma_server, rdma_client (ping-pong测试)

rping

ucmatose(建立连接,传输数据)

 其他测试工具:qperf

 验证RDMA内核模块是否已加载

LINUX 查看安装的网卡

检查主机上是否有可用的RDMA网卡

ibv_devices

 ibv_devinfo

ibstat

  报错记录


本文作者:bandaoyu @UESTC  不断改进中,请到原文:https://blog.csdn.net/bandaoyu/article/details/115798045

验证Linux主机是否支持RDMA_祈晴小义-CSDN博客

 RDMA性能测试工具集-perftest 

perftest安装

1、下载源码:

wget https://github.com/linux-rdma/perftest

2、查阅REDME,按指导安装

安装依赖:

yum -y install automake &&yum -y install libtool &&yum -y install pciutils-devel

cd perftest/

./autogen.sh

./configure    Note:If you want to install in a specific directory use the optional flag --prefix= , e.g: ./configure --prefix=

make && make install

sudo ./autogen.sh&&sudo ./configure&&sudo make&&sudo make install

报错:

[root@localhost perftest-master]# ./autogen.sh
./autogen.sh: line 5: aclocal: command not found
./autogen.sh: line 6: libtoolize: command not found
./autogen.sh: line 7: autoheader: command not found
./autogen.sh: line 8: automake: command not found
./autogen.sh: line 9: autoconf: command not found
原因:

缺少automake

解决方法:安装

yum -y install automake

报错:libtoolize: command not found


原因:缺少libtool

解决方法:安装

yum -y  install  libtool

报错:configure: error: pciutils header files not found, consider installing pciutils-devel原因:缺少pciutils-devel

解决方法:安装

yum -y  install  pciutils-devel


RDMA性能测试(测试性能如何)

RDMA性能测试工具集-perftest

ib_send_lat 	latency test with send transactions
ib_send_bw 	bandwidth test with send transactions
ib_write_lat 	latency test with RDMA write transactions
ib_write_bw 	bandwidth test with RDMA write transactions
ib_read_lat 	latency test with RDMA read transactions
ib_read_bw 	bandwidth test with RDMA read transactions
ib_atomic_lat	latency test with atomic transactions
ib_atomic_bw 	bandwidth test with atomic transactions

连接https://github.com/linux-rdma/perftest

注意,性能测试时,注意cpu、内存等是否会成为瓶颈。

ibv_xxx_pingpong(带宽和往返时间)

使用ibv_xxx_pingpong可以测试RDMA设备的流量发送功能:

# 在服务端
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1
  local address:  LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
  remote address: LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
8192000 bytes in 0.01 seconds = 11821.07 Mbit/sec
1000 iters in 0.01 seconds = 5.54 usec/iter

#在客户端 192.168.10.27是服务端的地址
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1 192.168.10.27
  local address:  LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
  remote address: LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
8192000 bytes in 0.01 seconds = 11797.66 Mbit/sec
1000 iters in 0.01 seconds = 5.55 usec/iter

Syntax

ibv_rc_pingpong [-p TCP_port][-d device][-i IB_port][-s size][-r depth] [-n iters][-l level][-e][-h][IP_address]

where:

  • TCP_port is the TCP port.

  • device is the InfiniBand device.

  • IB_port is the InfiniBand port.

  • size is the size of the ping-pong messages.

  • depth is the number of depth receives to post at one time.

  • iters is the number of message exchanges.

  • level is the service level of the queue pair.

  • IP_address is the IP address of the remote node host.

说明ibv_rc_pingpong Command - Sun Datacenter InfiniBand Switch 648 Topic Set

Options:
  -p, --port=         listen on/connect to port (default 18515)
  -d, --ib-dev=        use IB device (default first device found)
  -i, --ib-port=      use port of IB device (default 1) -s, --size=         size of message to exchange (default 4096)
  -m, --mtu=          path MTU (default 1024)
  -r, --rx-depth=      number of receives to post at a time (default 500) -n, --iters=       number of exchanges (default 1000)
  -l, --sl=             service level value
  -e, --events              sleep on CQ events (default poll)
  -g, --gid-idx= local port gid index
  -c, --contiguous-mr       use contiguous mr
  -t, --inline-recv=  size of inline-recv
  -a, --check-nop           check NOP opcode
  -o, --odp                 use on demand paging
  -u, --upstream            use upstream API
  -t, --upstream            use upstream API
  -z, --contig_addr         use specifix addr for contig pages MR, must use with -c flag
  -b, --ooo                 enable multipath processing
  -j, --memic               use device memory

ib_send_bw/ ib_write_bw(带宽)

基本用法:

在A服务器上运行

# ib_send_bw  -d  rocepxxx        # rocepxxx 是A服务器上IP为192.168.5.232的device
在B服务器上运行:

# ib_send_bw  -d  rocep94s0f0 192.168.5.232  --report_gbits -F    #rocep94s0f0是B服务器上IP网段为192.168.5.xxx的device
原文链接:https://blog.csdn.net/bandaoyu/article/details/115791233

 ib_send_bw -h查看可知,-a 参数可msg size 递增测试出最大带宽的msg size

[root@localhost ~]# ib_write_bw -R  -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R  -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F

#bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
 2          30000000         0.00               12.97              6.801028
 4          30000000         0.00               25.88              6.784450
 8          30000000         0.00               47.67              6.247553
 16         30000000         0.00               73.35              4.806851
 32         30000000         0.00               144.83             4.745852
 64         30000000         0.00               288.74             4.730646
 128        30000000         0.00               578.88             4.742147
 256        30000000         0.00               1154.31            4.728070
 512        30000000         0.00               2303.88            4.718350
 1024       30000000         0.00               4336.23            4.440301
 2048       30000000         0.00               4390.40            2.247886
 4096       30000000         0.00               4409.06            1.128718
……

其他例子:

(mellonx)server、client:

ib_write_bw  -d mlx5_0  -i 1 -x 5 --rdma_cm  --tos=33 -n 10000000 -s 1M

ib_write_bw 172.17.31.51 -d mlx5_1  -i 1 -x 5 --rdma_cm  --tos=33 -n 10000000 -s 1M

(intel)server、client:

[root@localhost ~]# ib_write_bw -R  -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R  -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F

启用多个QP

 ib_write_bw -h
 Usage:
  ib_write_bw            start a server and wait for connection
  ib_write_bw             connect to server at

Options:
  -a, --all  Run sizes from 2 till 2^23
  -b, --bidirectional  测量双向带宽(默认为单向)
  -c, --connection=  连接类型RC / XRC / UC / DC(默认RC)
  -d, --ib-dev=  使用IB设备(找到第一个默认设备)
  -D, --duration  在自定义的秒数内运行测试。
  -f, --margin  measure results within margins. (default=2sec)
  -F, --CPU-freq  即使已加载cpufreq_ondemand模块,并且cpu-freq不在最大值,也不会显示警告。
  -h, --help  Show this help screen.
  -i, --ib-port=  使用IB设备的端口<端口>(默认1)
  -I, --inline_size=  Max size of message to be sent in inline
  -l, --post_list= Post list of WQEs of size (instead of single post)
  -L, --hop_limit=  设置跳数限制值(对于IPv4 RawEth QP,为ttl)。值0-255(默认64)Set hop limit value (ttl for IPv4 RawEth QP). Values 0-255 (default 64)
  -m, --mtu=  MTU size : 256 - 4096 (default port mtu)
  -n, --iters=  交换次数(至少5次,默认为5000次)
  -N, --noPeak 取消峰值BW计算(默认情况下峰值不超过iters = 20000)
  -O, --dualport  在双端口模式下运行测试。(Run test in dual-port mode.)
  -p, --port=  Listen on/connect to port (default 18515)
  -q, --qp=  qp的数量(默认为1)
  -Q, --cq-mod  仅在<-cq-mod>完成后生成Cqe
  -R, --rdma_cm  Connect QPs with rdma_cm and run test on those QPs
  -s, --size=  (每个QP)交换消息的大小(默认为65536)
  -S, --sl=  SL (default 0)
  -t, --tx-depth=  发送队列(tx)的大小(默认为128)
  -T, --tos=  Set to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)
  -u, --qp-timeout= QP超时,超时值为4 usec * 2 ^(超时),默认值为14
  -V, --version  显示版本号
  -w, --limit_bw=  设置验证器带宽限制(Set verifier limit for bandwidth)
  -x, --gid-index=  Test uses GID with GID index (Default : IB - no gid . ETH - 0)
  -y, --limit_msgrate=  Set verifier limit for Msg Rate
  -z, --com_rdma_cm  Communicate with rdma_cm module to exchange data - use regular QPs

      --cpu_util  在报告中显示CPU使用率,仅在持续时间模式下有效(Show CPU Utilization in report, valid only in Duration mode )
      --dlid  Set a Destination LID instead of getting it from the other side.
      --dont_xchg_versions  Do not exchange versions and MTU with other side 
      --force-link=  Force the link(s) to a specific type: IB or Ethernet.
      --ipv6  Use IPv6 GID. Default is IPv4
      --mmap=file  Use an mmap'd file as the buffer for testing P2P transfers.
      --mmap-offset=  Use an mmap'd file as the buffer for testing P2P transfers.
      --mr_per_qp  Create memory region for each qp.
      --odp  Use On Demand Paging instead of Memory Registration.
      --output=   设置详细度输出级别:带宽,message_rate,延迟 Set verbosity output level: bandwidth , message_rate, latency 
 Latency measurement is Average calculation 
      --perform_warm_up Perform some iterations before start measuring in order to warming-up memory cache, valid in Atomic, Read and Write BW tests
      --pkey_index= PKey index to use for QP
      --report-both  Report RX & TX results separately on Bidirectinal BW tests
      --report_gbits  Report Max/Average BW of test in Gbit/sec (instead of MB/sec)
        Note: MB=2^20 byte, while Gb=10^9 bits. Use these formulas for conversion:
        Factor=10^9/(20^2*8)=119.2; MB=Gb_result * factor; Gb=MB_result / factor
      --report-per-port  Report BW data on both ports when running Dualport and Duration mode
      --reversed  Reverse traffic direction - Server send to client
      --run_infinitely  永久运行测试,每隔秒打印结果
      --retry_count=  Set retry count value in rdma_cm mode
      --tclass=  Set the Traffic Class in GRH (if GRH is in use)
      --use_exp  Use Experimental verbs in data path. Default is OFF.
      --use_hugepages  Use Hugepages instead of contig, memalign allocations.
      --use_res_domain  Use shared resource domain
      --verb_type=  Set verb type: normal, accl. Default is normal.
      --wait_destroy=  Wait before destroying allocated resources (QP/CQ/PD/MR..)

 Rate Limiter:
      --burst_size= Set the amount of messages to send in a burst when using rate limiter
      --typical_pkt_size= Set the size of packet to send in a burst. Only supports PP rate limiter
      --rate_limit= Set the maximum rate of sent packages. default unit is [Gbps]. use --rate_units to change that.
      --rate_units= [Mgp] Set the units for rate limit to MBps (M), Gbps (g) or pps (p). default is Gbps (g).
        Note (1): pps not supported with HW limit.
        Note (2): When using PP rate_units is forced to Kbps.
      --rate_limit_type= [HW/SW/PP] Limit the QP's by HW, PP or by SW. Disabled by default. When rate_limit is not specified HW limit is Default.
        Note: in Latency under load test SW rate limit is forced
      --use_ooo  Use out of order data placement

ib_send_lat\ib_write_lat   (时延)

用法同ib_send_bw/ ib_write_bw。

[root@localhost ~]# ib_write_lat -R  -d rocep175s0f0 -a -F

[root@localhost ~]# ib_write_lat -R   -d rocep175s0f0  -i 1 192.169.31.164 -n 1000 -a -F  

#bandwidth
echo "ib_send_bw"
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_bw"
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
echo "ib_write_bw"
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#lat
echo "ib_send_lat"
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_write_lat"
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_lat"
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#ibv_xx_pingpong
echo "ibv_rc_pingpong"
ibv_rc_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_rc_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "ibv_ud_pingpong"
ibv_ud_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_ud_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "rping"
#rping
rping -s -a 192.168.1.2 -v -d -C 3 > /dev/NULL &
sleep 3
rping -c -a 192.168.1.2 -v -d -C 3

 原文链接:https://blog.csdn.net/mounter625/article/details/114648380

--tos 字节, DSCP占高6bit, 后2bit 是ECN,不是用户赋值,1个bit是设备支持ECN功能就置1,另1个bit是当设备发现拥堵的时候,置1。

所以想给DSCP赋值4,二进制为100,加2bit怎为100xx,

tos=10000、10001、10010、10011,即16、17、18、19

想给DSCP赋值16,二进制为10000,加2bit怎为10000xx,

tos=1000000、1000001、1000010、1000011,即64、65、66、67

ceph_perf_msgr_client/ceph_perf_msgr_server

ceph的测试工具Messenger模块的基准测试工具:https://blog.csdn.net/bandaoyu/article/details/114292690

RDMA功能测试(测试能不能工作)

 ibping

  • 用 RDMA 的地址解析方法,而不是使用 IP 地址指定服务器

infiniband-diags 软件包中的 ibping 测试 RDMA 连接性,ibping程序 实现客户端/服务器模式,用法:使用 -? 或者 --help 选项即可查看 ibping的所有可用选项

首先在一台机器中启动 ibping 服务器,然后再另一台机器中将 ibping 作为客户端运行,并让它与 ibping 服务器相连。

因为我们是要测试基础 RDMA 功能,因此需要用于 RDMA 的地址解析方法,而不是使用 IP 地址指定服务器。

使用 ibv_devinfo 和 ibstat 命令输出 port_lid(或基础 lid)以及所要测试端口的端口 GUID(假设是上述接口的端口 1,则 port_lid/基础 LID 是 49,而端口 GUID 是 0x46d2c92000004821)。

[root@rac2 ~]# ibstat mlx4_0
CA 'mlx4_0'
    CA type: MT4099
    Number of ports: 2
    Firmware version: 2.35.5100
    Hardware version: 1
    Node GUID: 0x248a0703005d0840
    System image GUID: 0x248a0703005d0843
    Port 1:       ------------------------------>>这是双口卡
        State: Active
        Physical state: LinkUp
        Rate: 56
        Base lid: 3
        LMC: 0
        SM lid: 5
        Capability mask: 0x02594868
        Port GUID: 0x248a0703005d0841
        Link layer: InfiniBand
    Port 2:       ------------------------------>>这是双口卡
        State: Active
        Physical state: LinkUp
        Rate: 56
        Base lid: 2
        LMC: 0
        SM lid: 2
        Capability mask: 0x0259486a
        Port GUID: 0x248a0703005d0842
        Link layer: InfiniBand
[root@rac2 ~]# ibping -S -C mlx4_0 -P 1
---->此处会没有返回,也就是一直在运行.
 
 
---->解释:

        -S是以服务器端运行
         -C是CA,来自ibstat的输出
         -P是端口号,来自ibstat的输出.



使用 -S 或 --Server 服务端

使用 -C 或者 --Ca  绑定网卡

以及 -P 或者 --Port :端口

注:这个实例中的端口不会指示端口号,但会在使用多端口网卡时指示物理端口号。要测试所使用 RDMA 结构的连接性,比如多端口网卡的第二端口,则需要让 ibping 捆绑至网卡的端口 49。使用单一端口网卡时不需要这个选项。例如:

[root@node25 ~]#  ibping -S -C mlx4_0 -P 1

客户端机器并运行 ibping。记录 ibping 程序所绑定端口的端口 GUID 或者 ibping程序所绑定服务器端口的 本地标识符(LID)。另外,还需要记录客户端机器中与服务器为所捆绑网卡和端口连接网络相同的网卡和端口。例如:如果服务器中第一网卡的第二端口所捆绑的网络是辅 RDMA 结构,那么就需要在客户端中指定一个也连接到第二结构的网卡和端口。完成配置后,请作为客户端运行 ibping 程序,使用在服务器中找到的端口 LID 或者 GUID 作为地址连接到服务器。例如:

[root@node24 ~]#  ibping -c 10000 -f -C mlx4_0 -P 1 -L 49

[root@node24 ~]#  ibping -c 10000 -f -C mlx4_0 -P 1 -L 49
---  (Lid 49) ibping statistics ---
10000 packets transmitted, 0 received, 100% packet loss, time 398 ms
rtt min/avg/max = 0.000/0.000/0.000 ms
[root@rac1 rdma]# ibping -c 10000 -f -C mlx4_0 -P 1 -L 3 
 
 
--- rac2.(none) (Lid 3) ibping statistics ---
10000 packets transmitted, 10000 received, 0% packet loss, time 1096 ms
rtt min/avg/max = 0.028/0.109/0.321 ms
[root@rac1 rdma]# 
 
 
---->解释:-c 10000的意思是发送10000个packet之后停止.
          -f是flood destination
          -C是CA,来自ibstat的输出
          -P是端口号,来自服务器端运行ibping命令时指定的-P 参数值.
          -L是Base lid,来自服务器端运行ibping命令时指定的端口(-P 参数值)的base lid(参考ibstat).注:。使用单一端口网卡时不需要这个选项

这个结果会验证端到端 RDMA 通讯是否在用户空间应用程序中正常工作。

源码:rdma-core-master\rdma-core-master\librdmacm\examples

          rdma-core-master\rdma-core-master\libibverbs\examples

原文:RDMA卡的检测方法_weixin_34236869的博客-CSDN博客

udaddy(测试RDMA能否建立连接)

该脚本涵盖了RDMA_CM UD连接。 (它使用librdmacm在两个节点之间建立了一组不可靠的RDMA数据报 通信路径,可以选择在节点之间传输数据报,然后断开通信)

在一台服务器(充当服务器)上运行以下命令:

#udaddy

在第二台服务器(作为客户端)上运行以下命令
# udaddy -s 12.12.12.1

udaddy: starting client
udaddy: connecting
initiating data transfers
receiving data transfers
data transfers complete
test complete
return status 0

"return status=0" means good exit (RDMA is running).

默认使用端口7174,

udaddy -b 172.17.31.53 #服务端绑定IP

udaddy -s 172.17.31.53 #客户端

 rdma_server, rdma_client (ping-pong测试)


这些命令是简单的RDMA CM连接和ping-pong测试(它使用同步librdmam调用在两个节点之间建立RDMA连接)。

在一台服务器(充当服务器)上运行以下命令:
#rdma_server

在第二台服务器(作为客户端)上运行以下命令:
rdma_client -s 12.12.12.1
rdma_client: start
rdma_client: end 0
"rdma_client: end 0" means good exit (RDMA is running).

rping

该脚本涵盖RDMA_CM RC连接,但仅涉及用户空间(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。

在其中一台服务器(充当rping服务器)上运行以下命令

# rping -s  -C 10 -v

在其中一台服务器(充当rping客户端)上运行以下命令
# rping  -c -a 12.12.12.1  -C 10 -v

ping data: rdma-ping-0: ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqr
ping data: rdma-ping-1: BCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrs
ping data: rdma-ping-2: CDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrst
ping data: rdma-ping-3: DEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstu
ping data: rdma-ping-4: EFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuv
ping data: rdma-ping-5: FGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvw
ping data: rdma-ping-6: GHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwx
ping data: rdma-ping-7: HIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxy
ping data: rdma-ping-8: IJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz
ping data: rdma-ping-9: JKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyzA

client DISCONNECT EVENT...

ucmatose(建立连接,传输数据)


该脚本涵盖RDMA_CM RC连接,但仅覆盖用户空间(与rping相同)(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。

在其中一台服务器(充当服务器)上运行以下命令

# ucmatose

在其他服务器(作为客户端)上运行以下命令

#ucmatose -s 12.12.12.1

cmatose: starting client

cmatose: connecting

receiving data transfers

sending replies

data transfers complete

test complete

return status 0

 其他测试工具:qperf

特点:第一可以支持RDMA测量,第二可进行循环遍历测试。

使用方法:Linux网络性能评估工具iperf|qperf|netperf:https://blog.csdn.net/bandaoyu/article/details/116758976

 验证RDMA内核模块是否已加载

在centos7中,可以用以下命令查看RDMA内核模块的状态:

[root@power27 docs]# /etc/init.d/openibd status

  HCA driver loaded

Configured IPoIB devices:
ib0

Currently active IPoIB devices:
ib0
Configured Mellanox EN devices:

Currently active Mellanox devices:
ib0

The following OFED modules are loaded:

  rdma_ucm
  rdma_cm
  ib_ipoib
  mlx4_core
  mlx4_ib
  mlx4_en
  mlx5_core
  mlx5_ib
  ib_uverbs
  ib_umad
  ib_ucm
  ib_cm
  ib_core
  mlxfw
  mlx5_fpga_tools

HCA即支持RDMA的网卡,driver loaded表示驱动已加载。

LINUX 查看安装的网卡

lspci | grep -i eth

检查主机上是否有可用的RDMA网卡

libibverbs-utils工具:ibv_devices、ibv_devinfo 

ibv_devinfo 和 ibstat 命令输出信息稍有不同(比如端口 MTU 信息是在 ibv_devinfo 而不是 ibstat 输出中显示,而端口 PUID 信息是在 ibstat 而不是 ibv_devinfo 输出中显示。同时有些信息的命名方式也不同,例如:ibstat 输出中的基础本地标识符(LID)与 ibv_devinfo 输出中的 port_lid 是相同的信息。

ibv_devices

ibv_devices是一个包含在libibverbs-utils.rpm包里的工具,用于显示本机上的RDMA设备:

[root@power27 docs]# ibv_devices
    device                 node GUID
    ------              ----------------
    mlx4_0              e41d2d030050e830

 ibv_devinfo

ibv_devinfo      输出主要信息

ibv_devinfo  -v 输出详细信息

ibv_devinfo -d  mlx4_0     输出指定设备的主要信息

ibv_devinfo -d  mlx4_0 -v 输出指定设备的详细信息
Options:
  -d, --ib-dev=     use IB device (default first device found)
  -i, --ib-port=   use port of IB device (default all ports)
  -l, --list             print only the IB devices names
  -v, --verbose          print all the attributes of the IB device(s)

 ibv_devinfo也是libibverbs-utils.rpm包中的一个工具,它会打开一个设备查询设备的属性,通过它可以验证用户空间和内核空间的RMDA栈是否能够一起正常运作:

[root@power27 docs]# ibv_devinfo -d mlx4_0
hca_id: mlx4_0
        transport:                      InfiniBand (0)
        fw_ver:                         2.42.5000
        node_guid:                      e41d:2d03:0050:e830
        sys_image_guid:                 e41d:2d03:0050:e833
        vendor_id:                      0x02c9
        vendor_part_id:                 4099
        hw_ver:                         0x1
        board_id:                       MT_1100120019
        phys_port_cnt:                  1
        Device ports:
                port:   1
                        state:                  PORT_ACTIVE (4)
                        max_mtu:                4096 (5)
                        active_mtu:             4096 (5)
                        sm_lid:                 1
                        port_lid:               12
                        port_lmc:               0x00
                        link_layer:             InfiniBand

至少要有一个端口的状态是PORT_ACTIVE,才能说明RDMA相关组件已经正常运行起来。

ibstat

使用ibstat命令显示InfiniBand的具体信息:

[root@node24 ~]# ibstatCA 'mlx4_0'	CA type: MT4099
	Number of ports: 1
	Firmware version: 2.30.3000
	Hardware version: 0
	Node GUID: 0x46d2c92000004820
	System image GUID: 0x46d2c92000004823
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 56
		Base lid: 72
		LMC: 0
		SM lid: 49
		Capability mask: 0x02514868
		Port GUID: 0x46d2c92000004821
		Link layer: InfiniBand

[root@node25 ~]# ibstatCA 'mlx4_0'	CA type: MT4099
	Number of ports: 1
	Firmware version: 2.30.3000
	Hardware version: 0
	Node GUID: 0x46d2c92000003500
	System image GUID: 0x46d2c92000003503
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 56
		Base lid: 53
		LMC: 0
		SM lid: 49
		Capability mask: 0x0251486a
		Port GUID: 0x46d2c92000003501
		Link layer: InfiniBand

 查看加载了哪些模块

lsmod

报错记录

Couldn't connect to 192.169.31.55:18515
Unable to open file descriptor for socket connection Unable to init the socket connection

关闭selinux

vim /etc/selinux/config

把SELINUX设置为disabled

SELINUX=disabled

重启。

关闭防火墙

CentOS7:

关闭: systemctl stop firewalld

开机禁用  : systemctl disable firewalld

【防火墙】linux打开防火墙的某几个端口|打开/关闭防火墙centos7_bandaoyu的博客-CSDN博客

指令记录

查看映射关系
mlnx_qos -i eth2   (mellonx)

设置用L3做流控
mlnx_qos -i eth2 --trust=dscp  (mellonx)

修改dscp到priority 映射
dscp 30 映射到修改dscp到priority 6
# mlnx_qos -i eth2 --dscp2prio set,30,6    (mellonx)

使能PFC
# mlnx_qos -i  --pfc 0,0,0,1,0,0,0,0   

修改tc和prio的映射(默认除了tc0对应prio1,tc对应prio0,其他的都是对应的,如tc2-prio2,tc3-prio3,tc4-prio4……)
mlnx_qos -i ib3b-0 -p 0,1,2,3,4,5,6,7

端口各优先级的收发计数
#测量该接口发送和接收的 Xon 和 Xoff(传输开启和关闭)帧的数量:
# watch -n 1 "ethtool -S eth1 | grep prio"


(intel
 请注意,Rx 计数器全为 0。当适配器通过交换机连接时,rx_priority_* 计数器可能为 0,表明适配器尚未从交换机收到任何暂停帧。根据网络中的压力水平,如果交换机有足够的缓冲来跟上主机需求,这是可以接受的。但是,对于高压力流量(例如更大规模的 HPC 应用程序),交换机通常会向主机发送暂停帧。通常,预计会同时看到 tx 和 rx_priority 计数器。
请注意,某些 Tx 计数器具有相同的值。在 800 系列 QoS 实施中,如果为traffic class中的任何priority启用 PFC,则该traffic class中的所有priority都会获得暂停帧。这意味着同一 TC 中所有priority的计数器都会一致递增,而不管导致 PFC 触发的特定单个priority如何。如果所有priority都映射到同一个 TC,它们都会一致增加。)



对于 RDMA CM 流量,将 RoCE 模式设置为 V2。
cma_roce_mode -d mlx5_0 -p 1 -m 2

将默认 ToS 设置为 24 (DSCP 6) 映射到 skprio 4
cma_roce_tos -d mlx5_0 -t 24
https://community.mellanox.com/s/article/howto-configure-roce-with-ecn-end-to-end-using-connectx-4-and-spectrum--trust-l2-x#jive_content_id_Debugging_ECN_and_PFC






查看GID

show_gids          (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
show_gids mlx5_5   (mellonx)查看设备可用端口, gid_index, rmda版本

查看端口丢弃

show_drop        (mellonx;intel自己也写同样的脚本,脚本内容见末尾)

弃包统计
ethtool -S enp175s0f0 | grep drop

watch -n 1 “ethtool -S enp175s0f0 | grep drop”   #1 s 刷新一次

各个优先级收发包统计

watch -n 1 "ethtool -S ib3b-0 | grep prio"




查看device
ibdev2netdev     (mellonx;intel自己也写同样的脚本,脚本内容见末尾)

ibdev2netdev –v  (mellonx)


验证 InfiniBand 链接是否已启动

hca_self_test.ofed   (mellonx)


Mellanox OFED 安装的信息

/etc/infiniband/info

看自动加载的模块列表
/etc/infiniband/openib.conf


检查Mellanox网卡是否安装和版本
[root@rdma61 ~]#  lspci | grep Mellanox

查看驱动版本:modinfo mlx5_core 


查看系统里所有的网卡和工作状态:
[root@rdma63 tcpdump]# ip a

[root@rdma63 tcpdump]# ibv_devices
    device                 node GUID
    ------              ----------------
    mlx5_1              98039b03009a4296
    mlx5_0              98039b03009a2b3a

[root@rdma63 tcpdump]# ibv_devinfo 

或

[root@rdma63 tcpdump]# ibv_devinfo mlx5_0



重新启动RDMA驱动

/etc/init.d/openibd restart

如果驱动不正常,虽然service network restart 可以启动Ethernet端口,但实际rdma驱动并未成功加载。
执行/etc/init.d/openibd restart 可以看到很多的错误。(还有记得把ibacm启动, service ibacm start)

The ibacm service is responsible for resolving names and addresses to InfiniBand path information and caching such data. 
It should execute with administrative privileges. 
The ibacm implements a client interface over TCP sockets, which is abstracted by the librdmacm library.


mellonx信息搜集

/usr/sbin/sysinfo-snapshot.py



//****************************************************交换机****************************************

S6820《H3C S6820 系列以太网交换机 二层技术-以太网交换配置指导》P11:PFC 优先级高于FC,设置了PFC 则忽略FC
S6820《08-ACL和QoS命令参考》 http://www.h3c.com/cn/d_201904/1164329_30005_0.htm#_Toc5703597



2.配置H3C交换机

a)	配置优先级信任模式为DSCP:

例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] 6

*配置信任模式为DSCP,交换机才会使用 报文自带的DSCP做映射。
设置信任模式为DSCP,则进入交换机的报文优先级映射会涉及到3个表:
进-->出 映射,
dscp-dot1p    #入端口报文为dscp会被交换机映射到lp队列
dscp-dp       #入端口报文为dscp会被交换机映射到dp队列
dscp-dscp     #入端口报文的dscp会被交换机改为dscp转发
(优先级可分为两类:报文携带优先级和设备调度优先级。
设备调度优先级是指报文在设备内转发时所使用的优先级,只对当前设备自身有效。
设备调度优先 级包括以下几种: 
• 本地优先级(LP):设备为报文分配的一种具有本地意义的优先级,每个本地优先级对应一 个队列,本地优先级值越大的报文,进入的队列优先级越高,从而能够获得优先的调度。
• 丢弃优先级(DP):在进行报文丢弃时参考的参数,丢弃优先级值越大的报文越被优先丢弃。)

display qos map-table dscp-dot1p

b)	配置PFC功能的开启模式
例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] priority-flow-control enable


6.显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个

关闭PFC:undo priority-flow-control


7,使能PFC后还需指定PFC作用的不弃包的等级priority-flow-control no-drop dot1p dot1p-list
如:
priority-flow-control no-drop dot1p 0
priority-flow-control no-drop dot1p 0,1,3

(dot1p和dscp的映射见display qos map-table  dscp-dot1p )
http://www.h3c.com/cn/d_201906/1206016_30005_0.htm

显示端口是否开启FC:----不是PFC,设置了PFC就忽略FC
display interface [接口]
如: display interface  HundredGigE1/0/2
缩写:dis int HundredGigE1/0/4

(1、端口入方向报文计数错误字段解释 
input errors:各种输入错误的总数。 
runts:表示接收到的超小帧个数。超小帧即接收到的报文小于 64 字节,且包括有效的 CRC 字段,报文格式正确。 
giants:是超过端口设置的 Maximum Frame Length 的报文个数。 CRC:表示接收到的 CRC 校验错误报文个数。 
frame:端口接收时出错的报文。 

2、端口出方向报文计数错误字段解释
 output errors:各种输出错误的总数。 
 aborts:表示发送失败的报文总数。 
 deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过 2 倍的最大报文发送时间。 
 collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。 l
 ate collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过 512bit 时间的帧。
 )


H3C 二层命令参考:http://www.h3c.com/cn/d_202104/1397802_30005_0.htm


****************************
显示和维护(H3C交换机)
****************************
大部分指令interface 可以缩写成int


1.显示指定优先级映射表配置情况 
display qos map-table  dot1p-dp | dot1p-exp | dot1p-lp | dscp-dot1p | dscp-dp | dscp-dscp | exp-dot1p | exp-dp ] 
如:display qos map-table dscp-dscp

2.	显示接口优先级信任模式信息(sys视图)
 display qos trust interface [ interface-type interface-number ]
如:
display qos trust interface HundredGigE1/0/1

3.	显示端口简单信息
display interface brief
4.	显示端口在该间隔时间内统计的报文信息
display interface
5.	显示Qos trust设置
display qos trust int
6.	显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个



显示收发和暂停统计

-显示全部端口
-display interface
-显示某个端口
-display interface HundredGigE1/0/2

查看拥塞drop包(弃包/丢包)
display packet-drop 
display packet-drop interface HundredGigE1/0/4
《接口管理命令参考》http://www.h3c.com/cn/d_201906/1206016_30005_0.htm
//===============================================================================测试================================================================






Tos=============
--tos=  Set  to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)

ibdump -d mlx5_0 -i 1  -w        sniffer.acp     #抓包
ib_send_bw -d mlx5_0     --rdma_cm               #服务端
ib_send_bw 192.169.31.54 --rdma_cm  --tos=12 –R  #客户端1100





关闭交换机PFC:
[H3C]sys
[H3C]interface HundredGigE1/0/4
[H3C-HundredGigE1/0/4] undo priority-flow-control


# 显示所有接口的WRED配置情况和统计信息。
 display qos wred interface
# 显示WRED表1的配置情况,表1是一个已经配置好的WRED参数表。
 display qos wred table name 1

sys视图:
创建wred表:qos wred queue table       table-name
显示wred表:display qos wred table
删除wred表:undo qos wred queue table  table-name

接口应用/切换wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]qos wred apply queue-table1

撤销接口的wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]undo qos wred apply


http://www.h3c.com/cn/d_202107/1423314_30005_0.htm#_Toc76396377

queue 0 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1

queue 0 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1

queue 0 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1


缓冲区使用情况查询:

 display buffer usage interface 
 display buffer usage interface HundredGigE1/0/6



display priority-flow-control interface  HundredGigE1/0/2
display priority-flow-control interface  HundredGigE1/0/4
display priority-flow-control interface  HundredGigE1/0/6
display packet-drop interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/4
reset counters interface HundredGigE1/0/6

qos wred apply queue-table1


==========================
Intel show_gids
==========================
#!/bin/bash
function show_gid()
{
        for device in ` ls /sys/class/infiniband/` #注意此处这是两个反引号,表示运行系统命令
        {
          echo "****************"
          echo "Device:"${device}
          for port in ` ls /sys/class/infiniband/${device}/ports/`
            {
                  echo "IB port:"${port}
                   for gid in `ls /sys/class/infiniband/${device}/ports/${port}/gids`
                   {

               GID=`cat /sys/class/infiniband/${device}/ports/${port}/gids/${gid}` #在此处处理文件即可 
               
			   if [[ $GID == *0000:0000:0000:0000:0000:0000:0000:0000* ]]
               then
			   : #do nothing
               #echo "包含"
               else
               #echo "不包含"
			   	 echo "GID"${gid}":"$GID
               fi
		
              }
           }
        }
}


show_gid
==========================
Intel show_drop 
==========================
#!/bin/bash
function show_drop()
{
        for device in `ls /sys/class/infiniband/`
        {
          echo ""
          echo -e  "\e[1;32m${device}\e[0m" 
          cd  /sys/class/infiniband/${device}/hw_counters
         
          for f in *Discards
          {
             echo -n "$f: "
             cat "$f"
          }
        }
}
 
show_drop

*intel官方提供的脚本:
# cd /sys/class/infiniband/irdma-enp175s0f0/hw_counters  
# for f in *Discards; do echo -n "$f: "; cat "$f"; done  


==========================
Inetl ibdev2netdev
==========================
#!/bin/bash
echo "--------------------------------------"
echo "script locate:/usr/bin/ibvdev2netdev"
echo "Author:liangchaoxi"
echo "***************************************"
ibv_devices|awk '{system("echo "$1"\"-->\"`ls /sys/class/infiniband/"$1"/device/net`")}' |& grep -Ev '/device/net|device|-------->'
echo "***************************************"
ip route
echo "--------------------------------------"

@UESTC

你可能感兴趣的:(测试工具,linux,运维,服务器)