LinkSLA

Kubernetes 网络排错“狂飙”级指南，运维请收好

本文将引入一个思路：“在 Kubernetes 集群发生网络异常时如何排查”。文章将引入 Kubernetes 集群中网络排查的思路，包含网络异常模型，常用工具，并且提出一些案例以供学习。

1、Pod 网络异常

网络异常大概分为如下几类：

网络不可达：主要现象为 ping 不通，其可能原因为：
- 源端和目的端防火墙（iptables、selinux）限制
- 网络路由配置不正确
- 源端和目的端的系统负载过高，网络连接数满，网卡队列满
- 网络链路故障
端口不可达：主要现象为可以 ping 通，但 telnet 端口不通，其可能原因为：
- 源端和目的端防火墙限制
- 源端和目的端的系统负载过高，网络连接数满，网卡队列满，端口耗尽
- 目的端应用未正常监听导致（应用未启动，或监听为 127.0.0.1 等）
DNS 解析异常：主要现象为基础网络可以连通，访问域名报错无法解析，访问 IP 可以正常连通。其可能原因为：
- Pod 的 DNS 配置不正确
- DNS 服务异常
- Pod 与 DNS 服务通讯异常
大数据包丢包：主要现象为基础网络和端口均可以连通，小数据包收发无异常，大数据包丢包。可能原因为：
- 可使用 ping -s 指定数据包大小进行测试
- 数据包的大小超过了 Docker、CNI 插件、或者宿主机网卡的 MTU 值。
CNI 异常：主要现象为 Node 可以通，但 Pod 无法访问集群地址，可能原因有：
- kube-proxy 服务异常，没有生成 iptables 策略或者 ipvs 规则导致无法访问
- CIDR 耗尽，无法为 Node 注入 PodCIDR 导致 CNI 插件异常
- 其他 CNI 插件问题

那么整个 Pod 网络异常分类可以如下图所示：

总结一下，Pod 最常见的网络故障有，网络不可达（ping 不通）；端口不可达（telnet 不通）；DNS 解析异常（域名不通）与大数据包丢失（大包不通）。

2、常用网络排查工具

在了解到常见的网络异常后，在排查时就需要使用到一些网络工具才可以很有效的定位到网络故障原因，下面会介绍一些网络排查工具。

tcpdump

tcpdump 网络嗅探器，将强大和简单结合到一个单一的命令行界面中，能够将网络中的报文抓取，输出到屏幕或者记录到文件中。

各系统下的安装：

Ubuntu/Debian: tcpdump；apt-get install -y tcpdump
Centos/Fedora: tcpdump；yum install -y tcpdump
Apline：tcpdump ；apk add tcpdump --no-cache

查看指定接口上的所有通讯。

语法：

捕获所有网络接口：

tcpdump -D

按 IP 查找流量：最常见的查询之一 host，可以看到来往于 1.1.1.1 的流量。

tcpdump host 1.1.1.1

按源 / 目的地址过滤：如果只想查看来自 / 向某方向流量，可以使用 src 和 dst。

tcpdump src|dst 1.1.1.1

通过网络查找数据包：

使用 net 选项，来要查找出 / 入某个网络或子网的数据包。

tcpdump net 1.2.3.0/24

使用十六进制输出数据包内容：

hex 可以以 16 进制输出包的内容

tcpdump -c 1 -X icmp

查看特定端口的流量：

使用 port 选项来查找特定的端口流量。

tcpdump port 3389
tcpdump src port 1025

查找端口范围的流量：

tcpdump portrange 21-23

过滤包的大小：

如果需要查找特定大小的数据包，可以使用以下选项。你可以使用 less，greater。

tcpdump less 32
tcpdump greater 64
tcpdump <= 128

捕获流量输出为文件：

-w 可以将数据包捕获保存到一个文件中以便将来进行分析。这些文件称为 PCAP（PEE-cap）文件，它们可以由不同的工具处理，包括 Wireshark 。

tcpdump port 80 -w capture_file

组合条件：

tcpdump 也可以结合逻辑运算符进行组合条件查询：

ANDand or &&
ORor or ||
EXCEPTnot or !

tcpdump -i eth0 -nn host 220.181.57.216 and 10.0.0.1  # 主机之间的通讯
tcpdump -i eth0 -nn host 220.181.57.216 or 10.0.0.1
# 获取10.0.0.1与 10.0.0.9或 10.0.0.1 与10.0.0.3之间的通讯
tcpdump -i eth0 -nn host 10.0.0.1 and \(10.0.0.9 or 10.0.0.3\)

原始输出：

并显示人类可读的内容进行输出包（不包含内容）。

tcpdump -ttnnvvS -i eth0
tcpdump -ttnnvvS -i eth0

IP 到端口：

让我们查找从某个 IP 到端口任何主机的某个端口所有流量。

tcpdump -nnvvS src 10.5.2.3 and dst port 3389

去除特定流量：

可以将指定的流量排除，如这显示所有到 192.168.0.2 的非 ICMP 的流量。

tcpdump dst 192.168.0.2 and src net and not icmp

来自非指定端口的流量，如，显示来自不是 SSH 流量的主机的所有流量。

tcpdump -vv src mars and not dst port 22

选项分组：

在构建复杂查询时，必须使用单引号 '。单引号用于忽略特殊符号 () ，以便于使用其他表达式（如 host, port, net 等）进行分组。

tcpdump 'src 10.0.2.4 and (dst port 3389 or 22)'

过滤 TCP 标记位。

TCP RST：

下面的过滤器可以找到这些不同的数据包，因为tcp[13]看的是TCP头中的偏移量13，数字代表字节内的位置，而!=0意味着相关的标志被设置为1，即它是打开的。

tcpdump 'tcp[13] & 4!=0'
tcpdump 'tcp[tcpflags] == tcp-rst'

TCP SYN：

tcpdump 'tcp[13] & 2!=0'
tcpdump 'tcp[tcpflags] == tcp-syn'

同时忽略 SYN 和 ACK 标志的数据包。

tcpdump 'tcp[13]=18'

TCP URG：

tcpdump 'tcp[13] & 32!=0'
tcpdump 'tcp[tcpflags] == tcp-urg'

TCP ACK：

tcpdump 'tcp[13] & 16!=0'
tcpdump 'tcp[tcpflags] == tcp-ack'

TCP PSH：

tcpdump 'tcp[13] & 8!=0'
tcpdump 'tcp[tcpflags] == tcp-push'

TCP FIN：

tcpdump 'tcp[13] & 1!=0'
tcpdump 'tcp[tcpflags] == tcp-fin'

查找 http 包。

查找 user-agent 信息：

tcpdump -vvAls0 | grep 'User-Agent:'

查找只是 GET 请求的流量：

tcpdump -vvAls0 | grep 'GET'

查找 http 客户端 IP：

tcpdump -vvAls0 | grep 'Host:'

查询客户端 cookie：

tcpdump -vvAls0 | grep 'Set-Cookie|Host:|Cookie:'

查找 DNS 流量：

tcpdump -vvAs0 port 53

查找对应流量的明文密码：

tcpdump port http or port ftp or port smtp or port imap or port pop3 or port telnet -lA | egrep -i -B5 'pass=|pwd=|log=|login=|user=|username=|pw=|passw=|passwd= |password=|pass:|user:|username:|password:|login:|pass |user '

wireshark 追踪流：wireshare 追踪流可以很好的了解出在一次交互过程中都发生了那些问题。

wireshare 选中包，右键选择 “追踪流“ 如果该包是允许的协议是可以打开该选项的。

关于抓包节点和抓包设备：

如何抓取有用的包，以及如何找到对应的接口，有以下建议：

抓包节点：通常情况下会在源端和目的端两端同时抓包，观察数据包是否从源端正常发出，目的端是否接收到数据包并给源端回包，以及源端是否正常接收到回包。如果有丢包现象，则沿网络链路上各节点抓包排查。例如，A 节点经过 c 节点到 B 节点，先在 AB 两端同时抓包，如果 B 节点未收到 A 节点的包，则在 c 节点同时抓包。
抓包设备：对于 Kubernetes 集群中的 Pod，由于容器内不便于抓包，通常视情况在 Pod 数据包经过的 veth 设备，docker0 网桥，CNI 插件设备（如 cni0，flannel.1 etc..）及 Pod 所在节点的网卡设备上指定 Pod IP 进行抓包。选取的设备根据怀疑导致网络问题的原因而定，比如范围由大缩小，从源端逐渐靠近目的端，比如怀疑是 CNI 插件导致，则在 CNI 插件设备上抓包。从 pod 发出的包逐一经过 veth 设备，cni0 设备，flannel0，宿主机网卡，到达对端，抓包时可按顺序逐一抓包，定位问题节点。

需要注意在不同设备上抓包时指定的源目 IP 地址需要转换，如抓取某 Pod 时，ping {host} 的包，在 veth 和 cni0 上可以指定 Pod IP 抓包，而在宿主机网卡上如果仍然指定 Pod IP 会发现抓不到包，因为此时 Pod IP 已被转换为宿主机网卡 IP。

下图是一个使用 VxLAN 模式的 flannel 的跨界点通讯的网络模型，在抓包时需要注意对应的网络接口

nsenter

nsenter 是一款可以进入进程的名称空间中。例如，如果一个容器以非 root 用户身份运行，而使用 docker exec 进入其中后，但该容器没有安装 sudo 或未 netstat ，并且您想查看其当前的网络属性，如开放端口，这种场景下将如何做到这一点？nsenter 就是用来解决这个问题的。

nsenter（namespace enter）可以在容器的宿主机上使用 nsenter 命令进入容器的命名空间，以容器视角使用宿主机上的相应网络命令进行操作。当然需要拥有 root 权限。

nsenter 的 c 使用语法为，nsenter -t pid -n ，-t 接进程 ID 号，-n 表示进入名称空间内，为执行的命令。

实例：如我们有一个 Pod 进程 ID 为 30858，进入该 Pod 名称空间内执行 ifconfig ，如下列所示：

$ ps -ef|grep tail
root      17636  62887  0 20:19 pts/2    00:00:00 grep --color=auto tail
root      30858  30838  0 15:55 ?        00:00:01 tail -f

$ nsenter -t 30858 -n ifconfig
eth0: flags=4163  mtu 1480
        inet 192.168.1.213  netmask 255.255.255.0  broadcast 192.168.1.255
        ether 5e:d5:98:af:dc:6b  txqueuelen 0  (Ethernet)
        RX packets 92  bytes 9100 (8.8 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 92  bytes 8422 (8.2 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 5  bytes 448 (448.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 5  bytes 448 (448.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

net1: flags=4163  mtu 1500
        inet 10.1.0.201  netmask 255.255.255.0  broadcast 10.1.0.255
        ether b2:79:f9:dd:2a:10  txqueuelen 0  (Ethernet)
        RX packets 228  bytes 21272 (20.7 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 216  bytes 20272 (19.7 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

如何定位 Pod 名称空间：

首先需要确定 Pod 所在的节点名称。

$ kubectl get pods -owide |awk '{print $1,$7}'
NAME NODE
netbox-85865d5556-hfg6v master-machine
netbox-85865d5556-vlgr4 node01

如果 Pod 不在当前节点还需要用 IP 登录则还需要查看 IP（可选）。

$ kubectl get pods -owide |awk '{print $1,$6,$7}'
NAME IP NODE
netbox-85865d5556-hfg6v 192.168.1.213 master-machine
netbox-85865d5556-vlgr4 192.168.0.4 node01

接下来，登录节点，获取容器 lD，如下列所示，每个 pod 默认有一个 pause 容器，其他为用户 yaml 文件中定义的容器，理论上所有容器共享相同的网络命名空间，排查时可任选一个容器。

$ docker ps |grep netbox-85865d5556-hfg6v
6f8c58377aae   f78dd05f11ff                                                    "tail -f"                45 hours ago   Up 45 hours             k8s_netbox_netbox-85865d5556-hfg6v_default_4a8e2da8-05d1-4c81-97a7-3d76343a323a_0
b9c732ee457e   registry.cn-hangzhou.aliyuncs.com/google_containers/pause:3.1   "/pause"                 45 hours ago   Up 45 hours             k8s_POD_netbox-85865d5556-hfg6v_default_4a8e2da8-05d1-4c81-97a7-3d76343a323a_0

接下来获得获取容器在节点系统中对应的进程号，如下所示：

$ docker inspect --format "{{ .State.Pid }}" 6f8c58377aae
30858

最后就可以通过 nsenter 进入容器网络空间执行命令了。

paping

paping 命令可对目标地址指定端口以 TCP 协议进行连续 ping，通过这种特性可以弥补 ping ICMP 协议，以及 nmap、telnet 只能进行一次操作的的不足；通常情况下会用于测试端口连通性和丢包率。

paping download[2]：

paping 还需要安装以下依赖，这取决于你安装的 paping 版本

RedHat/CentOS：yum install -y libstdc++.i686 glibc.i686
Ubuntu/Debian：最小化安装无需依赖

$ paping -h
paping v1.5.5 - Copyright (c) 2011 Mike Lovell

Syntax: paping [options] destination

Options:
 -?, --help     display usage
 -p, --port N   set TCP port N (required)
     --nocolor  Disable color output
 -t, --timeout  timeout in milliseconds (default 1000)
 -c, --count N  set number of checks to N

mtr

mtr 是一个跨平台的网络诊断工具，将 traceroute 和 ping 的功能结合到一个工具。与 traceroute 不同的是 mtr 显示的信息比起 traceroute 更加丰富：通过 mtr 可以确定网络的条数，并且可以同时打印响应百分比以及网络中各跳跃点的响应时间。

简单的使用示例：

最简单的示例，就是后接域名或 IP，这将跟踪整个路由。

$ mtr google.com

Start: Thu Jun 28 12:10:13 2018
HOST: TecMint                     Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 192.168.0.1                0.0%     5    0.3   0.3   0.3   0.4   0.0
  2.|-- 5.5.5.211                  0.0%     5    0.7   0.9   0.7   1.3   0.0
  3.|-- 209.snat-111-91-120.hns.n 80.0%     5    7.1   7.1   7.1   7.1   0.0
  4.|-- 72.14.194.226              0.0%     5    1.9   2.9   1.9   4.4   1.1
  5.|-- 108.170.248.161            0.0%     5    2.9   3.5   2.0   4.3   0.7
  6.|-- 216.239.62.237             0.0%     5    3.0   6.2   2.9  18.3   6.7
  7.|-- bom05s12-in-f14.1e100.net  0.0%     5    2.1   2.4   2.0   3.8   0.5

-n 强制 mtr 打印 IP 地址而不是主机名。

$ mtr -n google.com

Start: Thu Jun 28 12:12:58 2018
HOST: TecMint                     Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 192.168.0.1                0.0%     5    0.3   0.3   0.3   0.4   0.0
  2.|-- 5.5.5.211                  0.0%     5    0.9   0.9   0.8   1.1   0.0
  3.|-- ???                       100.0     5    0.0   0.0   0.0   0.0   0.0
  4.|-- 72.14.194.226              0.0%     5    2.0   2.0   1.9   2.0   0.0
  5.|-- 108.170.248.161            0.0%     5    2.3   2.3   2.2   2.4   0.0
  6.|-- 216.239.62.237             0.0%     5    3.0   3.2   3.0   3.3   0.0
  7.|-- 172.217.160.174            0.0%     5    3.7   3.6   2.0   5.3   1.4

-b 同时显示 IP 地址与主机名。

$ mtr -b google.com

Start: Thu Jun 28 12:14:36 2018
HOST: TecMint                     Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- 192.168.0.1                0.0%     5    0.3   0.3   0.3   0.4   0.0
  2.|-- 5.5.5.211                  0.0%     5    0.7   0.8   0.6   1.0   0.0
  3.|-- 209.snat-111-91-120.hns.n  0.0%     5    1.4   1.6   1.3   2.1   0.0
  4.|-- 72.14.194.226              0.0%     5    1.8   2.1   1.8   2.6   0.0
  5.|-- 108.170.248.209            0.0%     5    2.0   1.9   1.8   2.0   0.0
  6.|-- 216.239.56.115             0.0%     5    2.4   2.7   2.4   2.9   0.0
  7.|-- bom07s15-in-f14.1e100.net  0.0%     5    3.7   2.2   1.7   3.7   0.9

-c 跟一个具体的值，这将限制 mtr ping 的次数，到达次数后会退出。

$ mtr -c5 google.com

如果需要指定次数，并且在退出后保存这些数据，使用 -r flag。

$ mtr -r -c 5 google.com >  1
$ cat 1
Start: Sun Aug 21 22:06:49 2022
HOST: xxxxx.xxxxx.xxxx.xxxx Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- gateway                    0.0%     5    0.6 146.8   0.6 420.2 191.4
  2.|-- 212.xx.21.241              0.0%     5    0.4   1.0   0.4   2.3   0.5
  3.|-- 188.xxx.106.124            0.0%     5    0.7   1.1   0.7   2.1   0.5
  4.|-- ???                       100.0     5    0.0   0.0   0.0   0.0   0.0
  5.|-- 72.14.209.89               0.0%     5   43.2  43.3  43.1  43.3   0.0
  6.|-- 108.xxx.250.33             0.0%     5   43.2  43.1  43.1  43.2   0.0
  7.|-- 108.xxx.250.34             0.0%     5   43.7  43.6  43.5  43.7   0.0
  8.|-- 142.xxx.238.82             0.0%     5   60.6  60.9  60.6  61.2   0.0
  9.|-- 142.xxx.238.64             0.0%     5   59.7  67.5  59.3  89.8  13.2
 10.|-- 142.xxx.37.81              0.0%     5   62.7  62.9  62.6  63.5   0.0
 11.|-- 142.xxx.229.85             0.0%     5   61.0  60.9  60.7  61.3   0.0
 12.|-- xx-in-f14.1e100.net  0.0%     5   59.0  58.9  58.9  59.0   0.0

默认使用的是 ICMP 协议 -i，可以指定 -u、-t 使用其他协议。

mtr --tcp google.com

-m 指定最大的跳数。

mtr -m 35 216.58.223.78

-s 指定包的大小。

mtr 输出的数据：

colum	describe
last	最近一次的探测延迟值
avg	探测延迟的平均值
best	探测延迟的最小值
wrst	探测延迟的最大值
stdev	标准偏差。越大说明相应节点越不稳定

丢包判断：

任一节点的 Loss%（丢包率）如果不为零，则说明这一跳网络可能存在问题。导致相应节点丢包的原因通常有两种。

运营商基于安全或性能需求，人为限制了节点的 ICMP 发送速率，导致丢包。
节点确实存在异常，导致丢包。可以结合异常节点及其后续节点的丢包情况，来判定丢包原因。

Notes：

如果随后节点均没有丢包，则通常说明异常节点丢包是由于运营商策略限制所致。可以忽略相关丢包。
如果随后节点也出现丢包，则通常说明节点确实存在网络异常，导致丢包。对于这种情况，如果异常节点及其后续节点连续出现丢包，而且各节点的丢包率不同，则通常以最后几跳的丢包率为准。如链路测试在第 5、6、7 跳均出现了丢包。最终丢包情况以第 7 跳作为参考。

延迟判断：

由于链路抖动或其它因素的影响，节点的 Best 和 Worst 值可能相差很大。而 Avg（平均值）统计了自链路测试以来所有探测的平均值，所以能更好的反应出相应节点的网络质量。

而 StDev（标准偏差值）越高，则说明数据包在相应节点的延时值越不相同（越离散）。所以标准偏差值可用于协助判断 Avg 是否真实反应了相应节点的网络质量。

例如，如果标准偏差很大，说明数据包的延迟是不确定的。可能某些数据包延迟很小（例如：25ms），而另一些延迟却很大（例如：350ms），但最终得到的平均延迟反而可能是正常的。所以此时 Avg 并不能很好的反应出实际的网络质量情况。

这就需要结合如下情况进行判断：

如果 StDev 很高，则同步观察相应节点的 Best 和 wrst，来判断相应节点是否存在异常。
如果 StDev 不高，则通过 Avg 来判断相应节点是否存在异常。

Tips：对于更多的网络工具的使用可以参考这篇文章[3]。

3、Pod 网络排查流程

Pod网络异常时排查思路，可以按照下图所示：

Pod network troubleshooting idea

4、案例学习

扩容节点访问 service 地址不通

测试环境 Kubernetes 节点扩容后无法访问集群 clusterlP 类型的 registry 服务。

环境信息：

IP	Hostname	role
10.153.204.15	yq01-aip-aikefu12	worknode 节点（本次扩容的问题节点）
10.153.203.14	yq01-aip-aikefu31	master 节点
10.61.187.42	yq01-aip-aikefu2746f8e9	master 节点
10.61.187.48	yq01-aip-aikefu30b61e25	master 节点（本次 registry 服务 Pod 所在节点）

CNI 插件：flannel vxlan
kube-proxy 工作模式为 iptables
Registry 服务
- 单实例部署在 10.61.187.48:5000
- Pod IP：10.233.65.46，
- Cluster IP：10.233.0.100

现象：

所有节点之间的 pod 通信正常
任意节点和 Pod curl registry 的 Pod 的 IP:5000 均可以连通
新扩容节点 10.153.204.15 curl registry 服务的 Cluster lP 10.233.0.100:5000 不通，其他节点 curl 均可以连通

分析思路：

根据现象 1 可以初步判断 CNI 插件无异常
根据现象 2 可以判断 registry 的 Pod 无异常
根据现象 3 可以判断 registry 的 service 异常的可能性不大，可能是新扩容节点访问 registry 的 service 存在异常

怀疑方向：

问题节点的 kube-proxy 存在异常
问题节点的 iptables 规则存在异常
问题节点到 service 的网络层面存在异常

排查过程：

排查问题节点的 kube-proxy

执行 kubectl get pod -owide -nkube-system l grep kube-proxy 查看 kube-proxy Pod 的状态，问题节点上的 kube-proxy Pod 为 running 状态

执行 kubecti logs -nkube-system 查看问题节点 kube-proxy 的 Pod 日志，没有异常报错

在问题节点操作系统上执行 iptables -S -t nat 查看 iptables 规则

排查过程：

确认存在到 Registry 服务的 Cluster lP 10.233.0.100 的 KUBE-SERVICES 链，跳转至 KUBE-SVC-* 链做负载均衡，再跳转至 KUBE-SEP-* 链通过 DNAT 替换为服务后端 Pod 的 IP 10.233.65.46。因此判断 iptables 规则无异常执行 route-n 查看问题节点存在访问 10.233.65.46 所在网段的路由，如图所示：

10.233.65.46 路由

查看对端的回程路由：

回程路由

以上排查证明问题原因不是 CNI 插件或者 kube-proxy 异常导致，因此需要在访问链路上抓包，判断问题原因、问题节点执行 curl 10.233.0.100:5000，在问题节点和后端 pod 所在节点的 flannel.1 上同时抓包发包节点一直在重传，Cluster lP 已 DNAT 转换为后端 Pod IP，如图所示：

抓包过程，发送端

后端 Pod（ Registry 服务）所在节点的 flannel.1 上未抓到任何数据包，如图所示:

抓包过程，服务端

请求 service 的 ClusterlP 时，在两端物理机网卡抓包，发包端如图所示，封装的源端节点 IP 是 10.153.204.15，但一直在重传：

图片包传送过程，发送端

收包端收到了包，但未回包，如图所示：

图片包传送过程，服务端

由此可以知道，NAT 的动作已经完成，而只是后端 Pod（Registry 服务）没有回包，接下来在问题节点执行 curl10.233.65.46:5000，在问题节点和后端（ registry 服务）Pod 所在节点的 flannel.1 上同时抓包，两节点收发正常，发包如图所示：

正常包发送端

正常包接收端

接下来在两端物理机网卡接口抓包，因为数据包通过物理机网卡会进行 vxlan 封装，需要抓 vxlan 设备的 8472 端口，发包端如图所示：

问题节点物理机网卡接口抓包

发现网络链路连通，但封装的 IP 不对，封装的源端节点 IP 是 10.153.204.228，但是存在问题节点的 IP 是 10.153.204.15。

后端 Pod 所在节点的物理网卡上抓包，注意需要过滤其他正常节点的请求包，如图所示；发现收到的数据包，源地址是 10.153.204.228，但是问题节点的 IP 是 10.153.204.15。

对端节点物理机网卡接口抓包

此时问题以及清楚了，是一个 Pod 存在两个 IP，导致发包和回包时无法通过隧道设备找到对端的接口，所以发可以收到，但不能回。

问题节点执行 ip addr，发现网卡 enp26s0f0 上配置了两个 IP，如图所示：

问题节点 IP

进一步查看网卡配置文件，发现网卡既配置了静态 IP，又配置了 dhcp 动态获取 IP。如图所示：

问题节点网卡配置

最终定位原因为问题节点既配置了 dhcp 获取 IP，又配置了静态 IP，导致 IP 冲突，引发网络异常。

解决方法：修改网卡配置文件 /etc/sysconfig/network-scripts/ifcfg-enp26s0f0 里 BOOTPROTO="dhcp"为 BOOTPROTO="none"；重启 docker 和 kubelet 问题解决。

集群外云主机调用集群内应用超时

问题现象：Kubernetes 集群外云主机以 http post 方式访问 Kubernetes 集群应用接口超时。
环境信息：Kubernetes 集群：calicoIP-IP 模式，应用接口以 nodeport 方式对外提供服务。
客户端：Kubernetes 集群之外的云主机。

排查过程：

在云主机 telnet 应用接口地址和端口，可以连通，证明网络连通正常，如图所示
云主机上调用接口不通，在云主机和 Pod 所在 Kubernetes 节点同时抓包，使用 wireshark 分析数据包

通过抓包结果分析结果为 TCP 链接建立没有问题，但是在传输大数据的时候会一直重传 1514 大小的第一个数据包直至超时。怀疑是链路两端 MTU 大小不一致导致（现象：某一个固定大小的包一直超时的情况）。如图所示，1514 大小的包一直在重传。

报文 1-3 TCP 三次握手正常。

报文 1 info 中 MSS 字段可以看到 MSS 协商为 1460，MTU=1460+20bytes（IP 包头）+20bytes（TCP 包头）=1500。

报文 7 Kubernetes 主机确认了包 4 的数据包，但是后续再没有对数据的 ACK。

报文 21-29 可以看到云主机一直在发送后面的数据，但是没有收到 Kubernetes 节点的 ACK，结合 Pod 未收到任何报文，表明是 Kubernetes 节点和 Pod 通信出现了问题。

wireshark 分析

在云主机上使用 ping -s 指定数据包大小，发现超过 1400 大小的数据包无法正常发送。结合以上情况，定位是云主机网卡配置的 MTU 是 1500，tunl0 配置的 MTU 是 1440，导致大数据包无法发送至 tunl0 ，因此 Pod 没有收到报文，接口调用失败。

解决方法：修改云主机网卡 MTU 值为 1440，或者修改 Calico 的 MTU 值为 1500，保持链路两端 MTU 值一致。

集群 Pod 访问对象存储超时

环境信息：公有云环境，Kubernetes 集群节点和对象存储在同一私有网络下，网络链路无防火墙限制 Kubernetes 集群开启了节点自动弹缩（CA）和 Pod 自动弹缩（HPA），通过域名访问对象存储，Pod 使用集群 DNS 服务，集群 DNS 服务配置了用户自建上游 DNS 服务器。

排查过程：

使用 nsenter 工具进入 pod 容器网络命名空间测试，ping 对象存储域名不通，报错 unknown server name，ping 对象存储 lP 可以连通。
telnet 对象存储 80/443 端口可以连通。
paping 对象存储 80/443 端口无丢包。
为了验证 Pod 创建好以后的初始阶段网络连通性，将以上测试动作写入 dockerfile，重新生成容器镜像并创 pod，测试结果一致。

通过上述步骤，判断 Pod 网络连通性无异常，超时原因为域名解析失败，怀疑问题如下：

集群 DNS 服务存在异常
上游 DNS 服务存在异常
集群 DNS 服务与上游 DNS 通讯异常
Pod 访问集群 DNS 服务异常

根据上述方向排查，集群 DNS 服务状态正常，无报错。测试 Pod 分别使用集群 DNS 服务和上游 DNS 服务解析域名，前者解析失败，后者解析成功。至此，证明上游 DNS 服务正常，并且集群 DNS 服务日志中没有与上游 DNS 通讯超时的报错。定位到的问题：Pod 访问集群 DNS 服务超时。

此时发现，出现问题的 Pod 集中在新弹出的 Kubernetes 节点上。这些节点的 kube-proxy Pod 状态全部为 pending，没有正常调度到节点上。因此导致该节点上其他 Pod 无法访问包括 DNS 在内的所有 Kubernetes service。

再进一步排查发现 kube-proxy Pod 没有配置 priorityclass 为最高优先级，导致节点资源紧张时为了将高优先级的应用 Pod 调度到该节点，将原本已运行在该节点的 kube-proxy 驱逐。

解决方法：将 kube-proxy 设置 priorityclass 值为 system-node-critical 最高优先级，同时建议应用 Pod 配置就绪探针，测试可以正常连通对象存储域名后再分配任务。

来源：https://www.cnblogs.com/Cylon/p/16611503.html

你可能感兴趣的:(网络,kubernetes,运维)

《破局节点失效：Erlang分布式容错系统的自愈机制与恢复逻辑》后端
节点故障是无法根除的常态——硬件老化、网络波动、资源耗尽等因素，随时可能让某个节点从集群中“消失”。Erlang语言凭借其面向并发的设计哲学与原生分布式支持，成为构建容错系统的优选工具。但真正的挑战不在于避免故障，而在于当节点失效时，系统能否像有机体自愈般自动恢复，这需要对Erlang的进程模型、分布式通信与状态管理进行深度挖掘，构建一套从故障感知到服务续接的完整逻辑闭环。Erlang节点间的默认
运维工程师发展路线 SZHCI 运维
一、运维工程师发展路线1.传统运维侧重点是解决具体的问题。要求具备扎实的底层的知识储备，如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验，能够快速解决问题，实施变更。能够处理突发故障，顺利完成服务的部署，变更的实施。2.云计算运维侧重点是开源技术方案的使用，为云服务的稳定提供保证。随着业务不断发展，服务器规模扩大，就需要具备大规模服务器的批量管理能力。要求对开源技
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
想转行网络安全，可以先看看过来人的建议孤独的汤姆 web安全安全
在当前就业形势下，不少朋友面临转行的困境。网络安全作为一个热门领域，自然也吸引了许多人的目光。本文将就转行网络安全这一话题，提供一些切实可行的建议。网络安全行业概况网络安全涵盖了从基础的脚本编写到高级的漏洞研究等多个层面。该领域包括但不限于：渗透测试、漏洞评估、恶意软件分析、入侵检测、信息安全管理等。这些内容的复杂性不一，从基础的安全监控到复杂的安全架构设计都涉及其中。这就意味着，尽管有些领域可能
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
Unity Netcode自定义数据传输——结构体及其序列化未来的中科院院士 unity 游戏引擎
在UnityNetcode中，要实现自定义数据的网络传输，确实需要两个关键部分：✅两个必需组件：数据结构定义publicstructPlayerState:INetworkSerializable{publicintid;//字段1：玩家IDpublicboolisReady;//字段2：准备状态//...其他字段}作用：定义要传输的数据内容本质：声明"要传输什么"序列化方法实现publicvoi
常见的网络攻击方式及防御措施神的孩子都在歌唱计算机网络原理网络运维服务器
常见的网络攻击方式及防御措施：全面解析网络安全威胁前言肝文不易，点个免费的赞和关注，有错误的地方请指出，看个人主页有惊喜。作者：神的孩子都在歌唱在信息化高速发展的今天，网络安全威胁无处不在，不论是个人用户、企业组织，甚至是政府部门，都面临着各种形式的网络攻击。今天，神唱就来带大家一起深入了解常见的网络攻击方式以及如何有效防御这些攻击。一.网络攻击的基本概念1.1什么是网络攻击？网络攻击是指攻击者通
Spring 生态创新应用：微服务架构设计与前沿技术融合实践七夜zippoe #Java spring 微服务 java
在数字化转型的深水区，企业级应用正面临从“单体架构”向“分布式智能架构”的根本性跃迁。Spring生态以其二十年技术沉淀形成的生态壁垒，已成为支撑这场变革的核心基础设施。从2002年RodJohnson发布《ExpertOne-on-OneJ2EEDesignandDevelopment》奠定的理论基础，到如今覆盖从开发到运维全链路的技术矩阵，Spring始终以“简化开发”为初心，构建出适配不同业
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
在实训云平台上配置云主机酒城译痴无心剑 Spark基础学习笔记（2）实训云云主机远程连接
文章目录零、学习目标一、实训云升级二、实训云登录（一）登录实训云（二）切换界面语言（三）规划云主机实例三、创建网络三、创建路由器四、连接子网五、创建虚拟网卡六、管理安全组规则七、创建云主机（一）云主机规划（二）创建ied云主机（三）创建其它云主机八、本机利用FinalShell连接虚拟机（一）连接ied云主机（二）连接其它云主机九、配置云主机（一）配置ied云主机1、查看IP地址2、配置主机名3、
Docker 高级管理 -- 容器通信技术与数据持久化婷儿z docker 容器运维
目录第一节:容器通信技术一：Docker容器的网络模式1：Bridge模式2：Host模式3：Container模式4：None模式5：Overlay模式6：Macvlan模式7：自定义网络模式二：端口映射关键对比三：容器互联关键对比四：容器间通信实现案例1.网络创建选项2.容器通信实现步骤3.通信方式对比第二节：数据持久化技术一：Docker的数据管理1.数据卷核心概念2.数据卷核心作用3.数据
Docker 镜像源不再难求！国内可用镜像源汇总！（解决docker无法拉取镜像拉取镜像缓慢等问题，国内可用镜像源汇总） xiaoqiangclub 随记·2025✍️docker 容器镜像源
文章目录介绍演示环境国内Docker镜像源汇总可用Docker镜像源汇总（22个）⚓️相关链接⚓️介绍由于某些原因，现在国内Docker镜像源的访问速度常常让人抓狂。你是否曾在拉取镜像时遇到超长时间的等待，甚至是直接失败的情况？特别是对于开发者来说，拉取镜像这一基本操作本应是快速且稳定的，但国内访问Docker官方镜像仓库经常因为网络问题或者限制，导致镜像拉取困难，给日常工作带来不小的麻烦。幸运的
AI生成一个战斗PK应用
这两天在CSDN顶部栏里面看到inscode，点进去发现“InsCode是一个一站式的软件开发服务平台，从开发-部署-运维-运营，都可以在InsCode轻松完成。”，里面有个一句话生成应用的功能挺有意思。下面是我生成的应用，AI战斗PKAI战斗PK简单来说就是想起来之前B站还是哪里看到的奥特曼大战叶问，由此想到了这个应用，输入两个历史、电影或动漫中的角色名字，然后AI输出他们战斗的过程和结果。这是
内网环境部署Deepseek+Dify，构建企业私有化AI应用我是鲁阿姨
0.简介#公司为生产安全和保密，内部的服务器不可连接外部网络，为了可以在内网环境下部署，采用的方案为ollama(Docker)+Dify(DockerCompose)，方便内网环境下迁移和备份，下文将介绍部署的全部过程。1.镜像拉取#镜像拉取为准备工作，因服务器在内网环境，需要先在可以连接外网的电脑上拉取相关镜像或文件。由于公司笔记本的Windows系统屏蔽了MicrosoftStore，导致D
网络工具Fing Network Tools v12.10.2专业版，WiFi设备扫描神器米豆学社网络工具
[软件名称]:网络工具FingNetworkTools[软件大小]:49.2MB[下载通道]:夸克盘|迅雷盘软件介绍《FingNetworkTools》v12.10.2专业版｜WiFi安全卫士，一键检测所有联网设备✨核心功能设备扫描–实时发现WiFi网络中的所有连接设备，识别陌生入侵者⚡网络诊断–速度测试+延迟分析，找出Netflix卡顿真凶️安全防护–入侵检测+防火墙功能，守护家庭网络安全高级工
HCIE数通认证难不难？通过率如何？
揭秘华为顶级网络专家门槛风浪越大，鱼越贵——HCIE数通正是ICT领域那尾“金枪鱼”一、HCIE数通：华为认证体系的“金字塔尖”1.作为华为认证最高级别，HCIE-Datacom专为培养数据通信领域专家设计2.能力要求，掌握大中型复杂网络的规划、部署、运维及优化能力，支持云、存储、语音等融合业务3.技术深度，覆盖VXLAN、EVPN、SRv6、堆叠/集群等前沿技术，新增智简园区（iMasterNC
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
从实践到自动化：现代运维管理的转型与挑战运维
从实践到自动化：现代运维管理的转型与挑战在信息化快速发展的今天，企业IT系统的稳定性、可用性和安全性已成为衡量公司竞争力的重要因素之一。运维（IT运维）管理作为确保企业IT系统健康、稳定运行的关键职能，一直是企业技术团队关注的重点。然而，随着业务的复杂化、用户需求的变化以及技术的不断创新，传统的运维方式已逐渐无法满足企业对于高效、高可用、高安全的需求。如何提升运维效率、减少人为错误、提高运维系统的
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
如何解决小程序发布之后不能访问任何请求的问题？嘉琪001 小程序 apache php
（1）域名白名单设置不正确：小程序需要在微信公众平台后台请求域名添加到request合法域名白名单中，否则无法发送请求，确保所有域名添加到白名单中服务器SSL/HTTPS配置问题：小程序要求必须使用HTTPS协议进行网络请求，如果服务器没有配置好SSL证书，就无法访问，跨域问题:在服务器配置好CORS的跨域策略接口权限限制：如果请求是像某个特定的接口发送，确保你在小程序后台设置了相应接口权限有些接
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
服务间远程调用 tomorrow.hello 架构网络服务器运维
1.协议分层模型通信协议通常按照分层模型进行设计，常见的分层模型包括OSI七层模型和TCP/IP四层模型。OSI七层模型包括应用层、表示层、会话层、传输层、网络层、数据链路层和物理层；而TCP/IP四层模型则包括应用层、传输层、网络层和网络接口层‌。每个层次都有其特定的功能和职责，确保数据的完整传输和错误处理。2.传输协议传输协议主要包括TCP、UDP、HTTP、HTTPS、FTP、SMTP、SS
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Android网络层架构：统一错误处理的问题分析到解决方案与设计实现 wzj_what_why_how Android #Android——架构和设计 android 架构
前言在Android项目开发中，我们经常遇到需要统一处理某些特定状态码的场景。本文分享一个项目中遇到的4406状态码（实名认证）处理不统一问题，从问题分析到完整解决方案，提供一套可复用的架构设计模式。目录前言问题分析不同框架的回调处理机制解决方案关键技术细节添加应用拦截器循环依赖问题与回调接口模式问题分析解决方案：回调接口模式ResponseBody流管理问题现象原因总结源码分析总结其设计原理重复
【网络协议】TCP连接的建立和释放
TCP连接的建立和释放TCP首部格式TCP报文段的前20个字节是固定的，后4N个字节为根据需要可增加的选项首部各字段的意义如下：源端口和目的端口：加上IP首部的源IP地址和目的IP地址，确定唯一的一个TCP连接。另外通过目的端口来确定TCP将数据报交付于哪个应用程序，从而实现功能。序列号：占4个字节，由于TCP是面向字节流的，在TCP中传送的每一个字节都按顺序编号，首部中的序号字段(seq)是指本
【计算机网络】第三章：数据链路层（上） iFulling 计算机网络笔记计算机网络网络网络协议笔记
本篇笔记课程来源：王道计算机考研计算机网络接下节：【计算机网络】第三章：数据链路层（下）【计算机网络】第三章：数据链路层（上）一、数据链路层的功能1.基本概念2.功能总览二、组帧（封装成帧）1.主要实现2.字符计数法3.字节填充法4.零比特填充法5.违规编码法三、差错控制1.主要实现2.检错编码Ⅰ.奇偶校验码Ⅱ.循环冗余校验码3.纠错编码Ⅰ.海明校验码四、流量控制、可靠传输1.相关机制Ⅰ.滑动窗口
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
【Linux | 网络】socket编程 - 使用UDP实现服务端向客户端提供简单的服务是阿建吖! 【网络】【Linux】网络 linux udp
目录一、UdpServerSever（客户端发送信息，服务端直接返回信息）1.1Comm.hpp（公共数据）1.2Log.hpp（日志）1.3InetAddr.hpp（管理sockaddr_in相关信息）1.4NoCopy.hpp（防拷贝）1.5UdpServer.hpp（服务端封装）1.6Main.cpp（服务端）1.7UdpClient.cpp（客户端）二、UdpServerExecute（客
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【Java源码阅读系列44】深度解读Java NIO ByteBuffer 源码 ·云扬· 源码阅读系列之Java java nio 开发语言
JavaNIO（NewInput/Output）中的ByteBuffer是Buffer抽象类的具体子类，专门用于处理字节数据的高效读写。作为NIO的核心组件，ByteBuffer支持堆内存（Heap）和直接内存（Direct）两种存储方式，广泛应用于网络通信、文件IO等场景。本文将结合源码，深入解析ByteBuffer的核心机制、关键方法及设计模式的应用。一、ByteBuffer的核心特性与存储方
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR