JinRong-Liang

从0开始编写自己的bcc程序（二）

通过上次从0开始编写自己的bcc程序的介绍，我们已经用编写的bcc程序提取出内核网络中数据关键字段为进程的PID，进程的名字，进程的收包实时流量、发包实时流量，收包流量总和，发包流量总和，总的收发流量等数据，今天我们通过分析内核源码，为其增加源地址、源端口、目的地址、目的端口等字段。

上次我们使用kprobe挂接了两个重要的函数，分别是tcp_sendmsg和tcp_cleanup_rbuf，下面我们结合源码进行解读。为什么要挂接tcp_sendmsg，我们先看这个图：

网络数据包的发送过程起始于应用层的函数调用，随后会调用tcp_sendmsg函数，层层调用到tcp_transmit_skb函数完成TCP协议处理，封闭tcp包头，最后调用ip层的ip_queue_xmit方法。

接下来看看在传输层报文生成的实现，详细过程请看代码注释：

int tcp_sendmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
		size_t size)
{
	struct iovec *iov;
	struct tcp_sock *tp = tcp_sk(sk);
	struct sk_buff *skb;
	int iovlen, flags;
	int mss_now;
	int err, copied;
	long timeo;

	/* 获取套接口的锁 */
	lock_sock(sk);
	TCP_CHECK_TIMER(sk);

	/* 根据标志计算阻塞超时时间 */
	flags = msg->msg_flags;
	timeo = sock_sndtimeo(sk, flags & MSG_DONTWAIT);

	/* Wait for a connection to finish. */
	if ((1 << sk->sk_state) & ~(TCPF_ESTABLISHED | TCPF_CLOSE_WAIT))/* 只有这两种状态才能发送消息 */
		if ((err = sk_stream_wait_connect(sk, &timeo)) != 0)/* 其它状态下等待连接正确建立，超时则进行错误处理 */
			goto out_err;

	/* This should be in poll */
	clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags);

	/* 获得有效的MSS，如果支持OOB，则不能支持TSO，MSS则应当是比较小的值 */
	mss_now = tcp_current_mss(sk, !(flags&MSG_OOB));

	/* Ok commence sending. */
	/* 获取待发送数据块数及数据块指针 */
	iovlen = msg->msg_iovlen;
	iov = msg->msg_iov;
	/* copied表示从用户数据块复制到skb中的字节数。 */
	copied = 0;

	err = -EPIPE;
	/* 如果套接口存在错误，则不允许发送数据，返回EPIPE错误 */
	if (sk->sk_err || (sk->sk_shutdown & SEND_SHUTDOWN))
		goto do_error;

	while (--iovlen >= 0) {/* 处理所有待发送数据块 */
		int seglen = iov->iov_len;
		unsigned char __user *from = iov->iov_base;

		iov++;

		while (seglen > 0) {/* 处理单个数据块中的所有数据 */
			int copy;

			skb = sk->sk_write_queue.prev;

			if (!sk->sk_send_head ||/* 发送队列为空，前面取得的skb无效 */
			    (copy = mss_now - skb->len) <= 0) {/* 如果skb有效，但是它已经没有多余的空间复制新数据了 */

new_segment:
				/* Allocate new segment. If the interface is SG,
				 * allocate skb fitting to single page.
				 */
				if (!sk_stream_memory_free(sk))/* 发送队列中数据长度达到发送缓冲区的上限，等待缓冲区 */
					goto wait_for_sndbuf;

				skb = sk_stream_alloc_pskb(sk, select_size(sk, tp),
							   0, sk->sk_allocation);/* 分配新的skb */
				if (!skb)/* 分配失败，说明系统内存不足，等待 */
					goto wait_for_memory;

				/*
				 * Check whether we can use HW checksum.
				 */
				if (sk->sk_route_caps &
				    (NETIF_F_IP_CSUM | NETIF_F_NO_CSUM |
				     NETIF_F_HW_CSUM))/* 根据路由网络设备的特性，确定是否由硬件执行校验和 */
					skb->ip_summed = CHECKSUM_HW;

				skb_entail(sk, tp, skb);/* 将SKB添加到发送队列尾部 */
				copy = mss_now;/* 本次需要复制的数据量是MSS */
			}

			/* Try to append data to the end of skb. */
			if (copy > seglen)/* 要复制的数据不能大于当前段的长度 */
				copy = seglen;

			/* Where to copy to? */
			if (skb_tailroom(skb) > 0) {/* skb线性存储区底部还有空间 */
				/* We have some space in skb head. Superb! */
				if (copy > skb_tailroom(skb))/* 本次只复制skb存储区底部剩余空间大小的数据量 */
					copy = skb_tailroom(skb);
				/* 从用户空间复制指定长度的数据到skb中，如果失败，则退出 */
				if ((err = skb_add_data(skb, from, copy)) != 0)
					goto do_fault;
			} else {/* 线性存储区底部已经没有空间了，复制到分散/聚集存储区中 */
				int merge = 0;/* 是否在页中添加数据 */
				int i = skb_shinfo(skb)->nr_frags;/* 分散/聚集片断数 */
				struct page *page = TCP_PAGE(sk);/* 分片页页 */
				int off = TCP_OFF(sk);/* 分片内的偏移 */

				if (skb_can_coalesce(skb, i, page, off) &&
				    off != PAGE_SIZE) {/* 当前分片还能添加数据 */
					/* We can extend the last page
					 * fragment. */
					merge = 1;
				} else if (i == MAX_SKB_FRAGS ||/* 目前skb中的页不能添加数据，这里判断是否能再分配页 */
					   (!i &&
					   !(sk->sk_route_caps & NETIF_F_SG))) {/* 网卡不支持S/G，不能分片 */
					/* Need to add new fragment and cannot
					 * do this because interface is non-SG,
					 * or because all the page slots are
					 * busy. */
					tcp_mark_push(tp, skb);/* SKB可以提交了 */
					goto new_segment;/* 重新分配skb */
				} else if (page) {/* 分页数量未达到上限，判断当前页是否还有空间 */
					/* If page is cached, align
					 * offset to L1 cache boundary
					 */
					off = (off + L1_CACHE_BYTES - 1) &
					      ~(L1_CACHE_BYTES - 1);
					if (off == PAGE_SIZE) {/* 最后一个分页数据已经满，需要分配新页 */
						put_page(page);
						TCP_PAGE(sk) = page = NULL;
					}
				}

				if (!page) {/* 需要分配新页 */
					/* Allocate new cache page. */
					if (!(page = sk_stream_alloc_page(sk)))/* 分配新页，如果内存不足则等待内存 */
						goto wait_for_memory;
					off = 0;
				}

				if (copy > PAGE_SIZE - off)/* 待复制的数据不能大于页中剩余空间 */
					copy = PAGE_SIZE - off;

				/* Time to copy data. We are close to
				 * the end! */
				err = skb_copy_to_page(sk, from, skb, page,
						       off, copy);/* 从用户态复制数据到页中 */
				if (err) {/* 复制失败了 */
					/* If this page was new, give it to the
					 * socket so it does not get leaked.
					 */
					if (!TCP_PAGE(sk)) {/* 如果是新分配的页，则将页记录到skb中，供今后使用 */
						TCP_PAGE(sk) = page;
						TCP_OFF(sk) = 0;
					}
					goto do_error;
				}

				/* Update the skb. */
				/* 更新skb的分段信息 */
				if (merge) {/* 在最后一个页中追加数据 */
					skb_shinfo(skb)->frags[i - 1].size +=
									copy;/* 更新最后一页的数据长度 */
				} else {/* 新分配的页 */
					/* 更新skb中分片信息 */
					skb_fill_page_desc(skb, i, page, off, copy);
					if (TCP_PAGE(sk)) {
						get_page(page);
					} else if (off + copy < PAGE_SIZE) {
						get_page(page);
						TCP_PAGE(sk) = page;
					}
				}

				/* 更新页内偏移 */
				TCP_OFF(sk) = off + copy;
			}

			if (!copied)/* 如果没有复制数据，则取消PSH标志 */
				TCP_SKB_CB(skb)->flags &= ~TCPCB_FLAG_PSH;

			tp->write_seq += copy;/* 更新发送队列最后一个包的序号 */
			TCP_SKB_CB(skb)->end_seq += copy;/* 更新skb的序号 */
			skb_shinfo(skb)->tso_segs = 0;

			/* 更新数据复制的指针 */
			from += copy;
			copied += copy;
			/* 如果所有数据已经复制完毕则退出 */
			if ((seglen -= copy) == 0 && iovlen == 0)
				goto out;

			/* 如果当前skb中的数据小于mss，说明可以往里面继续复制数据。或者发送的是OOB数据，则也跳过发送过程，继续复制数据 */
			if (skb->len != mss_now || (flags & MSG_OOB))
				continue;

			if (forced_push(tp)) {/* 必须立即发送数据，即上次发送后产生的数据已经超过通告窗口值的一半 */
				/* 设置PSH标志后发送数据 */
				tcp_mark_push(tp, skb);
				__tcp_push_pending_frames(sk, tp, mss_now, TCP_NAGLE_PUSH);
			} else if (skb == sk->sk_send_head)/* 虽然不是必须发送数据，但是发送队列上只存在当前段，也将其发送出去 */
				tcp_push_one(sk, mss_now);
			continue;

wait_for_sndbuf:
			/* 由于发送队列满的原因导致等待 */
			set_bit(SOCK_NOSPACE, &sk->sk_socket->flags);
wait_for_memory:
			if (copied)/* 虽然没有内存了，但是本次调用复制了数据到缓冲区，调用tcp_push将其发送出去 */
				tcp_push(sk, tp, flags & ~MSG_MORE, mss_now, TCP_NAGLE_PUSH);

			/* 等待内存可用 */
			if ((err = sk_stream_wait_memory(sk, &timeo)) != 0)
				goto do_error;/* 确实没有内存了，超时后返回失败 */

			/* 睡眠后，MSS可能发生了变化，重新计算 */
			mss_now = tcp_current_mss(sk, !(flags&MSG_OOB));
		}
	}

out:
	if (copied)/* 从用户态复制了数据，发送它 */
		tcp_push(sk, tp, flags, mss_now, tp->nonagle);
	TCP_CHECK_TIMER(sk);
	release_sock(sk);/* 释放锁以后返回 */
	return copied;

do_fault:
	if (!skb->len) {/* 复制数据失败了，如果skb长度为0，说明是新分配的，释放它 */
		if (sk->sk_send_head == skb)/* 如果skb是发送队列头，则清空队列头 */
			sk->sk_send_head = NULL;
		__skb_unlink(skb, skb->list);
		sk_stream_free_skb(sk, skb);/* 释放skb */
	}

do_error:
	if (copied)
		goto out;
out_err:
	err = sk_stream_error(sk, flags, err);
	TCP_CHECK_TIMER(sk);
	release_sock(sk);
	return err;
}

可以看到，这里就有我们要提取的数据，比如我们要提取的发送的流量信息，就可以利用size_t 类型的size来进行统计，那么源地址、源端口、目的地址、目的端口，我们就可以按以下思路求出：

//源地址
saddr = sk->__sk_common.skc_rcv_saddr;
//源端口
lport = sk->__sk_common.skc_num;
//目的地址
daddr = sk->__sk_common.skc_daddr;
//目的端口
dport = sk->__sk_common.skc_dport;
dport = ntohs(dport);

那么统计接收的数据包，我们理应使用tcp_recvmsg()，但是它不太合适，为了不重不漏的统计流量信息，我们选择跟踪tcp_cleanup_rbuf()，这样就可以统计到tcp_read_sock()中的流量。在此，tcp_cleanup_rbuf()不做过多分析，直接看修改后的bcc代码：

#!/usr/bin/env python
# coding=utf-8
from __future__ import print_function
from bcc import BPF
from time import sleep
import argparse
from collections import namedtuple, defaultdict
from threading import Thread, currentThread, Lock
from socket import inet_ntop, AF_INET
from struct import pack

# lock = Lock()
# arguments
def range_check(string):
    value = int(string)
    if value < 1:
        msg = "value must be stricly positive, got %d" % (value,)
        raise argparse.ArgumentTypeError(msg)
    return value

examples = """examples:
    ./flow          # trace send/recv flow by host 
    ./flow -p 100   # only trace PID 100
"""

parser = argparse.ArgumentParser(
    description = "Summarize send and recv flow by host",
    formatter_class = argparse.RawDescriptionHelpFormatter,
    epilog = examples
)
parser.add_argument("-p", "--pid", 
    help = "Trace this pid only")
parser.add_argument("interval", nargs="?", default=1, type=range_check,
	help = "output interval, in second (default 1)")
parser.add_argument("count", nargs="?", default=-1, type=range_check,
	help="number of outputs")
args = parser.parse_args()

bpf_program = """
#include 
#include 
#include 

struct ipv4_key_t {
    u32 pid;
    u32 saddr;
    u32 daddr;
    u16 lport;
    u16 dport;
};

BPF_HASH(ipv4_send_bytes, struct ipv4_key_t);
BPF_HASH(ipv4_recv_bytes, struct ipv4_key_t);

int kprobe__tcp_sendmsg(struct pt_regs *ctx, struct sock *sk,
    struct msghdr *msg, size_t size)
{
    u32 pid = bpf_get_current_pid_tgid() >> 32;
    FILTER_PID

    u16 dport = 0, family = sk->__sk_common.skc_family;

    if (family == AF_INET) {
        struct ipv4_key_t ipv4_key = {.pid = pid};
        ipv4_send_bytes.increment(ipv4_key, size);
        ipv4_key.saddr = sk->__sk_common.skc_rcv_saddr;
        ipv4_key.daddr = sk->__sk_common.skc_daddr;
        ipv4_key.lport = sk->__sk_common.skc_num;
        dport = sk->__sk_common.skc_dport;
        ipv4_key.dport = ntohs(dport);
    }
    return 0;
}

int kprobe__tcp_cleanup_rbuf(struct pt_regs *ctx, struct sock *sk, int copied)
{
    u32 pid = bpf_get_current_pid_tgid() >> 32;
    FILTER_PID

    u16 dport = 0, family = sk->__sk_common.skc_family;
    u64 *val, zero =0;

    if (copied <= 0)
        return 0;

    if (family == AF_INET) {
        struct ipv4_key_t ipv4_key = {.pid = pid};
        ipv4_recv_bytes.increment(ipv4_key, copied);
        ipv4_key.saddr = sk->__sk_common.skc_rcv_saddr;
        ipv4_key.daddr = sk->__sk_common.skc_daddr;
        ipv4_key.lport = sk->__sk_common.skc_num;
        dport = sk->__sk_common.skc_dport;
        ipv4_key.dport = ntohs(dport);
    }
    return 0;
}
"""

# code substitutions
if args.pid:
    bpf_program = bpf_program.replace('FILTER_PID',
        'if (pid != %s) { return 0; }' % args.pid)
else:
    bpf_program = bpf_program.replace('FILTER_PID','')

SessionKey = namedtuple('Session',['pid', 'laddr', 'lport', 'daddr', 'dport'])

def pid_to_comm(pid):
    try:
        comm = open("/proc/%s/comm" % pid, "r").read().rstrip()
        return comm
    except IOError:
        return str(pid)

def get_ipv4_session_key(k):
	return SessionKey(pid=k.pid, laddr=inet_ntop(AF_INET, pack("I", k.saddr)),lport=k.lport, daddr=inet_ntop(AF_INET, pack("I", k.daddr)), dport=k.dport)

# init bpf
b = BPF(text=bpf_program)

ipv4_send_bytes = b["ipv4_send_bytes"]
ipv4_recv_bytes = b["ipv4_recv_bytes"]

# header
print("%-10s %-12s %-10s %-10s %-10s %-10s %-10s %-21s %-21s" % ("PID", "COMM", 
	"RX_KB", "TX_KB", "RXSUM_KB", "TXSUM_KB", "SUM_KB", "LADDR", "RADDR"))

# output
sumrecv = 0
sumsend = 0
sum_kb = 0
i = 0
exiting = False
while i != args.count and not exiting:
	try:
		sleep(args.interval)
	except KeyboardInterrupt:
		exiting = True

	ipv4_throughput = defaultdict(lambda:[0,0])
	for k, v in ipv4_send_bytes.items():
		key=get_ipv4_session_key(k)
		ipv4_throughput[key][0] = v.value
	ipv4_send_bytes.clear()

	for k,v in ipv4_recv_bytes.items():
		key = get_ipv4_session_key(k)
		ipv4_throughput[key][1] = v.value
	ipv4_recv_bytes.clear()
	#lock.acquire()
	if ipv4_throughput:
		for k, (send_bytes, recv_bytes) in sorted(ipv4_throughput.items(),
			key=lambda kv: sum(kv[1]),
			reverse=True):
			recv_bytes = int(recv_bytes / 1024)
			send_bytes = int(send_bytes / 1024)
			sumrecv += recv_bytes
			sumsend += send_bytes
			sum_kb = sumrecv + sumsend
			print("%-10d %-12.12s %-10d %-10d %-10d %-10d %-10d %-21s %-21s" % 
				(k.pid, pid_to_comm(k.pid), 
				recv_bytes, send_bytes, sumrecv, sumsend, sum_kb, 
				k.laddr + ":" + str(k.lport), 
				k.daddr + ":" + str(k.dport),))
	#lock.release()
	i += 1

我们来运行一下，查看运行结果：

发现统计的源地址、源端口、目的地址、目的端口均为0，这是为何？
提取失败时，不要慌，问题不大，我们检查代码，逐步排除问题。经过较长时间的排查与实践，我终于发现是数据封装时出现了问题，正确的封装关键代码如下：

//bpf_probe_read(&ipv4_key.saddr, sizeof(ipv4_key.saddr), &sk->__sk_common.skc_rcv_saddr);
struct ipv4_key_t ipv4_key = {.pid = pid};
ipv4_key.saddr = sk->__sk_common.skc_rcv_saddr;
ipv4_key.daddr = sk->__sk_common.skc_daddr;
ipv4_key.lport = sk->__sk_common.skc_num;
dport = sk->__sk_common.skc_dport;
ipv4_key.dport = ntohs(dport);
ipv4_send_bytes.increment(ipv4_key, size);

将获取到的流量、地址和端口信息，通过bpf中的map.increment()这样一个方法进行封装在BPF_HASH中，然后在python部分进行数据处理，map.increment()的描述如下：

Syntax: map.increment(key[, increment_amount])
Increments the key’s value by increment_amount, which defaults to 1. Used for histograms.

我们再次运行bcc程序，结果如下：

可以看到，除了之前提的流量信息，我们已经成功地提取出源地址、目的地址、源端口、目的端口等信息。

参考资料：
https://github.com/iovisor/bcc/blob/master/docs/reference_guide.md
https://blog.csdn.net/vipshop_fin_dev/article/details/103931691

云原生 | 在 Kubernetes 中使用 Cilium 替代 Calico 网络插件实践指南! 全栈工程师修炼指南企业IT运维实践云原生 kubernetes 网络容器
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]0x00简述介绍什么是Cilium?Cilium是一款开源软件，它基于一种名为eBPF的新的Linux内核技术提供动力，用于透明地保护使用Docker和Kubernetes等Linux容器管理平台中部署的应用程序服务之间的网络连接，Cilium主要使用场景是在Kubernetes中，但Cilium的优势并不仅限于Kubernetes环境。在Ku
观测云核心技术解密：eBPF Tracing 实现原理观测云网络 ebpf
前言eBPF是一种强大的内核技术，允许在内核中安全地执行自定义代码。通过eBPF，开发者可以在不修改内核源码的情况下，对内核功能进行扩展和监控。eBPFTracing利用这一技术，对系统调用、内核函数等进行跟踪，从而实现对应用行为的深入洞察。与传统的监控方式相比，eBPFTracing具有以下优势：无侵入性：无需修改应用代码即可进行监控。高性能：在内核层面执行，减少了对应用性能的影响。细粒度：可以
云原生周刊：Kubernetes v1.31 发布 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
开源项目推荐KardinalKardinal是一个用于在共享Kubernetes集群中创建超轻量级临时开发环境的框架。AnteonAnteon（以前称为Ddosify）是一个开源的、基于eBPF的Kubernetes监控和性能测试平台。KubetuiKubetui是一个用于监控Kubernetes资源的终端用户界面(TUI)工具。它为开发人员和运维人员提供了一个易于使用的界面，可访问有关其应用程序
eBPF实践篇之环境搭建醉墨居士 eBPF linux 网络 c语言
文章目录前言实验环境前置知识配置开发环境最后前言你好，我是醉墨居士，本次我们学习一下eBPF，我们基于libbpf-bootstrap来进行我们的eBPF程序开发实验环境一台Debian12操作系统的计算机，我使用的是Debian12.2.0-amd64其它Linux发行版的环境也可以，Linux内核不低于5.4版本前置知识c语言，linux系统基本操作配置开发环境在Ubuntu/Debian系统
【理解 Cilium 系列文章】(一) 初识 Cilium 云原生Serverless 云原生 cilium cilium 网络
Cilium作为近两年最火的云原生网络方案，可谓是风头无两。作为第一个通过ebpf实现了kube-proxy所有功能的网络插件，它的神秘面纱究竟是怎样的呢？本系列文章将带大家一起来慢慢揭晓作为《理解Cilium系列文章》的第一篇，本文主要介绍Cilium的发展，相关功能以及使用，深入理解及底层原理将在后续文章中继续介绍背景随着云原生的普及率越来越高，各大厂商基本上或多或少都实现了业务的k8s容器化
【理解 Cilium 系列文章】(二) 理解网络数据包的流转过程云原生Serverless 云原生 cilium linux ebpf cilium 云原生
Cilium作为近两年最火的云原生网络方案，可谓是风头无两。作为第一个通过ebpf实现了kube-proxy所有功能的网络插件，它的神秘面纱究竟是怎样的呢？本系列文章将带大家一起来慢慢揭晓作为《理解Cilium系列文章》的第二篇，本文主要介绍Cilium网络相关知识点，为后续Cilium的深入了解做铺垫。了解Cilium是如何在网络流转的路径中做拦截处理的之前的两篇文章【25张图，一万字，拆解Li
eBPF 科普第一弹｜初识 eBPF，你应该知道的知识云原生与道客云原生 kubernetes cloud native 容器 docker
“eBPF作为一颗在基础软件领域冉冉上升的新星，可谓前途大好，越来越多的基于eBPF的应用如雨后春笋般蓬勃涌现，这是eBPF展现出的惊人力量。本文就将带着大家了解eBPF。11月，「DaoCloud道客」正式加入了eBPF基金会，是继8月12日创始成员Facebook、Google、Isovalent、Microsoft和Netflix之后，第一家正式获准加入的中国公司。01什么是eBPF与eBP
初识 eBPF，你应该知道的知识 Docker_ 网络数据结构 python linux java
eBPF作为一颗在基础软件领域冉冉上升的新星，可谓前途大好，越来越多的基于eBPF的应用如雨后春笋般蓬勃涌现，这是eBPF展现出的惊人力量。本文就将带着大家了解eBPF。什么是eBPF与eBPF基金会？简单来说，eBPF是Linux内核中一个非常灵活与高效的类虚拟机（virtualmachine-like）组件，能够在许多内核hook点安全地执行字节码（bytecode）。很多内核子系统都已经使用
初识eBPF YoungerChina 内核驱动 EBPF 内核 Linux
eBPF是一项革命性的技术，它能在操作系统内核中运行沙箱程序。被用于安全并有效地扩展内核的能力而无需修改内核代码或者加载内核模块。从古至今，由于内核有监视和控制整个系统的特权，操作系统一直都是实现可观察性、安全性和网络功能的理想场所。同时，操作系统内核也很难进化，因为它的核心角色以及对稳定和安全的高度要求。因此，操作系统级别的创新相比操作系统之外实现的功能较少。eBPF从根本上改变了这个定律。通过
基于WebGPU的AI原生3D引擎将会迎来新机遇！Orillusion在GOTC上做主题演讲！前端
全球开源技术峰会（GlobalOpen-sourceTechnologyConferencGOTC2023由开放原子开源基金会、Linux基金会亚太区、上海浦东软件园和开源中国联合发起，于5月27日至28日在上海顺利举行。GOTC是面向全球开发者的一场盛大开源技术盛宴，大会以行业展览、主题发言、专题论坛、开源市集的形式展现，与会者将一起探讨元宇宙、3D与游戏、eBPF、Web3.0、区块链等热门技
ebpf-go 初体验
前言我们在《用eBPF/XDP来替代LVS》系列、《一张图感受真实的TCP状态转移》系列，以及《如何终结已存在的TCP连接?》系列文章中，均通过纯C语言和libbpf1这个库来运用eBPF。但是很多的场景中（尤其是云原生场景），我们出于避免重复造轮子、更快的迭代速度、运行时安全等原因，会选择go语言来进行开发，ebpf-go2这个库就是当前最好的选择。今天，我们就对ebpf-go进行一个初体验，这
beyla源码：golang程序的trace context propagation goebpfbpftrace
beyla支持通过ebpf，自动采集应用程序的trace信息。对于golang程序，beyla还支持tracecontextprogagation，即微服务之间的trace上下文传播，这样服务之间调用的链条就连起来了，达到了普通的侵入式tracing同样的效果。以golang的nethttp为例，讲述beyla对tracecontextpropagation的实现原理。一.整体原理Tracecon
beyla源码：golang程序的trace采集 goebpfbpftrace
beyla支持通过ebpf，无侵入的、自动采集应用程序的trace信息。以golang的nethttp为例，讲述beyla对trace的采集的实现原理。一.整体原理trace采集时，监听了golang应用程序的net/http中的函数：net/http.serverHandler.ServeHTTP;net/http.(*Transport).roundTrip;监听ServeHTTP时：若req
Cilium CNI深度指南程序员
Cilium是基于eBPF的功能强大的CNI插件，为云原生环境提供了强大的网络和安全支持。原文:CiliumCNI:AComprehensiveDeepDiveGuideforNetworkingandSecurityEnthusiasts!简介欢迎阅读为网络和安全爱好者提供的全面深入的指南！本文将以一种初学者也能理解的方式解析Cilium的概念和复杂性，如果你对如何通过Cilium网络性能和安全
C语言用户态函数可观测性
本文不是介绍eBPF相关的用户态Probe的内容，而是如何利用开源C语言库Melon的函数模板来轻松实现函数的可观测性需求，例如：测量耗时等。本文主要介绍的是Melon库中的func模块，之所以没有给这个模块起名叫可观测性或者span，原因是这是一个更为通用的模块，不仅限于可观测性的需求。func模块实现的功能与GCC的constructor和destructor特性十分相似，就是在C语言函数的入
Cilium CNI深度指南俞凡 DeepNoMind 程序人生
Cilium是基于eBPF的功能强大的CNI插件，为云原生环境提供了强大的网络和安全支持。原文:CiliumCNI:AComprehensiveDeepDiveGuideforNetworkingandSecurityEnthusiasts!简介欢迎阅读为网络和安全爱好者提供的全面深入的指南！本文将以一种初学者也能理解的方式解析Cilium的概念和复杂性，如果你对如何通过Cilium网络性能和安全
云原生可观测洞察及openEuler社区实践 openEuler社区 openEuler技术博客云原生 openeuler 开源操作系统 ebpf k8s
应用可观测性可以对企业运营产生的实际数据进行分析，可观测性将成为企业数据驱动决策的最强支撑。云原生时代的基础设施更复杂，也暴露出可观测性存在一些问题，包括基础设施观测能力不足，缺乏应用视角的基础设施观测数据等，这些都为下一代云原生可观测提供了机会与挑战。openEuler社区项目gala-gopher[1]基于eBPF技术完成一系列全栈可观测实践工作。eBPF及其对可观测的意义eBPF是一个能够在
OSDI论文:XRP: In-Kernel Storage Functions with eBPF colagy wang linux
1.论文概述当前NVMe存储设备的出现可以达到微秒级,Linux内核系统调用以及块存储设备所产生的开销的比例也明显上升.2.背景和动机![image.png](https://img-blog.csdnimg.cn/img_convert/cd713687ffe6f69473cd5b657b63b8d7.png#clientId=u6eca4c97-25d9-4&crop=0&crop=0&cro
C语言用户态函数可观测性码哥比特 c语言算法经验分享程序人生 linux 单片机数据结构
本文不是介绍eBPF相关的用户态Probe的内容，而是如何利用开源C语言库Melon的函数模板来轻松实现函数的可观测性需求，例如：测量耗时等。本文主要介绍的是Melon库中的func模块，之所以没有给这个模块起名叫可观测性或者span，原因是这是一个更为通用的模块，不仅限于可观测性的需求。func模块实现的功能与GCC的constructor和destructor特性十分相似，就是在C语言函数的入
应用监控 eBPF 版：实现高效协议解析的技术探索阿里云云原生阿里云云原生 eBPF 可观测
作者：彦鸿引言随着Kuberentes等云原生技术的飞速发展，带来了研发与运维模式的变革。企业软件架构由单体服务向分布式、微服务演进。随着业务发展，多语言、多框架、多协议的微服务在企业中越来越多，软件架构复杂度越来越高，如何快速通过可观测工具快速定位出问题对研发人员至关重要。为满足全场景、端到端的应用监控需求，应用实时监控服务ARMS推出应用监控eBPF版，通过eBPF技术完善整个应用监控体系。应
【权限提升】Linux Kernel ebpf 提权漏洞(CVE-2022-23222) 李火火安全阁 Linux 权限提升漏洞复现安全
文章目录前言一、漏洞描述二、漏洞影响版本三、漏洞复现四、漏洞修复前言CVE-2022-23222LinuxKernelebpf权限提升漏洞一、漏洞描述eBPF(extendedBerkeleyPacketFilter)是一种可以在Linux内核中运行用户编写的程序，而不需要修改内核代码或加载内核模块的技术。简单来说eBPF让Linux内核变得可编程化了。由于内核在执行用户提供的eBPF程序前缺乏适
Linux 可观测性 BPF&eBPF 以及 BCC&bpftrace 认知山河已无恙 Linux 性能调优 linux 运维服务器
写在前面博文内容为《BPFPerformanceTools》读书笔记整理，对原书内容做了摘要博文内容涉及：BPF和eBPF认知BCC和bpftrace认知BCC和bpftrace工具简单认知理解不足小伙伴帮忙指正对每个人而言，真正的职责只有一个：找到自我。然后在心中坚守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是对大众理想的懦弱回归，是随波逐流，是对内心的恐惧——赫尔曼
互联网摸鱼日报（2022-10-20）每日摸鱼大王每日摸鱼新闻业界资讯
互联网摸鱼日报（2022-10-20）InfoQ热门话题81%的IT团队被公司高层指示要减少或停止云支出编程神器Copilot逐字抄袭他人代码？GitHub回应：相似，但不同…开发者如何应对当前与未来挑战？英特尔On技术创新峰会给出了答案SUSE推出业界首个自适应Linux平台原型将信用卡号存储在调试日志中，中国快时尚平台Shein母公司因安全意识薄弱被罚190万美元中国工商银行基于eBPF技术的
eBPF运行时安全统信软件技术有限公司安全
引言eBPF作为当前linux系统上最为炙手可热的技术，通常被用于网络流量过滤和分析、系统调用跟踪、性能优化、安全监控，当下比较知名的项目有Cilium、Falco等。Cilium是一个开源的容器网络和安全性项目，致力于提供高效的容器通信和强大的安全性功能，Cilium基于eBPF、XDP、TC等技术实现了Layer3（IP）、Layer4（TCP/UDP）以及HTTP层的负载均衡和网络防护，是一
性能测试分析案例-使用动态追踪定位性能瓶颈 bala5569 性能测试性能测试小白服务器性能优化
所谓动态追踪，就是在系统或者应用程序正常运行的时候，通过内核中提供的探针，来动态追踪它们的行为，从而辅助排查出性能问题的瓶颈。使用动态追踪，可以在不修改代码、不重启服务的情况下，动态了解应用程序或者内核的行为，排查线上问题、特别是不容易重现的问题。在Linux系统中，常见的动态追踪方法包括ftrace、perf、eBPF以及SystemTap等。perf使用perfrecord/top时，都是先对
《Learning eBPF》读书笔记香蕉割草机 ebpf ebpf bcc libbpf bpftool
文章目录章节内容简介第1章什么是ebpf，为什么它很重要？第2章ebpf版helloworld第3章ebpf程序剖析ebpf虚拟机一个xdp的helloword例子c语言程序编译为ebpf字节码加载bpf程序到内核检查加载的程序运行时编译机器码附加到事件分离程序卸载程序第4章bpf()系统调用第5章CO-RE,BTF,andLibbpfCO-RE概览BTF例子libbpf生成内核头文件ebpf程序
ebpf学习香蕉割草机 ebpf 学习 ebpf
学习ebpf相关知识参考资料:awesome-ebpf文章目录初识准备ebpf.io介绍cilium的介绍内核文档BrendanGregg'sBlog的介绍书籍LearningeBPFWhatiseBPF?交互式环境视频基础知识学习学习环境搭建书籍阅读项目落地流程整理环境搭建内核编译bcc环境变量zliblibelflibbpflibbpf-bootstrapbpftool初识最开始接触到的是经典
云原生应用的安全现状分析 maoguan121 云原生安全
案例介绍Cilium是一种开源的云原生网络实现方案，与其他网络方案不同的是，Cilium着重强调了其在网络安全上的优势，可以透明的对Kubernetes等容器管理平台上的应用程序服务之间的网络连接进行安全防护。Cilium在设计和实现上，基于Linux的一种新的内核技术eBPF，可以在Linux内部动态插入强大的安全性、可见性和网络控制逻辑，相应的安全策略可以在不修改应用程序代码或容器配置的情况下
试用 Coroot，一个基于 eBPF 的可观测性工具，用于 Kubernetes 等 yule.yang 可观测性 linux 运维 kubernetes
在本文中，我们将介绍Coroot，这是一个使用eBPF技术构建的开源工具，旨在用于Kubernetes或基于Docker/containerd的环境，甚至是非容器化应用程序。Coroot收集和分析遥测数据（指标、日志、跟踪和配置文件），将其转换为可用信息，使您能够快速识别和修复应用程序问题。我们将介绍如何为Kubernetes安装和配置Coroot，以及它的作用，以及它的优缺点。Coroot是一个
【记录 bpftrace】橙留香写代码 linux 服务器
一、bpftrace简介bpftrace是基于ebpf内核vm扩展出来的trace工具。bpftrace是Linux高级追踪工具和语言。该工具基于eBPF和BBC实现了通过探针机制采集内核和程序运行的信息，然后用图表等方式将信息展示出来，帮助开发者找到隐藏较深的Bug、安全问题和性能瓶颈。版##bpftrace进行内核跟踪####bpftrace命令行操作单行命令工具：bpftrace-e'pro
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

从0开始编写自己的bcc程序（二）

你可能感兴趣的:(eBPF)