【C语言】linux内核ipoib模块 - ipoib_start_xmit

一、ipoib_start_xmit函数定义

static netdev_tx_t ipoib_start_xmit(struct sk_buff *skb, struct net_device *dev)
{
    struct ipoib_dev_priv *priv = ipoib_priv(dev);
    struct rdma_netdev *rn = netdev_priv(dev);
    struct ipoib_neigh *neigh;
    struct ipoib_pseudo_header *phdr;
    struct ipoib_header *header;
    unsigned long flags;
    phdr = (struct ipoib_pseudo_header *) skb->data;
    skb_pull(skb, sizeof(*phdr));
    header = (struct ipoib_header *) skb->data;
    if (unlikely(phdr->hwaddr[4] == 0xff)) {
        /* multicast, arrange "if" according to probability */
        if ((header->proto != htons(ETH_P_IP)) &&
            (header->proto != htons(ETH_P_IPV6)) &&
            (header->proto != htons(ETH_P_ARP)) &&
            (header->proto != htons(ETH_P_RARP)) &&
            (header->proto != htons(ETH_P_TIPC))) {
            /* ethertype not supported by IPoIB */
            ++dev->stats.tx_dropped;
            dev_kfree_skb_any(skb);
            return NETDEV_TX_OK;
        }
        /* Add in the P_Key for multicast*/
        phdr->hwaddr[8] = (priv->pkey >> 8) & 0xff;
        phdr->hwaddr[9] = priv->pkey & 0xff;
        neigh = ipoib_neigh_get(dev, phdr->hwaddr);
        if (likely(neigh))
            goto send_using_neigh;
        ipoib_mcast_send(dev, phdr->hwaddr, skb);
        return NETDEV_TX_OK;
    }
    /* unicast, arrange "switch" according to probability */
    switch (header->proto) {
    case htons(ETH_P_IP):
    case htons(ETH_P_IPV6):
    case htons(ETH_P_TIPC):
        neigh = ipoib_neigh_get(dev, phdr->hwaddr);
        if (unlikely(!neigh)) {
            neigh = neigh_add_path(skb, phdr->hwaddr, dev);
            if (likely(!neigh))
                return NETDEV_TX_OK;
        }
        break;
    case htons(ETH_P_ARP):
    case htons(ETH_P_RARP):
        /* for unicast ARP and RARP should always perform path find */
        unicast_arp_send(skb, dev, phdr);
        return NETDEV_TX_OK;
    default:
        /* ethertype not supported by IPoIB */
        ++dev->stats.tx_dropped;
        dev_kfree_skb_any(skb);
        return NETDEV_TX_OK;
    }
send_using_neigh:
    /* note we now hold a ref to neigh */
    if (ipoib_cm_get(neigh)) {
        if (ipoib_cm_up(neigh)) {
            priv->fp.ipoib_cm_send(dev, skb, ipoib_cm_get(neigh));
            goto unref;
        }
    } else if (neigh->ah && neigh->ah->valid) {
        neigh->ah->last_send = rn->send(dev, skb, neigh->ah->ah,
                        IPOIB_QPN(phdr->hwaddr));
        goto unref;
    } else if (neigh->ah) {
        neigh_refresh_path(neigh, phdr->hwaddr, dev);
    }
    if (skb_queue_len(&neigh->queue) < IPOIB_MAX_PATH_REC_QUEUE) {
        spin_lock_irqsave(&priv->lock, flags);
        /*
         * to avoid race with path_rec_completion check if it already
         * done, if yes re-send the packet, otherwise push the skb into
         * the queue.
         * it is safe to check it here while priv->lock around.
         */
        if (neigh->ah && neigh->ah->valid)
            if (!ipoib_cm_get(neigh) ||
                (ipoib_cm_get(neigh) && ipoib_cm_up(neigh))) {
                spin_unlock_irqrestore(&priv->lock, flags);
                goto send_using_neigh;
            }
        push_pseudo_header(skb, phdr->hwaddr);
        __skb_queue_tail(&neigh->queue, skb);
        spin_unlock_irqrestore(&priv->lock, flags);
    } else {
        ++dev->stats.tx_dropped;
        dev_kfree_skb_any(skb);
    }
unref:
    ipoib_neigh_put(neigh);
    return NETDEV_TX_OK;
}

二、函数解读

该函数 ipoib_start_xmit 是用于 IP over InfiniBand (IPoIB) 模式的 InfiniBand 内核网络栈处理发送网络数据包的标准入口点。该函数的职责是准备并发送一个 socket buffer(`skb`),该 buffer 包含了要发送的网络数据。以下是该函数的详细中文解读:
1. ipoib_start_xmit 函数接收两个参数:
   - skb:一个指向数据包(socket buffer)的指针,这个数据包即将被发送。
   - dev:一个指向相关网络设备 (net_device) 的指针。
2. 函数首先通过调用 ipoib_priv(dev) 来获取这个网络设备的 IPoIB 私有数据结构 ipoib_dev_priv。
3. 函数通过 skb->data 获取 IPoIB 伪头部 (ipoib_pseudo_header),然后通过 skb_pull 函数将数据包指针向前移动,跳过伪头部,指向实际的 IPoIB 头部 (ipoib_header)。
4. 通过分析伪头部和 IPoIB 头部的内容,函数会检测数据包是单播还是多播。如果是多播,并且协议类型不被 IPoIB 支持,则丢弃此数据包并返回。
5. 对于多播数据包,函数添加 P_Key,并获取或创建一个邻居(neighbor)条目。如果获取邻居条目成功,则跳转到 send_using_neigh 标签来发送数据包;否则,通过 ipoib_mcast_send 函数发送多播数据包。
6. 对于单播数据包,根据协议头部中的协议类型,函数确定如何处理数据包。如果是 IP、IPv6 或 TIPC 协议,函数尝试获取一个邻居条目。如果没有找到,则通过 neigh_add_path 函数添加一个路径,并发送数据包。对于 ARP 或 RARP 协议,函数使用 unicast_arp_send 发送单播ARP请求。
7. 来到 send_using_neigh 标签,如果获取到邻居并确定了有效的通信路径,根据邻居条目的状态(是否启用了连接管理 CM 或者是否有有效的地址句柄 AH),发送数据包或者将数据包加入发送队列,等待有效通信路径建立。
8. 如果邻居的发送队列已满,那么数据包会被丢弃,并更新统计量 dev->stats.tx_dropped。
9. 在引用了一个邻居条目,并处理完后,通过调用 ipoib_neigh_put 函数减少邻居条目的引用计数。
10. 最后,函数返回 NETDEV_TX_OK,表示数据包的发送过程已经被正确处理,不管是直接发送、入队列等待,还是被丢弃。
总的来说,`ipoib_start_xmit` 函数处理从 IPoIB 网络设备发出的网络数据包的发送。函数会根据目标地址是单播还是多播以及数据包的类型,采取适当的发送策略,并处理数据路径查找和邻居管理等任务。

你可能感兴趣的:(编程,#,C语言,linux内核,网络,c语言,linux)