PCI设备有三个相互独立的物理空间地址:存储器地址空间、I/O地址空间、配置空间地址空间,而配置空间是一个PCI特有的物理空间。系统上电时BIOS检测PCI总线,确定所有连接在PCI连接在PCI总线上的设备以及它们的配置要求,并进行系统配置。所以PCI设备必须实现配置空间,从而实现参数的自动配置。
x86架构中pci配置空间的访问有4种方式:pci_bios、pci_conf1、pci_conf2、pci_mmcfg。最优的方式是mmcfg,这需要bios配置,把pci配置空间映射到cpu mem空间;pci_conf1、pci_conf2方式是通过io指针间接访问的;pci_bios方式应该是调用bios提供的服务进程进行访问。使用I/O访问的方式只可以访问配置空间的前256字节,而使用mmcfg的方式则可以完全支持PCIE的扩展寄存器即4K字节的配置空间。在linux初始化的时候,需要给驱动程序选择一种最优的访问方式。
注:基于4.4版本内核
系统在初始化PCI总线的时候,会设置好读取配置空间的方法,读取的方式就上述的两大类(I/O端口访问、MEM访问),提供给上层的可用接口函数是read函数和write函数,系统初始化完成后会将实现好的read方法和write方法绑定至结构体pci_ops,我们首先来看两段代码。
const struct pci_raw_ops *__read_mostly raw_pci_ops; //pci设备访问
const struct pci_raw_ops *__read_mostly raw_pci_ext_ops; //pcie设备扩展寄存器访问
int raw_pci_read(unsigned int domain, unsigned int bus, unsigned int devfn,
int reg, int len, u32 *val)
{
//判定是否小于256字节,如果在256范围内则调用raw_pci_ops方法
if (domain == 0 && reg < 256 && raw_pci_ops)
return raw_pci_ops->read(domain, bus, devfn, reg, len, val);
if (raw_pci_ext_ops)
return raw_pci_ext_ops->read(domain, bus, devfn, reg, len, val);
return -EINVAL;
}
int raw_pci_write(unsigned int domain, unsigned int bus, unsigned int devfn,
int reg, int len, u32 val)
{
if (domain == 0 && reg < 256 && raw_pci_ops)
return raw_pci_ops->write(domain, bus, devfn, reg, len, val);
if (raw_pci_ext_ops)
return raw_pci_ext_ops->write(domain, bus, devfn, reg, len, val);
return -EINVAL;
}
static int pci_read(struct pci_bus *bus, unsigned int devfn, int where, int size, u32 *value)
{
return raw_pci_read(pci_domain_nr(bus), bus->number,
devfn, where, size, value);
}
static int pci_write(struct pci_bus *bus, unsigned int devfn, int where, int size, u32 value)
{
return raw_pci_write(pci_domain_nr(bus), bus->number,
devfn, where, size, value);
}
struct pci_ops pci_root_ops = {
.read = pci_read,
.write = pci_write,
};
struct pci_raw_ops *raw_pci_ops;
static int pci_read(struct pci_bus *bus, unsigned int devfn, int where, int size, u32 *value)
{
//老版本的不会区分,只实现一种方法
return raw_pci_ops->read(0, bus->number, devfn, where, size, value);
}
static int pci_write(struct pci_bus *bus, unsigned int devfn, int where, int size, u32 value)
{
return raw_pci_ops->write(0, bus->number, devfn, where, size, value);
}
struct pci_ops pci_root_ops = {
.read = pci_read,
.write = pci_write,
};
这两段代码都是对read方法和write方法的实现,第一段代码来自于4.4.185版本的内核,第二段代码来自2.6.16版本的内核,我们可以发现在老版本的内核中对于I/O端口访问、MEM访问这两种方式是相互独立的,如果read方法和write方法绑定了pci_conf1和pci_conf2的方式就无法绑定pci_mmcfg的方式。但是在新版本的内核中在这里做出了一个优化,在新版本中我们调用了read方法和write方法时它会去判断你所访问的地址是否属于前256字节,当访问的地址属于前256字节的话调用raw_pci_ops中的读写方法(一般实现为pci_conf1),当访问的地址超过前256字节的话调用raw_pci_ext_ops中的读写方法(一般实现为pci_mmcfg),所以在老版本PCI的初始化时,我们只需填充好raw_pci_ops结构体,并考虑系统究竟使用哪种方法访问配置空间(访问方式唯一),而在新版本的PCI初始化中,我们虽然需要填充好raw_pci_ops和raw_pci_ext_ops两个结构体,但是却实现了两种访问方法的兼容,我们不需要考虑究竟使用那种方式(因为两个都支持)。
新旧内核在PCI读写这里的实现稍有区别,所以我们需要注意,下面我们来看一下PCI配置空间读写函数的实现过程,与PCI读写相关的函数有如下几个:
1.pci_direct_probe
2.pci_mmcfg_early_init
3.pci_direct_init
4.pci_mmcfg_late_init
int __init pci_direct_probe(void)
{
if ((pci_probe & PCI_PROBE_CONF1) == 0) //此时pci_probe为系统的默认值
goto type2;
if (!request_region(0xCF8, 8, "PCI conf1")) //申请i/o
goto type2;
if (pci_check_type1()) {
raw_pci_ops = &pci_direct_conf1; //conf1的绑定
port_cf9_safe = true;
return 1;
}
release_region(0xCF8, 8);
type2:
if ((pci_probe & PCI_PROBE_CONF2) == 0)
return 0;
if (!request_region(0xCF8, 4, "PCI conf2"))
return 0;
if (!request_region(0xC000, 0x1000, "PCI conf2"))
goto fail2;
if (pci_check_type2()) {
raw_pci_ops = &pci_direct_conf2;
port_cf9_safe = true;
return 2;
}
release_region(0xC000, 0x1000);
fail2:
release_region(0xCF8, 4);
return 0;
}
该函数通过pci_probe的值来确定访问方法,该变量的具体数值由内核启动时的传参来确定,值的定义有以下几种:
#define PCI_PROBE_BIOS 0x0001
#define PCI_PROBE_CONF1 0x0002 //I/O访问配置空间
#define PCI_PROBE_CONF2 0x0004
#define PCI_PROBE_MMCONF 0x0008 //内存访问配置空间
但是从系统启动的grub.cfg可知,bootloder在启动内核时没有传入相应的参数,所以pci_probe使用默认值,即:
unsigned int pci_probe = PCI_PROBE_BIOS | PCI_PROBE_CONF1 | PCI_PROBE_CONF2 |
PCI_PROBE_MMCONF;
最终该函数将raw_pci_ops结构体绑定为pci_direct_conf1方法,并返回一个类型码1供后续函数使用。
void __init pci_mmcfg_early_init(void)
{
if (pci_probe & PCI_PROBE_MMCONF) {
if (pci_mmcfg_check_hostbridge()) //检查host主桥
known_bridge = 1;
else
acpi_sfi_table_parse(ACPI_SIG_MCFG, pci_parse_mcfg);
__pci_mmcfg_init(1); //此函数完成mmcfg的绑定和pci_probe的改变
set_apei_filter();
}
}
该函数配置了raw_pci_ext_ops方式将其绑定为pci_mmcfg的方式并且同时也重新设置了pci_probe的值,通过添加打印调试信息,我们可以清楚的看到pci_probe前后的变化(对于raw_pci_ext_ops和pci_probe内容操作的函数实际为__pci_mmcfg_init(1)中的pci_mmcfg_arch_init()完成的)。
如上图所示,在完成了pci_mmcfg_early_init函数后pci_probe的值变为0x08对PCI_PROBE_MMCONF模式
void __init pci_direct_init(int type)
{
if (type == 0)
return;
printk(KERN_INFO "PCI: Using configuration type %d for base access\n",
type);
if (type == 1) {
raw_pci_ops = &pci_direct_conf1;
if (raw_pci_ext_ops) //在pci_mmcfg_early_init已经完成,所以直接返回
return;
if (!(pci_probe & PCI_HAS_IO_ECS))
return;
printk(KERN_INFO "PCI: Using configuration type 1 "
"for extended access\n");
raw_pci_ext_ops = &pci_direct_conf1;
return;
}
raw_pci_ops = &pci_direct_conf2;
}
该函数根据pci_direct_probe的返回值来对raw_pci_ops和raw_pci_ext_ops进行设置,由于raw_pci_ext_ops在pci_mmcfg_early_init()这个函数中已经设置完毕,所以在此无需进行设置,因此该函数直接返回。
以上三个函数都是位于pci_arch_init()函数中,该函数的启动等级为3,此函数就是设置整个PCI总线设备配置空间的读写方法。
函数执行前:
pci_probe = 0xf(默认值)
raw_pci_ops = 空
raw_pci_ext_ops = 空
函数执行后:
pci_probe = 0x8
raw_pci_ops = pci_direct_conf1
raw_pci_ext_ops = pci_mmcfg
void __init pci_mmcfg_late_init(void)
{
/* MMCONFIG disabled */
if ((pci_probe & PCI_PROBE_MMCONF) == 0)
return;
if (known_bridge)
return;
/* MMCONFIG hasn't been enabled yet, try again */
if (pci_probe & PCI_PROBE_MASK & ~PCI_PROBE_MMCONF) {
acpi_sfi_table_parse(ACPI_SIG_MCFG, pci_parse_mcfg);
__pci_mmcfg_init(0);
}
}
此函数的执行等级较后,它是pci_mmcfg的第二次配置,即如果前面pci_mmcfg配置异常则再次配置,此时pci_probe的值为0x8而raw_pci_ext_ops绑定pci_mmcfg,所以表示前面的配置成果,所以如果pci_mmcfg_early_init函数完成了配置那么pci_mmcfg_late_init函数一般就直接返回。
经过对上面四个函数的的分析,我们可以梳理出对于PCI设备配置空间的访问方法的实现,系统是如何完成的:
至此,在系统对PCi设备进行枚举之前,系统会完成所有对于配置空间访问方法的设置,以保证枚举过程的正常执行,我们需要注意的是在实际使用哪怕是枚举过程我们对于配置空间的访问使用的函数是以下几种:
pci_read_config_byte(..) //8
pci_read_config_word(..) //16
pci_read_config_dword(..) //32
pci_write_config_byte(..)
pci_write_config_word(..)
pci_write_config_dword(..)
这些是系统为我们开出的访问函数接口,这些函数本质上是调用pci_ops的两个读写函数的(可以认为是内核在pci_ops的一个封装),我们可以测试以下,分别在pci_read_config_dword和raw_pci_read增加答应信息,我们可以得知pci_read_config_dword最终也就是调用raw_pci_read来完成工作: