python中的pandas的两种基本使用_Python Pandas:在一个循环中比较两个列表最有效的方法是什么?...

我有一个基本事实数据集“gt”(包含100个条目),如下所示:org_o shh group

ArabsGate 1 1

ArabsGate Company 1 1

AS EMT NaN 2

AS EMT Mobile Internet 1 2

DigitalEffex (MH) NaN 3

DigitalEffex 1 3

Aruba S.p.A. 1 4

Aruba S.p. 1 4

我想把它和一个巨大的数据帧“df”进行比较,它看起来像这样:

^{pr2}$

作为比较的结果,我想知道我的数据框中是否存在具有相同组织的同一组。因此,对于每个组,都要计算组的成员数,以及实际的组织名称。例如,我们在df中有“Aruba S.p.A.”和“Aruba S.p.”,它们是否与同一个组中的关键字(“match”列)匹配。在

这是我所做的,但不是我真正想要的。在gt.groupby('group').count()['org_o']

df.merge(gt, on = 'org_o')

最后我要计算假阳性/阴性。这是预期输出:match org_o tag

as emt AS EMT TP

as emt AS EMT Mobile Internet TP

digitaleffex DigitalEffex (MH) TP

digitaleffex DigitalEffex TP

digitaleffex Digital FP

有人能帮忙吗?在

你可能感兴趣的:(python中的pandas的两种基本使用_Python Pandas:在一个循环中比较两个列表最有效的方法是什么?...)