【数据模版】死鬼专用

数据输入与输出

输入

  1. 文件名: Audit_client.csv
  2. 数据样例


    image.png

    关键字段含义

    • gvkey:公司ID
    • year:年份
    • partnerID:合伙人ID

输出

  1. 文件名:final_score.csv
  2. 数据样例
    对于每一个【gvkey,year,partnerID】输出一个打分score


    image.png

打分计算逻辑

  1. 获取两个公司在同一个年份的相似性得分
  • 依赖文件:tnicall2016.txt
  • 数据样例:
    image.png

    数据含义:score为gvkey1和gvkey2的相似性得分,记为gvkey1_gvkey2_sim
  1. 两个合伙人教育背景相关性
  • 依赖文件:Education_link.csv
  • 数据样例:


    image.png

数据含义:strength_education为两个partner的教育背景相关性,记为pid1_pid2_edu

  1. 输出score计算逻辑
对于每一个[gvkey,year,partnerID]:
 1. 找到和partnerID有教育背景相关性的人(Education_link.csv提供),记为rel_pid
 2. 对于和partnerID有教育背景相关性的每一个人pid
    2.1 找到pid审计的每一个公司gvkey1,累计求和两个公司的相关性得分**gvkey_gvkey2_sim**,记为

简单数据举例

你可能感兴趣的:(【数据模版】死鬼专用)