自动生成企业画像(标签)

1、目录

      • 1、目录
      • 2、前言
      • 3、算法细节
        • 1)企业信息数据准备
        • 2)候选业务词袋
        • 3)算法过程
      • 4、算法改进
        • 1)拓展数据源
        • 2)有监督训练

2、前言

  企业画像在企业推荐中是必不可少的一个环节,在客户初次查阅一个企业的信息时,企业画像(标签)可以直观的反应企业的主营业务。

3、算法细节

1)企业信息数据准备

  爬取企业招聘信息,如下图所示:
  
  分析招聘信息,我们可以整理出一个词典,包含了每个模块的标题,整理方法可以通过标题的格式、规则自动抽取后再做一部分人工筛选。

d_start = {u'岗位内容':1,u'岗位要求':1,u'岗位职责':1,u'职责':1,u'职责描述':1,u'职责要求':1,u'主要职责':1,u'工作内容':1,u'工作职责':1}
d_end = {u'工作时间':1,u'职能类别':1,u'地理位置':1,u'任职条件':1,u'任职要求':1,u'任职资格':1,u'应聘条件':1,u'应聘要求':1,u'招聘要求':1,u'职位要求':1,u'人员要求':1,u'福利':1,u'福利待遇':1,u'工作地址':1,u'工作环境':1,u'晋升空间':1,u'培训体制':1,u'社会责任':1,u'薪资':1,u'薪资待遇':1,u'薪资福利':1,u'薪资面谈':1,u'需求专业':1,u'要求':1,u'招聘专业':1,u'职位待遇':1,u'职位福利':1,u'职业发展':1}

  针对这个词典,进一步可以分为d_start(保留了大量有效信息的模块)和d_end(无效信息集中的模块)。

2)候选业务词袋

  选择大型的创投数据库,将企业分类栏目爬下来,如下图所示。
  自动生成企业画像(标签)_第1张图片

3)算法过程

  
- 依次遍历每条招聘信息,将每条招聘信息中d_start字典所涵盖的模块信息进行分词
- 将上述分词结果在业务词袋中进行检索,得到每条招聘信息的业务关键词
- 将每个企业的业务关键词汇总,按照频数降序排列得到如下结果

北京鸿特卓博咨询服务有限公司  招聘 28   人事管理 22 办公 22   人才库 22  课程 21   档案管理 10
神州数码信息服务股份有限公司  测试 14   银行 13   数据库 13  金融 12
北京葵园教育科技有限公司    教育 18
北京成墨达方科技有限公司    招聘 60   简历 56   测试 30   财务 21   财税 19   专科 18   财务软件 15 银行 15   办公软件 15 财务分析 15
绿盟科技    网络安全 10 测试 10
北京先进数通信息技术股份公司  测试 14
北京富迪伟业科技有限公司    销售管理 13 开发管理 13 货款 10   催收 10
北京八零时代电子商务有限公司  O2O 93
北京凌云时速科技有限公司    办公软件 43 设计师 22  软件开发 21 求职者 15  简历 12   游戏开发 10

4、算法改进

1)拓展数据源

  目前数据源仅限于企业招聘信息,未来应该拓展到企业官网、百度百科、新闻舆情、企业研报、产品信息等等。

2)有监督训练

  目前方法是无监督的抽取企业业务标签,虽然性价比极高,但是精度依然存在问题,未来可以采用有监督的训练,监督样本可以从大型创投数据库中爬虫得到:
  自动生成企业画像(标签)_第2张图片
  可采用的训练方法大体有两种,一是为每个样本的标签建立一个词袋,训练的过程就是采集每种标签的词袋的过程;二是将训练样本向量化,通过机器学习分类模型或seq2seq深度模型进行训练。

你可能感兴趣的:(NLP)