A Text-Based Analysis of Corporate Innovation

A Text-Based Analysis of Corporate Innovation(Gustaf Bellstam) – 论文精读

文章目录

    • A Text-Based Analysis of Corporate Innovation(Gustaf Bellstam) -- 论文精读
  • 核心速览
    • 问题背景
    • 方法论
  • 研究方法细节
    • 通过LDA得到创新主题
    • 根据创新主题得到衡量指标
    • 主回归
      • 比专利衡量更优的证明
      • 滞后影响
    • 稳健性检验
      • look-ahead bias
      • Topic number
      • Controlling for other topic
      • Controlling for analyst sentiment

核心速览

该篇论文的核心是寻找一个创新的代理变量,不同于以往的代理变量(如:专利数量,R&D研发投入等),本文采用的是对外部分析师的研究报告进行文本分析得到的衡量指标;

问题背景

  • 以往的衡量办法(基于专利的创新),对那些没有专利的公司(不代表没有创新)的衡量是有偏差的
  • 以往的衡量办法(基于专利、研发费用),基本上都是产品的创新,而创新还包括供应链、管理方面等的创新,所以在这方面的创新不能用这些代理变量来衡量;

方法论

  1. 通过LDA主题模型得到分析师报告中关于创新的衡量,计算出文本创新指标;
  2. 用指标对企业的业绩表现做计量分析(回归);
  3. 与以往的衡量办法的优劣比较;

研究方法细节

通过LDA得到创新主题

样本方面是选取了1990-2012年S&P500的797家公司的807,309篇外部分析师的报告

  • 为什么选择外部分析师的报告: 因为外部的分析师评价比较客观,不会夸大(如年报)也不会贬低,而且外部分析师的样本比较大,多个分析师看到的东西不一定一样,利于全面了解企业;

对分析师报告的文本应用LDA主题模型,得到15个主题

  • 为什么是15个: 15个可以是一个经验法则,或者当选到了15这个主题个数,有某一个主题把创新有关的概念聚到一个簇中,或者是根据机器学习经典的elbow method进行选择;

将得到的主题与讲创新的一本教科书Managing Innovation里面的词语分布进行比对,选择最相近的(KL散度最小的)那个作为创新的主题

  • 注意: LDA并不能将划分好的主题自动归类,必须人为给某个主题取个名字,这个名字当然是依据其主题词得到的;

根据创新主题得到衡量指标

对每一篇文章计算text-based inno, 将这个指标平均到每个公司每个年份上

  • 如何计算:在一篇文章中,能得到这篇文章讲创新的占比,根据这个占比计算得到,最终做标准归一化;

但是这样就会有一个偏误,就是每篇分析报告虽然是在说创新,但是说的创新的程度是有所不同的,也就是质与量之间,量是好衡量的,质是不好衡量的,这里作者就加了一个假设,给他假设掉了

  • 假设分析师衡量的创新只有量的区别,没有质的区别,质的区别已经体现在量上了;
  • 这样的假设也不是全无道理,因为有显著影响的创新,分析师会花较大篇幅去讲述;

但同时还会有一个偏误,每篇分析报告虽然是在说创新,但是到底是在说创新成功了还是创新失败了,其实也不一定,所以作者采用了情绪分析的方法,将情绪排行后25th的给去掉

  • 具体来说就是计算一篇文章中的正面词汇与负面词汇的数量差值,得到情绪指标
  • 之所以这样做,我认为是把没有剔除的创新指标代入后,算出的系数不显著,最终找资料得到的补救措施;

主回归

A Text-Based Analysis of Corporate Innovation_第1张图片

被解释变量就是常用的业绩衡量指标,核心解释变量是text-based inno,同时控制了年度和行业的固定效应,也加入了专利计数、专利引用和R&D等作为控制变量(主要是系数大小的比较)

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第2张图片

比专利衡量更优的证明

在主回归中加入,text-based inno与没有专利公司的交互项,当一个公司这一年没有专利则为1,否则为0; 预期来说,如果text-based inno不能衡量没有专利的公司的创新,那么这个交互项的系数就显著为负;

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第3张图片

滞后影响

创新并不是马上就立竿见影地影响业绩表现,而是会有相应的滞后,但是创新也并非一直会给企业带来价值,下图描述了,基于文本的创新对业绩表现的滞后影响

A Text-Based Analysis of Corporate Innovation_第4张图片

稳健性检验

look-ahead bias

未来的数据会对现有数据的回归结果有干扰,如当期收入与支出的系数是1,而明年收入与支出的系数为0.8,那么一旦将两年一起做回归,得到的系数可能就是0.9;这就称为look-ahead bias; 解决look-ahead bias一般采用滑动窗口的方式,文中是将5年作为一个滑动窗口,得出的系数仍然显著;

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第5张图片

Topic number

主题的数量可能会影响回归结果,为了证明结论可靠,重新做了10个和50个主题的,对于50个主题的,选择了其中两个作为创新主题(而10个和15个主题的都是选择其中的一个作为创新主题)

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第6张图片

Controlling for other topic

同时为了证明不是其他主题干扰,就是创新这个主题对业绩表现显著,还控制了其他主题做了回归;

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第7张图片

Controlling for analyst sentiment

因为把有负面情绪的文本数据直接去掉了,为了证明不是情绪而是创新影响企业业绩表现,控制了情绪指标做了回归

  • 回归结果
    A Text-Based Analysis of Corporate Innovation_第8张图片

就是在这个控制情绪这个地方,我认为本文的样本选择也不一定合适,因为分析师报告的主要任务是给投资建议,情绪(或者是分析师给出的态度)才是分析报告的主基调,如果想在分析师报告中挖掘创新,那么必须要解决的就是怎么将分析师的态度分离出去,我认为本文的做法(虽然是借鉴之前的研究),但是显然不算很合理,但是在最后这个回归中,情绪指标的系数远比核心解释变量text-based inno要显著,所以本文有不足,可以改进…

你可能感兴趣的:(计量经济学,人工智能,big,data,数据分析)