该篇论文的核心是寻找一个创新的代理变量,不同于以往的代理变量(如:专利数量,R&D研发投入等),本文采用的是对外部分析师的研究报告进行文本分析得到的衡量指标;
样本方面是选取了1990-2012年S&P500的797家公司的807,309篇外部分析师的报告
对分析师报告的文本应用LDA主题模型,得到15个主题
将得到的主题与讲创新的一本教科书Managing Innovation里面的词语分布进行比对,选择最相近的(KL散度最小的)那个作为创新的主题
对每一篇文章计算text-based inno, 将这个指标平均到每个公司每个年份上
但是这样就会有一个偏误,就是每篇分析报告虽然是在说创新,但是说的创新的程度是有所不同的,也就是质与量之间,量是好衡量的,质是不好衡量的,这里作者就加了一个假设,给他假设掉了
但同时还会有一个偏误,每篇分析报告虽然是在说创新,但是到底是在说创新成功了还是创新失败了,其实也不一定,所以作者采用了情绪分析的方法,将情绪排行后25th的给去掉
被解释变量就是常用的业绩衡量指标,核心解释变量是text-based inno,同时控制了年度和行业的固定效应,也加入了专利计数、专利引用和R&D等作为控制变量(主要是系数大小的比较)
在主回归中加入,text-based inno与没有专利公司的交互项,当一个公司这一年没有专利则为1,否则为0; 预期来说,如果text-based inno不能衡量没有专利的公司的创新,那么这个交互项的系数就显著为负;
创新并不是马上就立竿见影地影响业绩表现,而是会有相应的滞后,但是创新也并非一直会给企业带来价值,下图描述了,基于文本的创新对业绩表现的滞后影响
未来的数据会对现有数据的回归结果有干扰,如当期收入与支出的系数是1,而明年收入与支出的系数为0.8,那么一旦将两年一起做回归,得到的系数可能就是0.9;这就称为look-ahead bias; 解决look-ahead bias一般采用滑动窗口的方式,文中是将5年作为一个滑动窗口,得出的系数仍然显著;
主题的数量可能会影响回归结果,为了证明结论可靠,重新做了10个和50个主题的,对于50个主题的,选择了其中两个作为创新主题(而10个和15个主题的都是选择其中的一个作为创新主题)
同时为了证明不是其他主题干扰,就是创新这个主题对业绩表现显著,还控制了其他主题做了回归;
因为把有负面情绪的文本数据直接去掉了,为了证明不是情绪而是创新影响企业业绩表现,控制了情绪指标做了回归
就是在这个控制情绪这个地方,我认为本文的样本选择也不一定合适,因为分析师报告的主要任务是给投资建议,情绪(或者是分析师给出的态度)才是分析报告的主基调,如果想在分析师报告中挖掘创新,那么必须要解决的就是怎么将分析师的态度分离出去,我认为本文的做法(虽然是借鉴之前的研究),但是显然不算很合理,但是在最后这个回归中,情绪指标的系数远比核心解释变量text-based inno要显著,所以本文有不足,可以改进…