批判和展望:Python文本分析在“企业数字化转型”的“滥用”越走越远,远离初心

开文第一问:企业数字化转型真的可以用Python文本分析度量吗?

在回答目前大行其道的Python文本分析法能否测算企业数字化转型的问题之前,我们有必要简单地熟悉一下企业数字化转型的基本定义。企业数字化转型是什么?数字化转型是数字技术与产业发展的深度融合,将数字技术的运用贯穿于企业经营管理的方方面面,企业数字化转型的本质是通过整合使用数字技术对企业经营活动进行重要变革的过程。

其次,企业数字化转型的程度,必定有高低之分,一般可用数字技术的投入或产出(绝对值,或相对比例),或者涉及到数字技术运用环节的投入或产出比例。通过这方面的数据测算能有效地呈现出企业数字化转型的程度。

但是,从目前学界最为普通的测算方法来看,中国主流文献甚至顶级期刊基本上运用Python文本分析法来测算。那么,这种方法在测算企业数字化转型上是否合理?个人认为,这种测算方法违背了基本逻辑的合理性

首先,我们来看看Python文本分析法是如何“企业数字化转型”的。其基本的思想是:通过 Python 爬虫功能归集整理了上海交易所、深圳交易所全部 A 股上市企业的年度报告,并通过 Java PDFbox库提取所有文本内容,并以此作为数据池供后续的特征词筛选。具体思路如下:首先,参考一系列以数字化转型为主题的经典文献,归纳整理出有关数字化转型的特定关键词;在重要政策文件和研究报告借鉴上,本文以《中小企业数字化赋能专项行动方案》《关于推进“上云用数赋智”行动培育新经济发展实施方案》《2020年数字化转型趋势报告》以及近年《政府工作报告》为蓝本,进一步扩充数字化转型的特征词库,并依照前述分析展开结构化分类,形成了特征词图谱。其次,基于Python对上市企业年报文本提取形成的数据池,根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。最后,在具体的度量方式上,通过文本挖掘方法,从上市企业年报MD&A中提取特定的文本内容,一般有三种方法:(1)用数字化等方面的词语数量占MD&A总词语数量的比例;(2)用数字化等方面句子的数量占MD&A句子总数的比例;(3)用数字化等方面字段(句子&#x

你可能感兴趣的:(python,云计算,开发语言)