批量提取 srt 字幕文件中的文字

概要:相信经常与视频处理打交道的小伙伴对字幕文件一定不陌生。字幕文件一般来说会包含字幕序号、播放时间轴与具体的字幕内容,经常用于在视频播放的时候在对应的时间显示相应的字幕内容。字幕文件通常会有多种类型,srt 后缀的字幕文件是比较常见的一种类型。有时候我们需要将字幕文件的内容进行提取,比如去除字幕序号、播放时间轴等信息,只保留具体的字幕内容,那我们应该怎么做呢?今天就一起来看一下如何批量提取 srt 字幕文件中的文字。

在介绍如何批量提取 srt 字幕文件中的文字之前,我们先看一下字幕文件的格式是什么样的。

批量提取 srt 字幕文件中的文字_第1张图片

从上图我们就能看出来,没组字幕文件都至少四行

1、字幕编号,是自增的数字。

2、播放时间轴,格式为【播放开始时间 --> 播放结束时间】。

3、一行或者多行字幕内容。

4、一个空行。

今天要介绍如何批量提取 srt 字幕文件中的文字,也就是要去除字幕文件中的序号、时间轴以及空行的内容,那应该怎么做呢?其实目前我们并没有特别好的方式去提取 srt 字幕文件中的文字内容,找了一圈也没有比较合适的软件。目前找到的一种比较好的方式就是通过正则表达式的方式进行处理。但是对于不太熟悉正则的小伙伴来说,门槛还是比较高的。并且通过正则去处理达不到批量处理的效果,只能一次处理一个文件,并且还容易出错。假如现在有大批量的 srt 文件都需要提取字幕文件的内容,那最高效的方式是什么呢?

我们打开「我的ABC软件工具箱」,按下图所示,左侧选择「文件内容」,

你可能感兴趣的:(文字提取,srt,字幕,文本,提取)