Python视频处理(3)——提取视频字幕

目录

一、安装tesseract-ocr

1、下载安装

2、设置环境变量:

​ ​ 3、测试安装是否成功

 二、视频字幕识提取

1、基本步骤:

2、完整代码:

3、部分运行结果:


一、安装tesseract-ocr

1、下载安装

下载地址:Index of /tesseract

下载最新稳定版本:tesseract-ocr-w64-setup-v5.0.0.20190623.exe

2、设置环境变量:

Win+R打开命令行,输入sysdm.cpl打开设置Path的窗口,添加tesseract-ocr的路径

Python视频处理(3)——提取视频字幕_第1张图片

Python视频处理(3)——提取视频字幕_第2张图片 Python视频处理(3)——提取视频字幕_第3张图片 3、测试安装是否成功

把语言文件拷贝到tessdata目录下

tesseract –v 测试安装

tesseract –list-langs测试语言包

 Python视频处理(3)——提取视频字幕_第4张图片

 Python视频处理(3)——提取视频字幕_第5张图片

 

 二、视频字幕识提取

1、基本步骤:

(1)逐帧截取字幕部分图像范围

(2)cv2.cvtColor图像灰度化

(3)cv2.threshold二值化

(4)安装pytesseract:pip3 install pytesseract

pytesseract将图像上的Tesseract OCR运行结果返回到字符串

2、完整代码:

import pytesseract
import cv2
import numpy as np
from scipy import stats
import os
import matplotlib.pyplot as plt

if __name__ == '__main__':
    path = "20210701.mp4"
    print(path)
    cap = cv2.VideoCapture(path)
    frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
    print(frame_count)
    i=0
    #print("1")
    while i

3、部分运行结果:

Python视频处理(3)——提取视频字幕_第6张图片

 

你可能感兴趣的:(python,音视频,开发语言)