Python使用ModelScope进行ocr文字识别

简介:
官网地址
GitHub地址

在 2022 云栖大会杭州现场,阿里达摩院与 CCF 开源发展委员会共同推出 AI 模型社区“魔搭”ModelScope。同时,达摩院向魔搭社区贡献 300 多个 AI 模型,超过 1/3 为中文模型,全面开源开放。

魔搭社区首批开源模型超过 300 个,包括视觉、语音、自然语言处理、多模态等 AI 主要方向,并向 AI for Science 等新领域探索,覆盖的主流任务超过 60 个。模型均经过筛选和效果验证,包括 150 多个 SOTA 模型和 10 多个大模型,全面开源且开放使用。

据介绍,魔搭社区 ModelScope 践行模型即服务的新理念(Model as a Service),提供众多预训练基础模型,只需针对具体场景再稍作调优,就能快速投入使用。

此外,社区目前已上架的中文模型超过 100 个,占比超过 1/3,包括一批中文大模型,如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱 AI 的中英双语千亿大模型等。

线上测试
首先上链接,在这里你可以测试具体效果如何:
Python使用ModelScope进行ocr文字识别_第1张图片

模型库
在模型库里面我们可以看到多种方向的相关模型,可以自行选择测试
Python使用ModelScope进行ocr文字识别_第2张图片

环境安装
官方技术文档地址
Python使用ModelScope进行ocr文字识别_第3张图片
在此处大家可以自行选择使用docker或本地、服务器安装(建议使用docker,自行安装的话,会出现各种令人头皮发麻的问题)。

使用方法
Python使用ModelScope进行ocr文字识别_第4张图片
给出了多种选择,可以在线上notebook中进行测试,也可以在本地自行配置好的环境或docker中使用。


```python
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
# 下面为多种场景下的使用方法
# 通用场景
p = pipeline(Tasks.ocr_recognition,model='damo/cv_convnextTiny_ocr-recognition-general_damo')
# 自然场景
# p = pipeline(Tasks.ocr_recognition,model='damo/cv_convnextTiny_ocr-recognition-scene_damo')
# 手写场景
# p = pipeline(Tasks.ocr_recognition,model='damo/cv_convnextTiny_ocr-recognition-handwritten_damo')
# 文档场景
# p = pipeline(Tasks.ocr_recognition,model='damo/cv_convnextTiny_ocr-recognition-document_damo')
# 车牌场景
# p = pipeline(Tasks.ocr_recognition,model='damo/cv_convnextTiny_ocr-recognition-licenseplate_damo')
# 文字区域检测
# p = pipeline(Tasks.ocr_detection, model='damo/cv_resnet18_ocr-detection-line-level_damo')
p('http://duguang-labelling.oss-cn-shanghai.aliyuncs.com/maas_demo/ocr_shouxie.jpg',)

此处也可以直接使用本地图片路径

p('./image/ocr_shouxie.jpg',)

CV方向使用方法说明

任务 说明
ocr-detection(文字检测) 将图像中的文字检测出来并返回检测点坐标位置
ocr-recognition(文字识别) 将图像中的文字识别出来并返回文本内容
face-detection(人脸检测 ) 对图像中的人脸进行检测并返回人脸坐标位置
face-recognition(人脸识别) 对图像中的人脸进行检测并返回人脸坐标位置
human-detection(人体检测) 对图像中的人体关键点进行检测并返回关键点标签与坐标位置
body-2d-keypoints (人体2D关键点) 检测图像中人体2D关键点位置
human-object-interaction(人物交互关系) 对图像中的肢体关键点和物品进行检测和识别对坐标信息进行处理
face-image-generation(人脸生成) 对图像中的人脸进行区域位置检测并生成虚拟人脸
image-classification(单标签图像分类 ) 对图像中的不同特征根据类别进行区分
image-multilabel-classification(多标签图像分类) 解析图像特征支持多个类别区分
image-object-detection(通用目标检测) 对输入图像中的较通用物体定位及类别判断
image-object-detection(目标检测-自动驾驶场景) 对自动驾驶中的场景进行目标检测,图像中的人、车辆及交通信息等进行实时解析并进行标注
portrait-matting(人像抠图) 对输入的图像将人体部分抠出并对背景进行透明化处理
image-segmentation(通用图像分割) 识别图像主体与图像背景进行分离
image-protrait-enhancement (人像增强) 对图像中的人像主体进行细节增强
skin-retouching(人像美肤) 对图像中的人像皮肤进行细节美化
image-super-resolution (图像超分辨 ) 对图像进行倍数放大且不丢失画面质量
image-colorization (图像上色) 对黑白图像进行区域解析并对其进行类别上色
image-color-enhancement (图像颜色增强) 对图像中色彩值进行解析并对其进行规则处理
image-denoising (图像降噪 ) 对图像中的噪点进行处理降低
image-to-image-translation(图像翻译) 将一张图片上的文字翻译成目标语言并生成新的图片
image-to-image-generation (以图生图) 根据输入图像生成新的类似图像
image-style-transfer (风格迁移) 对图像或视频的色彩风格进行另一种风格转化
image-portrait-stylization (人像卡通化) 对输入的图像进行卡通化处理,实现风格变化
image-embedding (图像表征) 对输入图像特征进行多模态匹配
image-search (搜索推荐) 根据输入图像进行范围匹配
image-evaluation (审核评估) 对图像进行解析并自动给出一个评估信息
video-processing (视频处理) 对视频信息进行自动运算处理
live_category (直播商品类目识别) 实时解析识别直播画面中的商品类别进行信息展示
action_recognition (行为识别) 对视频中的动作行为进行识别并返回类型
video_category (短视频内容分类) 解析短视频语义进行场景分类
video-detecction (视频检测) 对视频信息进行内容解析
video-segmentation (视频分割) 对视频信息进行背景和主体分离
video-generation (视频生成) 对视频进行解析匹配视频信息进行生成
video-editing (视频编辑) 对视频进行解析转化为可编辑状态
video-embedding (视频表征) 对视频特征进行多模态匹配
video-search (视频检索) 对视频解析根据规则提取部分信息
reid-and-tracking (目标跟踪及重识别) 可对图片和视频进行目标识别可重复识别
video-evaluation (视频审核评估) 根据规则对视频解析并给出评估结果
video-ocr (视频文本识别) 对视频中的文字内容进行识别
video-captioning (视频到文本) 将视频中的音频转化为文本信息
virtual-try-on (虚拟试衣) 给定模特图片和衣服图片,合成模特穿上给定衣服的图片
3d-reconstruction (三维重建) 对三维模型解析并重新构建
3d-recognition (三维识别) 对三维模型进行识别并进行标注
3d-editing (三维编辑) 对三维模型解析转化为可编辑状态
3d-driven (驱动交互) 对三维模型解析转为为动态效果
3d-rendering (渲染呈现) 对三维模型进行渲染并以图像展示
ar-vr (增强/虚拟现实) 对vr图像信息进行画面增强

你可能感兴趣的:(人工智能,深度学习,计算机视觉,图像识别)