应用python初探梅雨预报感言NLP词频分析

每年的梅雨预报是长江中下游省份6月汛期预报的重要关注点,其中关于入梅时间的确定也是媒体和大众的主要关注点。2020年省台的预报和服务效果均较好,于是领导总结了整个决策过程,让我们来看看这篇感言的重点吧。
首先,由于数据是图片格式,需要调用baidu ORC api进行图片文字ORC识别和文字样本拼接,然后采用jieba分词进行分词,最后绘制词云图片。
原始图片是这样的:
应用python初探梅雨预报感言NLP词频分析_第1张图片
ORC和拼接后的部分文本:
2020年入梅手记
每年一到六月,我的脑子里就会不由之主地蹦出两个字-梅雨,人也开始进入一种紧张而兴奋的状态,就像鲨鱼闻到了血腥的味道,就像韩首席遇见了台风,但是我没他那么严重,韩首席只要碰见恶劣天气都很兴奋。今年的6月有点特殊,春季以来,江苏降水持续偏少,水文局传来的消息表明,抗旱形势十分严峻,水利同行们正急切盼望梅雨的到来以缓和旱情。但此时正是冬小麦进入成熟收获的夏收季节,如果出现降雨,不仅不利收晒,小麦质量与产量都可能受到影响,而众所周知的原因使粮食安全在今年受到前所未有的关注。一边盼雨来,一边保夏收,6月就这样到来了。

处理代码:

"""
Created on Sat Jun 20 08:11:11 2020

NLP测试

主要功能:ORC,分词,词频分析

@author: nju911
"""
import os
import matplotlib.pyplot as plt  #绘制图像的模块
import  jieba  
from wordcloud import WordCloud
from aip import AipOcr

#更换为自己的注册信息
APP_ID = '--'
API_KEY = '--'
SECRET_KEY = '--'

path_pic = "d:/code/nlp_qxt/sample/"

pic_list = os.listdir(path_pic)

npic = len(pic_list)

data_raw = ''

for i in range(npic):
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)#创建连接
    fp=open(os.path.join(path_pic,pic_list[i]),"rb").read()#打开并读取文件内容
    #res=client.basicGeneral(fp)#普通
    res=client.basicAccurate(fp)#高精度

    for j in range (res['words_result_num']): 
        data_raw = data_raw + res['words_result'][j]['words']
        #data_raw.append(res['words_result'][j]['words'])
    
cut_text = " ".join(jieba.cut(data_raw))

wordcloud = WordCloud(
   #设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的
   font_path="C:/Windows/Fonts/simfang.ttf",
   #设置了背景,宽高
   background_color="white",width=1000,height=880).generate(cut_text)

fig = plt.figure(dpi=800)
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

词云效果:
应用python初探梅雨预报感言NLP词频分析_第2张图片

你可能感兴趣的:(预报开发杂谈)