使用阿里云、百度云提供的一些接口,实现一些文本处理的功能,此处以阿里云为例:
import json
import csv
import time
from aliyunsdkcore.client import AcsClient
from aliyunsdkcore.request import CommonRequest
# 创建AcsClient实例
# 创建AcsClient实例
client = AcsClient(
"***********************", #通过查看官方文档获取AK
"*****************************", #通过查看官方文档获取SK
"cn-hangzhou"
)
def textCorrection(text):
request = CommonRequest()
request.get_read_timeout()
# domain和version是固定值
request.set_domain('alinlp.cn-hangzhou.aliyuncs.com')
request.set_version('2020-06-29')
# action name可以在API文档里查到
request.set_action_name('******') #需要换成官方文档提供的action name,在对应的接口文档里面有说明
# 需要add哪些param可以在API文档里查到
request.add_query_param('ServiceCode', 'alinlp')
request.add_query_param('Text', text)
request.add_query_param('TokenizerId', 'GENERAL_CHN')
response = client.do_action_with_exception(request)
#print(response)
resp_obj = json.loads(response) #将响应的数据解析成json格式
data =json.loads(resp_obj['Data']) #获取json字符串中的某一个value
#target=data['target']
print(data['result']['edits'])
return data['result']['target']
调用api的过程中遇到,输入的文本过长,导致返回异常。由于一次处理过长文本需要耗费相对应的资源,如果一次开辟出太多的资源,而大多数实际应用场景消费不了这么多资源,所以,服务端对文本长度,进行了限制。这时,我们可以考虑,进行长文本分割。
#长文本分割
def text_cut(obj, sec):
texts=""
str_list = [obj[i:i+sec] for i in range(0,len(obj),sec)]
for text in str_list:
text=text+"|" #为了演示分割效果,以 "|" 为分隔符
#text= dealWith(text) 处理文本函数
texts+=text.strip()
#print(texts)
return texts
#判断是否进行长文本分割
def if_text_cut(text):
if len(text)>10: #文本长度超过10分割
#text = text.strip()
s_text = text_cut(text,10) #文本分割长度
return s_text
else:
return text
#测试
text ="短文本不分割";
s_text = if_text_cut(text)
print("短文本:"+s_text)
long ="长文本分割*****************###########################***";
l_text = if_text_cut(long)
print("长文本:"+l_text)
文本分割测试:
在调用api的过程中,程序往往执行到中途,会出现Server Error,服务器内部出现异常。就好比频繁地问一个人同一个问题,太频繁了,会被嫌弃。服务器也是如此,它得思考一下,你为什么这么频繁地请求,我还要处理其他业务上或请求发送者的请求,此事,它会告诉你,Server Error,让你停下来。那么,我们可以设置一个请求的延时,或者请求超时的范围。
#方式一:
import time
time.sleep(0.1)
#方式二
response = urllib.request.urlopen(request,timeout=10) #百度api 提供的参数 ,阿里云未找到timeout参数