好用的文本内容抽取关键词API接口调用示例

用户输入的内容通常是一个不那么简洁的长尾词,通过抽取关键词接口就能快速抽取其中的核心词。该接口支持指定抽取数量和词性,其中num参数为可选,默认返回10个词语,999为不限数量。当指定wordtag参数为1时,返回一个包含词性的列表,例如把一大段文本中的人名或者把一篇文章里提到的地名单独提取出来。 词性代码释义请参考中文智能分词接口词性代码释义。

好用的文本内容抽取关键词API接口调用示例_第1张图片

接口信息

抽取一段文本信息中的核心关键词

接口地址:https://apis.tianapi.com/cnwords/index 

请求示例:https://apis.tianapi.com/cnwords/index?key=你的APIKEY&num=10&content=今天小天去上海外滩和南京东路玩 

支持协议:http/https

请求方式:get/post

返回格式:utf-8 json

返回示例


	{
  "code": 200,
  "msg": "success",
  "result": {
    "list": [
      "小天",
      "外滩",
      "南京东路",
      "上海"
    ]
  }
}

返回参数

▼ 返回参数

公共参数指所有接口都会返回的参数,应用参数每个接口都不同

名称 类型 示例值 说明
公共参数
code int 200 状态码
msg string success 错误信息
result object {} 返回结果集
应用参数
newslist array ["小天","外滩","南京东路","上海"] 分词数组(不返回词性)
word string 上海 词语(返回词性)
word_tag int 63 词性代码
index int 3 词组排序

参考代码

# -*- coding: utf-8 -*-
import http.client, urllib, json
conn = http.client.HTTPSConnection('apis.tianapi.com')  #接口域名
params = urllib.parse.urlencode({'key':'你的APIKEY','num':'10','content':'今天小天去上海外滩和南京东路玩'})
headers = {'Content-type':'application/x-www-form-urlencoded'}
conn.request('POST','/cnwords/index',params,headers)
tianapi = conn.getresponse()
result = tianapi.read()
data = result.decode('utf-8')
dict_data = json.loads(data)
print(dict_data)

抽取关键词接口有哪些应用场景:

1,需要判断核心搜索词场合,用户输入的搜索词通常是一个不那么简洁的长尾词,例如“上海古漪园的票价是多少钱”,通过分词接口就能快速找出这句话的核心词“上海 古漪园 票价"。

2,需要提高文章检索效率的场合,无论哪种数据库,原生语句的模糊搜索在大数据量的情况下,效率都是极其低下的。我们可以通过智能分词接口,根据标题、描述或者文章内容,提取出该文章所有关联关键词,然后把这些关键词单独存储索引,下次检索的时候就可以根据这些关键词找到对应的文章即可。

3,需要文本归类的场合,通过新增参数wordtag,我们可以指定返回分词后的每个词语的词性,再通过词性代码就可以提取到文章中全部的团体名、人名、地名等等。例如一篇文章中多次提到了上海古漪园,我们就可以把这篇文章归类到与古漪园相关的文章,方便向用户推荐。

如果您需要更复杂的中文智能分词服务请使用智能分词接口智能分词API接口 - 天行数据TianAPI

你可能感兴趣的:(天行数据,天行数据,API接口,tianapi,python)