[知识图谱] Tushare数据获取和展示(1/*)

Tushare数据获取与展示

项目第一步,使用Tushare的数据接口获取数据

1. Tushare介绍

Tushare是一个免费、开源的python财经数据接口包。
官方网站:https://tushare.pro/
python安装tushare:

pip install tushare

Tushare特点:

  • 数据丰富
    拥有丰富的数据内容,如股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据
  • 获取简单
    SDK开发包支持语言,同时提供HTTP Restful接口,最大程度方便不同人群的使用
  • 落地方便
    提供多种数据储存方式,如Oracle、MySQL,MongoDB、HDF5、CSV等,为数据获取提供了性能保证

2. Tushare数据接口

本项目使用的数据接口以及其介绍:

  • 股票列表

    获取基础信息数据,包括股票代码、名称、上市日期、退市日期等
  • 上市公司基本信息
  • 上市公司管理层
  • 管理层薪酬和持股
  • 概念股分类表
  • 概念股明细列表
  • 公募基金列表

    获取公募基金数据列表,包括场内和场外基金
  • 公募基金公司
  • 公募基金持仓数据

3. Tushare股票基本信息

沪深股票基础信息,本项目使用股票代码
、股票名称、所属行业、地域

3.1 数据展示

  1. 调用tushare接口,获取数据
import tushare as ts

pro = ts.pro_api("Your Token")
df = pro.stock_basic(exchange='',fields='ts_code,symbol,name,area,industry')
  1. 展示爬取的前5行数据
data = pd.DataFrame(df)
data.head(5)

[知识图谱] Tushare数据获取和展示(1/*)_第1张图片

3.2 数据预处理:缺失值处理

  1. 查看数据信息
data.info()

[知识图谱] Tushare数据获取和展示(1/*)_第2张图片
可以看出, area和industry里有缺失值

  1. 查看有缺失值的行
data[data.isnull().T.any()]

[知识图谱] Tushare数据获取和展示(1/*)_第3张图片

  1. 删除有缺失值的行
data_full = data.dropna()
data_full

3.3 属性信息展示

显示属性信息

data_full.describe()

[知识图谱] Tushare数据获取和展示(1/*)_第4张图片
可以看出:

  • 共有4701条数据
  • 企业名称没有重复值
  • 共有32个地区,110个行业
  • 浙江省企业数量最多,有615家
  • 电气设备行业企业数量最多,有252家

你可能感兴趣的:(tushare知识图谱)