爬虫 数据可视化

爬虫-可视化界面柱状图

交作业啦,最近在学习爬虫,由于基础性学习太慢,对于我这种急性子的人直接去 B站找了一个完整的例子直接上手做了。

就是爬取一个页面的内容,并把爬取下来的数据可视化,用柱状图直观表示出来。
直接上代码吧

import requests
import pprint
import csv

file = open('data.csv', mode='a', encoding='utf-8', newline='') #a表示数据的追加
csv_write = csv.DictWriter(file,fieldnames=['股票代码','股票名称','当前价','涨跌额','涨幅额','年初至今','成交量','成交额','换手率','市盈率','股息率','市值'])
csv_write.writeheader()#写入一次表头数据
for page in range(1,53):
    print('----------正在抓取第{}页数据----------------------'.format(page))
    #1.确定url地址(链接地址)<分析网页性质>
    url='https://xueqiu.com/service/v5/stock/screener/quote/list?page={}&size=30&order=desc&order_by=amount&exchange=CN&market=CN&type=sha&_=1627646170409'.format(str(page))

    headers={
       
    }
    #2.发送网络请求

    response=requests.get(url=url,headers=headers)
    print(response)
    json_data=response.json()
    #pprint.pprint(json_data)

    #3.数据解析1(筛选数据)
    data_list=json_data['data']['list']

    for data in data_list:
        #print(data)

        data1 = data['symbol']
        data2 = data['name']
        data3 = data['current']
        data4 = data['chg']
        if data4:
            if float(data4) > 0:
                data4='+'+str(data4)
            else:
                data4=str(data4)
        data5 = str(data['percent'])+'%'
        data6 = str(data['current_year_percent']) + '%'
        data7 = data['volume']
        data8 = data['amount']
        data9 = str(data['turnover_rate'])+ '%'
        data10= data['pb_ttm']
        data11 = data['dividend_yield']
        if data11:
            data11=str (data['dividend_yield'])+ '%'
        else:
            data11=None
        data12 = data['market_capital']
        print(data1,data2,data3,data4,data5,data6,data7,data8,data9,data10,data11,data12)

        #4.保存数据
        data_dict={'股票代码':data1,'股票名称':data2,'当前价':data3,'涨跌额':data4,'涨幅额':data5,'年初至今':data6,'成交量':data7,'成交额':data8,'换手率':data9,'市盈率':data10,'股息率':data11,'市值':data12}

        csv_write.writerow(data_dict)

从页面爬下数据之后,开始可视化处理

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
data_df = pd.read_csv('data.csv')
df = data_df.dropna()#过滤缺失数据
'''
DataFrme.dropna(axis=0,how=’any’,thresh=None,subset=None,inplace=False)
参数:
axis: 默认axis=0。0为按行删除,1为按列删除
how: 默认 ‘any’。 ‘any’指带缺失值的所有行/列;'all’指清除一整行/列都是缺失值的行/列
thresh: int,保留含有int个非nan值的行
subset: 删除特定列中包含缺失值的行或列
inplace: 默认False,即筛选后的数据存为副本,True表示直接在原数据上更改

'''
df1 = df[['股票名称','成交量']]
df2 = df1.iloc[:20]#iloc函数:通过行号来取行数据
print(df2['股票名称'].values)
print(df2['成交量'].values)

c = (
    Bar(init_opts=opts.InitOpts(width="1500px", height="700px"))
        .add_xaxis(list(df2['股票名称'].values))
        .add_yaxis("股票成交情况",list(df2['成交量'].values))
        .set_global_opts(
        title_opts=opts.TitleOpts(title="成交量图表-Volume chart"),
        datazoom_opts=opts.DataZoomOpts(),
    )
        .render("data.html")
)


这其中遇到的问题是由与柱状图当初没有设置图表画布宽度,使用默认值,最初显示的柱状图x轴并没有把每个点对应的是什么显示出来。

 
class InitOpts(
    # 图表画布宽度,css 长度单位。
    width: str = "900px",
 
    # 图表画布高度,css 长度单位。
    height: str = "500px",
 
    # 图表 ID,图表唯一标识,用于在多图表时区分。
    chart_id: Optional[str] = None,
 
    # 渲染风格,可选 "canvas", "svg"
    # # 参考 `全局变量` 章节
    renderer: str = RenderType.CANVAS,
 
    # 网页标题
    page_title: str = "Awesome-pyecharts",
 
    # 图表主题
    theme: str = "white",
 
    # 图表背景颜色
    bg_color: Optional[str] = None,
 
    # 远程 js host,如不设置默认为 https://assets.pyecharts.org/assets/"
    # 参考 `全局变量` 章节
    js_host: str = "",
 
    # 画图动画初始化配置,参考 `global_options.AnimationOpts`
    animation_opts: Union[AnimationOpts, dict] = AnimationOpts(),
)
 
         Bar(init_opts=opts.InitOpts(theme=ThemeType.ROMANTIC,width="1200px",height="300px",chart_id='efg123',renderer='RenderType.SVG'))
'''
def add_yaxis(
    # 系列名称,用于 tooltip 的显示,legend 的图例筛选。
    series_name: str,
    # 系列数据
    y_axis: Sequence[Numeric, opts.BarItem, dict],
    # 是否选中图例
    is_selected: bool = True,
    # 使用的 x 轴的 index,在单个图表实例中存在多个 x 轴的时候有用。
    xaxis_index: Optional[Numeric] = None,
    # 使用的 y 轴的 index,在单个图表实例中存在多个 y 轴的时候有用。
    yaxis_index: Optional[Numeric] = None,
    # 是否启用图例 hover 时的联动高亮
    is_legend_hover_link: bool = True,
    # 系列 label 颜色
    color: Optional[str] = None,
    # 是否显示柱条的背景色。通过 backgroundStyle 配置背景样式。
    is_show_background: bool = False,
    # 每一个柱条的背景样式。需要将 showBackground 设置为 true 时才有效。
    background_style: types.Union[types.BarBackground, dict, None] = None,
    # 数据堆叠,同个类目轴上系列配置相同的 stack 值可以堆叠放置。
    stack: Optional[str] = None,
    # 柱条的宽度,不设时自适应。
    # 可以是绝对值例如 40 或者百分数例如 '60%'。百分数基于自动计算出的每一类目的宽度。
    # 在同一坐标系上,此属性会被多个 'bar' 系列共享。此属性应设置于此坐标系中最后一个 'bar' 系列上才会生效,并且是对此坐标系中所有 'bar' 系列生效。
    bar_width: types.Union[types.Numeric, str] = None,
    # 柱条的最大宽度。比 barWidth 优先级高。
    bar_max_width: types.Union[types.Numeric, str] = None,
    # 柱条的最小宽度。在直角坐标系中,默认值是 1。否则默认值是 null。比 barWidth 优先级高。
    bar_min_width: types.Union[types.Numeric, str] = None,
    # 柱条最小高度,可用于防止某数据项的值过小而影响交互。
    bar_min_height: types.Numeric = 0,
    # 同一系列的柱间距离,默认为类目间距的 20%,可设固定值
    category_gap: Union[Numeric, str] = "20%",
    # 不同系列的柱间距离,为百分比(如 '30%',表示柱子宽度的 30%)。
    # 如果想要两个系列的柱子重叠,可以设置 gap 为 '-100%'。这在用柱子做背景的时候有用。
    gap: Optional[str] = "30%",
    # 是否开启大数据量优化,在数据图形特别多而出现卡顿时候可以开启。
    # 开启后配合 largeThreshold 在数据量大于指定阈值的时候对绘制进行优化。
    # 缺点:优化后不能自定义设置单个数据项的样式。
    is_large: bool = False,
    # 开启绘制优化的阈值。
    large_threshold: types.Numeric = 400,
    # 使用 dimensions 定义 series.data 或者 dataset.source 的每个维度的信息。
    # 注意:如果使用了 dataset,那么可以在 dataset.source 的第一行/列中给出 dimension 名称。
    # 于是就不用在这里指定 dimension。
    # 但是,如果在这里指定了 dimensions,那么 ECharts 不再会自动从 dataset.source 的第一行/列中获取维度信息。
    dimensions: types.Union[types.Sequence, None] = None,
    # 当使用 dataset 时,seriesLayoutBy 指定了 dataset 中用行还是列对应到系列上,也就是说,系列“排布”到 dataset 的行还是列上。可取值:
    # 'column':默认,dataset 的列对应于系列,从而 dataset 中每一列是一个维度(dimension)。
    # 'row':dataset 的行对应于系列,从而 dataset 中每一行是一个维度(dimension)。
    series_layout_by: str = "column",
    # 如果 series.data 没有指定,并且 dataset 存在,那么就会使用 dataset。
    # datasetIndex 指定本系列使用那个 dataset。
    dataset_index: types.Numeric = 0,
    # 是否裁剪超出坐标系部分的图形。柱状图:裁掉所有超出坐标系的部分,但是依然保留柱子的宽度
    is_clip: bool = True,
    # 柱状图所有图形的 zlevel 值。
    z_level: types.Numeric = 0,
    # 柱状图组件的所有图形的z值。控制图形的前后顺序。
    # z值小的图形会被z值大的图形覆盖。
    # z相比zlevel优先级更低,而且不会创建新的 Canvas。
    z: types.Numeric = 2,
    # 标签配置项,参考 `series_options.LabelOpts`
    label_opts: Union[opts.LabelOpts, dict] = opts.LabelOpts(),
    # 标记点配置项,参考 `series_options.MarkPointOpts`
    markpoint_opts: Union[opts.MarkPointOpts, dict, None] = None,
    # 标记线配置项,参考 `series_options.MarkLineOpts`
    markline_opts: Union[opts.MarkLineOpts, dict, None] = None,
    # 提示框组件配置项,参考 `series_options.TooltipOpts`
    tooltip_opts: Union[opts.TooltipOpts, dict, None] = None,
    # 图元样式配置项,参考 `series_options.ItemStyleOpts`
    itemstyle_opts: Union[opts.ItemStyleOpts, dict, None] = None,
    # 可以定义 data 的哪个维度被编码成什么。
    encode: types.Union[types.JSFunc, dict, None] = None,
)
'''

最后成果
爬虫 数据可视化_第1张图片

参考资料:[1]https://blog.csdn.net/weixin_47723732/article/details/113860234
[2]https://blog.csdn.net/zhaoyangjian724/article/details/103402191
[3]https://www.bilibili.com/video/BV1vt4y1v7oJfrom=search&seid=5714856360443427054

你可能感兴趣的:(python)