DJin

斗鱼直播数据分析(一)之利用python3爬虫获取数据

- - - 前言
    - 一、网站爬取逻辑分析
    - 二、爬虫步骤实现
      - 1.获取每个分类的URL
      - 2.获取每个分类下的游戏url
      - 3.获取游戏名称、直播人数、观看热度
    - 三、将爬虫数据保存到mysql数据库
      - 1.创建表
      - 2.连接数据库
      - 3.拼装sql语句，写入数据库
      - 4.最后关闭数据库连接
    - 四、定时爬取
      - 1.获取开始爬取时间
      - 2.设置定时器
    - 五、数据展示
      - 1.爬取过程控制台日志展示
      - 2.数据库数据展示
    - 六、总结

前言

随着2012年开始直播行业的兴起，吃外卖看直播成了很多大学生每天都会做的事(当年我们宿舍的就是这么过来的╮(￣▽￣)╭)，伴随着最近自己很喜欢的一位主播跳槽到海鲜台，所以就打算扒一扒这个海鲜台，本篇文章分成2个部分：

利用python3爬虫获取数据
爬虫数据分析及可视化

本篇先对第一部分进行阐述。

一、网站爬取逻辑分析

基于上图，我们可以看出：
将分类做为入口，获取每个分类下的游戏列表，爬取分类下每个游戏的url，然后进入具体的游戏页面，拿英雄联盟为例：

基于上图，我们在页面可以轻易的获取到以下三个信息：
游戏名称：game_name、开播人数：paly_num、观看热度：watch_num
海鲜台已经帮我们做好统计，我们直接截取就ok了。

但是，万一有些直播节目斗鱼没有做这方面的统计呢？比如下面这个游戏直播页面是这样的：

从上图可以发现，我们只能获取到游戏名称：game_name，拿不到开播人数：paly_num和观看热度：watch_num。

对于这样的情况，我们能想到的就是自己做统计，或许搜索框是我们的一个入手点：

果然，通过搜索框，我们能获取到开播人数paly_num，通过搜索接口查询相比我们进去游戏直播列表一个一个页面做统计是不是便捷了很多，有了开播人数paly_num，观看热度watch_num的获取也挺容易：

将每一个直播的热度做一个统计就能得到观看热度。

二、爬虫步骤实现

1.获取每个分类的URL

点击顶部的网游竞技，我们能从浏览器的network中获取到如下url：https://www.douyu.com/directory/index/PCgame?isAjax=1，这就是我们需要的分类url，其他分类也可以通过这样的做法来查看获取，获取到全部分类的url之后，我们可以定义一个字典来存放我们的分类：

# 斗鱼直播分类字典，key为直播分类名称，value为分类URL
classify_dict = {
    '网游竞技' : 'https://www.douyu.com/directory/index/PCgame?isAjax=1',
    '单机热游' : 'https://www.douyu.com/directory/index/djry?isAjax=1',
    '手游休闲' : 'https://www.douyu.com/directory/index/syxx?isAjax=1',
    '娱乐天地' : 'https://www.douyu.com/directory/index/yl?isAjax=1',
    '颜值'     : 'https://www.douyu.com/directory/index/yz?isAjax=1',
    '科技教育' : 'https://www.douyu.com/directory/index/kjjy?isAjax=1',
    '语音直播' : 'https://www.douyu.com/directory/index/voice?isAjax=1',
    '正能量'   : 'https://www.douyu.com/directory/index/znl?isAjax=1'
}

2.获取每个分类下的游戏url

通过浏览器访问分类url，比如我们访问网游竞技的url，并查看页面源代码：

从源代码上看，a标签里面的href属性就是我们需要的游戏url，具体做法：

首先我们先定义一个浏览器伪装池，每次访问url时进行浏览器伪装，保证url访问的正常：

# 浏览器伪装列表
user_agent_pools = [
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
        'Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1',
        'Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11',
        'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)'
]

然后定义一个公共的url访问的方法，所有的url访问都通过该方法；同时，为了保证容错性，需要有访问失败的重连机制，代码如下：

# 通过urllib模块获取url的html信息
# 这里通过while循环，利用线程睡眠控制程序2秒进行重连，增加容错性
def open_url(url):
    # 从浏览器伪装池中随机获取一个头信息，并设置给opener对象
    user_agent = random.choice(user_agent_pools)
    headers = ('User-Agent', user_agent)
    opener = ur.build_opener()
    opener.addheaders = [headers]
    # 将opener对象设为全局
    ur.install_opener(opener)
    flag = False
    while not flag:
        try:
            # 获取html信息
            data = ur.urlopen(url).read().decode('utf-8')
        except Exception as e:
            print('url [' + url + '] HTTP请求失败！正在准备重连……')
            time.sleep(2)
            continue
        flag = True
    return data

接下来，遍历访问分类字典，获取每个游戏的url和data-tid(后面有用)：

# 遍历斗鱼网站的分类字典列表，获取分类名称(key)与对应的URL(value)
for classify in classify_dict.items():
    # 获取分类下的游戏列表
    game_list_data = open_url(classify[1])
    # 通过BeautifulSoup截取游戏列表中每个游戏对应的直播列表url和data-tid(后面有用)
    game_list = bs(game_list_data)
    # 遍历页面所有a标签，获取每个a标签里面的href、data-tid
    for i in game_list.find_all('a'):
        detail_url = "https://www.douyu.com" + str(i['href'])
        data_id = str(i['data-tid'])

3.获取游戏名称、直播人数、观看热度

访问每个游戏的url，即上一步获取到的detail_url，获取我们需要的信息，以英雄联盟(https://www.douyu.com/g_LOL)为例，同样查看页面源代码：

我们就可以获取需要的数据：

game_detail_data = open_url(detail_url)
game_detail = bs(game_detail_data)
# 获取h1标签为游戏名称
game = game_detail.h1.text
# 获取class=play_num为开播人数
play_num = int(game_detail.select(".play_num")[0].text)
# 获取class=watch-num为观看热度
watch_num = int(game_detail.select(".watch-num")[0].text)

对于斗鱼没有做统计的游戏，做法如下：
将上一步的game游戏名称传入搜索url，进行查询来获取直播人数：

keyword = ur.quote(game) # 对中文进行编码
search_url = 'https://www.douyu.com/search/?kw=' + keyword
play_num = play_search(search_url)

由于在爬取的过程中，有时候会出现搜索结果的直播人数获取失败，故定义play_search函数做处理，代码如下：

# 通过斗鱼网站的搜索获取游戏的开播人数，偶尔会出现获取直播人数失败的情况(一天1~2次)，导致索引越界，具体原因没有明查
# 这里通过while循环，利用线程睡眠控制程序2秒重连，增加容错性
def play_search(url):
    flag = False
    while not flag:
        try:
            err_data = open_url(url)
            # 使用正则表达式进行匹配
            play_num = re.compile('\\s+(.*)直播').findall(err_data)[0]
        except IndexError as e:
            print('url [' + url + '] 获取直播人数失败！正在准备重连……')
            time.sleep(2)
            continue
        flag = True
    return play_num

成功获取到直播人数后，开始统计观看热度，首先我们需要计算该游戏的直播列表分页数量，斗鱼默认的pageSize为120，故定义如下函数：

# 运用除法运算向上取整，来获取当前直播人数的直播列表分页数 def page_num(playNum, pageSize): return int((playNum + pageSize - 1) / pageSize)

得到游戏列表的分页数之后，遍历每页获取每页中每个直播的热度进行统计：
还是拿英雄联盟来研究研究：

当我们点击第二页时，network中的https://www.douyu.com/gapi/rkc/directory/2_1/2这个url返回了一串json

通过将json串和页面显示内容进行比较，可以知道：json[data][rl][ol]就是每个直播的热度

在测试其他的游戏，得到url的规律为：https://www.douyu.com/gapi/rkc/directory/ + 1或2 + _ + data-tid + / + 页数

前面的data-tid的用处在这里就体现了，代码如下：

# 根据开播人数计算游戏的直播列表分页页数 pageNum = page_num(int(play_num), 120) # 定义热度总和变量 watch_num = 0 # 获取每页的直播列表，并统计热度 for i in range(1, pageNum + 1): # 该url返回为json对象，由于有的游戏url为'1_'+data_id，有的url则为'2_'+data_id,没有发现什么规律 # 故这里的做法为两个url都拼起来，先查询第一个，若第一个查询结果数据长度为空，则使用第二个 detail_url = 'https://www.douyu.com/gapi/rkc/directory/1_' + str(data_id) + '/' + str(i) # 获取json字符串 err_data = open_url(detail_url) # 将json字符串转化为json对象 obj = json.loads(err_data) if len(obj['data']['rl']) == 0: detail_url = 'https://www.douyu.com/gapi/rkc/directory/2_' + str(data_id) + '/' + str(i) err_data = open_url(detail_url) obj = json.loads(err_data) for j in range(0, len(obj['data']['rl'])): watch_num += int(obj['data']['rl'][j]['ol']) # 统计热度

到这一步，代码的逻辑基本完成，接下来就是将爬取的数据保存下来

三、将爬虫数据保存到mysql数据库

使用pymysql模块将爬虫数据保存入库

1.创建表

DROP TABLE IF EXISTS `douyu_crawl_data`; CREATE TABLE `douyu_crawl_data` ( `classify_name` varchar(255) DEFAULT NULL COMMENT '分类名称', `game_name` varchar(255) DEFAULT NULL COMMENT '游戏名称', `play_num` int(11) DEFAULT NULL COMMENT '直播人数', `watch_num` int(11) DEFAULT NULL COMMENT '观看热度', `crawl_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '爬取时间' ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2.连接数据库

# 准备数据库连接 db = pymysql.Connect(host="127.0.0.1", user="root", password="123456", db="crawl", port=3306) cur = db.cursor() print('连接数据库成功！开始爬取网页数据……')

3.拼装sql语句，写入数据库

# 组装sql语句 sql = "INSERT INTO douyu_crawl_data (classify_name, game_name, play_num, watch_num, crawl_time) VALUES ('" + str(classify[0]) + "','" + str(game) + "','" + str(play_num) + "','" + str(watch_num) + "','" + str(crawl_start_time) + "')" # 执行sql语句 cur.execute(sql) db.commit()

4.最后关闭数据库连接

# 关闭数据库连接 cur.close() db.close()

四、定时爬取

使用Timer模块实现定时爬取

1.获取开始爬取时间

在开始爬取之前，获取系统当前时间，为了便于后期的数据分析更加方便，将该时间作为该批爬取数据的crawl_time，实际误差在5分钟左右

# 记录该次爬取时间，为了便于后期的分析，开始爬取时记录当前的爬取时间作为该次爬取到的所有数据的爬取时间 crawl_start_time = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') # 爬取时间

2.设置定时器

当爬取任务完成后，再次获取系统当前时间，计算本次爬取时长；同时，为了满足半个小时爬取一次的需求，需要计算：从开始爬取时间crawl_start_time到下一个爬取时间点的所剩时长crawl_space_time，将crawl_space_time的时间设置给定时器，让定时器执行下一次的爬取任务：

# 定时器，定时半小时执行爬取程序，计算整个过程一次爬取时间，1800-爬取所用时间为间隔时长 crawl_space_time = 1800.0 - (float(int(datetime.datetime.now().timestamp())) - time.mktime(time.strptime(crawl_start_time,'%Y-%m-%d %H:%M:%S'))) print("==========================================================================================") print(" 爬取结束!等待下一次爬取,下一次爬取将于[" + str(crawl_space_time) + '] 秒后进行…… ') print("==========================================================================================") t = Timer(crawl_space_time, crawl) t.start()

五、数据展示

1.爬取过程控制台日志展示

2.数据库数据展示

六、总结

至此，数据的爬取基本完成，完整代码查看点击这里。个人水平有限，代码写的有点粗糙，python也是现学现用(￣▽￣)~*，望大家见谅，有什么问题也希望大家在评论区指出，不胜感激！

下篇预告：《斗鱼直播数据分析(二)之爬虫数据分析及可视化》

FragPipe: 一个强大的蛋白质组学数据分析平台 2401_87189860 数据分析数据挖掘
FragPipe简介FragPipe是一个由Nesvizhskii实验室开发的综合性蛋白质组学数据分析平台。它以MSFragger搜索引擎为核心,集成了多种功能强大的分析工具,为研究人员提供了从原始数据处理到生物学解释的一站式解决方案。FragPipe具有用户友好的Java图形用户界面(GUI),同时也支持命令行模式,可以在Windows、Linux或云环境中运行。FragPipe的主要特点快速高
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1) 2401_84009626 程序员 python 爬虫开发语言
2.3.2通过xpath方法按层级查找数据定位好之后，我们就可以用etree对象的xpath方法解析xpath表达式，查找到相应的数据。定位到电影的标题所在标签，右键复制它的xpath：//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]中文标题就在a标签下的第1个span标签中span[1]，然后我们通过/text
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影 2401_84009698 程序员 python 爬虫开发语言
#获取中文电影标题title_cn=data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')而在a标签下的第二个span标签中包含的文本内容是电影的英文标题，所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。#获取英文电影标题title_en=data.
java爬虫工具Jsoup学习 Future_yzx java 爬虫学习
目录前言一、基本使用二、爬取豆瓣电影的案例三、Jsoup能做什么？四、Jsoup相关概念五、Jsoup获取文档六、定位选择元素七、获取数据八、具体案例前言JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。一、基本使用org.jsoupjsoup1.13.1二、爬取豆瓣电影的案例publicclassDouBan{
Python数据可视化 Pyecharts 制作 Sankey 桑基图 Mr数据杨 Python 数据可视化 python 数据可视化 pyecharts 数据分析
桑基图作为一种强大的数据可视化工具，常用于展现不同节点之间的流动关系及其数量分布。其通过直观的连线展示，帮助用户理解复杂系统中各个部分的连接和交互。Python的pyecharts库提供了Sankey类，支持用户灵活创建各种桑基图，不仅能够展示流动数据，还能根据节点层级及连线样式进行高度定制，使得桑基图在信息传达和视觉表现上更具表现力。文章目录Sankey：桑基图Demo总结Sankey：桑基图桑
python、JAVA等多种语言演示免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明 Eumenides_max python java 数据库股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
领域模型、MDD\DDD\TDD概念 lemon_lmlmlmlm java
此篇是个人笔记整理，知识来源：领域模型-CSDN博客、什么是MDD，DDD，TDD?-CSDN博客一、领域模型定义：领域模型是对领域内的概念类或现实世界中对象的可视化表示。又称概念模型、领域对象模型、分析对象模型。它专注于分析问题领域本身，发掘重要的业务领域概念，并建立业务领域概念之间的关系。领域模型（DomainModel），是完成从需求分析到面向对象设计的一座桥梁，领域模型是指对需求所涉及的领
R 调用 python weixin_33971205 python json java
上一篇说了python使用rpy2调用R，这里介绍R如何调用python。R的强项在于统计方面，尤其是专业的统计分析，统计检验以及作图功能十分强大，但是在通用性方面，就远不如Python了，比如python可以做web，可以开发GUI，可以爬虫，甚至可以开发游戏，这些R其实也不是完全不行，但是在易用性方面实在是难以与Python相匹敌。所以如果要是能将R与Python相结合，充分发挥二者的优势，那
chatgpt赋能python：U盘安装Python——一种简单高效的Python学习方式 findyi123 ChatGpt chatgpt python 学习计算机
U盘安装Python——一种简单高效的Python学习方式介绍Python作为一门实用性和易学性极高的脚本语言，在软件开发、数据分析等领域有着广泛的应用。很多初学者会选择安装Python解释器和相关IDE工具进行学习和实践。然而，如果你只是想快乐地学习Python，并且不想折腾复杂的环境配置和软件安装，那么可以考虑使用U盘安装Python，一种简单高效、随时随地可以学习Python的方式。步骤下载
开源的数据库监控和管理工具—PMM 蚂蚁在飞- 数据库人工智能运维后端
PMM（PerconaMonitoringandManagement）是一个开源的数据库监控和管理工具，主要用于监控MySQL、MariaDB、MongoDB和PostgreSQL等数据库的性能和健康状况。PMM提供了一套可视化的界面，帮助数据库管理员和开发人员对数据库进行深度监控、性能优化和故障排查。PMM由两个主要组件组成：1.PMMServerPMMServer是PMM的核心组件，负责收集和
【解决办法】Jupyter Notebook无法显示pyecharts可视化图表 Xiao_土豆数据可视化技术 jupyter python 信息可视化
我在JupyterNotebook中使用pyecharts库做可视化图表时，发现无法显示！通过上网查询，方法都基本相似，但其中会遇到一些问题，我详细讲一下我解决这个问题的过程：首先，我按照网络上的步骤，进行资源引用（可参考此链接：资源引用）。#1、获取pyecharts-assets项目gitclonehttps://github.com/pyecharts/pyecharts-assets.gi
数据分析系列----beautifulsoup4模块羽晨同学 Python 数据分析前端服务器
个人主页：羽晨同学个人格言:“成为自己未来的主人~”beautifulSoup4是一个用于从HTML或XML文件中提取数据的Python模块。使用BeautifulSoup模块，你可以提取到需要的任何信息。BeautifulSoup4是BeautifulSoup系列模块的第四个大版本。在使用这个模块之前，先要确保我们拿到了网页的源代码，怎么拿到网页的源代码，我们在上一篇文章中有说到，不会的同学可以
Python 网络爬虫进阶：动态网页爬取与反爬机制应对 Milk夜雨 python python 爬虫
在上一篇文章中，我们学习了如何使用Python构建一个基本的网络爬虫。然而，在实际应用中，许多网站使用动态内容加载或实现反爬机制来阻止未经授权的抓取。因此，本篇文章将深入探讨以下进阶主题：如何处理动态加载的网页内容应对常见的反爬机制爬虫性能优化通过具体实例，我们将探讨更复杂的网络爬虫开发技巧。一、动态网页爬取现代网页通常通过JavaScript加载动态内容。直接使用requests获取的HTML可
Jupyter Notebook无法显示pyecharts可视化图表解决方法 conderchi jupyter python pycharm
提示：详细解决方案可直接移步pyecharts官档文章目录问题描述问题原因解决办法总结问题描述在按照某些数据分析教材学习pyecharts库时，遇到如下问题：在JupyterNotebook中使用pyecharts生成可视化图表时，Notebook中显示空白，无任何图表输出显示。代码如下：frompyecharts.chartsimportBarattr=['衬衫','羊毛衫','雪纺衫','裤子
Gradio 快速构建机器学习web可视化界面心得算法小菜鸟成长心得 python
1.操作完成提示try:#对输入的字符串代码进行编译运行exec(get_test_code_example)gr.Info("Modeltestingcompletedsuccessfully.")except:raisegr.Error("Modeltestingfailed.")用到了gr.Info()和gr.Errot(）
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
Pandas基础05（数据的映射/replace()、rename()、map()、apply() 和 transform()） XYX的Blog 数据分析与可视化 pandas
数据映射：使用Pandas进行高效的数据处理在数据分析中，我们经常需要对数据进行处理、转换和映射。Pandas提供了许多强大的方法来帮助我们高效地完成这些任务。本文将介绍几个常用的映射函数，并展示它们在实际数据处理中的应用。具体来说，我们将介绍replace()、rename()、map()、apply()和transform()函数，这些都是非常常见的用于数据映射的操作。1.replace()函
AI软件外包需要注意什么外包开发AI软件的关键因素是什么如何选择AI外包开发语言北京动点飞扬软件 AI外包
1.定义目标与需求首先，要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理，还是其他功能？明确目标可以帮助你选择合适的技术和方法。2.选择开发平台与工具开发AI智能体的软件时，你需要选择适合的编程语言、框架和工具。例如：编程语言：Python是最常用的语言，因为它有强大的AI/ML库，如TensorFlow、PyTorch、scikit-learn等。开发平台：你可以使用本地环境、
Pandas基础01（Series创建/索引/切片/属性/方法/运算） XYX的Blog 数据分析与可视化 pandas
Pandas基础Pandas是一个功能强大的数据分析和操作库，主要用于处理和分析表格型数据（例如：CSV、Excel、SQL数据库等）。它建立在NumPy基础上，提供了许多便捷的数据结构，主要是Series和DataFrame，用于处理和分析数据。3.1Series数据结构Series是一种类似于一维数组的对象，它包含了一组数据（可以是整数、浮点数等）以及与之相关的标签（索引）。可以将Series
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
Heritrix网络爬虫与Tomcat服务器部署指南 Rubix-Kai
本文还有配套的精品资源，点击获取简介：Heritrix是一款功能强大的开源网络爬虫工具，由互联网档案馆开发，适用于大规模网页抓取。本文将指导读者如何下载、安装Heritrix，并在Tomcat服务器上进行部署和运行。内容包括Heritrix的基本概念、下载与安装步骤、集成到Eclipse的过程、配置Heritrix、构建与运行、部署到Tomcat以及如何访问Heritrix的Web界面。此外，还包
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
100个高质量ChatGPT学术论文写作提示词分享--系列（一）迪娜学姐人工智能深度学习论文阅读
我是娜姐@迪娜学姐，一个SCI医学期刊编辑，探索用AI工具提效论文写作和发表。ChatGPT学术论文写作高质量提示词分享，今天先分享50个，涵盖论文写作、文献综述、研究方法设计、数据分析、学术演讲准备等方面。1.论文写作(ThesisWriting)1.为[研究主题]制定一个引人入胜的论文标题，突出其创新性和重要性。Craftanengagingthesistitlefor[researchtop
100个高质量ChatGPT学术论文写作提示词分享--系列（二）迪娜学姐论文阅读论文笔记人工智能 chatgpt
我是娜姐@迪娜学姐，一个SCI医学期刊编辑，探索用AI工具提效论文写作和发表。ChatGPT学术论文写作高质量提示词分享，之前分享过50个，涵盖论文写作、文献综述、研究方法设计、数据分析、学术演讲准备等方面：100个高质量ChatGPT学术论文写作提示词分享--系列（一）今天继续分享50个，包括论文修改与编辑、写作技巧与提升、参考文献引用及编辑、论文投稿和课题申请：6论文修改与编辑(ThesisR
AI智能获客工具的意义是什么雪叶雨林 AI 行业资讯人工智能
在当今竞争激烈的市场环境中，企业需要高效、精准的获客策略来维持增长和竞争力。AI智能获客工具的出现，为企业提供了一种全新的解决方案，通过自动化和智能化手段提高获客效率和质量。一、AI智能获客工具的核心价值1.1提高获客效率AI智能获客工具通过自动化流程，如自动筛选潜在客户、自动发送营销信息等，大幅减少了人力投入和时间成本，从而提高了获客效率。1.2精准定位潜在客户利用机器学习和大数据分析技术，AI
【智慧水务】二供数仓功能架构大雨淅淅物联网网络人工智能
目录一、数据采集层（一）设备数据采集（二）水质数据采集（三）用户数据采集二、数据传输层（一）有线传输（二）无线传输三、数据存储层（一）原始数据存储（二）数据仓库存储四、数据分析层（一）实时数据分析（二）历史数据分析（三）预测性分析五、数据展示层（一）可视化界面（二）移动端应用六、系统管理层（一）用户权限管理（二）数据备份与恢复（三）系统维护与升级一、数据采集层（一）设备数据采集传感器数据：在二次供
python爬虫爬取拉勾网招聘信息 2401_84692405 程序员 python 爬虫数据挖掘
print('showId',show_id)print(“typeofresult”,type(position_result))total_count=position_result[‘totalCount’]没有符合条件的工作，直接返回iftotal_count==0:returnremain_page_count=math.ceil(total_count/JOBS_COUNT_ONE_P
mongodb php 日志分析,MongoDB Slowquery慢查询日志分析平台抱玉于浮光 mongodb php 日志分析
简介MongoDB的慢SQL日志是记录到业务库的system.profile表里，当线上DB运行缓慢时，开发通常联系DBA去排查问题，那么可以将这种机械化的工作，做成一个平台化、可视化的工具出来，让开发在网页里点点鼠标即可查看数据库运行状况，这将大大提高工作效率，降低对DBA的依赖。参考了Perconapt-mongodb-query-digest工具抓取分析的展示思路，并用PHP重构，将分析结果
掌握 Python 网络爬虫技术：从基础入门到高级实践（附带爬虫案例）一ge科研小菜鸡 Python 编程语言 python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是自动访问网站并抓取网页数据的程序。Python凭借其丰富的库和易于使用的特性，成为开发网络爬虫的首选语言。本文将详细介绍如何使用Python进行网络爬虫开发，包括基本概念、主要工具、数据解析和高级爬取技术，并提供一个完整的实践案例。1.网络爬虫概述1.1什么是网络爬虫？网络爬虫（WebCrawler）是指用于访问和抓取网页内容的自动化脚
使用R语言绘制日历热图 CyberXZ r语言开发语言 R语言
使用R语言绘制日历热图日历热图是一种可视化工具，用于显示时间序列数据的模式和趋势。这种图表通常使用颜色编码来表示数据值的大小，从而使我们能够快速识别出高值和低值。在R语言中，我们可以使用ggplot2包来创建漂亮且可定制化的日历热图。首先，确保已经安装了ggplot2包。如果没有安装，可以使用以下命令进行安装：install.packages("ggplot2")接下来，我们将使用一个示例数据集来
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

斗鱼直播数据分析(一)之利用python3爬虫获取数据

前言

一、网站爬取逻辑分析

二、爬虫步骤实现

1.获取每个分类的URL

2.获取每个分类下的游戏url

3.获取游戏名称、直播人数、观看热度

三、将爬虫数据保存到mysql数据库

1.创建表

2.连接数据库

3.拼装sql语句，写入数据库

4.最后关闭数据库连接

四、定时爬取

1.获取开始爬取时间

2.设置定时器

五、数据展示

1.爬取过程控制台日志展示

2.数据库数据展示

六、总结

你可能感兴趣的:(爬虫+数据分析+可视化)