银晗

数据分析学习项目：东京奥运会跳水评论分析

“中国跳水梦之队”

————有关东京奥运会跳水评论分析

导语
第32届夏季奥林匹克运动会于2021年07月23日-2021年08月08日在日本东京举办。四年一届的奥运会可以说是世界瞩目的盛会，奥运健儿们在赛场上的精神风貌不只是代表了他们自身的运动精神，更昭示这整个民族的精神风貌。

一、概述

对此次奥运会之旅，网友们的讨论也十分激烈，单单微博就有超过290亿的讨论度，大家都期待中国队能在世界舞台上一展雄姿。

同时，中国队也不负众望，在此次奥运会中取得了令人瞩目的成绩。

如上图所示，截止8月8日奥运会结束，中国在奖牌榜上依旧是遥遥领先。

从中国奥运奖牌分布，我们可以看出，跳水这一项目获得的金牌位于各个项目前列，那么对于这项取得优异成绩的比赛，网友们又是怎么看的呢？于是，我们就关于跳水这一项目的讨论的内容和相关人员做了一次数据分析

相信大家前几天一定被这个小女孩刷过屏

没错！她就是我们中国年仅14岁的跳水冠军，而且我国的“跳水梦之队”也在今年的比赛中收获颇丰
年轻、活力、未来，这就是朝气蓬勃的中国跳水运动员！
中国队的跳水无论是奖牌数，还是金牌数，都是独占鳌头的存在，在公众中也是引发了强烈的反响。
从奥运官网上爬取下来的奖牌数据，简单的进行处理一下，运用pandas和matplotlib进行画图 （稍后介绍这个这两个工具）

matplotlib可以用各种方式清晰地展示数据，方便得出结论，就拿上面奖牌榜举例

通过读取各国奖牌数据，我们可以轻松实现数据可视化它可以用各种方式清晰地展示数据，方便得出结论。

静态分析已经不能满足我们的眼球了，掌握一定技巧后，动态图表更直观

同时也可以将它们分布到世界地图上，实现区域和奖牌的一一对应。

下面的数据分析环节我们将着重于对数据可视化的获取，这样可以很大程度上帮助我们实现数据分析

我想说，每一块金牌并不只是代表一个数字，而是运动健儿们无数个日夜努力训练的汗水，在赛场上宠辱不惊的冷静发挥，这远比数字值得骄傲值得自豪的

二、准备数据

2.1 收集数据

条件

跳水运动于7月25日开始比赛，全部8月7日结束。选择评论时，应该注意评论的发布时间，当在25日之后。
尽量选择 “热门” 评论，特别是一些权威机构发布的微博下，进行数据的取样，让数据更具普适性。
由于我们进行数据分析的时间在奥运会结束之后，还应当考虑的一点是，这几天的新闻、微博，更多的偏向于奥运会后期，特别是8月5日~7日这几天的报道。所以，也不应该全部将评论的获取集中在后期的报道上，前期也要选取少许评论。

这里主要是通过爬虫技术爬取微博手机端上的用户评论来获取数据
（爬取难度：网页端>手机端>移动端）

2.1.1 爬虫简介

开始之前，先简单介绍爬虫流程：

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的猎物/数据

发起请求
使用http库向目标站点发起请求，即发送一个Request
Request包含：请求头、请求体等
获取响应内容
如果服务器能正常响应，则会得到一个Response
Response包含：html，json，图片，视频等
解析内容
解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以b的方式写入文件
保存数据
数据库

一些实用的库和包：

请求库：requests,selenium

request库是根据你提供的网站url，获取网页html信息的库，很多发布在网络上的信息都可以通过相应的html来获取。selenium库是通过代码模拟加载网页的工具，有些网页有相应的反爬虫设置，可能会阻碍我们对html的获取，这时就要用到selenium库来实现自动获取网页的效果。

request：

URL:
即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。
常用的请求方式：GET，POST
post与get请求最终都会拼接成这种形式：k1=xxx&k2=yyy&k3=zzz

-User-agent：

 中文名用户代理，服务器从此处知道客户端的 操作系统类型和版本，电脑CPU类型，浏览器种类版本，浏览器渲染引擎，等等。这是爬虫当中最最重要的一个请求头参数，所以一定要伪造，甚至多个。如果不进行伪造，而直接使用各种爬虫框架中自定义的user-agent，很容易被封禁。

请求头中如果没有user-agent客户端配置，
服务端可能将你当做一个非法用户
host
cookies：cookie用来保存登录信息

这里直接上代码

import requests
import json
import re
import time
import random


# 爬取微博评论写入weibo_comment.txt
def get_comment(url, headers, number, params_1, weibo_id):
    count = 0
    while count < number:
        # 判断是否是第一组，第一组不加max_id
        if count == 0:
            print('是第一组')
            try:
                urls = url + '&max_id_type=0'
                web_data_1 = requests.get(urls, headers=headers, params=params_1)
                data_1 = web_data_1.json()
                # 获取连接下一页评论的max_id
                max_id = data_1['data']['max_id']
                comments_list = data_1['data']['data']
                for commment_item in comments_list:
                    user = commment_item['user']['screen_name']
                    gender = commment_item['user']['gender']
                    comment = commment_item["text"]
                    # 删除表情符号
                    label_filter = re.compile(r']*>', re.S)
                    comment = re.sub(label_filter, '', comment)
                    with open(r'weibo_comment.txt', 'a', encoding='utf-8') as f:
                        f.write(f'{user}\t{gender}\t{comment}\n')
                    count += 1
                    print("已获取" + str(count) + "条评论。")
            except Exception as e:
                print(str(count) + "遇到异常")
                continue
        else:
            print('不是第一组')
            try:
                urls = url + '&max_id='+str(max_id) + '&max_id_type=0'
                params_2 = (
                    ('id', str(weibo_id)),
                    ('mid', str(weibo_id)),
                    ('max_id', str(max_id)),
                    ('max_id_type', '0'),
                )
                web_data_2 = requests.get(urls, headers=headers, params=params_2)
                data_2 = web_data_2.json()
                # 获取连接下一页评论的max_id
                max_id = data_2['data']['max_id']
                comments_list = data_2['data']['data']
                for commment_item in comments_list:
                    user = commment_item['user']['screen_name']
                    gender = commment_item['user']['gender']
                    comment = commment_item["text"]
                    # 删除表情符号
                    label_filter = re.compile(r']*>', re.S)
                    comment = re.sub(label_filter, '', comment)
                    with open(r'weibo_comment.txt', 'a', encoding='utf-8') as f:
                        f.write(f'{user}\t{gender}\t{comment}\n')
                    count += 1
                    print("已获取" + str(count) + "条评论。")
            except Exception as e:
                print(str(count) + "遇到异常")
                continue
        t = random.randint(2, 6)
        time.sleep(t)      # 随机停顿时间


if __name__ == "__main__":
    weibo_id = ''        # 这里的信息要添加你登录后的cookie，以及所要爬取用户的id
    headers = {
        'authority': 'm.weibo.cn',
        'method': 'GET',
        'path':'/comments/hotflow?id=' + str(weibo_id) + '&mid=' + str(weibo_id) + '&max_id_type=0',
        'scheme':'https',
        'accept':'application/json,text/plain,*/*',
        'accept - encoding': 'gzip, deflate, br',
        'accept - language': 'zh - CN, zh;q = 0.9',
        'cookie':'登录后的cookie',
        'mweibo - pwa':'1',
        'referer': 'https://m.weibo.cn/detail/' + str(weibo_id),
        'user - agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Mobile Safari/537.36',
        'x - requested -with': 'XMLHttpRequest',
        'x - xsrf - token': 'becd86',
    }
    # 后面的数据如有不同，也请适时更改。着重强调上述‘:’后的内容里，字符串开头不能有空格，referer中也无空格
    url = 'https://m.weibo.cn/comments/hotflow?id=' + str(weibo_id) + '&mid=' + str(weibo_id) 
    params_1 = (
        ('id', str(weibo_id)),
        ('mid', str(weibo_id)),
        ('max_id_type', ' 0'),
    )
    number = 200  # 爬取评论量，由于手机版一页是19条，故可能会多爬取
    get_comment(url, headers, number, params_1, weibo_id)

pandas：

pandas 是基于numpy 的一种工具，该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

pandas读取的到

pandas：
pandas 是基于numpy 的一种工具，该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2.2 数据处理

2.2.1 去除图片和表情包

这里可以使用正则表达式，替换掉

# 删除表情符号
label_filter = re.compile(r']*>', re.S)
comment = re.sub(label_filter, '', comment)

正则表达式：正则表达式是由一些具有特殊含义的字符组成的字符串，多用于查找、替换符合规则的字符串。在表单验证、Url映射等处都会经常用到。

详解和示例：

（1）. 匹配任何任意字符例如 . 可以匹配 1，n，*，+，- ,等

（2）\d\w\s 匹配第一个字符为数字，第二个字符为字母或数字、或下划线或汉字，第三字符为空格的字符串例如：11 ，2a , 1_

（3）^\d\d\d$ 匹配三个全部都为数字的字符串例如： 123,456,789

     还可以用于验证输入的字符串是否符合qq（身份证号）的验证 ：

     例如：^\d{8}$ 匹配8位数字的qq号，^\d{15}&匹配15位均为数字的身份证号

2.2.2 去除语气词/空评论

在统计词频的时候，可以将一些，无用的语气词，等删去

import jieba        # 引用中文分词库

# 为了读取方便，我将评论一栏单独保存到一个文件里
txt = open("xinxi.txt", "r", encoding="utf-8").read()  # 读取文件，注意编码
words = jieba.lcut(txt)                                # 中文分词
excludes = {"真的", "可以", "恭喜"}                     # 通过不断优化排除结果中的无用词，此处只列举几个
for word in excludes:                                  # 排除无用词
    del counts[word]

三、数据分析和信息挖掘

想要进行使数据分析的结果直观有效的呈现出来，对现有数据的可视化分析处理是必不可少的一步

可视化绘图工具：

Matplotlib

matplotlib作为python最流行的可视化模块之一，功能强大，用法简便。对于新手而言，其上手难度低，仅需要几行代码就可以创建一个发表质量的图片，而且同时支持静态和动态图片。对于开发者而言，其丰富的子模块提供了对图片中各个细节的精确控制，可以实现高度定制的可视化效果。

使用matplotlib库绘图，原理很简单，就是下面这5步：

创建一个图纸 (figure)
在图纸上创建一个或多个绘图(plotting)区域(也叫子图，坐标系/轴，axes)
在plotting区域上描绘点、线等各种marker
为plotting添加修饰标签(绘图线上的或坐标轴上的)
其他各种DIY

pyechart

但下方的数据可视化则主要用到的则是pyecharts，（为啥呢？因为真的更美观）

而要想了解pyechart，首先就要知道Echart。Echarts 是一个由百度开源的数据可视化javascript库，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。而 Python 是一门富有表达力的语言，很适合用于数据处理。当数据分析遇上数据可视化时，pyecharts诞生了。简单地说，pyecharts就是百度开源的一个强大的javascript数据可视化库Echarts的python接口。

3.1 微博评论分析

3.1.1 词频统计（生成词云图）

收集到的评论如果逐条去看的话，一定会让人眼花缭乱，所以我们何不去找一些出现频率较高的关键词，看看大家的评论都有哪些异曲同工之妙。

得到

当然，如果这还看的不够直观的话，我们可以制作词云图。

得到：

简析

侧重点：中国、来日可期、恭喜中国跳水梦之队、郭晶晶、全红婵，加油吧，YYDS。。。。。。

分析与结论：
1. 中国跳水队在本次东京奥运会总共获得7金5银的优异成绩！中国跳水“梦之队”圆满收官，让微博上的网友们，更加肯定和认可中国跳水队的实力，中国跳水队YYDS！！！（金牌？拿来吧你！）
2. 还有就是在本届奥运会上大放异彩的14岁小将全红婵，更是得到了网友们的一致追捧，同时也让我看到了00后的我们光明的未来，都要能为祖国争光，为中华民族的伟大复兴梦添砖加瓦。
3. 还有就是曾经的跳水女王郭晶晶，在奥运会上担任裁判，远渡重洋，随代表队一起，她是一个辉煌，如今也看到了我们的辉煌。

3.1.2 评论用户男女比例分析

在提取数据的同时，还有评论用户的性别

我们可以看到，女性用户的评论占比很高，有76.71%，而男性为23.29%

女性用户可能对东京奥运会跳水项目的关注度较高，

当然，也有可能是女性用户更愿意在微博发表自己的评论，为奥运健儿加油打气

3.1.3 评论的情感分析

评论者们高涨的情绪，我们也是能通过数据统计获悉哦！

（为了能够让读者直观的看到，我将微博上的评论，从消极到积极，分成1~10分，分数越高，评论的内容越积极正向）

我们可以清晰的看到，微博上的网友们，评论分数在10分的不在少数，获得高分的评论更是不在少数，可见大家都对我们的运动员抱有极大的信心和鼓励！

3.1.4 呼声较高的运动员

在东京奥运会开幕仪式中，最为瞩目的中国跳水的梦之队，一共十名奥运健儿参加比赛。

男子选手：谢思埸、王宗源、杨健、曹缘、陈艾森

女子选手：施廷懋、王涵、陈芋汐、全红婵、张家齐

而我们想知道讨论他们之中谁的的呼声最热烈，就做了这个直方图

我们也是可以看到全红婵、杨健、曹缘、陈芋汐的呼声是比较高的。

人们对于14岁“奥运冠军”全红婵的讨论也十分激烈。这就让我想到了最近网络上很火的段子“别的00后拿奥运冠军，而你正宅在家刷手机 ”。

当然，仅供娱乐，中国的00后也正在逐渐成长，成为祖国的栋梁之材。

(可能有些用户对运动员的姓名的称呼不完整，可能对结果造成细微的影响)

3.2 B站弹幕分析

3.2.1 谁的呼声最高

当代年轻人的“二刺螈”文化繁荣的Bilibili,又称“B站”，也有为运动员加油打气的呼声哦!

在这里我们可以看陈芋汐、张家齐的讨论度是比较高的。这也与实事密切相关的。

北京时间7月27日下午，东京奥运会跳水比赛决出女子双人10米跳台金牌，而在陈艾森/曹缘组合在男子10米双人跳台项目出现失误导致丢冠之后，张家齐/陈芋汐组合顶住压力，连续5跳发挥稳定，以巨大优势击败各个对手夺得冠军，捍卫跳水梦之队在这一项目的霸主地位，实现6连冠。为中国跳水队再添1枚金牌，与此同时这也是中国队本届奥运会第8枚金牌。

3.2.2 B站的情感得分

与微博一样，我也为弹幕文化繁荣的B站弹幕，顺便做了一下情感分析

与微博的“一枝独秀”不同的是，B站中，处于中立的6分评论数较多

但相同的是，高分分布依旧密集，且占据了绝大多数，可见大家，都是心心念念着我们祖国的奥运英雄们！ ✊

3.3 B站评论分析

根据点赞数讲热门的评论进行排序，筛选出热门评论

拿到经过排序后的数据后，绘制柱状图：

根据爬取到的B站用户的个人信息，我们可以统计性别比例：

3.4 跳水梦之队的奖牌史

中国跳水队被称为梦之队，那么为什么被称为梦之队呢？是因为他们的实力超级强大，具有绝对的统治力。如图：

Tips ：中国跳水队首次参加奥运会是在1984年洛杉矶奥运会。1984年至1996年亚特兰大奥运会，跳水项目只有4个单人项目，分别是男、女单人3米板，男、女单人10米台。而2000年悉尼奥运会以后，增加了4个双人项目，一共8个小项。

在总共的10届奥运会中，目前一共产生了64枚奥运金牌，中国跳水队一共夺得了其中的47枚，占据了其中的73.4%，非常的了不起，梦之队名称实至名归。

同时，我也希望我们的运动员能够在以后的比赛中，再创辉煌，为国争光

代码

B站弹幕爬虫代码

import requests
import json
import re

if __name__ == '__main__':
    # url='https://api.bilibili.com/x/v2/dm/web/seg.so?type=1&oid=286557535&pid=458806830&segment_index=1'
    url = 'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=286557535&date=2021-08-%d'
    headers = {
        'cookie': "your cookies"
        'User-Agent': 'your UA'
    }
    params = {
        'type': '1',
        'oid': '286557535',
        'date': '2021-08-09',
    }


    def get_response(url1):
        response = requests.get(url=url1, headers=headers)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        data = response.text
        contents = re.findall(".*?([\u4E00-\u9FA5]+).*?", data)
        return contents


    def save_data(content):
        for i in content:
            with open('./B站弹幕.txt', mode='a', encoding='utf-8') as f:
                f.write(i)
                f.write('\n')
                # print(i)


    for i in range(10, 12):
        urls = (url % i)
        content = get_response(urls)
        # print(content)
        save_data(content)

B站评论代码

from datetime import datetime
import pandas as pd
import requests
import json

headers = {
    'cookie': "cookies“,
    'User-Agent': 'UA'
}


def get_comment():
    url = 'https://api.bilibili.com/x/v2/reply/main?&next=%d&type=1&oid=458806830&mode=3&plat=1'
    page = 1
    comment_list = []
    while page < 5:
        urls = url % page
        param = {
            'callback': 'jQuery17207626243612334476_1630228955114',
            'jsonp': 'jsonp',
            'next': page,
            'type': '1',
            'oid': '458806830',
            'mode': '3',
            'plat': '1',
            '_': '1630228982037',
        }
        response = requests.get(urls, headers=headers)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        data = response.text
        data = json.loads(data)['data']['replies']
        # print(data)
        # try:
        for dic in data:
            dic_comment = {}
            dic_comment['name'] = dic['member']['uname']
            # print(dic['member']['uname'])
            dic_comment['sex'] = dic['member']['sex']
            dic_comment['comment'] = dic['content']['message']
            dic_comment['like'] = dic['like']
            # dic_comment['time'] = datetime.fromtimestamp(data['ctime'])
            dic_comment['rpid'] = dic['rpid_str']
            comment_list.append(dic_comment)
            comment_list.extend(get_detail_comment(dic_comment['rpid']))
        page += 1
        # except Exception as page_Error:
        #     break
    return comment_list


def get_detail_comment(rpid):
    page = 1
    rpid = int(rpid)
    reply_list = []
    while True:
        url = 'https://api.bilibili.com/x/v2/reply/reply?&next=%d&type=1&oid=458806830&ps=10&root=%d'
        urls = url % (page, rpid)
        # print(urls)
        response = requests.get(url=urls, headers=headers)
        data = response.text
        reply_data = json.loads(data)
        reply_data=reply_data['data']['replies']
        # page_count=reply_data['data']['page']['count']
        # x = "复', 'sub_reply_title_text': '相关回复共0条'}},"
        # reply_data = reply_data.replace(x, "")
        # print(reply_data)
        if reply_data is None:
            break

        for dic in reply_data:
            dic_reply = {}
            dic_reply['name'] = dic['member']['uname']
            dic_reply['sex']= dic['member']['sex']
            dic_reply['comment'] = dic['content']['message']
            dic_reply['like'] = dic['like']
            # dic_reply['time'] = datetime.fromtimestamp(reply_data['ctime'])
            reply_list.append(dic_reply)
            print(dic_reply['comment'])
        page += 1
        if page>1:
            break

    return reply_list


if __name__ == "__main__":
    df = pd.DataFrame(get_comment())
    df.to_excel('bilibili.xlsx', sheet_name='comment', index=False)
    print(df.head())
    print(len(df))

奥运会数据爬代码

import requests
import json
import xlwt

if __name__ =='__main__':
    url = 'https://api.cntv.cn/olympic/getOlyMedals?serviceId=pcocean&itemcode=GEN-------------------------------&t=jsonp&cb=omedals1'

    headers = {
        'User-Agent': 'your UA'
    }

    response = requests.get(url=url,timeout= 30)
    response.raise_for_status()
    response.encoding = response.apparent_encoding

    data = str.replace(response.text ,'omedals1'+ "(", "")
    data = str.replace(data, ");", "")
    # 解码json，转成字典
    medals = json.loads(data)


    medalList = medals['data']['medalsList']    #一步拿到数据
    #多步详解
    # dic= medals['data']
    # medal_list= dic['medalsList']
    # print(medalList)

    wb = xlwt.Workbook(encoding='utf-8',style_compression=0)
    sh = wb.add_sheet('奥运会奖牌榜',cell_overwrite_ok=True)
    col=('rank','countryname','medal_count','gold',' silver','bronze')
    for i in range(0,6):
        sh.write(0,i,col[i])


    for i in range(0,len(medalList)):
        sh.write(i+1,0,medalList[i]['rank'])
        sh.write(i+1,1,medalList[i]['countryname'])
        sh.write(i+1,2,medalList[i]['count'])
        sh.write(i+1,3,medalList[i]['gold'])
        sh.write(i+1,4,medalList[i]['silver'])
        sh.write(i+1,5,medalList[i]['bronze'])

    sFile = 'save_dir'
    wb.save(sFile)

你可能感兴趣的:(Python,数据分析,学习,pandas,matplotlib)

AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
javaweb学习Day10 乐一粒学编程学习 java 开发语言
来源：尚硅谷2022版javaweb今日内容：1.日期和字符串之间的格式化//String->java.util.DateStringdateStr1="2021-12-3012:59:59";SimpleDateFormatsdf=newSimpleDateFormat("yyyy-MM-ddHH:mm:ss");try{Datedate1=sdf.parse(dateStr1);}catch(
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
从零开始学习黑客技术，看这一篇就够了网络安全-旭师兄学习 web安全 python 密码学网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包黑客，对于很多人来说，是一个神秘的代名词，加之影视作品夸张的艺术表现，使得黑客这个本来只专注于技术的群体，散发出亦正亦邪的神秘色彩。黑客源自英文hacker一词，最初曾指热心于计算机技术、水平高超的电脑高手，尤其是程序设计人员，逐渐区分为白帽、灰帽、黑帽等。其中，白帽黑客被称为道德黑客。他们不会非法入侵用户网络，而是通过一系列测试检查
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
个人陈述华中科技大学管理学院财务金融系 alexhus 力学AI有限元保研
t今天怀着无比激动的心情来向各位老师陈述我本科三年来的个人学习科研情况，并且十分感谢各位老师能够在百忙之中抽出时间阅读这份陈述。我来自安徽省淮北市，2009年9月通过高考进入华中科技大学学习，现为管理学院财务金融系财务管理0901班的学生。下面我将从学术背景、科研经历、学术兴趣、研究生阶段学习计划等方面来做具体的陈述。学术背景通过在华中科技大学管理学院财务金融系近三年的学习与积累，我在公司财务管理
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
Java复习路线 Code good g 面试准备 java mysql 数据库
Java复习1、Java基础2、Java多线程3、Javaweb的复习4、MySql复习数据库常用的代码：思维导图：5、计算机组成原理6、网络编程7、Java注解和反射8、计算机网络9、html/css/js10、ssm11、spring12、springmvc13、springboot14、vue15、springcloud16、jvm17、Juc18、mybatis-plus学习19、git2
新型蜜罐有哪些？未来方向如何？网安技术分享安全 wireshark 测试工具网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"rel="stylesheet"/>href="https://csdnimg.cn/release/blogv2/dist/mdedi
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
202年充电计划——自学手册网络安全（黑客技术）网安康sir web安全安全网络 php 开发语言
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗
java集合List，Set，Map怎么理解存储数据有序，无序以及可重复，不可重复 java程序员CC JAVA基础 java 面试 list
学习java已经有一段时间了，在练习开发项目的过程中经常用到List和Map却不知道其到底有何区别，今天整理了一下知识点对这几个进行浅显易懂的区分。PS:本文中的“有序”指的是存储数据时输入顺序与数据输出顺序相等，“唯一”：指的是不重复首先我们知道java集合有两个接口；一个是Collection,一个是Map;其中Colection衍生出了两个子接口也就是平时我们常见的--List【有序，不唯一
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
【Golang学习】第十章 goroutine和channel Entin_7 Golang学习 golang 开发语言
目录一、goroutine1.创建goroutine（1）格式（2）示例2.协程管理二、channel1.channel的创建2.channel的类型3.channel的读写操作4.channel的关闭5.channel的遍历6.channel与select配合使用7.通过channel实现goroutine的通信一、goroutinegoroutine是Go语言中的轻量级线程实现，由Go运行时（
SvelteKit 最新中文文档教程（8）—— 部署 Node 服务端
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
python科学绘图-matplotlib绘制三维函数图像，并且在函数底部绘制等值线 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库绘制三维函数图像，并且在底部绘制等值线。三维图像函数surface=ax.plot_surface(X,Y,zss,camp=色带)等值线函数contour=ax.contour(xs,ys,zss,zdir=在哪个轴绘制,offset=在该轴什么位置绘制,camp=色带,zorder=图层位置)颜色条函数plt.colorbar(surface,shrink
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s
python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，
LInux内核学习 -- perCPU变量 lagransun linux 学习运维
文章目录环境关于perCPU变量perCPU变量：__entry_task环境linux4.19关于perCPU变量percpu变量的介绍，这位老哥做了介绍，包括为什么要有这样的变量以及优势：linux内核之Per-CPU变量，我把这个老哥的总结复制下来：通过Per-cpu变量除了可以分配内存，还有一个最大的好处就是不需要考虑同步。最好的同步技术就是把不需要同步的内核放在首位，因为每种显示的同步原
Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理
Linux内核学习之 -- epoll()一族系统调用分析笔记 lagransun linux 学习笔记
背景linux4.19epoll()也是一种I/O多路复用的技术，但是完全不同于select()/poll()。更加高效，高效的原因其他博客也都提到了，这篇笔记主要是从源码的角度来分析一下实现过程。作为自己的学习笔记，分析都在代码注释中，后续回顾的时候看注释好一点。相关链接：Linux内核学习之–ARMv8架构的系统调用笔记Linux内核学习之–系统调用open()和write()的实现笔记Lin
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt