IamZLT

基于Python语言的PUBG游戏数据可视化分析系统

[success]写于2019年大作业[/success]

博客链接：https://www.iamzlt.com/?p=299

代码链接请到博客链接内查看。

摘要

随着网络技术的兴起和普及，网络游戏产业异军突起，成为全球重要的文化产业之一。本文以PUBG游戏为例，基于Python语言通过爬取直播平台和论坛数据，实现对其流量和评价的抓取与分析，并通过大数据对局内数据进行统计与分析，探究PUBG游戏的玩法与攻略。系统基于Python语言，使用requests、pandas、matplotlib、worldcloud库进行实现。系统分为游戏分析模块，局内数据分析模块和直播平台数据分析模块，本文将从需求分析、系统设计、系统实现等多方面对该系统进行介绍。

系统开发背景

游戏开发者角度

随着全球互联网的发展以及电脑等电子设备的更新换代，游戏类型不断丰富，品质不断提高，各细分游戏类型均有庞大的受众群体，全球游戏市场迅速崛起。在这样的背景下，游戏开发者如何低成本的了解玩家需求、改进游戏，延长游戏的生命周期已成为游戏开发者关注的首要问题。

玩家角度

近几年，随着互联网的普及，电子游戏受到了前所未有的关注。广大玩家在享受娱乐的同时，如何提高技术成为他们所关注的问题。

直播平台角度

随着游戏和直播平台的发展，游戏直播成为直播平台收入的重要来源。游戏平台如何对其平台内的游戏直播进行正确合理的筛选是平台能够发展与成长的关键之一。

Python在爬虫、数据分析和交互、探索性计算以及数据可视化等方面都有非常成熟的库和活跃的社区，使python成为数据处理任务重要解决方案。同时Python具有低成本、高效率、高可靠性的优点。因此针对以上问题，以PUBG游戏（图1.1）为例，设计了基于Python语言通过爬取直播平台和论坛数据，实现对其流量和评价的抓取与分析，并通过大数据对局内数据进行统计与分析，探究游戏的玩法与攻略的系统，并有效的解决了上述及其他众多问题。

系统相关技术介绍

系统基于Python语言，使用requests、pandas、matplotlib、worldcloud库进行实现，下面将对其进行详细介绍。

2.1 Python语言

1.Python拥有一个巨大而活跃的科学计算社区

Python在数据分析和交互、探索性计算以及数据可视化等方面都有非常成熟的库和活跃的社区，使python成为数据处理任务重要解决方案。在科学计算方面，python拥有numpy、pandas、matplotlib、scikit-learn、ipython等等一系列非常优秀的库和工具，特别是pandas在处理中型数据方面可以说有着无与伦比的优势，正在成为各行业数据处理任务的首选库

2.python拥有强大的通用编程能力

不同于R或者matlab，python不仅在数据分析方面能力强大，在爬虫、web、自动化运维甚至游戏等等很多领域都有广泛的应用。这就使用一种技术完成全部服务成为可能。

2.2 requests库

Requests 是用 Python语言编写，基于urllib，采用Apache2 Licensed 开源协议的 HTTP 库。下面对HTTP和requests库进行分别介绍：

1.HTTP协议

HTTP,超文本传输协议（HTTP，HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法,HTTP是一种基于"请求与响应"模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的的标识符。

2.requests库

requests库6个主要方法如表2.1所示。对于requests库的使用，通常使用 heeaders作为HTTP定制头部信息，隐藏爬虫信息，模拟浏览器的头部信息。通过get方法获取相应网页，并用re库中的方法进行解析，将内容传入到字典中。

2.3正则表达式库re

re库是python的标准库，采用raw string类型表示正则表达式，表示为:r’test’。原生字符串(raw string)不包含转义符的字符串。

re`模块提供了一系列功能强大的正则表达式 (regular expression) 工具，起主要函数如表2.2所示，它们允许你快速检查给定字符串是否与给定的模式匹配 (使用 match 函数)，或者包含这个模式 (使用 search 函数)正则表达式是以紧凑的语法写出的字符串模式。

re模块中的常用语法如图2.1所示

2.4 Matplotlib库

Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 .

通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等。

其中matplotlib.pyplot是绘制各类可视化图形的命令子库，相当于快捷方式。其常用函数如表2.3所示。导入方式如下：

import matplotlib.pyplot as plt

2.5 NumPy库

NumPy库使用Python进行科学计算，尤其是数据分析时，所用到的一个基础库。它是大量Python数学和科学计算包的基础。pandas库专门用于数据分析，充分借鉴了Python标准库NumPy的相关概念。

1.NumPy库的核心

整个NumPy库的基础是ndarray（即N维数组）对象。它是一种由同质元素组成的多维数组，元素数量是事先指定好的。同质指的是几乎所有元素的类型和大小都相同。事实上，数据类型由另外一个叫做dtype的NumPy对象来指定；每个ndarray只有一种dtype类型。数组的维数和元素数量由数组的型来确定，数组的型由N个正整数组成的元组来指定，元组的每个元素对应每一维的大小。数组的维统称为轴，轴的数量被称为秩。

Numpy数组的另一个特点是大小固定，也就是说，创建数组时一旦指定好大小，就不会再发生改变。这与Python的列表有所不同，列表的大小是可以改变的。定义ndarray最简单的方式是使用array( )函数，以python列表作为参数，列表的元素即是ndarray的元素。

2.NumPy库的常用函数

NumPy库中常用函数如表2.3所示。

2.6 Pandas库

1.Pandas库的简介

Pandas是Python第三方库，提供高性能易用数据类型和分析工具。导入方式如下：

import pandas as pd

Python Data Analysis Library或pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

2.Pandas库常用函数与方法

Pandas库中常用函数如表2.4所示。

系统分析与设计

3.1系统功能模块组成

本系统主要由游戏评价分析模块，局内数据分析模块和直播平台数据分析模块等模块组成，具体的功能模块组成如图3.1所示。

3.2 游戏评价分析模块需求和设计

系统功能分析是在系统开发的总体任务的基础之上完成的。游戏评价分析模块主要有以下功能: 对网络中用户对PUBG游戏的评分和评价进行爬取、解析并写入到文件，通过分析数据，制作统计图和词云进行可视化展示。这些方面对于游戏开发者而言具有重大意义。

头文件伪装

以豆瓣网为例，在豆瓣网中获取头文件按，如图3.2所示。在程序中得到以下代码，进行头文件的伪装，

headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
        }

正则表达式的提取

在网页中获取网页源代码，如图3.4所示。经过分析，提取正则表达式如图3.3所示。

此外正则表达式的常用语法如图2.1所示。

数据的爬取与写入文件

在准备工作完成后，便对网页进行爬取。通过requests库编写代码（部分如下所示），使系统可以爬取相关数据并进行文件的写入。

  try:
        url = "https://www.douban.com/game/27005453/{}".format(offset)
        res = requests.get(url, headers=headers)
        if res.status_code == 200:
            return res.text
        return None
    except:
        return None

可视化分析与展现

在对爬取的数据进行分析后，使用Matplotlib库进行可视化展现。其中具有柱状图、饼状图、折线图等多种展现方式。

3.3 局内数据分析模块需求和设计

玩家玩游戏时，除了娱乐放松之外，如何获得游戏的胜利也是玩家关注的问题之一。系统针对此问题，该模块将对本地文件中的局内对战数据进行提取，进行分析，并可视化展示。

游戏局内数据的获取

在Kaggle网站中下载PUBG局内对战数据，如图3.5所示。Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。

下载的文件中具有超过1亿个PUBG匹配数据，数据主要分为两部分。一个是比赛中玩家的统计数据，另一个是玩家被杀的数据。部分数据如图3.5所示。

数据的提取和处理

在系统中主要使用pandas库对文件数据进行读取，并用numpy库和loc函数对数据进行提取和处理。部分代码如下所示：

for file in range(1,2):
        death_1 = pd.read_csv(r'deaths\kill_match_stats_final_{}.csv'.format(file), nrows=5000000)
        death = death_0.merge(death_1, how='outer')

last_seconds_erg=death.loc[(death[‘map’]==‘ERANGEL’)&(death[‘killer_placement’]==1), :].dropna()

可视化分析与展现

在对下载的数据进行分析后，使用Matplotlib库进行可视化展现。其中具有柱状图、条形图、热力图等多种展现方式。

4系统实现

4.1 游戏评价分析模块实现

本模块将对网络中用户对PUBG游戏的评分和评价进行爬取、解析并写入到文件，通过分析数据，制作统计图和词云进行可视化展示。该模块流程如图4.1所示。

4.1.1 模块实现界面

在该模块运行后，系统首先会对豆瓣网进行爬取，对玩家对PUBG的评分和评价进行收集并写入文件。在系统爬取的过程中会显示爬取的进度（如图4.2所示）。

在系统爬取完成后，会将爬去的数据写入Comments.csv文件中（如图4.3所示）。其保存的数据如图4.4所示，分为‘name’、‘time’、‘score’和‘comment’四列，代表用户名、评论时间、评分和评分内容。

在系统完成上述功能后，系统会对文件中的数据进行分析，探究玩家对PUBG的评价和喜好。例如对用户评分数据的分析，如图4.5所示，可以通过饼状图的方式可视化展现。

通过饼状图可以看到，玩家五星评分的占比为31.9%，四星的评分占比为34.7%，两者占全部的66.6%，可以看出大多数用户对PUBG这款游戏持有好评态度。

系统除对用户评分的数据进

行分析之外，还对人们对PUBG这款游戏的关注度进行分析并通过折现图展现其关注度随时间的变化（如图4.6所示）。从图中可以看到，自2017年3月游戏发布以来，游戏关注度逐渐增加，在2017年9月份达到了最高。随后PUBG这款游戏的关注度便随时间的增加而减少。

从实际境况来看，在2017年9月份左右PUBG这款游戏在中国引发了一股浪潮，与系统分析相符合。对于游戏开发者而言，可以探究这款游戏的关注度为何在2017年9月份达到顶峰后关注度一路下滑。

此外，系统还对PUBG的好评率随时间的变化做出了分析（如图4.7所示）。从图中可以看到，玩家对PUBG这款游戏的好评率基本维持在50%以上。2019年6月份因样本量较小，不具有参考价值。但整体来看，游戏的好评率随时间的变化略微下降。

对于游戏本身而言，自游戏推出后游戏经过多次更新与升级，每次给玩家带来的体验有所不同。游戏开发者可以通过分析好评率下降与游戏更新内容的关系，从而不断的做出调整。

同时，为了探究玩家对PUBG好评与差评的原因，系统还对用玩家的评论内容做出了分析，并通过制作词云的方式（如图4.8所示）进行展现。

对于高分评价内容的词云如图4.9所示。从图中可以看到玩家对游戏的‘刺激性’的游戏体验，‘大逃杀’的游戏模式，‘战术’、‘开黑’等游戏方式给予‘上瘾’、‘好玩’、‘不错’等肯定。但同时在高分评价的内容中，也提出了存在外挂、服务器不稳定等影响游戏体验的方面存在问题。

对于低分评价内容的词云如图4.9所示。从图中可以看出玩家给与PUBG低分的原因主要是因为游戏优化、外挂和服务器问题。

游戏开发者可以根据词云所展示的内容对游戏进行优化，给与玩家更好的体验，以此来提升游戏的质量，吸引更多玩家的参与。

4.1.2 模块实现代码

以下为获取网页源码的主要代码，系统通过调用def get_page(offset)函数并将网址传入给offset便可实现对其网页的获取，获取网页源代码主要使用requests库，通过头文件伪装，实现对网页源码的获取，如果无法正常获取会传回None。

def get_page(offset):
    try:
        url = "https://www.douban.com/game/27005453/{}".format(offset)
        headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
        }
        res = requests.get(url, headers=headers)
        if res.status_code == 200:
            return res.text
        return None
    except:
        return None

以下为解析网页源码的主要代码，系统调用parse_one_page(html)函数，将要解析的网址传入到html中，通过正则表达式和re库来实现对网页源码的解析，并将解析的数据存入到yield字典中，分为‘name’、‘time’、‘score’和‘comment’四列，代表用户名、评论时间、评分和评分内容。

def parse_one_page(html):
    pattern = re.compile('[\s]*?(.*?)[\s]*?(.*?)'+'[\s]*?[\s\S]*?'+ '
[\s]*?[\s]*?(.*?)(.*?)[\s]*?')
    items = re.findall(pattern,html)
    #print(items)
    for item in  items:
        yield {
            'name' : item[0],
            'time' : item[1],
            'score' : item[2],
            'comment' : item[3]
        }

将数据写入文件的主要代码如下，通过调用write_to_csvfile()函数来实现。主要是了csv库中的DictWrite()函数。其功能为创建一个像常规编写器一样操作的对象，将字典映射到输出行，其中在传递给字典值的顺序按键的writerow()方法被写入到文件。

def write_to_csvfile(content,pages):
    with open("Comments.csv",'a',encoding='gb18030',newline='') as f:
        fieldnames = ["name", "time", "score", "comment"]
        writer = csv.DictWriter(f,fieldnames=fieldnames)
        if pages ==0:
            writer.writeheader()
        writer.writerows(content)
        f.close()

以下是调用上述函数并实现进度条的功能的主要代码。代码通过for循环遍历游戏评论的页数，通过调用上述函数对每一页进行页面爬取、解析并写入文件。其中进度条的实现是通过爬取的页数占总页数的百分比并通过正则表达式实现。

def main():
    i = 1
    print("------------执行开始------------")
    for page in range(85):
        time.sleep(1)
        p_comment = get_page("comments?start={}&sort=score".format(page*20)) 
        rows = []
        for item in parse_one_page(p_comment):
            rows.append(item)
#        print(rows)
#以下实现进度条的功能
        tt = int(i*20/85)
        a = '**'*tt
        b = '..'*(20-tt)
        c = (i/85)*100
        i += 1
        print("\r已爬取进度%{:^3.0f}[{}->{}]".format(c,a,b),end='')
        write_to_csvfile(rows, page)
    print("\n数据写入完毕")

以下是对写入数据的文件进行分析并可视化展现的主要代码。对文件的读取主要使用pandas库中的read_csv()方法，对csv文件进行读取并存入fitems中。在提取表格某一列时只需对fitems中的数据进行提取便可。

在下列代码中，还调用了make_pie()，make_brokenline()和make_wordcloud()等函数并传递相应的参数分别制作饼状图、折线图和词云。

def analyze_Comments(csvFile):
    #fitems = csv.reader(f)
    fitems = pd.read_csv(csvFile,encoding = 'gb18030')
    #print(fitems['score'])
    #filmHead = next(fitems)
    print('正在分析评论')
    #评分饼状图
    scoreCount = {}
    for comment in fitems['score']:
        scoreCount[comment] = scoreCount.get(comment,0) + 1
    #print(scoreCount)
#对字典进行排序
    ret = sorted(scoreCount.items(),key = lambda x:x[1],reverse = True)
    make_pie(dict(ret))
    #受关注度和好评率的折线图
    search = re.compile('(.*?月).*?日')
    score_month_high = {}
    score_month = {}
    
    low_comments = ''
    high_comments = ''
    for stime,score,comment in zip(fitems['time'],fitems['score'],fitems['comment']):
        if score == 50:
            high_comments += comment
        if score <= 20:
            low_comments += comment
        year = re.findall(search,stime)
        Year = year[0]
        if len(Year) >=7 :
            score_month[Year] = score_month.get(Year,0) + 1
            if (score == 50 or score == 40):
                score_month_high[Year] = score_month_high.get(Year,0) + 1
        else:
            #print(year,score)
            month = '2019年' + Year
            score_month[month] = score_month.get(month,0) + 1
            if (score == 50 or score == 40):
                score_month_high[month] = score_month_high.get(month,0) + 1
    #print(score_month_high)
    sort_high = datesort(score_month_high)
    sort_month = datesort(score_month)
    high_rate = {}
    for high,month in zip(sort_high.items(),sort_month.items()):
        #print(high[1],month[1])
        rate = high[1]/month[1]
        high_rate[high[0]] = rate 
#制作折线图
    make_brokenline(sort_month,'关注度随时间的变化','时间','关注数')
    #print(high_rate)
    make_brokenline(high_rate,'好评率随时间的变化','时间','好评率')
    #make_brokenline(sort_high)
    #print(score_month)
    time.sleep(1)
    print('正在生成词云')
    #词云的制作
    make_wordcloud(high_comments,'high')
    make_wordcloud(low_comments,'low')
    time.sleep(2)
    print('词云生成完毕')

下面是制作饼状图的主要代码。在系统调用make_pie()函数时，将对应的字典传给dictname中，字典的键作为饼状图的项，字典的值作为饼状图项的值。函数中主要使用matplotlib库中的函数与方法生成饼状图，并设置其颜色、图例、字体大小等。

def make_pie(dictname):
    name = []
    number = []
    color = ['red', 'orange', 'yellow', 'green', 'blue',  'goldenrod']  
    for key,value in dictname.items():
        name.append(key)
        number.append(value)
    #print(name,number)
    plt.figure(figsize=(6,6))
    pie = plt.pie(number, colors=color, labels=name,autopct='%1.1f%%')
    for font in pie[1]:       #pie[1]:l_text,pie图外的文本
        font.set_fontproperties(currentFont)
        font.set_size(12)  #设置标签字体大小
    for digit in pie[2]:     #pie[2]:p_text,pie图内的文本
        digit.set_size(12)  
    plt.axis('equal')
    plt.title(u'评分', fontproperties=currentFont, fontsize=20)
    plt.legend(loc=0, bbox_to_anchor=(1, 1.2))  # 图例
    #设置legend的字体大小
    leg = plt.gca().get_legend()
    ltext = leg.get_texts()
    plt.setp(ltext, fontproperties=currentFont, fontsize=6)
    plt.show()

下面是制作折线图的主要代码。在系统调用make_ brokenline ()函数时，将对应的字典传给dict中，字典的键作为折线图x轴的值，字典的值作为y轴的值。函数中主要使用matplotlib库中的函数与方法，其过程与制作饼状图方法大体相同。

def make_brokenline(dict,s,a,b):
    plt.figure(figsize=(25,6))
    x = []
    y = []
    for key,value in dict.items():
        x.append(key)
        y.append(value)
    plt.ylim(0,max(y)+max(y)/10)
    plt.plot(x, y, marker='o', mec='r', mfc='w',label=u'y=x^2曲线图')
    plt.title(s)
    plt.xlabel(a)
    plt.ylabel(b)
    plt.show()

下面时制作词云的主要代码。主要使用jieba库对句子进行分割，并使用worldcloud库进行词云的制作，并设置词云的相关参数。

def make_wordcloud(txt,file):
    ls = jieba.cut(txt)
    text = " ".join(ls)
    #print(text)
    wc = WordCloud(
        background_color="white", #背景颜色
        max_words=200, #显示最大词数
        #font_path="./font/msyh.tcc",  #使用字体
        font_path='simfang.ttf',
        width=1000,  #图幅宽度
        height=700
        )
    wc.generate(text)
    wc.to_file(file+".png")

4.2 局内数据分析模块实现

该模块将对本地文件中的局内对战数据进行提取，进行分析，并可视化展示。模块流程图如图4.11所示。

4.2.1 模块实现界面

在该模块运行后，系统会对本地的局内对战数据进行提取，并对数据进行分析（如图4.11所示）。玩家玩游戏时，除了娱乐放松之外，如何获得游戏的胜利也是玩家关注的问题之一。系统针对此问题，做出了以下分析：

吃鸡率与助攻数的关系

如图4.13，是系统分析得出的吃鸡率与助攻数关系的柱状图。从图中可以看出，吃鸡率与助攻数的关系是成正比的。可以清楚的看到，玩家想要获得50%的吃鸡率，平均每局助攻数要达到5个；获得80%以上的吃鸡率，平均每局助攻数要到达10个。

可以分析出，玩家想获得游戏的胜利，就要多与队友进行沟通合作。所以在单排时不妨打开语音与队友商量战术，共同取得游戏的胜利。

吃鸡率与助攻数的关系

如图4.14，是系统分析得出的吃鸡率与击杀数关系的柱状图。从图中可以看出，在20个击杀数范围内，吃鸡率与击杀数的关系是成正比的。在击杀数达到20个之后，吃鸡率受击杀数的影响不大，但吃鸡率仍保持在80%上下。可以清楚的看到，玩家想要获得50%的吃鸡率，平均每局击杀数要达到10个。

而对于普通玩家，吃鸡率达到20%便具有较高的水平，在此平均每局击杀数也要达到6个。所以对于玩家而言，想吃鸡获得游戏的胜利，最好的办法就是苦练技术，切忌每局苟到最后。

落地成盒与跳落地点的关系

玩家在玩PUBG时最讨厌的便是落地时捡不到任何武器便被敌人打成盒子。对此本系统经过分析局内对战数据，统计出落地成盒出现最容易出现的地方，并通过热地图的形式（如图4.15、图4.16所示）展现出来。

从图4.15可以清楚看到，在绝地海岛地图中，Rozhok和学校附近、军事基地周围，由于物资丰富，跳落在这些地区的人数较多，导致其成为开局死亡率最高的地区，再者是Bunkers和Crater、Georgopol等。

从图4.16中可以看到，在热情沙漠地图中，Pecado、San Martin、Power Grid等，是开局死亡率最高的区域。

所以对于技术较差或者新手玩家而言，想要提高自己的存活率，跳伞时最好避开这些地方。

吃鸡与携带武器的关系

在PUBG这款游戏中，武器之于玩家的重要性不言而喻。于是系统经过数据分析，将绝地海岛艾伦格地图和热情沙漠米拉玛地图的武器击杀数分别进行了统计，并通过条状图的方式（如图4.17、图4.18所示）展现出来。

从图4.15可以看到，在绝地海岛地图中，M416武器是击杀数最高的，其次是SCAR-L、M14A4和AKM，其击杀数都在14万以上，遥遥领先于其他武器。

从图4.16可以看到，在热情沙漠地图中，M416武器是击杀数最高的，其次是SCAR-L、AKM和M16A4，其击杀数都在2万以上.

综合两张统计图可以看出，武器击杀数的排行榜的前几名大体相同，可以看出玩家对于这些武器的喜爱程度。玩家不妨试一下这些武器看看是否能够提高自己的吃鸡率。

4.2.2 模块实现代码

分析吃鸡率与助攻数、击杀数关系的代码主要代码如下。系统通过统计文件中的数据，并调用makebar()函数，将字典传递给形参生成柱状图。主要通过pandas库来处理数据。

def agg_match_stats():
    print('正在分析数据')
    time.sleep(2) 
    assists_dict1 = {}
    assists_dict2 = {}
    kill_dict1 = {}
    kill_dict2 = {}
    for file in range(2):
        path = r'aggregate\agg_match_stats_{}.csv'.format(file)
        fitems = pd.read_csv(path,encoding = 'gb18030')
        #print(fitems)
		#数据提取和统计 存入字典中
        For a,b,c in zip(fitems['player_assists'],fitems['team_placement'],fitems['player_kills']):
            assists_dict1[a]=assists_dict1.get(a,0)+1
            if int(c)<45:
                kill_dict1[c] = kill_dict1.get(c,0)+1
            if int(b)==1:
                assists_dict2[a] = assists_dict2.get(a,0)+1
            if int(b)==1 and int(c)<45:
                kill_dict2[c] = kill_dict2.get(c,0)+1
        #print(assists_dict2)
        #print(assists_dict1)
		#对字典进行排序
        dict2 = sortV(assists_dict2)
        dict1 = sortV(assists_dict1)
        kdict1 = sortV(kill_dict1)
        kdict2 = sortV(kill_dict2)
        dict_ass = {}
        dict_k = {}
        for a,b in zip(dict1.items(),dict2.items()):
            dict_ass[a[0]] = b[1]/a[1]
        for a,b in zip(kdict1.items(),kdict2.items()):
            dict_k[a[0]] = b[1]/a[1]
	#生成柱状图
    makebar(dict_ass,'吃鸡率与助攻数的关系','助攻数','吃鸡率')
    makebar(dict_k,'吃鸡率与击杀数的关系','击杀数','吃鸡率')

下面是制作条形图的主要代码。在系统调用makebar ()函数时，将对应的字典传给dict中，字典的键作为折线图x轴的值，字典的值作为y轴的值。函数中主要使用matplotlib库中的函数与方法，其过程与模块一中的制作折线图的方法大致相同。

def makebar(dict,s,s1,s2):
    x = []
    y = []
    plt.figure(figsize=(18,6))
    for key,value in dict.items():
        x.append(key)
        y.append(value)
    plt.bar(x,y)
    plt.xticks(x)
    plt.title(s)
    plt.xlabel(s1)
    plt.ylabel(s2)
    plt.show()

下面是生成武器排行榜条形图和落地成盒热力图的主要代码。其核心方式与上述方式不同。下面主要通过pandas库和numpy库进行数据提取和处理，并用loc函数进行数据选取。并通过matplotlib库中的colors、pyplot等字库制作条形图和热力图。

def kill_match_stats():
        # 先把玩家被击杀的数据导入
    death_0 = pd.read_csv(r'deaths\kill_match_stats_final_0.csv')
    for file in range(1,2):
        death_1 = pd.read_csv(r'deaths\kill_match_stats_final_{}.csv'.format(file), nrows=5000000)
        death = death_0.merge(death_1, how='outer')
        
    
    print(death.shape)
    # (18426348, 12)
 #生成 武器排行榜条形图
    last_seconds_erg = death.loc[(death['map'] == 'ERANGEL')&(death['killer_placement']==1), :].dropna()
    last_seconds_erg['killed_by'].value_counts()[1:10].sort_values().plot.barh(figsize=(10,5))
    plt.yticks(fontsize=12)
    plt.xlabel('击杀数')
    plt.ylabel('武器')
    plt.title('ERANGEL武器击杀数排行榜')
    plt.show()
    plt.savefig('ERANGEL武器排行.png', dpi=100)
    
    last_seconds_erg = death.loc[(death['map'] == 'MIRAMAR')&(death['killer_placement']==1), :].dropna()
    last_seconds_erg['killed_by'].value_counts()[1:10].sort_values().plot.barh(figsize=(10,5))
    plt.yticks(fontsize=12)
    plt.xlabel('击杀数')
    plt.ylabel('武器')
    plt.title('MIRAMARL武器击杀数排行榜')
    plt.show()
    plt.savefig('MIRAMAR武器排行榜.png', dpi=100)
    
    # 筛选落地成盒的玩家
    in_240_seconds_erg = death.loc[(death['map'] == 'ERANGEL') & (death['time'] < 240), :].dropna()
    in_240_seconds_mrm = death.loc[(death['map'] == 'MIRAMAR') & (death['time'] < 240), :].dropna()
    
    data_erg = in_240_seconds_erg[['victim_position_x', 'victim_position_y']].values
    data_mrm = in_240_seconds_mrm[['victim_position_x', 'victim_position_y']].values
    data_erg = data_erg * 4096 / 800000
    data_mrm = data_mrm * 1000 / 800000
    
    def heatmap(x, y, s, bins=100):
        heatmap, xedges, yedges = np.histogram2d(x, y, bins=bins)
        heatmap = gaussian_filter(heatmap, sigma=s)
    
        extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]]
        return heatmap.T, extent
    
    #生成热力图 并保存到本地文件中
    bg = imread(r'erangel.jpg')
    hmap, extent = heatmap(data_erg[:, 0], data_erg[:, 1], 4.5)
    alphas = np.clip(Normalize(0, hmap.max(), clip=True)(hmap) * 4.5, 0.0, 1.)
    colors = Normalize(0, hmap.max(), clip=True)(hmap)
    colors = cm.Reds(colors)
    colors[..., -1] = alphas
    
    fig, ax = plt.subplots(figsize=(24, 24))
    ax.set_xlim(0, 4096)
    ax.set_ylim(0, 4096)
    ax.imshow(bg)
    ax.imshow(colors, extent=extent, origin='lower', cmap=cm.Reds, alpha=0.9)
    plt.gca().invert_yaxis()
    plt.savefig('out1.png', dpi=100)
    
    
    bg = imread(r'miramar.jpg')
    hmap, extent = heatmap(data_mrm[:, 0], data_mrm[:, 1], 4.5)
    alphas = np.clip(Normalize(0, hmap.max(), clip=True)(hmap) * 4.5, 0.0, 1.)
    colors = Normalize(0, hmap.max(), clip=True)(hmap)
    colors = cm.Reds(colors)
    colors[..., -1] = alphas
    
    fig, ax = plt.subplots(figsize=(24, 24))
    ax.set_xlim(0, 1000)
    ax.set_ylim(0, 1000)
    ax.imshow(bg)
    ax.imshow(colors, extent=extent, origin='lower', cmap=cm.Reds, alpha=0.9)
    plt.gca().invert_yaxis()
    plt.savefig('out2.png', dpi=100)

系统开发总结

在系统开发的过程中，系统经过不断地升级、优化。在数据提取和处理方面，从cvs库转向pandas库，从遍历数据到使用numpy库和loc函数进行数据选取。在爬虫方面，从最开始的使用BeautifulSoup库到正则表达式。使系统的代码不断简化、优化。

但系统仍旧存在很多问题。诸如系统与用户的可交互操作较少，对爬取数据的挖掘不够深入，可视化展示不够形象美观等问题。

此外由于技术限制，系统的第三模块——对直播平台直播PUBG游戏的数据的爬取，以现有的能力还无法实现。并且因自身能力不足，在系统的第二模块中无法实现对游戏内数据的爬取，只能利用Kaggle网站内的数据进行可视化分析与展示。随着自身能力的提升，会不断地完善系统，解决上述问题、实现上述的功能。

最后，感谢Python老师的悉心教导和指点，使我完成系统的设计与开发。在此表达诚挚的谢意。

参考文献

[1] 钱程,阳小兰,朱福喜等.基于Python的网络爬虫技术[J].黑龙江科技信息,2016,(36):273

[2] 张良均,王璐,谭立云,苏剑林.Python数据分析与挖掘实战[M].机械工艺出版社,2006.

[3] 张若愚.Python科学计算[M].北京:清华大学出版社.2012.

[4] M. Summerfield著,王弘博等.Python 3 程序开发指南[M],人民邮电出版社

[5] Mark Pilgrim.深入Python 3[M],Apress出版社.2009.

你可能感兴趣的:(数据处理)

2025年AI技术趋势深度解析：从World Model到智能共生，如何重塑未来？ weixin_74887700 人工智能
一、AI从实验室走向物理世界1.WorldModel元年：3D模型开启物理智能时代2025年被视为“世界大模型（WorldModel）”的元年，AI从文本、图像等低维数据处理跃升至理解物理世界规律的3D模型阶段。例如，李飞飞团队主导的LWM（世界模型）将推动自动驾驶、工业仿真等领域的突破，AI可通过虚拟环境模拟复杂物理交互，优化决策效率。应用场景：自动驾驶测试（如Waymo）、工业设计仿真、灾害预
集中式架构vs分布式架构谦亨有终架构架构分布式
一、集中式架构如何准确理解集中式架构1.集中式架构的定义集中式架构是一种将系统的所有计算、存储、数据处理和控制逻辑集中在一个或少数几个节点上运行的架构模式。这些中央节点（服务器或主机）作为系统的核心，负责处理所有用户请求和业务逻辑，客户端只负责请求和展示。2.核心特性单一控制中心：所有服务和资源都由中央节点统一管理。资源集中管理：数据和计算资源位于同一位置，便于维护和扩展。高一致性：由于资源集中管
探索A10技术的应用与未来发展潜力智能计算研究中心其他
内容概要A10技术是一项正在逐步成熟并对多个行业产生深远影响的前沿技术。其发展历程可以追溯到早期的研发阶段，至今已经经过了多次技术迭代与升级。以下是对A10技术核心应用和优势的概述，通过这些内容可以帮助读者更好地理解其用途：应用领域具体应用主要优势信息技术数据处理与分析提高数据处理效率制造业自动化与智能生产降低生产成本医疗行业远程监控与智能诊断提升医疗服务质量交通运输智能交通系统优化交通流量环保领
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
HarmonyOS Next智能家居控制系统的模型转换与数据处理实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能家居控制系统中模型转换与数据处理技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能家居系统需求与技术选型（一）功能需求分析设备状态监测需求智能家居控制系统需要实时监测各种智能设
HarmonyOS Next数据处理与模型训练优化 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中数据处理与模型训练优化相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、数据处理对模型训练的重要性（一）关键作用强调在HarmonyOSNext的模型训练世界里，数据就如同建筑的基石，而数据处
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
十大经典排序算法的C++实现与解析金外飞176 算法算法数据结构 c++
经典排序算法的C++实现与解析在计算机科学中，排序算法是数据处理和算法设计的基础。无论是处理大规模数据还是优化小规模数据的性能，排序算法都扮演着重要角色。本文将介绍10种经典排序算法，并提供它们的C++实现代码。这些算法包括冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、基数排序和桶排序。1.冒泡排序（BubbleSort）原理冒泡排序是最简单的排序算法之一。它通过重
RHEL 安装 Hadoop 服务器 XhClojure hadoop 服务器大数据
在这篇文章中，我们将探讨如何在RedHatEnterpriseLinux(RHEL)上安装和配置Hadoop服务器。Hadoop是一个开源的分布式数据处理框架，用于处理大规模数据集。以下是在RHEL上安装Hadoop的详细步骤。步骤1：安装Java在安装Hadoop之前，我们需要确保系统上安装了JavaDevelopmentKit(JDK)。执行以下命令安装JDK：sudoyuminstallja
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
代理IP助力AI图像处理，开启行业新篇章傻啦嘿哟关于代理IP那些事儿人工智能 tcp/ip 图像处理
目录一、代理IP技术简介二、代理IP在AI图像处理中的应用1.提升数据访问速度2.增强数据处理能力3.突破网络限制三、代理IP在AI图像处理中的实际案例案例一：AI图像生成软件案例二：AI动画创作四、代理IP技术的未来展望五、结语在科技日新月异的今天，AI图像处理技术以其广泛的应用前景和强大的处理能力，正深刻改变着我们的世界。从人脸识别、自动驾驶到医学影像分析，AI图像处理技术无处不在，发挥着不可
服务器与普通电脑有什么区别？ wayuncn 服务器服务器电脑运维
服务器和普通电脑（通常指的是个人计算机，即PC）有众多相似之处，主要构成包含：CPU，内存，芯片，I/O总线设备，电源，机箱及操作系统软件等，鉴于使用要求不同，两者差别也很明显，区别如下：区别1、CPU处理性能不同。服务器对CPU要求很高，必须具备有很强数据处理能力，通常服务器要配置多颗CPU共同进行数据运算，普通电脑通常都配置单颗CPU，在数据处理能力就远比不上起服务器。区别2、安全性能不同。服
MyBatis XML映射文件中的批量插入和更新秋分的秋刀鱼 Java Spring Boot MySQL mybatis xml java mysql
一、背景在数据库操作中，批量插入和更新是一种常见的需求，尤其是在处理大量数据时。MyBatis作为一个强大的持久层框架，提供了灵活的方式来实现这些操作。本文将详细介绍如何使用MyBatisXML映射文件来实现批量插入和更新。这样做的好处是不用一条一条的判断是否存在，而进行新增或者更新操作。二、介绍2.1理解MyBatis批量操作的重要性在许多应用场景中，如数据迁移、同步或批量数据处理，我们需要将大
JAVA EE初阶 - 预备知识（三） 2025年一定要上岸 java-ee java
一、中间件中间件是一种处于操作系统和应用程序之间的软件，它能够为分布式应用提供交互、资源共享、数据处理等功能，是现代软件架构中不可或缺的一部分。下面从多个方面为你详细介绍中间件：定义与作用定义：中间件是连接两个或多个软件组件或应用程序的软件层，它屏蔽了底层操作系统和网络的复杂性，为开发者提供了统一的编程接口和开发环境，使得不同的应用程序可以方便地进行通信和协作。作用简化开发：开发者无需关注底层的通
正则表达式regex GotoMeiben 正则表达式
工具网站：RegExr:Learn,Build,&TestRegEx正则表达式（RegularExpression,Regex）是一种强大的字符串匹配工具，广泛用于文本搜索、数据处理和输入验证等场景。无论是Python、Java、JavaScript还是Shell脚本，Regex都是不可或缺的技能。本文将深入介绍正则表达式的各种用法，包括：基本匹配（字母、数字）特殊符号^$\b量词{}*+?字符类
Java中的锁向画 java java 开发语言
这里举例6种悲观锁和乐观锁是两种不同的并发控制策略，用于解决多线程或多进程环境下对共享资源访问时可能出现的数据不一致问题。下面分别介绍它们的概念、实现方式以及代码示例。悲观锁概念悲观锁假设在整个数据处理过程中，会有其他线程或进程来修改数据，因此在操作数据之前会先对数据进行加锁，确保在自己操作期间其他线程无法访问和修改该数据，直到操作完成并释放锁。这种锁的策略比较“悲观”，常用于写操作频繁的场景。实
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门 lilye66 python jupyter 开发语言爬虫
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门大家好！一直以来，我都坚信在学习的道路上，相互交流和共同进步是非常重要的。在Python数据处理这片充满挑战与机遇的领域，我也在持续学习和探索，希望借由这一系列的博客，能和大家一起深入钻研，共同成长。在上一篇博客中，我们学习了Jupyternotebook的相关知识，今天咱们接着来了解Python数据处理中的其他关键内容，包括一些
IPoIB 接收数据流程分析 109702008 编程 #C语言网络人工智能 linux 网络
1.引言IPoIB（InfiniBandoverIP）是一种将InfiniBand协议封装在IP网络中的技术，允许通过标准的以太网基础设施传输InfiniBand数据。本文将详细分析IPoIB驱动程序中接收数据的处理流程，重点关注关键函数的实现和数据处理的关键步骤。2.网络设备操作结构体staticconststructnet_device_opsipoib_netdev_default_pf_r
EBS 性能不足？从吞吐量到 IOPS，阿里云全方位优化 Anna_Tong 阿里云云计算存储加速吞吐量优化 RAID配置云计算运维 IOPS 提升
在云计算环境中，存储性能对于业务稳定运行至关重要，尤其是数据库、大数据分析、AI计算等高IO需求的应用。然而，许多用户在使用EBS（弹性块存储）时，可能会遇到磁盘吞吐量或IOPS（每秒输入/输出操作数）不足的问题，导致应用响应变慢、数据处理延迟，甚至影响业务连续性。那么，是什么原因导致EBS性能瓶颈？如何优化吞吐量和IOPS以提升存储性能？阿里云又能提供哪些优化方案？本文将从存储架构、性能监控、优
DeepSeek接入大数据能做什么 PersistDZ 大数据与AI 大数据
DeepSeek作为一家专注于AGI和AI大模型技术的公司，在大数据领域可以通过以下方式切入，结合其核心能力提供创新解决方案：一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的MoE（MixtureofExperts）架构可并行处理异构数据超大规模特征工程基于千亿参数模型的自动特征提取支持非结构化数据的深度语义解析实时计算优化自研分布
使用 Docker 部署 Apache Spark 集群教程努力的小T docker docker spark linux 运维服务器云计算容器
简介ApacheSpark是一个强大的统一分析引擎，用于大规模数据处理。本文将详细介绍如何使用Docker和DockerCompose快速部署一个包含一个Master节点和两个Worker节点的Spark集群。这种方法不仅简化了集群的搭建过程，还提供了资源隔离、易于扩展等优势。前置条件在开始之前，请确保你的环境中已经准备好了以下组件：安装并运行DockerEngine。安装DockerCompos
2020年物联网白皮书深度解析你这人真狗
本文还有配套的精品资源，点击获取简介：《物联网白皮书（2020年）》深入分析了物联网的发展核心问题、趋势和挑战。物联网通过网络将各种设备连接起来，面临数据安全、设备连接标准化及海量数据处理等关键问题。该白皮书针对技术成熟度、市场渗透率及法规政策提出了策略建议，并对未来展望包括新技术应用和行业影响进行了预测。1.物联网核心问题分析1.1物联网定义与核心技术物联网（IoT）是通过信息传感设备，按照约定
面向对象编程思想--SPI设备（Norflash、RFID、LCD屏幕） Amber762 面向对象编程单片机嵌入式硬件 stm32 linux 物联网 mcu iot
上节写了对于IIC设备的面向对象写法面向对象编程思想--IIC设备（EEPROMANDMPU6050）-CSDN博客面向对象编程思想--IIC设备（EEPROMANDMPU6050）-CSDN博客NorFlash、RC522、LCD屏幕，这些都是常见的SPI设备，但各自有不同的操作需求。例如，NorFlash通常需要读写数据块，RC522是RFID读卡器，涉及特定的命令和数据处理，而LCD屏幕可能
chatgpt赋能Python-python_dag yakuchrisfor ChatGpt python chatgpt matplotlib
PythonDAG学习指南在数据处理和机器学习领域，处理复杂问题通常需要执行多个任务，并按特定顺序执行这些任务。DAG（有向无环图）被用于逻辑顺序的表示，这是标准的处理方式，以及一些技术，如Airflow。这篇文章将为你介绍PythonDAG，并为你提供一个学习指南。什么是PythonDAG？PythonDAG是用Python编程语言创建和处理DAG的框架。由于Python的灵活性、易于学习和使用
Java程序员面临抉择：激烈竞争下，转行大模型或是新出路，非常详细收藏我这一篇就够了！大模型教程大模型学习学习大模型语言模型人工智能程序员转行
Java程序员转行大模型领域，可以依据以下详细路线进行学习和职业转换：第1阶段：基础知识巩固数学基础：线性代数：矩阵运算、向量空间等。概率论与统计：概率分布、统计推断等。微积分：导数、积分、多变量函数等。Python编程：Python基础：数据类型、控制结构、函数等。Python进阶：面向对象编程、装饰器、生成器等。数据处理：NumPy、Pandas、Matplotlib。第2阶段：机器学习与深度
LabVIEW无线齿轮监测系统 LabVIEW开发 LabVIEW开发案例 labview
LabVIEW的无线齿轮监测系统设计利用改进的天牛须算法优化支持向量机，实现了无线齿轮故障监测。通过LabVIEW软件和相关硬件，可以实现对齿轮箱振动信号的采集、传输和故障识别，集远程采集、数据库存储、邮件报警、数据处理于一体，具有良好的识别效果，能满足实际应用需求。项目背景：在工业生产中，齿轮是常见的动力传动元件，其正常运行对于设备的稳定性和可靠性至关重要。然而，齿轮在长时间运行过程中可能会出现
iOS开发书籍推荐 - 《高性能 iOS应用开发》（附带链接）胖虎1 开发经验分享 ios iOS开发 iOS 高性能 iOS高级 iOS进阶
引言在iOS开发的过程中，随着应用功能的增加和用户需求的提升，性能优化成为了不可忽视的一环。尤其是面对复杂的界面、庞大的数据处理以及不断增加的后台操作，如何确保应用的流畅性和响应速度，成为开发者的一大挑战。《高性能iOS应用开发》这本书正是为了解决这些问题，提供了深入的性能优化指导。这本书不仅涵盖了从应用启动到界面渲染、从内存管理到多线程处理的各个性能优化方面，还通过具体的案例和实用的技巧，帮助开
用deepseek学大模型08-长短时记忆网络 (LSTM) wyg_031113 lstm 人工智能 rnn
deepseek.com从入门到精通长短时记忆网络(LSTM),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。从入门到精通长短时记忆网络(LSTM)参考：长短时记忆网络（LSTM）在序列数据处理中的优缺点分析1.LSTM核心机制LSTM通过门控机制（遗忘门、输入门、输出门）和细
探索大数据处理：利用 Apache Spark 解锁数据价值 Echo_Wish 实战高阶大数据 apache spark 大数据
探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。ApacheSpark作为一个快速、通用的集群计算框架，以其出色的性能和丰富的API，成为大数据处理的利器。那么，ApacheSpark究竟如何帮助我们高效处理海量数据？接下来，让我们一起深入探讨。一、ApacheS
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，