python教程网络爬虫及数据可视化原理解析

1 项目背景

1.1Python的优势

Python有成熟的程序包资源库和活跃的社区 Python以PYPI为技术支撑，资源丰富，可被灵活调用。还有一些其他优势，比如跨平台且开源、成本小；可方便快捷实现数据可视化，像2D图表和一些基本的3D 图表可以借matplotlib和 seaborn等等一些专属库，只需要编写简单的Python代码就可输出可视化结果，方便快捷[1]。

1.2网络爬虫

网络爬虫（Web Crawler）是依照一定规则主动抓取网页的程序，是搜索引擎获得信息的渠道之一。通常根据给定 URL 种子爬取网页，得到新的 URL 存放至待爬行 URL中，当满足一定条件时停止爬行。网络爬虫一般分为通用网络爬虫、深度网络爬虫和主题网络爬虫 3 类。主题网络爬虫通常给定 URL 种子集，依照预先规定的主题，由特定的分析算法算出爬行网页的主题相关度，并过滤与主题无关的网页，优先抓取相关度高的网页，当满足一定条件时停止。主题网络爬虫根据主题对 Web 进行分块采集并整合采集结果，从而提高 Web 页面利用率[2]。

1.3数据可视化

在计算机学科的分类中，利用人眼的感知能力对数据进行交互的可视化表达以增强认知的技术，称为可视化。16 世纪，天体和地理的测量技术得到发展，通过三角测量等技术可精确绘制地图，数据可视化开始萌芽。20 世纪 60 年代计算机的发展使得数据可视化加速发展，通过计算机图像处理等技术，新的可视化方法和技术迎来爆炸性增长。数据可视化将相对复杂、冗杂的大数据经过挖掘、转化，提炼出结构化数据内容，并通过可视的方式以用户更易理解的形式展示出来，清晰表达数据内在的信息和规律[3]。

1.4Python环境介绍

1.4.1简介

PyCharm是一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。
此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。同时支持Google App Engine，PyCharm支持IronPython。这些功能在先进代码分析程序的支持下，使 PyCharm 成为 Python 专业开发人员和刚起步人员使用的有力工具。

1.4.2特点

首先，PyCharm拥有一般IDE具备的功能，比如，调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制
另外，PyCharm还提供了一些很好的功能用于Django开发，同时支持Google App Engine，更酷的是，PyCharm支持IronPython主要功能

1.5扩展库介绍

1.5.1安装模块

1.5.2主要模块介绍

① pandas模块

pandas是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。它纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具，提供了大量能使我们快速便捷地处理数据的函数和方法[4]。
pandas中常见的数据结构有两种：
Series DateFrame
类似一维数组的对象，类似多维数组/表格数组；每列数据可以是不同的类型；索引包括列索引和行索引。

② requests模块

requests是一常用的http请求库，它使用python语言编写，可以方便地发送http请求，以及方便地处理响应结果。

③ bs4模块

BS4 (beautiful soup 4)是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

④ selenium模块

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。

⑤ matplotlib模块

matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。它可与Numpy一起使用，提供一种有效的MATLAB开源替代方案；它也可以和图形工具包一起使用，让用户很轻松地将数据图形化；同时它还提供多样的输出格式。

⑥ seaborn模块

seaborn是一个在Python中制作有吸引力和丰富信息的统计图形的库。它构建在MatPultLB的顶部，与PyDATA栈紧密集成，包括对SIMPY和BANDA数据结构的支持以及SISPY和STATSMODEL的统计例程。
seaborn 其实是在matplotlib的基础上进行了更高级的 API 封装，从而使得作图更加容易在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充。Seabn是基于MatPultLB的Python可视化库。它为绘制有吸引力的统计图形提供了一个高级接口。

⑦ pyecharts模块

pyecharts 是一个用于生成 Echarts 图表的类库。echarts 是百度开源的一个数据可视化 JS 库，主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。使用 pyecharts 可以生成独立的网页，也可以在 flask , Django 中集成使用。

2需求分析

2.1 网络爬虫需求

通过对爬取网页的html分析，爬取网页的数据，将爬取的数据保存到文件，用于对数据进行可视化。

2.2 数据可视化需求

使爬取网站的数据用更直观的效果展示，当数据获取完成，我们使用相关模块对数据进行清洗处理，并对数据做可视化分析，并理解每一个图标所代表意义；

3总体设计

3.1 网页分析

在爬取国家统计局网站上的数据，需要用到WebDriver,先安装chromdriver。安装的Chromedriver要与自己电脑上的谷歌版本号对应，将下载的chromedriver.exe放到如图 1图 2所示路径下，放到安装谷歌和安装python路径下，用来调用这个可执行文件。还将这两个路径添加环境变量。

驱动浏览器，用webdriver的对象对网页进行点击等操作，找到想要爬取的网站。
通过对网页html分析，通过路径一层层找到自己想要获取的数据。如图 3所示，将数据追加到列表中，保存到文件。

爬取豆瓣电影Top250,翻页查看url变化规律：

第一页：https://movie.douban.com/top250?start=0&filter=
第二页：https://movie.douban.com/top250?start=25&filter=
第三页：https://movie.douban.com/top250?start=50&filter=
第十页：https://movie.douban.com/top250?start=225&filter=

分析可得页面url的规律：

url_list = [“https://movie.douban.com/top250?start={}&filter=”.format(x * 25) for x in range(10)]

对网页进行分析，如图 4所示，每个li标签里都包含每个电影的基本信息，例如：“排名”, “电影名”, "导演和主演"等等。将这些信息追加到列表中，保存到movie.xlsx文件中。

3.2 数据可视化设计

将爬取的数据用多种图表的显示。例如：条形图，饼图，散点图，箱线图，玫瑰图，词云等形式。利用python的pandas模块将数据文件读入。导入matplotlib, pyecharts等模块，调用模块画图的相应函数。进行数据可视化，并将可视化结果保存为图片。

4方案实施

4.1网络爬虫代码

import pandas as pd
import requests
from bs4 import BeautifulSoup
import time
import re
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import lxml
import openpyxl
import codecs
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3"
}
url1 = "https://data.stats.gov.cn/easyquery.htm?cn=E0105"
url2 = "http://data.stats.gov.cn"
'''爬取近五年主要城市数据'''
def driver1(url1):
    driver = webdriver.Chrome()
    driver.get(url1)
    time.sleep(3)
    xRdata = '//*[@id="details-button"]'  # 点击高级
    ActionChains(driver).click(driver.find_element_by_xpath(xRdata)).perform()
    xRdata = '//*[@id="proceed-link"]'  # 点击
    ActionChains(driver).click(driver.find_element_by_xpath(xRdata)).perform()
    time.sleep(3)
    time.sleep(4)  # 加载页面，停留时间长一些
    xTable = '//*[@class="table-container"]/div/div[3]/table/tbody'  # 主要城市年度数据表
    table = driver.find_element_by_xpath(xTable).get_attribute('innerHTML')
    soup = BeautifulSoup(table, 'html.parser')  # 解析表单
    tb = soup.find_all('tr')  # 查找表内tr标签
    tb_p = []  # 各城市名字
    tb_ = []
    tb_1 = [[], [], [], [], []]
    for row in tb:
        row_text = row.text
        # 查找第一个数字的索引
        ret1 = re.search('\d', row_text).start()
        # 将各个城市写入列表中
        tb_p.append(row_text[:ret1])
        # 截断至第一个数字
        row_text = row_text[ret1:]
        for i in range(5):
            try:
                # 顺序查找点
                ret = row_text.find('.')
                # 将第一年年数据保存到列表中
                tb_.append(row_text[:ret + 3])
                # 删去第一年的数据
                row_text = row_text[ret + 3:]
            except:
                break
    for i in range(5):
        for j in range(i, len(tb_), 5):
            try:
                tb_1[i].append(tb_[j])
            except:
                break
    data = {'地区': tb_p,
            '2019年': tb_1[0],
            '2018年': tb_1[1],
            '2017年': tb_1[2],
            '2016年': tb_1[3],
            '2015年': tb_1[4],
            }
    dataframe = pd.DataFrame(data)
    dataframe.to_csv('City_data.csv', index=False, sep=',', encoding='utf-8-sig')
    driver.close()
'''爬取2019年各省GDP'''
def driver2(url2):
    driver = webdriver.Chrome()
    driver.get(url2)
    time.sleep(3)
    xRdata = '//*[@id="details-button"]'  # 点击高级
    ActionChains(driver).click(driver.find_element_by_xpath(xRdata)).perform()
    xRdata = '//*[@id="proceed-link"]'  # 点击
    ActionChains(driver).click(driver.find_element_by_xpath(xRdata)).perform()
    time.sleep(3)
    xRdata = '//*[@id="nav"]/ul/li[6]/a'  # 地区数据
    ActionChains(driver).click(driver.find_element_by_xpath(xRdata)).perform()
    time.sleep(3)
    xPdata = '//*[@id="menuE01"]/li[3]/a'  # 分省年度数据
    ActionChains(driver).click(driver.find_element_by_xpath(xPdata)).perform()
    time.sleep(4)  # 加载页面，停留时间长一些
    xTable = '//*[@class="table-container"]/div/div[3]/table/tbody'  # 数据表
    table = driver.find_element_by_xpath(xTable).get_attribute('innerHTML')
    soup = BeautifulSoup(table, 'html.parser')  # 解析表单
    tb = soup.find_all('tr')  # 查找表内tr标签
    tb_p = []  # 各省市名字
    tb_ = []
    tb_1 = [[], [], [], [], [], [], [], [], [], []]
    for row in tb:
        row_text = row.text
        # 查找第一个数字的索引
        ret1 = re.search('\d', row_text).start()
        # 将各个省份写入列表中
        tb_p.append(row_text[:ret1])
        # 截断至第一个数字
        row_text = row_text[ret1:]
        for i in range(1):
            try:
                # 顺序查找点
                ret = row_text.find('.')
                # 将第一年年数据保存到列表中
                tb_.append(row_text[:ret + 3])
                # 删去第一年的数据
                row_text = row_text[ret + 3:]
            except:
                break
    for i in range(1):
        for j in range(i, len(tb_), 1):
            try:
                tb_1[i].append(tb_[j])
            except:
                break
    data = {'Province': tb_p,
            'GDP': tb_1[0],
            }
    dataframe = pd.DataFrame(data)
    dataframe.to_csv('2019_Province_GDP.csv', index=False, sep=',', encoding='utf-8-sig')
    driver.close()
'''爬取豆瓣电影Top250'''
wb = openpyxl.Workbook()    # 创建工作簿对象
sheet = wb.active           # 获取工作簿的活动表
sheet.title = "movie"       # 工作簿重命名
sheet.append(["排名", "电影名", "导演和主演", "上映时间", "上映地区", "电影类型", "评分", "评价人数", "引言"])
def get_movie(urls):
    rank = 1
    for url in urls:
        res = requests.get(url, headers=headers).text
        html = lxml.etree.HTML(res)
        # 先xpath定位提取到每个页面的所有li标签
        lis = html.xpath('//*[@id="content"]/div/div[1]/ol/li')
        # 每个li标签里有每部电影的基本信息
        for li in lis:
            name = li.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]
            director_actor = li.xpath('.//div[@class="bd"]/p/text()')[0].strip()
            info = li.xpath('.//div[@class="bd"]/p/text()')[1].strip()
            # 按"/"切割成列表
            _info = info.split("/")
            # 得到 上映时间  上映地区  电影类型信息   去除两端多余空格
            time, area, genres = _info[0].strip(), _info[1].strip(), _info[2].strip()
            # print(time, area, genres)
            rating_score = li.xpath('.//div[@class="star"]/span[2]/text()')[0]
            rating_num = li.xpath('.//div[@class="star"]/span[4]/text()')[0]
            quote = li.xpath('.//p[@class="quote"]/span/text()')
            # 最后一页有部电影  九品芝麻官  没有一句话引言  加条件判断  防止报错
            if len(quote) == 0:
                quote = None
            else:
                quote = quote[0]
            sheet.append([rank, name, director_actor, time, area, genres, rating_score, rating_num, quote])
            rank += 1
    # 保存到文件
    wb.save("movie.xlsx")
'''豆瓣电影Top250'''
index_url = 'https://movie.douban.com/top250'
def get_html(url):
    html = requests.get(url, headers=headers).text
    return html
def create_list(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_names = []
    movie_info = []
    for t in soup.find_all('div', 'hd'):
        name = t.find('span', 'title').get_text()
        movie_names.append(name)
    for t in soup.find_all('div', 'info'):
        info = t.find('p').get_text().replace(' ','')
        movie_info.append(info)
        next_page = soup.find('span', 'next').find('a')
    if next_page:
         return movie_names, movie_info, index_url + next_page['href']
    else:
         return movie_names, movie_info, None
def main():
    order = 1
    url = index_url
    with codecs.open('top250.txt', 'wb', encoding='utf-8') as f:
        while url:
            html = get_html(url)
            names, info, url = create_list(html)
            for n in range(25):
                f.write('Top ' + str(order) + ' ' + names[n] + '\r\n')
                f.write(info[n] + '\r\n')
                order = order+1
if __name__ == "__main__":
    # 列表推导式得到url列表  10页的电影信息  Top250
    url_list = ["https://movie.douban.com/top250?start={}&filter=".format(i * 25) for i in range(10)]
    driver1(url1)
    driver2(url2)
    get_movie(url_list)
    main()

4.2 数据可视化代码

import pandas as pd
import re
import matplotlib.pyplot as plt
import collections
import seaborn as sns
from stylecloud import gen_stylecloud
import jieba
import squarify
from pyecharts import Pie
sns.set() #恢复seaborn的默认主题
# 中文乱码和坐标轴负号的处理
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
'''条形图'''
GDP = pd.read_csv('2019_Province_GDP.csv')
# 设置绘图风格
plt.style.use('ggplot')
# 绘制条形图
plt.bar(x= range(GDP.shape[0]), # 指定条形图x轴的刻度值
        height = GDP.GDP, # 指定条形图y轴的数值
        tick_label = GDP.Province, # 指定条形图x轴的刻度标签
        color = 'steelblue', # 指定条形图的填充色
       )
# 添加y轴的标签
plt.ylabel('GDP(万亿)')
# 添加条形图的标题
plt.title('2019年各省份GDP分布')
# 为每个条形图添加数值标签
for x,y in enumerate(GDP.GDP):
    plt.text(x,y+0.1,'%s' %round(y,1),ha='center')
# 显示图形
plt.savefig('test1.png')
plt.show()
'''饼图'''
# 构造数据
edu = [0.2515,0.3724,0.3336,0.0368,0.0057]
labels = ['中专','大专','本科','硕士','其他']
explode = [0,0.1,0,0,0]  # 生成数据，用于突出显示大专学历人群
colors=['#9999ff','#ff9999','#7777aa','#2442aa','#dd5555']  # 自定义颜色
# 将横、纵坐标轴标准化处理，确保饼图是一个正圆，否则为椭圆
plt.axes(aspect='equal')
# 绘制饼图
plt.pie(x = edu, # 绘图数据
        explode=explode, # 突出显示大专人群
        labels=labels, # 添加教育水平标签
        colors=colors, # 设置饼图的自定义填充色
        autopct='%.1f%%', # 设置百分比的格式，这里保留一位小数
        pctdistance=0.8,  # 设置百分比标签与圆心的距离
        labeldistance = 1.1, # 设置教育水平标签与圆心的距离
        startangle = 180, # 设置饼图的初始角度
        radius = 1.2, # 设置饼图的半径
        counterclock = False, # 是否逆时针，这里设置为顺时针方向
        wedgeprops = {'linewidth': 1.5, 'edgecolor':'green'},# 设置饼图内外边界的属性值
        textprops = {'fontsize':10, 'color':'black'}, # 设置文本标签的属性值
        )
# 添加图标题
plt.title('失信用户的受教育水平分布')
# 显示图形
plt.savefig('test2.png')
plt.show()
'''箱线图'''
data=pd.read_csv('City_data.csv')
#箱线图
data.boxplot()
plt.savefig('test3.png')
plt.show()
'''树地图'''
# 创建数据
name = ['国内增值税', '国内消费税', '企业所得税', '个人所得税',
        '进口增值税、消费税', '出口退税', '城市维护建设税',
        '车辆购置税', '印花税', '资源税', '土地和房税', '车船税烟叶税等']
income = [3908, 856, 801, 868, 1361, 1042, 320, 291, 175, 111, 414, 63]
# 绘图
colors = ['steelblue', '#9999ff', 'red', 'indianred',
          'green', 'yellow', 'orange']
plot = squarify.plot(sizes=income,  # 指定绘图数据
                     label=name,  # 指定标签
                     color=colors,  # 指定自定义颜色
                     alpha=0.6,  # 指定透明度
                     value=income,  # 添加数值标签
                     edgecolor='white',  # 设置边界框为白色
                     linewidth=3  # 设置边框宽度为3
                     )
# 设置标签大小
plt.rc('font', size=8)
# 设置标题大小
plot.set_title('2020年12月中央财政收支情况', fontdict={'fontsize': 15})
# 去除坐标轴
plt.axis('off')
# 去除上边框和右边框刻度
plt.tick_params(top='off', right='off')
# 显示图形
plt.savefig('test4.png')
plt.show()
'''玫瑰图'''
attr =["碳酸饮料", "其他", "绿茶", "矿泉水", "果汁"]
v1 =[6, 2, 7, 6,1]
v2 =[9, 6, 4, 4,5]
pie =Pie("玫瑰图", title_pos='center', width=800)
pie.add("男", attr, v1, center=[25, 50], is_random=True, radius=[20, 50], rosetype='radius')
pie.add("女", attr, v2, center=[75, 50], is_random=True, radius=[20, 50], rosetype='area',
        is_legend_show=False, is_label_show=True)
pie.show_config()
pie.render('玫瑰图.html')
# 读取数据
df = pd.read_excel("movie.xlsx",engine='openpyxl')
# print(type(df))    # 
'''上映高分电影数量最多的年份Top10'''
show_time = list(df["上映时间"])
# 有上映时间数据是1961(中国大陆)这样的  处理一下  字符串切片
show_time = [s[:4] for s in show_time]
show_time_count = collections.Counter(show_time)
# 取数量最多的前10  得到一个列表  里面每个元素是元组
# (年份, 数量)
show_time_count = show_time_count.most_common(10)
# 字典推导式
show_time_dic = {k: v for k, v in show_time_count}
# 按年份排序
show_time = sorted(show_time_dic)
# 年份对应高分电影数量
counts = [show_time_dic[k] for k in show_time]
plt.figure(figsize=(9, 6), dpi=100)
# 绘制条形图
plt.bar(show_time, counts, width=0.5, color="cyan")
# y轴刻度重新设置一下
plt.yticks(range(0, 16, 2))
# 添加描述信息
plt.xlabel("年份")
plt.ylabel("高分电影数量")
plt.title("上映高分电影数量最多的年份Top10", fontsize=15)
# 添加网格  网格的透明度  线条样式
plt.grid(alpha=0.2, linestyle=":")
plt.savefig('test5.png')
plt.show()
'''国家或地区上榜电影数量最多的Top10'''
area = list(df['上映地区'])
sum_area = []
for x in area:
    x = x.split(" ")
    for i in x:
        sum_area.append(i)
area_count = collections.Counter(sum_area)
area_dic = dict(area_count)
area_count = [(k, v) for k, v in list(area_dic.items())]
# 按国家或地区上榜电影数量排序
area_count.sort(key=lambda k: k[1])
# 取国家或地区上榜电影数量最多的前十
area = [m[0] for m in area_count[-10:]]
nums = [m[1] for m in area_count[-10:]]
plt.figure(figsize=(9, 6), dpi=100)
# 绘制横着的条形图
plt.barh(area, nums, color='red')
# 添加描述信息
plt.xlabel('电影数量')
plt.title('国家或地区上榜电影数量最多的Top10')
plt.savefig('test6.png')
plt.show()
'''豆瓣电影Top250-评价人数Top10'''
name = list(df['电影名'])
ranting_num = list(df['评价人数'])
# (电影名, 评价人数)
info = [(m, int(n.split('人')[0])) for m, n in list(zip(name, ranting_num))]
# 按评价人数排序
info.sort(key=lambda x: x[1])
# print(info)
name = [x[0] for x in info[-10:]]
ranting_num = [x[1] for x in info[-10:]]
plt.figure(figsize=(12, 6), dpi=100)
# 绘制横着的条形图
plt.barh(name, ranting_num, color='cyan', height=0.4)
# 添加描述信息
plt.xlabel('评价人数')
plt.title('豆瓣电影Top250-评价人数Top10')
plt.savefig('test7.png')
plt.show()
'''豆瓣电影Top250评分-排名的散点分布'''
# 豆瓣电影Top250  排名  评分  散点图   描述关系
rating = list(df["排名"])
rating_score = list(df["评分"])
plt.figure(figsize=(9, 6), dpi=100)
# 绘制散点图  设置点的颜色
plt.scatter(rating_score, rating, c='r')
# 添加描述信息  设置字体大小
plt.xlabel("评分", fontsize=12)
plt.ylabel("排名", fontsize=12)
plt.title("豆瓣电影Top250评分-排名的散点分布", fontsize=15)
# 添加网格  网格的透明度  线条样式
plt.grid(alpha=0.5, linestyle=":")
plt.savefig('test8.png')
plt.show()
'''豆瓣电影Top250词云'''
# 读取数据
with open('top250.txt', encoding='utf-8') as f:
    data = f.read()
# 文本预处理  去除一些无用的字符   只提取出中文出来
new_data = re.findall('[\u4e00-\u9fa5]+', data, re.S)
new_data = " ".join(new_data)
# 文本分词
seg_list_exact = jieba.cut(new_data, cut_all=False)
result_list = []
with open('top250.txt', encoding='utf-8') as f:
    con = f.readlines()
    stop_words = set()
    for i in con:
        i = i.replace("\n", "")   # 去掉读取每一行数据的\n
        stop_words.add(i)
for word in seg_list_exact:
    # 设置停用词并去除单个词
    if word not in stop_words and len(word) > 1:
        result_list.append(word)
print(result_list)
gen_stylecloud(
    text=' '.join(result_list),
    size=500,
    collocations=False,
    font_path=r'C:\Windows\Fonts\msyh.ttc',
    output_name='test9.png',
    icon_name='fas fa-video',
    palette='colorbrewer.qualitative.Dark2_7'
)

5 效果展示

5.1 网络爬虫

5.1.1 爬取近五年主要城市数据

5.1.2 爬取2019年各省GDP

Province GDP
北京市 35371.28
天津市 14104.28
河北省 35104.52
山西省 17026.68
内蒙古自治区 17212.53
辽宁省 24909.45
吉林省 11726.82
黑龙江省 13612.68
上海市 38155.32
表 4 2019_Province_GDP.csv部分数据

5.1.3 爬取豆瓣电影Top250

5.2 数据可视化

5.2.1条形图

2019年各省GDP,这个条形图效果不是很好，可以对数据处理一下，可以一个图里面少点省份。

通过减少图中数据，下面这几个条形图效果较好。

5.2.2 散点图

豆瓣电影Top250散点分别，可以更直观的看到不同评分所处的排名。

5.2.3 饼图

5.2.4 箱线图

5.2.5 树地图

5.2.6 玫瑰图

5.2.7 词云

6 总结

通过对Python爬虫以及数据可视化的学习，在这过程中查阅了许多的资料。主要实现了爬取2019年各省数据和主要城市近五年，还有豆瓣电影top250，用图表等可视化方式更直观的看数据。对Python常用模块和函数的使用方法有了进一步的了解。
由于时间有限，项目还有许多不足,对于爬取的同一个网站不同页面。爬取的代码部分有重复，代码就有点长。代码质量不高。有的对数据没有处理，直接拿过来用。第一个条形图看起来效果很差，不能很好的展现数据信息。仍需继续改进。

7参考文献

[1]杨露，葛文谦. 基于Python的制造业数据分析可视化平台设计[J]. 《信息化研究》，2018年10月第44卷第5期.
[2]左薇，张熹，董红娟. 主题网络爬虫研究综述[J]. 《软件导刊》，2020年2月第19卷第2期.
[3]孙远波，闻芷艺，徐瑞格. 新型冠状病毒肺炎疫情数据可视化设计综述 [J]. 《包装工程》，2020年4月第41卷第8期.
[4]董付国，Python程序设计基础(第2版).清华大学出版社,2018.

以上就是python教程网络爬虫及数据可视化原理解析的详细内容，更多关于python网络爬虫及数据可视化的资料请关注脚本之家其它相关文章！

AI问答-供应链管理：直接采购和间接采购有什么区别快雪时晴-初晴融雪供应链管理供应链管理
直接采购和间接采购是企业采购活动中的两种主要方式，它们在多个方面存在显著的区别。以下是关于直接采购和间接采购的详细对比：直接采购间接采购定义企业直接从生产商或供应商处购买所需的产品或服务，无需经过中间商或分销商。企业通过中间商（如贸易公司、物资公司、采购中介组织等）实施采购行为，也称委托采购或中介采购。服务对象主要服务于外部客户，用于产品生产及销售所需的物料与服务。主要服务于内部客户，支持产品生产
Microsoft SQL Server 2012(附序列号) 曹瑞曹瑞
MicrosoftSQLServer2012是微软发布的新一代数据平台产品。SQLServer2012不仅延续现有数据平台的强大能力，全面支持云技术与平台，并且能够快速构建相应的解决方案实现私有云与公有云之间数据的扩展与应用的迁移。SQLServer2012提供对企业基础架构最高级别的支持—专门针对关键业务应用的多种功能与解决方案可以提供最高级别的可用性及性能。在业界领先的商业智能领领域，SQLS
网站总报SSL错误？常见原因及解决方案 WoTrusSSL ssl https 网络协议
作为企业网站运营者，SSL证书就像“网络身份证”，它能加密数据、保护用户隐私，让客户放心下单。但一旦出现SSL错误，浏览器直接亮红警告，用户秒关页面，订单流失、品牌形象受损都可能发生！别慌！我们整理了企业最常见的几种SSL错误原因及解决方案，教你如何快速排查修复，让网站安全又稳定！1.证书装错了？检查配置细节！问题：SSL证书安装时，路径填错、私钥不匹配、参数设置漏了……一个小失误就能让证书“罢工
MPPT与PWM充电原理及区别详解皖山文武智能制造机电一体化技术机电一体化
MPPT（最大功率点跟踪）和PWM（脉宽调制）是太阳能充电控制器中常用的两种技术，它们在原理、效率和适用场景上有显著区别。以下是两者的详细对比：1.工作原理PWM（脉宽调制）核心机制：通过快速开关（MOSFET等）调节太阳能板与电池之间的连接，使太阳能板电压被强制拉低至电池电压水平。充电过程：初期以大电流快速充电（电池电压较低）。当电池接近充满时，通过调节脉冲宽度（占空比）减少电流，防止过充。电压
绿色算力网络构建与智能调度实践智能计算研究中心其他
内容概要绿色算力网络的构建需以能效优化为核心，通过智能调度系统实现算力资源的高效整合与动态分配。当前架构设计包含三大核心模块：异构计算集群（涵盖GPU、FPGA及量子计算单元）、跨区域网络互联协议（适配东数西算的传输需求）以及能耗监测平台（基于实时数据建模的碳足迹追踪）。下表示例展示了典型算力节点的关键参数对比：节点类型计算密度(TFLOPS/m²)功耗比(TOPS/W)延迟控制(ms)量子计算集
智能算法安全与跨领域创新实践智能计算研究中心其他
内容概要在智能算法快速渗透各行业的背景下，安全治理与技术创新已成为驱动跨领域应用的核心议题。当前研究重点围绕算法可解释性增强、动态风险评估及数据安全防护展开，通过融合联邦学习的分布式协作框架、量子计算的算力突破以及注意力机制的特征聚焦能力，构建起多模态技术融合的创新路径。在应用场景层面，医疗影像诊断、金融风险预测与自动驾驶系统等关键领域已形成算法效能与安全性的双重验证体系，其中超参数优化、特征工程
算力安全创新驱动未来趋势endofsentence 智能计算研究中心其他
内容概要算力安全与技术创新正在重塑全球算力生态，其核心驱动力来自异构计算、边缘计算及量子计算等前沿技术的深度融合。当前算力架构正经历从集中式向分布式演进，通过异构加速芯片、动态资源调度算法及绿色能效优化，显著提升算力基础设施的可扩展性与可靠性。例如，异构计算通过CPU、GPU、FPGA的协同加速，使复杂模型训练效率提升40%以上。关键数据：根据IDC预测，到2025年全球智能算力需求将增长30倍，
RTX4070Ti巅峰性能与温控揭秘智能计算研究中心其他
内容概要作为NVIDIAAdaLovelace架构的旗舰产品之一，RTX4070Ti通过全新的流式多处理器与第三代RTCore实现了运算效能的跃升。本文将从核心架构创新、实机性能表现及散热技术突破三大维度展开分析：首先解析DLSS3帧生成技术对4K分辨率下光线追踪游戏帧率的提升效果，通过《赛博朋克2077》《瘟疫传说：安魂曲》等主流3A大作的实测数据验证其动态表现；其次拆解三槽厚度散热模组的设计逻
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
报表DSL优化，享元模式优化过程，优化效果怎么样？蒂法就是我享元模式 python 前端
报表DSL优化与享元模式应用详解一、报表DSL优化1.问题背景报表系统通常使用领域特定语言（DSL）定义模板结构、数据绑定规则及样式配置。随着复杂度提升，DSL可能面临以下问题：冗余配置：重复定义样式、布局或数据源。解析效率低：嵌套层级过深或语法冗余导致解析耗时增加。维护困难：DSL文件臃肿，难以快速定位问题。2.优化策略结构扁平化：减少嵌套层级，通过引用机制复用公共配置块。#优化前（嵌套冗余）t
数学建模与图形建模资源全解析点我头像干啥 Ai 数学建模人工智能 python 深度学习数据挖掘分类
引言在当今的数据驱动时代，数学建模与图形建模已成为解决复杂问题、揭示数据内在规律的重要工具。无论是科学研究、工程设计，还是商业分析、决策支持，建模技术都发挥着举足轻重的作用。本文旨在为数学建模与图形建模的初学者及进阶者提供一份详尽的资源指南，涵盖软件工具、学习资料、在线课程、社区论坛等多个方面，帮助大家更好地掌握这些技能。一、数学建模资源概览1.数学建模软件工具数学建模离不开强大的软件支持。以下是
H100架构解析与性能优化策略智能计算研究中心其他
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品，其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解；最
Git远程推送常见错误及解决方案： sgsgy5 Git常见错误解决方案 Git常见错误 git常见错误解决方案
Git远程推送1、问题：git远程提交时出现错误：error:RPCfailed;curl56OpenSSLSSL_read:SSL_ERROR_SYSCALL,errfno10054原因分析：可能是文件过大导致。解决方法：在要推送的文件夹下右键打开gitbashhere输入命令：#首先设置通信缓存大小gitconfighttp.postBuffer524288000#然后把缓存清除gitfilt
书籍-《车辆动力学的控制应用》自动驾驶人工智能无人驾驶汽车
书籍：ControlApplicationsofVehicleDynamics作者：JingshengYu，VladimirVantsevich出版：CRCPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《车辆动力学的控制应用》01书籍介绍本书介绍了汽车动力学和控制理论的基本知识，并结合NILabVIEW软件产品的应用，为设计先进的车辆动力学及车辆系统控制器提供了实用且高度技术性的指
实现openAI流式打印效果 (包含markdown代码高亮及复制功能) Todo_MrWu javascript vue.js 前端
准备工作//插件npminstallmarkdown-ithighlight.js//引入文件importMarkdownItfrom'markdown-it'importhljsfrom'highlight.js'import'highlight.js/styles/atom-one-dark.css'初始化数据data(){return{vHtml:'',//最终填充展示的htmlstring
工作流编排利器：Prefect 全流程解析船长@Quant Python 金融科技 prefect polars 工作流编排数据处理
工作流编排利器：Prefect全流程解析本文系统讲解了Prefect工作流编排工具，从基础入门到高级应用，涵盖任务与流程管理、数据处理、执行器配置、监控调试、性能优化及与其他工具集成等内容，文末项目实战示例，帮助读者全面回顾Prefect知识点。Prefect官方文档https://docs.prefect.io/v3/get-started/index一、Prefect基础入门（一）关于Pref
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
不同存储器组织和交叉编址技术的工作方式及举例说明海大超级无敌暴龙战士计算机组成原理学习方法
不同存储器组织和交叉编址技术的工作方式及举例说明本节介绍内存系统中常见的组织方式以及如何通过交叉编址来提高存储器性能，主要内容包括：多模块存储器单体多字存储器多体并行存储器高位交叉编址（顺序方式）低位交叉编址（交叉方式）下面依次说明这些结构的工作原理和实际应用中的举例。1.多模块存储器原理简介：多模块存储器将整个存储系统划分为多个独立模块（或称“块”），每个模块具有一定的存储容量和独立的控制电路。
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
对象的介绍及使用 ..儒 javascript 前端开发语言
对象简介1.对象是什么?对象是一种数据类型无序的数据的集合2.对象有什么特点?无序的数据的集合可以详细的描述描述某个事物对象的使用：用它保存多个数据1.对象声明语法let对象名={} let对象名=newObject()例如：//声明了一个person的对象letperson={}实际开发中，我们多用花括号。{}是对象字面量属性数据描述性的信息称为属性，如人的姓名、身高、年龄、性别等，一般是名词性
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
卡尔曼滤波算法c语言stm32,卡尔曼滤波算法及C语言实现_源代码 weixin_39643255 卡尔曼滤波算法c语言stm32
a往南向北2019-01-1620:39:2011340收藏111分类专栏：C语言嵌入式文章标签：卡尔曼滤波C代码卡尔曼滤波理论很容易就可以在MATLAB软件环境下实现，但是，实际的硬件板子上还是需要C语言，当然可以自动代码生成，还有一种就是直接手动编写C语言。1.前言在google上搜索卡尔曼滤波，很容易找到以下这个帖子：http://blog.csdn.net/lanbing510/artic
《算法二》选择排序算法及它的时间复杂度 code 旭算法选择排序算法算法选择排序时间复杂度
1.选择排序算法选择排序算法的时间复杂度为O(N^2)选择排序算法规则：1.指定位置的数和后面的数比较2.如果指定位置的数大，则两个数交换位置3.向后移动一个位置，和指定位置的数进行比较假设数组大小n,第一轮比较n-1次，最小的数排在了最前面第二轮比较，第一个数已经是最小不用比较，此轮比较n-2次，第二小的排在第二个位置。依次类推，最后一轮，一次比较，最后得出有序的数列1.1和冒泡排序算法相比选择
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
常用图像增强算法原理及 OpenCV C++ 实现埃菲尔铁塔_CV算法 opencv 计算机视觉人工智能 c++算法机器学习
一、引言图像增强是数字图像处理中的一个重要分支，其目的是改善图像的视觉效果，突出图像中的重要信息，或者将图像转换为更适合人或机器分析处理的形式。在实际应用中，图像增强技术广泛应用于医学影像、遥感图像、安防监控等领域。本文将详细介绍常用的图像增强算法原理，并给出基于OpenCVC++库的实现代码。二、图像增强算法分类图像增强算法可以分为空间域增强和频域增强两大类。空间域增强是直接对图像的像素值进行操
likeadmin 安装与使用指南强和毓Hadley
likeadmin安装与使用指南项目地址:https://gitcode.com/gh_mirrors/li/likeadmin目录结构及介绍在克隆或下载likeadmin项目后，你会看到以下主要目录：admin:存放所有后端管理相关的代码。controller:控制器目录，负责处理HTTP请求。model:数据模型目录，用于数据库操作。service:服务层目录，提供业务逻辑。frontend:
【Servlet】深入解析 Servlet 启动过程 —— 原理分析、代码实战及在 JDK 和 Spring 中的应用工一木子原理分析 Servlet java servlet
深入解析Servlet启动过程——原理分析、代码实战及在JDK和Spring中的应用在JavaWeb开发中，Servlet是一种用于创建动态Web应用程序的核心技术。作为JavaEE（现在是JakartaEE）的基础，Servlet在处理客户端请求、生成响应等方面发挥着重要作用。理解Servlet的启动过程，不仅能帮助我们调试和优化应用，还能为深入掌握JavaWeb开发的核心原理打下坚实基础。本文
垃圾收集算法与收集器 HBryce24 JVM jvm
在JVM中，垃圾收集（GarbageCollection,GC）算法的核心目标是自动回收无用对象的内存，同时尽量减少对应用性能的影响。以下是JVM中主要垃圾收集算法的原理、流程及实际应用场景的详细介绍：一、标记-清除算法（Mark-Sweep）原理标记阶段：从GCRoots（如栈引用、静态变量）出发，遍历对象图，标记所有存活对象。清除阶段：扫描堆内存，回收未被标记的对象所占用的内存（直接释放，不整
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他