lyc2016012170

2万字用Python探索金庸小说世界

今天分享一批小明同学的原创，用Python探索金庸笔下的江湖！

带你用python看小说，娱乐学习两不误。

涉及的知识点有：

常规小说网站的爬取思路
基本的pandas数据整理
lxml与xpath应用技巧
正则模式匹配
Counter词频统计
pyecharts数据可视化
stylecloud词云图
gensim.models.Word2Vec的使用
scipy.cluster.hierarchy层次聚类

本文从传统匹配逻辑分析过渡到机器学习的词向量，全方位进行文本分析，值得学习，干货满满。

金庸小说的采集

以前金庸小说的网站有很多，但大部分已经无法访问，但由于很多金庸迷的存在，新站也是源源不断出现。我近期通过百度找到的一个还可以访问的金庸小说网址是：aHR0cDovL2ppbnlvbmcxMjMuY29tLw==

不过我已经准备好已经采集完成的数据，大家可以直接下载数据，跳过本章的内容。

数据源下载地址：https://gitcode.net/as604049322/blog_data

每部小说的创作日期

下面首先获取这15部作品的名称、创作年份和对应的链接。从开发者工具可以看到每行的a标签很多，我们需要的节点的特征在于后续临近节点紧接着一个创作日期的字符串：

那么我们就可以通过遍历所有的a标签并判断其后续一个临近节点的内容是否符合日期格式，最终完整下载代码为：

import requests
from lxml import etree
import pandas as pd
import re

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
    "Accept-Language": "zh-CN,zh;q=0.9"
}
res = requests.get(base_url, headers=headers)
res.encoding = res.apparent_encoding
html = etree.HTML(res.text)
a_tags = html.xpath("//div[@class='jianjie']/p/a")
data = []
for a_tag in a_tags:
    m_obj = re.search("\((\d{4}(?:—\d{4})?年)\)", a_tag.tail)
    if m_obj:
        data.append((a_tag.text, m_obj.group(1), a_tag.attrib["href"]))
data = pd.DataFrame(data, columns=["名称", "创作时间", "网址"])

可以按照创作日期排序查看：

data.sort_values("创作时间", ignore_index=True, inplace=True)
data

名称	创作时间	网址
书剑恩仇录	1955年	/shujianenchoulu/
碧血剑	1956年	/bixuejian/
射雕英雄传	1957—1959年	/shediaoyingxiongzhuan/
神雕侠侣	1959—1961年	/shendiaoxialv/
雪山飞狐	1959年	/xueshanfeihu/
飞狐外传	1960—1961年	/feihuwaizhuan/
白马啸西风	1961年	/baimaxiaoxifeng/
倚天屠龙记	1961年	/yitiantulongji/
鸳鸯刀	1961年	/yuanyangdao/
天龙八部	1963—1966年	/tianlongbabu/
连城诀	1963年	/lianchengjue/
侠客行	1965年	/xiakexing/
笑傲江湖	1967年	/xiaoaojianghu/
鹿鼎记	1969—1972年	/ludingji/
越女剑	1970年	/yuenvjian/

章节页下载与顺序校正

下面看看章节页节点的分布情况，以《雪山飞狐》为例：

同时可以看到部分小说的节点出现了倒序的情况，我们需要在识别出倒序时将其正序，完整代码：

from urllib.parse import urljoin


def getTitleAndUrl(url):
    url = urljoin(base_url, url)
    data = []
    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding
    html = etree.HTML(res.text)
    reverse, last_num = False, None
    for i, a_tag in enumerate(html.xpath("//dl[@class='cat_box']/dd/a")):
        data.append([re.sub("\s+", " ", a_tag.text), a_tag.attrib["href"]])
        nums = re.findall("第(\d+)章", a_tag.text)
        if nums:
            if last_num and int(nums[0]) < last_num:
                reverse = True
            last_num = int(nums[0])
    # 顺序校正并删除后记之后的内容
    if reverse:
        data.reverse()
    return data

测试一下：

title2url = getTitleAndUrl(data.query("名称=='雪山飞狐'").网址.iat[0])
title2url

[['第01章', '/xueshanfeihu/488.html'],
 ['第02章', '/xueshanfeihu/489.html'],
 ['第03章', '/xueshanfeihu/490.html'],
 ['第04章', '/xueshanfeihu/491.html'],
 ['第05章', '/xueshanfeihu/492.html'],
 ['第06章', '/xueshanfeihu/493.html'],
 ['第07章', '/xueshanfeihu/494.html'],
 ['第08章', '/xueshanfeihu/495.html'],
 ['第09章', '/xueshanfeihu/496.html'],
 ['第10章', '/xueshanfeihu/497.html'],
 ['后记', '/xueshanfeihu/498.html']]

可以看到章节已经顺利的正序排列。

每部小说的下载

小说每一章的详细页最后一行的数据我们不需要：

下载每章内容的代码：

def download_page_content(url):
    res = requests.get(url, headers=headers)
    res.encoding = res.apparent_encoding
    html = etree.HTML(res.text)
    content = "\n".join(html.xpath("//div[@class='entry']/p/text()")[:-1])
    return content

然后我们就可以批量下载全部小说了：

import os

def download_one_novel(filename, url):
    "下载单部小说"
    title2url = getTitleAndUrl(url)
    print("创建文件：", filename)
    for title, url in title2url:
        with open(filename, "a", encoding="u8") as f:
            f.write(title)
            f.write("\n\n")
            print("下载：", title)
            content = download_page_content(url)
            f.write(content)
            f.write("\n\n")


os.makedirs("novels", exist_ok=True)
for row in data.itertuples():
    filename = f"novels/{row.名称}.txt"
    os.remove(filename)
    download_one_novel(filename, row.网址)

人物、武功和门派数据整理

为了更好分析金庸小说，我们还需要采集金庸小说的人物、武功和门派，个人并没有找到还可以访问相关数据的网站，于是自行收集整理了相关数据：

相关数据都以如下格式存储，例如金庸小说的人物：

小说1
人物1 人物2 ……
小说2
人物1 人物2 ……
小说3
人物1 人物2 ……

武功：

小说1
武功1 武功2 ……
小说2
武功1 武功2 ……
小说3
武功1 武功2 ……

数据源下载地址：https://gitcode.net/as604049322/blog_data

高频分析

定义一个加载小说的方法：

def load_novel(novel):
    with open(f'novels/{novel}.txt', encoding="u8") as f:
        return f.read()

主角分析

首先我们加载人物数据：

with open('data/names.txt',encoding="utf-8") as f:
    data = [line.rstrip() for line in f]
novels = data[::2]
names = data[1::2]
novel_names = {k: v.split() for k, v in zip(novels, names)}
del novels, names, data

可以预览一下天龙八部中的人物：

print(",".join(novel_names['天龙八部'][:20]))

刀白凤,丁春秋,马夫人,马五德,小翠,于光豪,巴天石,不平道人,邓百川,风波恶,甘宝宝,公冶乾,木婉清,包不同,天狼子,太皇太后,王语嫣,乌老大,无崖子,云岛主

下面我们寻找一下每部小说的主角，统计每个人物的出场次数，显然次数越多主角光环越强，下面我们看看每部小说，出现次数最多的前十个人物：

from collections import Counter


def find_main_charecters(novel, num=10, content=None):
    if content is None:
        content = load_novel(novel)
    count = Counter()
    for name in novel_names[novel]:
        count[name] = content.count(name)
    return count.most_common(num)


for novel in novel_names:
    print(novel, dict(find_main_charecters(novel, 10)))

书剑恩仇录 {'陈家洛': 2095, '张召重': 760, '徐天宏': 685, '霍青桐': 650, '余鱼同': 605, '文泰来': 601, '骆冰': 594, '周绮': 556, '李沅芷': 521, '陆菲青': 486}
碧血剑 {'袁承志': 3028, '何铁手': 306, '温青': 254, '阿九': 215, '洪胜海': 200, '焦宛儿': 197, '皇太极': 183, '崔秋山': 180, '穆人清': 171, '闵子华': 163}
射雕英雄传 {'郭靖': 5009, '黄蓉': 3650, '洪七公': 1041, '黄药师': 868, '周伯通': 654, '欧阳克': 611, '丘处机': 606, '梅超风': 480, '杨康': 439, '柯镇恶': 431}
神雕侠侣 {'杨过': 5991, '小龙女': 2133, '郭靖': 1431, '黄蓉': 1428, '李莫愁': 1016, '郭芙': 850, '郭襄': 778, '陆无双': 575, '周伯通': 555, '赵志敬': 482}
雪山飞狐 {'胡斐': 230, '曹云奇': 228, '宝树': 225, '苗若兰': 217, '胡一刀': 207, '苗人凤': 129, '刘元鹤': 107, '陶子安': 107, '田青文': 103, '范帮主': 83}
飞狐外传 {'胡斐': 2761, '程灵素': 765, '袁紫衣': 425, '苗人凤': 405, '马春花': 331, '福康安': 287, '赵半山': 287, '田归农': 227, '徐铮': 217, '商宝震': 217}
白马啸西风 {'李文秀': 441, '苏普': 270, '阿曼': 164, '苏鲁克': 147, '陈达海': 106, '车尔库': 99, '李三': 31, '丁同': 29, '霍元龙': 23, '桑斯': 22}
倚天屠龙记 {'张无忌': 4665, '赵敏': 1250, '谢逊': 1211, '张翠山': 1146, '周芷若': 825, '殷素素': 550, '杨逍': 514, '张三丰': 451, '灭绝师太': 431, '小昭': 346}
鸳鸯刀 {'萧中慧': 103, '袁冠南': 82, '卓天雄': 76, '周威信': 74, '林玉龙': 52, '任飞燕': 51, '萧半和': 48, '盖一鸣': 45, '逍遥子': 28, '常长风': 19}
天龙八部 {'段誉': 3372, '萧峰': 1786, '虚竹': 1636, '阿紫': 1150, '乔峰': 1131, '阿朱': 986, '慕容复': 925, '王语嫣': 859, '段正淳': 757, '木婉清': 734}
连城诀 {'狄云': 1433, '水笙': 439, '戚芳': 390, '丁典': 364, '万震山': 332, '万圭': 288, '花铁干': 256, '吴坎': 155, '血刀老祖': 144, '戚长发': 117}
侠客行 {'石破天': 1804, '石清': 611, '丁珰': 446, '白万剑': 446, '丁不四': 343, '谢烟客': 337, '闵柔': 327, '贝海石': 257, '丁不三': 217, '白自在': 199}
笑傲江湖 {'令狐冲': 5838, '岳不群': 1184, '林平之': 926, '岳灵珊': 919, '仪琳': 729, '田伯光': 708, '任我行': 525, '向问天': 513, '左冷禅': 473, '方证': 415}
鹿鼎记 {'韦小宝': 9731, '吴三桂': 949, '双儿': 691, '鳌拜': 479, '陈近南': 472, '方怡': 422, '茅十八': 400, '小桂子': 355, '施琅': 296, '吴应熊': 290}
越女剑 {'范蠡': 121, '阿青': 64, '勾践': 47, '薛烛': 29, '西施': 26, '文种': 23, '风胡子': 7}

上述结果用文本展示了每部小说的前5个主角，但是不够直观，下面我用pyecharts的树图展示一下：

from pyecharts import options as opts
from pyecharts.charts import Tree

data = []
for novel in novel_kungfus:
    tmp = []
    data.append({"name": novel, "children": tmp})
    for name, count in find_main_kungfus(novel, 5):
        tmp.append({"name": name, "value": count})
c = (
    TreeMap()
    .add("", data, levels=[
        opts.TreeMapLevelsOpts(),
        opts.TreeMapLevelsOpts(
            color_saturation=[0.3, 0.6],
            treemap_itemstyle_opts=opts.TreeMapItemStyleOpts(
                border_color_saturation=0.7, gap_width=5, border_width=10
            ),
            upper_label_opts=opts.LabelOpts(
                is_show=True, position='insideTopLeft', vertical_align='top'
            )
        ),
    ])
    .set_global_opts(title_opts=opts.TitleOpts(title="金庸小说主角"))
)
c.render_notebook()

显然，《神雕侠侣》中的杨过和小龙女，《天龙八部》中的萧（乔）峰，段誉，虚竹，《射雕英雄传》的郭靖和黄蓉，《倚天屠龙记》的张无忌和赵敏都是主角光环最强的角色。

武功分析

使用上述相同的方法，分析各种武功的出现频次，首先加载武功数据：

with open('data/kungfu.txt', encoding="utf-8") as f:
    data = [line.rstrip() for line in f]
novels = data[::2]
kungfus = data[1::2]
novel_kungfus = {k: v.split() for k, v in zip(novels, kungfus)}
del novels, kungfus, data

定义计数方法：

def find_main_kungfus(novel, num=10, content=None):
    if content is None:
        content = load_novel(novel)
    count = Counter()
    for name in novel_kungfus[novel]:
        count[name] = content.count(name)
    return count.most_common(num)


for novel in novel_kungfus:
    print(novel, dict(find_main_kungfus(novel, 10)))

书剑恩仇录 {'芙蓉金针': 16, '柔云剑术': 15, '百花错拳': 13, '追魂夺命剑': 12, '三分剑术': 12, '八卦刀': 10, '铁琵琶手': 9, '无极玄功拳': 9, '甩手箭': 7, '黑沙掌': 7}
侠客行 {'雪山剑法': 46, '金乌刀法': 33, '碧针清掌': 8, '五行六合掌': 8, '梅花拳': 8, '罗汉伏魔神功': 3, '无妄神功': 1, '神倒鬼跌三连环': 1, '上清快剑': 1, '黑煞掌': 1}
倚天屠龙记 {'七伤拳': 98, '乾坤大挪移': 93, '九阳真经': 46, '玄冥神掌': 43, '龙爪手': 24, '金刚伏魔圈': 21, '千蛛万毒手': 18, '幻阴指': 17, '寒冰绵掌': 16, '真武七截阵': 10}
天龙八部 {'六脉神剑': 148, '生死符': 124, '凌波微步': 77, '化功大法': 52, '北冥神功': 36, '般若掌': 36, '火焰刀': 34, '小无相功': 28, '天山六阳掌': 25, '大金刚拳': 24}
射雕英雄传 {'九阴真经': 191, '铁掌': 169, '降龙十八掌': 92, '打狗棒法': 47, '蛤蟆功': 39, '空明拳': 25, '一阳指': 22, '先天功': 14, '双手互搏': 13, '杨家枪法': 13}
碧血剑 {'伏虎掌': 30, '混元功': 23, '两仪剑法': 21, '神行百变': 18, '蝎尾鞭': 12, '破玉拳': 9, '金蛇剑法': 5, '软红蛛索': 4, '混元掌': 4, '斩蛟拳': 4}
神雕侠侣 {'玉女素心剑法': 25, '黯然销魂掌': 19, '五毒神掌': 18, '龙象般若功': 12, '玉箫剑法': 10, '七星聚会': 8, '美女拳法': 8, '天罗地网势': 7, '上天梯': 5, '三无三不手': 4}
笑傲江湖 {'辟邪剑法': 160, '独孤九剑': 80, '吸星大法': 67, '紫霞神功': 36, '易筋经': 33, '嵩山剑法': 33, '华山剑法': 30, '玉女剑十九式': 20, '恒山剑法': 20, '无双无对，宁氏一剑': 13}
连城诀 {'连城剑法': 29, '神照经': 23, '六合拳': 4}
雪山飞狐 {'胡家刀法': 8, '苗家剑法': 7, '龙爪擒拿手': 5, '追命毒龙锥': 2, '大擒拿手': 2, '飞天神行': 1}
飞狐外传 {'西岳华拳': 26, '八极拳': 20, '八仙剑法': 8, '四象步': 6, '燕青拳': 5, '赤尻连拳': 5, '一路华拳': 4, '金刚拳': 3, '毒砂掌': 3, '四门刀法': 2}
鸳鸯刀 {'夫妻刀法': 17, '呼延十八鞭': 6, '震天三十掌': 1}
鹿鼎记 {'化骨绵掌': 24, '拈花擒拿手': 12, '大慈大悲千叶手': 11, '沐家拳': 11, '八卦游龙掌': 10, '少林长拳': 7, '金刚护体神功': 5, '波罗蜜手': 4, '散花掌': 3, '金刚神掌': 2}

每部小说频次前5的武功可视化：

from pyecharts import options as opts
from pyecharts.charts import Tree

data = []
for novel in novel_kungfus:
    tmp = []
    data.append({"name": novel, "children": tmp})
    for name, count in find_main_kungfus(novel, 5):
        tmp.append({"name": name, "value": count})
c = (
    TreeMap()
    .add("", data, levels=[
        opts.TreeMapLevelsOpts(),
        opts.TreeMapLevelsOpts(
            color_saturation=[0.3, 0.6],
            treemap_itemstyle_opts=opts.TreeMapItemStyleOpts(
                border_color_saturation=0.7, gap_width=5, border_width=10
            ),
            upper_label_opts=opts.LabelOpts(
                is_show=True, position='insideTopLeft', vertical_align='top'
            )
        ),
    ])
    .set_global_opts(title_opts=opts.TitleOpts(title="金庸高频武功"))
)
c.render_notebook()

门派分析

加载数据并获取每部小说前10的门派：

with open('data/bangs.txt', encoding="utf-8") as f:
    data = [line.rstrip() for line in f]
novels = data[::2]
bangs = data[1::2]
novel_bangs = {k: v.split() for k, v in zip(novels, bangs) if k != "未知"}
del novels, bangs, data


def find_main_bangs(novel, num=10, content=None):
    if content is None:
        content = load_novel(novel)
    count = Counter()
    for name in novel_bangs[novel]:
        count[name] = content.count(name)
    return count.most_common(num)


for novel in novel_bangs:
    print(novel, dict(find_main_bangs(novel, 10)))

书剑恩仇录 {'红花会': 394, '言家拳': 7, '龙门帮': 7, '天山派': 5, '嵩阳派': 3, '南少林': 3}
侠客行 {'雪山派': 358, '长乐帮': 242, '侠客岛': 143, '金乌派': 48, '摩天崖': 38, '玄素庄': 37, '金刀寨': 25}
倚天屠龙记 {'明教': 738, '峨嵋派': 289, '天鹰教': 224, '昆仑派': 130, '龙门镖局': 85, '崆峒派': 83, '海沙派': 58, '巨鲸帮': 37, '神拳门': 20, '波斯明教': 16}
天龙八部 {'丐帮': 562, '星宿派': 203, '灵鹫宫': 157, '姑苏慕容': 150, '无量剑': 83, '逍遥派': 77, '大理段氏': 75, '青城派': 65, '蓬莱派': 23, '伏牛派': 8}
射雕英雄传 {'桃花岛': 289, '全真教': 99, '铁掌帮': 87, '仙霞派': 5}
白马啸西风 {'晋威镖局': 5}
碧血剑 {'仙都派': 51, '金龙帮': 47, '青竹帮': 45, '渤海派': 8, '永胜镖局': 6, '点苍派': 4, '飞虎寨': 4, '会友镖局': 2, '东支': 2, '千柳庄': 2}
神雕侠侣 {'绝情谷': 128, '古墓派': 87}
笑傲江湖 {'恒山派': 552, '华山派': 521, '嵩山派': 297, '五岳剑派': 281, '泰山派': 137, '衡山派': 102, '福威镖局': 102, '日月神教': 64, '武当派': 46, '金刀王家': 20}
连城诀 {'血刀门': 24}
雪山飞狐 {'平通镖局': 7, '饮马川山寨': 4, '青藏派': 2, '无极门': 2, '百会寺': 1}
飞狐外传 {'韦陀门': 49, '八卦门': 31, '天龙门': 24, '太极门': 22, '飞马镖局': 19, '五虎门': 16, '少林派': 15, '枫叶庄': 8, '镇远镖局': 2}
鸳鸯刀 {'威信镖局': 5}
鹿鼎记 {'天地会': 542, '神龙教': 161, '少林寺': 155, '清凉寺': 116, '王屋派': 38, '铁剑门': 12, '金顶门': 8, '武夷派': 3}

可视化：

from pyecharts import options as opts
from pyecharts.charts import Tree

data = []
for novel in novel_bangs:
    tmp = []
    data.append({"name": novel, "children": tmp})
    for name, count in find_main_bangs(novel, 5):
        tmp.append({"name": name, "value": count})
c = (
    TreeMap()
    .add("", data, levels=[
        opts.TreeMapLevelsOpts(),
        opts.TreeMapLevelsOpts(
            color_saturation=[0.3, 0.6],
            treemap_itemstyle_opts=opts.TreeMapItemStyleOpts(
                border_color_saturation=0.7, gap_width=5, border_width=10
            ),
            upper_label_opts=opts.LabelOpts(
                is_show=True, position='insideTopLeft', vertical_align='top'
            )
        ),
    ])
    .set_global_opts(title_opts=opts.TitleOpts(title="金庸高频门派"))
)
c.render_notebook()

还可以测试一下树形图：

from pyecharts.charts import Tree

c = (
    Tree()
    .add("", [{"name": "门派", "children": data}], layout="radial")
)
c.render_notebook()

综合统计

下面我们编写一个函数，输入一部小说名，可以输出其最高频的主角、武功和门派：

from pyecharts import options as opts
from pyecharts.charts import Bar

def show_top10(novel):
    content = load_novel(novel)
    charecters = find_main_charecters(novel, 10, content)[::-1]
    k, v = map(list, zip(*charecters))
    c = (
        Bar(init_opts=opts.InitOpts("720px", "320px"))
        .add_xaxis(k)
        .add_yaxis("", v)
        .reversal_axis()
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .set_global_opts(title_opts=opts.TitleOpts(title=f"{novel}主角"))
    )
    display(c.render_notebook())
    kungfus = find_main_kungfus(novel, 10, content)[::-1]
    k, v = map(list, zip(*kungfus))
    c = (
        Bar(init_opts=opts.InitOpts("720px", "320px"))
        .add_xaxis(k)
        .add_yaxis("", v)
        .reversal_axis()
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .set_global_opts(title_opts=opts.TitleOpts(title=f"{novel}功夫"))
    )
    display(c.render_notebook())
    bangs = find_main_bangs(novel, 10, content)[::-1]
    k, v = map(list, zip(*bangs))
    c = (
        Bar(init_opts=opts.InitOpts("720px", "320px"))
        .add_xaxis(k)
        .add_yaxis("", v)
        .reversal_axis()
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .set_global_opts(title_opts=opts.TitleOpts(title=f"{novel}门派"))
    )
    display(c.render_notebook())

例如查看天龙八部：

show_top10("天龙八部")

词云图分析

可以先添加所有的人物、武功和门派作为自定义词汇：

import jieba

for novel, names in novel_names.items():
    for name in names:
        jieba.add_word(name)

for novel, kungfus in novel_kungfus.items():
    for kungfu in kungfus:
        jieba.add_word(kungfu)
        
for novel, bangs in novel_bangs.items():
    for bang in bangs:
        jieba.add_word(bang)

文章整体词云查看

这里我们仅提取词长度不小于4的成语、俗语和短语进行分析，以天龙八部这部小说为例：

from IPython.display import Image
import stylecloud
import jieba
import re

# 去除非中文字符
text = re.sub("[^一-龟]+", " ", load_novel("天龙八部"))
words = [word for word in jieba.cut(text) if len(word) >= 4]
stylecloud.gen_stylecloud(" ".join(words),
                          collocations=False,
                          font_path=r'C:\Windows\Fonts\msyhbd.ttc',
                          icon_name='fas fa-square',
                          output_name='tmp.png')
Image(filename='tmp.png')

修改上述代码，查看《射雕英雄传》：

神雕侠侣：

主角相关剧情词云

我们知道《神雕侠侣》这部小说最重要的主角是杨过和小龙女，我们可能会对于杨过和小龙女之间所发生的故事很感兴趣。如果通过程序快速了解呢？

我们考虑把《神雕侠侣》这部小说每一段中出现杨过及小龙女的段落进行jieba分词并制作词云。

同样我们只看4个字以上的词：

data = []
for line in load_novel("神雕侠侣").splitlines():
    if "杨过" in line and "小龙女" in line:
        line = re.sub("[^一-龟]+", " ", line)
        data.extend(word for word in jieba.cut(line) if len(word) >= 4)
stylecloud.gen_stylecloud(" ".join(data),
                          collocations=False,
                          font_path=r'C:\Windows\Fonts\msyhbd.ttc',
                          icon_name='fas fa-square',
                          output_name='tmp.png')
Image(filename='tmp.png')

这里的每一个词都能联想到发生在杨过和小龙女背后的一个故事。

同样的思路看看郭靖和黄蓉：

data = []
for line in load_novel("射雕英雄传").splitlines():
    if "郭靖" in line and "黄蓉" in line:
        line = re.sub("[^一-龟]+", " ", line)
        data.extend(word for word in jieba.cut(line) if len(word) >= 4)
stylecloud.gen_stylecloud(" ".join(data),
                          collocations=False,
                          font_path=r'C:\Windows\Fonts\msyhbd.ttc',
                          icon_name='fas fa-square',
                          output_name='tmp.png')
Image(filename='tmp.png')

最后我们看看天龙八部的三兄弟相关的词云：

data = []
for line in load_novel("天龙八部").splitlines():
    if ("萧峰" in line or "乔峰" in line) and "段誉" in line and "虚竹" in line:
        line = re.sub("[^一-龟]+", " ", line)
        data.extend(word for word in jieba.cut(line) if len(word) >= 4)
stylecloud.gen_stylecloud(" ".join(data),
                          collocations=False,
                          font_path=r'C:\Windows\Fonts\msyhbd.ttc',
                          icon_name='fas fa-square',
                          output_name='tmp.png')
Image(filename='tmp.png')

关系图分析

人物关系分析

金庸小说15部小说中预计出现了1400个以上的角色，下面我们将遍历小说的每一段，在一段中出现的任意两个角色，都计数1。最终我们取出现频次最高的前200个关系对进行可视化。

完整代码如下：

from pyecharts import options as opts
from pyecharts.charts import Graph
import math
import itertools

count = Counter()
for novel in novel_names:
    names = novel_names[novel]
    re_rule = f"({'|'.join(names)})"
    for line in load_novel(novel).splitlines():
        names = list(set(re.findall(re_rule, line)))
        if names and len(names) >= 2:
            names.sort()
            for s, t in itertools.combinations(names, 2):
                count[(s, t)] += 1
count = count.most_common(200)
node_count, nodes, links = Counter(), [], []
for (n1, n2), v in count:
    node_count[n1] += 1
    node_count[n2] += 1
    links.append({"source": n1, "target": n2})
for node, count in node_count.items():
    nodes.append({"name": node, "symbolSize": int(math.log(count)*5)+5})
c = (
    Graph(init_opts=opts.InitOpts("1280px","960px"))
    .add("", nodes, links, repulsion=30)
)
c.render("tmp.html")

这次我们生成了HTML文件是为了更方便的查看结果，前200个人物的关系情况如下：

门派关系分析

按照相同的方法分析所有小说的门派关系：

from pyecharts import options as opts
from pyecharts.charts import Graph
import math
import itertools

count = Counter()
for novel in novel_bangs:
    bangs = novel_bangs[novel]
    re_rule = f"({'|'.join(bangs)})"
    for line in load_novel(novel).splitlines():
        names = list(set(re.findall(re_rule, line)))
        if names and len(names) >= 2:
            names.sort()
            for s, t in itertools.combinations(names, 2):
                count[(s, t)] += 1
count = count.most_common(200)
node_count, nodes, links = Counter(), [], []
for (n1, n2), v in count:
    node_count[n1] += 1
    node_count[n2] += 1
    links.append({"source": n1, "target": n2})
for node, count in node_count.items():
    nodes.append({"name": node, "symbolSize": int(math.log(count)*5)+5})
c = (
    Graph(init_opts=opts.InitOpts("1280px","960px"))
    .add("", nodes, links, repulsion=50)
)
c.render("tmp2.html")

Word2Vec分析

Word2Vec 是一款将词表征为实数值向量的高效工具，接下来，我们将使用它来处理这些小说。

gensim 包提供了一个 Python 版的实现。

源代码地址：https://github.com/RaRe-Technologies/gensim
官方文档地址：http://radimrehurek.com/gensim/

之前我有使用gensim 包进行了相似文本的匹配，有兴趣可查阅：《批量模糊匹配的三种方法》

Word2Vec训练模型

首先我要将所有小说的段落分词后添加到组织到一起（前面的程序可以重启）：

import jieba


def load_novel(novel):
    with open(f'novels/{novel}.txt', encoding="u8") as f:
        return f.read()


with open('data/names.txt', encoding="utf-8") as f:
    data = f.read().splitlines()
    novels = data[::2]
    names = []
    for line in data[1::2]:
        names.extend(line.split())

with open('data/kungfu.txt', encoding="utf-8") as f:
    data = f.read().splitlines()
    kungfus = []
    for line in data[1::2]:
        kungfus.extend(line.split())

with open('data/bangs.txt', encoding="utf-8") as f:
    data = f.read().splitlines()
    bangs = []
    for line in data[1::2]:
        bangs.extend(line.split())

for name in names:
    jieba.add_word(name)
for kungfu in kungfus:
    jieba.add_word(kungfu)
for bang in bangs:
    jieba.add_word(bang)
    
# 去重
names = list(set(names))
kungfus = list(set(kungfus))
bangs = list(set(bangs))
    
sentences = []
for novel in novels:
    print(f"处理：{novel}")
    for line in load_novel(novel).splitlines():
        sentences.append(jieba.lcut(line))

处理：书剑恩仇录
处理：碧血剑
处理：射雕英雄传
处理：神雕侠侣
处理：雪山飞狐
处理：飞狐外传
处理：白马啸西风
处理：倚天屠龙记
处理：鸳鸯刀
处理：天龙八部
处理：连城诀
处理：侠客行
处理：笑傲江湖
处理：鹿鼎记
处理：越女剑

接下面我们使用Word2Vec训练模型：

import gensim

model = gensim.models.Word2Vec(sentences)

我这边模型训练耗时15秒，若训练耗时较长可以把训练好的模型存到本地：

model.save("louis_cha.model")

以后可以直接从本地磁盘读取模型：

model = gensim.models.Word2Vec.load("louis_cha.model")

有了模型，我们可以进行一些简单而有趣的测试。

注意：每次生成的模型有一定随机性，后续结果根据生成的模型而变化，并非完全一致。

相似角色、门派和武功

首先看与乔(萧)峰相似的角色：

model.wv.most_similar(positive=["乔峰", "萧峰"])

[('段正淳', 0.8006908893585205),
 ('张翠山', 0.8000873923301697),
 ('虚竹', 0.7957292795181274),
 ('赵敏', 0.7937390804290771),
 ('游坦之', 0.7803780436515808),
 ('石破天', 0.777414858341217),
 ('令狐冲', 0.7761642932891846),
 ('慕容复', 0.7629764676094055),
 ('贝海石', 0.7625609040260315),
 ('钟万仇', 0.7612598538398743)]

再看看与阿朱相似的角色：

model.wv.most_similar(positive=["阿朱", "蛛儿"])

[('殷素素', 0.8681862354278564),
 ('赵敏', 0.8558328747749329),
 ('木婉清', 0.8549383878707886),
 ('王语嫣', 0.8355365991592407),
 ('钟灵', 0.8338050842285156),
 ('小昭', 0.8316497206687927),
 ('阿紫', 0.8169034123420715),
 ('程灵素', 0.8153879642486572),
 ('周芷若', 0.8046135306358337),
 ('段誉', 0.8006759285926819)]

除了角色，我们还可以看看门派：

model.wv.most_similar(positive=["丐帮"])

[('恒山派', 0.8266139626502991),
 ('门人', 0.8158190846443176),
 ('天地会', 0.8078100085258484),
 ('雪山派', 0.8041207194328308),
 ('魔教', 0.7935695648193359),
 ('嵩山派', 0.7908961772918701),
 ('峨嵋派', 0.7845258116722107),
 ('红花会', 0.7830792665481567),
 ('星宿派', 0.7826651930809021),
 ('长乐帮', 0.7759961485862732)]

还可以看看与降龙十八掌相似的武功秘籍：

model.wv.most_similar(positive=["降龙十八掌"])

[('空明拳', 0.9040402770042419),
 ('打狗棒法', 0.9009960293769836),
 ('太极拳', 0.8992120623588562),
 ('八卦掌', 0.8909589648246765),
 ('一阳指', 0.8891675472259521),
 ('七十二路', 0.8713394999504089),
 ('绝招', 0.8693119287490845),
 ('胡家刀法', 0.8578060865402222),
 ('六脉神剑', 0.8568121194839478),
 ('七伤拳', 0.8560649156570435)]

在 Word2Vec 的模型里，有过“中国-北京=法国-巴黎”的例子，我们看看"段誉"和"段公子"类似于乔峰和什么的关系呢？

def find_relationship(a, b, c):
    d, _ = model.wv.most_similar(positive=[b, c], negative=[a])[0]
    print(f"{a}-{b} 犹如 {c}-{d}")


find_relationship("段誉", "段公子", "乔峰")

段誉-段公子 犹如 乔峰-乔帮主

类似的还有：

# 情侣对
find_relationship("郭靖", "黄蓉", "杨过")
# 岳父女婿
find_relationship("令狐冲", "任我行", "郭靖")
# 非情侣
find_relationship("郭靖", "华筝", "杨过")

郭靖-黄蓉 犹如 杨过-小龙女
令狐冲-任我行 犹如 郭靖-黄药师
郭靖-华筝 犹如 杨过-郭芙

查看韦小宝相关的关系：

# 韦小宝
find_relationship("杨过", "小龙女", "韦小宝")
find_relationship("令狐冲", "盈盈", "韦小宝")
find_relationship("张无忌", "赵敏", "韦小宝")
find_relationship("郭靖", "黄蓉", "韦小宝")

杨过-小龙女 犹如 韦小宝-康熙
令狐冲-盈盈 犹如 韦小宝-方怡
张无忌-赵敏 犹如 韦小宝-阿紫
郭靖-黄蓉 犹如 韦小宝-丁珰

门派武功之间的关系：

find_relationship("郭靖", "降龙十八掌", "黄蓉")
find_relationship("武当", "张三丰", "少林")
find_relationship("任我行", "魔教", "令狐冲")

郭靖-降龙十八掌 犹如 黄蓉-打狗棒法
武当-张三丰 犹如 少林-玄慈
任我行-魔教 犹如 令狐冲-恒山派

聚类分析

人物聚类分析

之前我们使用 Word2Vec 将每个词映射到了一个向量空间，因此，我们可以利用这个向量表示的空间，对这些词进行聚类分析。

首先取出所有角色对应的向量空间：

all_names = []
word_vectors = []
for name in names:
    if name in model.wv:
        all_names.append(name)
        word_vectors.append(model.wv[name])
all_names = np.array(all_names)
word_vectors = np.vstack(word_vectors)

聚类算法有很多，这里我们使用基本的Kmeans算法进行聚类，如果只分成3类，那么很明显地可以将众人分成主角，配角，跑龙套的三类：

from sklearn.cluster import KMeans
import pandas as pd

N = 3
labels = KMeans(N).fit(word_vectors).labels_
df = pd.DataFrame({"name": all_names, "label": labels})
for label, names in df.groupby("label").name:
    print(f"类别{label}共{len(names)}个角色，前100个角色有：\n{','.join(names[:100])}\n")

类别0共103个角色，前100个角色有：
李秋水,向问天,马钰,顾金标,丁不四,耶律齐,谢烟客,陈正德,殷天正,洪凌波,灵智上人,闵柔,公孙止,完颜萍,梅超风,鸠摩智,冲虚,冯锡范,尹克西,陆冠英,王剑英,左冷禅,商老太,尹志平,徐铮,灭绝师太,风波恶,袁紫衣,殷梨亭,宋青书,阿九,韩小莹,乌老大,杨康,何铁手,范遥,朱聪,郝大通,周仲英,风际中,何太冲,张召重,一灯大师,田归农,尼摩星,霍都,潇湘子,梅剑和,南希仁,玄难,纪晓芙,韩宝驹,邓百川,裘千尺,朱子柳,宋远桥,渡难,俞岱岩,武三通,云中鹤,余沧海,花铁干,杨逍,段延庆,巴天石,东方不败,归辛树,梁子翁,赵志敬,韦一笑,赵半山,丘处机,武修文,侯通海,鲁有脚,石清,彭连虎,胖头陀,达尔巴,裘千仞,金花婆婆,金轮法王,木高峰,苗人凤,任我行,王处一,柯镇恶,樊一翁,黄药师,欧阳克,张三丰,曹云奇,沙通天,文泰来,白万剑,鹿杖客,陆菲青,班淑娴,商宝震,全金发

类别1共6个角色，前100个角色有：
渔人,汉子,少妇,胖子,大汉,农夫

类别2共56个角色，前100个角色有：
张无忌,余鱼同,慕容复,木婉清,田伯光,郭襄,周伯通,陈家洛,乔峰,张翠山,丁珰,游坦之,岳不群,黄蓉,洪七公,岳灵珊,周芷若,马春花,杨过,阿紫,阿朱,赵敏,令狐冲,段正淳,水笙,石破天,徐天宏,程灵素,林平之,双儿,郭靖,袁承志,胡斐,陆无双,狄云,霍青桐,王语嫣,萧峰,李沅芷,骆冰,李莫愁,周绮,丁典,韦小宝,段誉,戚芳,小龙女,钟灵,殷素素,李文秀,谢逊,穆念慈,郭芙,方怡,仪琳,虚竹

类别3共236个角色，前100个角色有：
空智,章进,澄观,薛鹊,秃笔翁,曲非烟,田青文,郭啸天,陆大有,方证,阿碧,陶子安,吴三桂,钱老本,马行空,洪胜海,张勇,瑞大林,包不同,慕容景岳,康广陵,施琅,陆高轩,袁冠南,张康年,桃花仙,定逸,执法长老,范蠡,钟镇,陈达海,桃根仙,阿曼,李四,札木合,吴之荣,哈合台,传功长老,卓天雄,茅十八,风清扬,崔希敏,方生,王进宝,葛尔丹,常金鹏,秦红棉,薛慕华,侍剑,孙仲寿,范一飞,归二娘,孙不二,吴六奇,杨铁心,万震山,单正,玄寂,武敦儒,刘正风,西华子,樊纲,店伴,何足道,小昭,孙婆婆,苏普,谭婆,朱九真,耶律洪基,圆真,萧中慧,都大锦,司马林,叶二娘,安大娘,张三,杨成协,掌棒龙头,福康安,玉林,顾炎武,马超兴,殷离,莫声谷,郑萼,桃干仙,华筝,计无施,苏鲁克,费要多罗,苏荃,玄慈,卫璧,马光佐,常遇春,沐剑声,包惜弱,朱长龄,褚万里

我们可以根据每个类别的角色数量的相对大小，判断该类别的角色是属于主角，配角还是跑龙套。

下面我们过滤掉众龙套角色之后，重新聚合成四类：

c = pd.Series(labels).mode().iat[0]
remain_names = all_names[labels != c]
remain_vectors = word_vectors[labels != c]
remain_label = KMeans(4).fit(remain_vectors).labels_
df = pd.DataFrame({"name": remain_names, "label": remain_label})
for label, names in df.groupby("label").name:
    print(f"类别{label}共{len(names)}个角色，前100个角色有：\n{','.join(names[:100])}\n")

类别0共103个角色，前100个角色有：
李秋水,向问天,马钰,顾金标,丁不四,耶律齐,谢烟客,陈正德,殷天正,洪凌波,灵智上人,闵柔,公孙止,完颜萍,梅超风,鸠摩智,冲虚,冯锡范,尹克西,陆冠英,王剑英,左冷禅,商老太,尹志平,徐铮,灭绝师太,风波恶,袁紫衣,殷梨亭,宋青书,阿九,韩小莹,乌老大,杨康,何铁手,范遥,朱聪,郝大通,周仲英,风际中,何太冲,张召重,一灯大师,田归农,尼摩星,霍都,潇湘子,梅剑和,南希仁,玄难,纪晓芙,韩宝驹,邓百川,裘千尺,朱子柳,宋远桥,渡难,俞岱岩,武三通,云中鹤,余沧海,花铁干,杨逍,段延庆,巴天石,东方不败,归辛树,梁子翁,赵志敬,韦一笑,赵半山,丘处机,武修文,侯通海,鲁有脚,石清,彭连虎,胖头陀,达尔巴,裘千仞,金花婆婆,金轮法王,木高峰,苗人凤,任我行,王处一,柯镇恶,樊一翁,黄药师,欧阳克,张三丰,曹云奇,沙通天,文泰来,白万剑,鹿杖客,陆菲青,班淑娴,商宝震,全金发

类别1共6个角色，前100个角色有：
渔人,汉子,少妇,胖子,大汉,农夫

类别2共56个角色，前100个角色有：
张无忌,余鱼同,慕容复,木婉清,田伯光,郭襄,周伯通,陈家洛,乔峰,张翠山,丁珰,游坦之,岳不群,黄蓉,洪七公,岳灵珊,周芷若,马春花,杨过,阿紫,阿朱,赵敏,令狐冲,段正淳,水笙,石破天,徐天宏,程灵素,林平之,双儿,郭靖,袁承志,胡斐,陆无双,狄云,霍青桐,王语嫣,萧峰,李沅芷,骆冰,李莫愁,周绮,丁典,韦小宝,段誉,戚芳,小龙女,钟灵,殷素素,李文秀,谢逊,穆念慈,郭芙,方怡,仪琳,虚竹

类别3共236个角色，前100个角色有：
空智,章进,澄观,薛鹊,秃笔翁,曲非烟,田青文,郭啸天,陆大有,方证,阿碧,陶子安,吴三桂,钱老本,马行空,洪胜海,张勇,瑞大林,包不同,慕容景岳,康广陵,施琅,陆高轩,袁冠南,张康年,桃花仙,定逸,执法长老,范蠡,钟镇,陈达海,桃根仙,阿曼,李四,札木合,吴之荣,哈合台,传功长老,卓天雄,茅十八,风清扬,崔希敏,方生,王进宝,葛尔丹,常金鹏,秦红棉,薛慕华,侍剑,孙仲寿,范一飞,归二娘,孙不二,吴六奇,杨铁心,万震山,单正,玄寂,武敦儒,刘正风,西华子,樊纲,店伴,何足道,小昭,孙婆婆,苏普,谭婆,朱九真,耶律洪基,圆真,萧中慧,都大锦,司马林,叶二娘,安大娘,张三,杨成协,掌棒龙头,福康安,玉林,顾炎武,马超兴,殷离,莫声谷,郑萼,桃干仙,华筝,计无施,苏鲁克,费要多罗,苏荃,玄慈,卫璧,马光佐,常遇春,沐剑声,包惜弱,朱长龄,褚万里

每次运行结果都不一样，大家可以调整类别数量继续测试。从结果可以看到，反派更倾向于被聚合到一起，非正常姓名的人物更倾向于被聚合在一起，主角更倾向于被聚合在一起。

人物层级聚类

现在我们采用层级聚类的方式，查看人物间的层次关系，这里同样龙套角色不再参与聚类。

层级聚类调用 scipy.cluster.hierarchy 中层级聚类的包，在此之前先解决matplotlib中文乱码问题：

import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

接下来调用代码为：

import scipy.cluster.hierarchy as sch

y = sch.linkage(remain_vectors, method="ward")
_, ax = plt.subplots(figsize=(10, 80))
z = sch.dendrogram(y, orientation='right')
idx = z['leaves']
ax.set_xticks([])
ax.set_yticklabels(remain_names[idx], fontdict={'fontsize': 12})
ax.set_frame_on(False)

plt.show()

然后我们可以得到金庸小说宇宙的人物层次关系地图，结果较长仅展示一部分结果：

当然所有小说混合产生的平行宇宙中，人物关系变得有些混乱，读者有兴趣可以拿单本小说作层次分析，就可以得到较为准确的人物层次关系。

武功层级聚类

对各种武功作与人物层次聚类相同的操作：

all_names = []
word_vectors = []
for name in kungfus:
    if name in model.wv:
        all_names.append(name)
        word_vectors.append(model.wv[name])
all_names = np.array(all_names)
word_vectors = np.vstack(word_vectors)

Y = sch.linkage(word_vectors, method="ward")

_, ax = plt.subplots(figsize=(10, 40))
Z = sch.dendrogram(Y, orientation='right')
idx = Z['leaves']
ax.set_xticks([])
ax.set_yticklabels(all_names[idx], fontdict={'fontsize': 12})
ax.set_frame_on(False)
plt.show()

结果较长，仅展示部分结果：

可以看到，比较少的黄色部分明显是主角比较厉害的武功，而绿色比较多的部分基本都是配角的武功。

门派层次聚类

最后我们对门派进行层次聚类：

all_names = []
word_vectors = []
for name in bangs:
    if name in model.wv:
        all_names.append(name)
        word_vectors.append(model.wv[name])
all_names = np.array(all_names)
word_vectors = np.vstack(word_vectors)

Y = sch.linkage(word_vectors, method="ward")

_, ax = plt.subplots(figsize=(10, 25))
Z = sch.dendrogram(Y, orientation='right')
idx = Z['leaves']
ax.set_xticks([])
ax.set_yticklabels(all_names[idx], fontdict={'fontsize': 12})
ax.set_frame_on(False)
plt.show()

比较少的这一类，基本都是在某几部小说中出现的主要门派，而大多数门派都是打酱油的。

总结

本文从金庸小说数据的采集，到普通的频次分析、剧情分析、关系分析，再到使用词向量空间分析相似关系，最后使用scipy进行所有小说的各种层次聚类。

基于网络爬虫的数据采集
基于pandas的数据统计分析
基于pyeharts库的可视化分析
基于Word2Vec的词向量分析
基于sklearn.cluster的聚类分析

推荐阅读

3种方案 | 抛弃for循环，让Python代码更丝滑 !
在 Windows上写 Python 代码的最佳组合！
Python招聘岗位信息聚合系统（拥有爬虫爬取、数据分析、可视化、互动等功能）
太全了！用Python操作MySQL的使用教程集锦！

你可能感兴趣的:(聚类,python,机器学习,数据分析,大数据)

Python中常见的几种输出形式 .zhy. Python python 开发语言
目录一、标准输出（print函数）特点适用场景二、格式化占位符输出（%操作符）特点适用场景三、格式化输出（str.format()方法）特点适用场景四、格式化字符串常量输出（f-string）特点适用场景五、总结一、标准输出（print函数）这是最基本的输出方式，使用print函数简单直观，适用于快速输出数据。print函数可以输出多种类型的数据，如字符串、数字、列表等，并且默认在输出结束后换行。
如何用一分钟画出生日蛋糕【Python】时光-小巷 python项目 python pygame 开发语言
看到网上有很多用Python画蛋糕的代码，但觉得它们执行效率比较低，代码重复率也比较高，所以对代码做了很多改动，不过蛋糕样式跟网上是一样的。运行效果的视频可以去b站观看，id也是“时光-小巷”，以后也会在CSDN发实用项目的代码，喜欢的小伙伴们可以关注一下~一、最终效果图二、代码importturtleast#导入turtle内置模块，t变成turtle的别名importmathasm#移动海龟的
【Python报错已解决】NameError: name ‘python‘ is not defined HoRain云小助手 python python 开发语言
很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨目录引言：一、问题描述：1.1报错示例：1.2报错分析：1.3解决思路：二、解决方法：2.1方法一：定义变量2.2方法二：检查变量名拼写2.3方法三：确认变量作用域2.4方法四：检查模
chrome小恐龙游戏【Python】时光-小巷 python项目游戏 python pygame
一、游戏效果图（1）运行时（2）结束后二、具体代码importpygamefrompygame.localsimport*#导入pygame的常量importsysimporttimeimportrandom#各个图片的位置bg_site=[(0,0),(640,0)]#背景1和2的位置dino_site=[45,125]#恐龙的位置ca_site=[(-52,117),(-52,130)]#仙人
linux Tencent/tgfx 源码编译运行bug linux 运维服务器 c++arm 图形渲染
一、armuoswait环境太难二、x86ubuntu24成功1、前置条件安装gcc/g++:系统中用sudoaptinstallgccg++安装，安装后的版本号为：13.2.0；gdb环境确认：系统自带，GNUgdb(Ubuntu15.0.50.20240403-0ubuntu1)；安装make:系统中用sudoaptinstallmake安装，安装后的版本号为：4.3；python环境确认：系
3.1-python爬虫之文件存储 Nosimper python爬虫学习笔记字符串列表 python csv json
系列文章目录python爬虫目录文章目录系列文章目录前言一、json文件处理1、什么是json2、JSON支持数据格式3、字典和列表转JSONpython对象转json字符串:dumpspython对象转json文件:dumpjson字符串转成Python对象：loadsjson文件转成Python对象：load二、csv文件处理1、什么是csv2、CSV读写操作python数据写到csv文件读取
python编程入门电子书-Python编程从入门到实践PDF电子书编程大乐趣
本书的第一部分介绍编写Python程序所需要熟悉的基本概念，其中很多都适用于所有编程语言，因此它们在你的整个程序员生涯中都很有用。第1章介绍在计算机中安装Python，并运行第一个程序——它在屏幕上打印消息"Helloworld！”。第2章论述如何在变量中存储信息以及如何使用文本和数字。第3章和第4章介绍列表。使用列表能够在一个变量中存储任意数量的信息，从而高效地处理数据：只需几行代码，你就能够处
第21篇：python编程进阶：python数据库基础详解猿享天开 python从入门到精通 python 数据库开发语言
第21篇：数据库基础内容简介在现代应用开发中，数据库是存储和管理数据的核心组件。本篇文章将介绍关系型数据库与非关系型数据库的基本概念和区别，深入探讨SQL的基础知识，并展示如何使用Python连接和操作常见的数据库系统，如MySQL和PostgreSQL。通过理论与实践相结合的方式，您将全面掌握数据库的基本原理和实际应用技能，为构建高效、可靠的数据驱动型应用打下坚实的基础。目录数据库概述什么是数据
MySQL 导出数据 lsx202406 开发语言
MySQL导出数据在数据库管理中，导出数据是一个常见的操作，它允许用户将数据库中的数据保存到本地文件中，以便进行备份、迁移或数据分析。MySQL作为最流行的开源数据库管理系统之一，提供了多种方式来导出数据。本文将详细介绍如何使用MySQL导出数据，包括使用命令行工具、图形界面工具和编程语言。使用命令行工具导出数据1.mysqldump工具mysqldump是MySQL自带的一个命令行工具，用于备份
机器学习day3 ኈ ቼ ዽ 机器学习人工智能
自定义数据集使用框架的线性回归方法对其进行拟合importmatplotlib.pyplotaspltimporttorchimportnumpyasnp#1.散点输入#1、散点输入#定义输入数据data=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.6],[0
Python文件操作(json、csv、tsv、excel、pickle文件序列化) herosunly 机器学习入门之工具篇 Python新手快速入门 python 文件操作
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了Python文件操作(json、csv、tsv、excel、pickle
Python GUI 编程系列 - 使用 Tkinter 创建图形用户界面 HackMasterX python java 前端编程
在Python中，我们可以使用各种库和框架来创建图形用户界面（GUI），其中一个常用的选择是Tkinter。Tkinter是Python标准库的一部分，提供了创建GUI应用程序所需的工具和组件。本文将介绍如何使用Tkinter创建简单的GUI应用程序，并提供相应的源代码示例。安装TkinterTkinter是Python标准库的一部分，因此无需额外安装即可使用。确保你的Python版本是3.x，然
Apache Hive 聚合函数与 OVER 窗口函数：从基础到高级应用大鳥 sql hive apache hive hadoop
在大数据时代，ApacheHive是处理和分析海量数据的强大工具。Hive提供了丰富的聚合函数和强大的OVER窗口函数，能够帮助我们高效地进行数据分析。本文将综合介绍Hive的聚合函数和OVER窗口函数，结合实际使用场景和代码示例，帮助读者深入理解这些功能，尤其是它们在时间序列分析中的应用。一、Hive聚合函数基础聚合函数是Hive中用于对一组数据进行计算并返回单个值的函数。它们在数据分析中非常常
【2025美赛B题——管理可持续旅游】2025年美国大学生数学建模竞赛思路、代码、论文优化更新中..... 稷下科研社数学建模旅游
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️美赛及概况1找程序网站推荐2公式编辑器、流程图、论文排版325年美赛B题——管理可持续旅游4思路、Python、Matlab代码、论文分享......⛳️美赛及概况详细内容请看文末卡片，有即将开始的美赛思路、配套Python、Matlab代码及成品论文等，美赛论文
华为OD机试Python - 微服务的集成测试 steven_my 华为OD机试 Python 华为od python java c++javascript 华为OD机试算法
微服务的集成测试前言：本专栏将持续更新互联网大厂机试真题，并进行详细的分析与解答，包含完整的代码实现，希望可以帮助到正在努力的你。关于大厂机试流程、面经、面试指导等，如有任何疑问，欢迎联系我，wechat：steven_moda；email：[email protected]；备注：CSDN。题目描述现有n个容器服务，服务的启动可能有一定的依赖性（有些服务启动没有依赖），其次服务自身启动加载会消
Python实现新春烟花（渐变效果）南风过闲庭 pygame python 开发语言
过年了~，给大伙放个电子烟花庆祝一下，祝大家新春快乐！来年：蛇行千里步步高，财聚八方滚滚来！importpygameimportrandomimportmathimportsysfrompygame.localsimport*#初始化pygame.init()pygame.mixer.init()WIDTH,HEIGHT=800,600screen=pygame.display.set_mode(
Python-pptx Placeholders Yohann丶blog python 开发语言
imageMasterPlaceholder对象Classpptx.shapes.placeholder.MasterPlaceholder幻灯片母版上的占位符形状。auto_shape_type标识此自动形状类型的枚举值，例如MSO_SHAPE.ROUNDED_RECTANGLE。如果此形状不是自动形状，则引发ValueError。click_action提供访问点击行为的ActionSetti
大数据治理实战指南：数据质量、合规与治理架构一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着企业数字化转型的加速，大数据已成为驱动业务决策的核心资产。然而，数据治理的缺失或不完善，可能导致数据质量问题、合规风险以及业务价值的流失。大数据治理的目标在于确保数据的可用性、完整性、安全性和合规性，支撑企业的智能化发展。本教程将系统讲解大数据治理的关键概念、技术方法，并提供实际应用案例，帮助企业构建高效的数据治理体系。1.大数据治理概述
python使用 PIL 和 fpdf 将图片转为PDF 阿离牙多 python pdf
1.准备:安装依赖项pipinstallPillowpipinstallfpdf代码如下:fromPILimportImagefromfpdfimportFPDFdefimgToPDF(imgName,outputName):img=Image.open(imgName)ifimg.mode!='RGB':img=img.convert('RGB')pdf=FPDF(unit='pt',forma
办公自动化--python-pptx python-码博士办公自动化 python 办公软件
安装pipinstallpython-pptxpython操作pptx文件frompptximportPresentation创建ppt文件prs=Presentation()#创建ppt文件prs.save('texst01_ppt.pptx')#保存ppt文件创建副件prs1=Presentation('texst01_ppt.pptx')prs1.save('texst01_ppt副件.pp
【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理 lys_828 python科研数据处理及绘图 python 爬虫能源行业标准国家标准
基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理1背景2标准检索平台2.1能源标准化信息平台2.2全国标准信息公共服务平台3标准信息数据的爬取与处理3.1能源标准化信息平台的信息爬取3.2全国标准信息公共服务平台的信息爬取3.3标准信息处理1背景在进行项目背景介绍时，有时需要使用到有关标准进行背书，因此查询某一行业领域的标准信息就是第一步操作。接下来就是以海上风电相
Python多张图片存入PDF：一步步教你实现木头左 python办公自动化 python 钉钉自动化
哈喽，大家好，我是木头左！引言在当今的数字时代，经常需要将多张图片整合成一个PDF文件。无论是为了分享、备份还是打印，PDF都是一个理想的格式。在这篇文章中，我将详细介绍如何使用Python将多张图片存入PDF。准备工作在开始之前，需要确保已经安装了以下库：Pillow：一个强大的图像处理库，用于打开、操作和保存各种图像文件格式。ReportLab：一个用于创建PDF文件的库。你可以通过以下命令安
python实现PDF (附完整源码) 源代码大师 Python实战教程 python pdf 前端
python实现PDF安装ReportLab完整源码示例代码说明使用FPDF生成PDF（可选）安装FPDF2完整源码示例代码说明总结要使用Python生成PDF文件，ReportLab是一个功能强大且广泛使用的库。下面是使用ReportLab生成简单PDF的完整源码示例。安装ReportLab首先，确保已经安装了ReportLab库。你可以使用pip来安装：pipinstallreportlab完
Python的未来 future模块 gftygff
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！转载：http://omencathay.itpub.net/post/30163/414347简单介绍一下python未来将会支持的一些语言特点,虽然Ibm的网站上也有介绍.但是太凌乱了.而且中翻译过后,代码的
华为OD机试E卷 - 最优资源分配/芯片资源占用（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为od 华为OD机试E卷 python java javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述某块业务芯片最小容量单位为1.25G，总容量为M*1.25G，对该芯片资源编号为1，2，…，M。该芯片支持3种不同的配置，分别为A、B、C。配置A：占用容量为1.25*1=1.25G配置B：占用容量为1.25*2=2.5G配置C：占用容量为1.25*8=10G某块板卡上集成了N块上述芯片，对芯片编号为1，2，…，N，各
华为OD机试 - 微服务的集成测试（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为OD 华为od 华为机试算法
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述现在有n个容器服务，服务的启动可能有一定的依赖性（有些服务启动没有依赖），其次服务自身启动加载会消耗一些时间。给你一个nxn的二维矩阵useTime，其中useTime[i][i]=10表示服务i自身启动加载需要消耗10suseTime[i][j]=1表示服务i启动依赖服务j启动完成useTime[i][k]=0表示服
python实现get请求 admin`` Python python http
python——get请求importurllib.requesturl="http://www.csdn.net"response=urllib.request.urlopen(url)#打印请求的状态码print(response.getcode())msg=response.read()#打印请求的网页内容的长度print(len(msg))输出：2001148023Processfinis
sklearn模型评估全景：指标详解与应用实例 2402_85758936 scala 开发语言人工智能
sklearn模型评估全景：指标详解与应用实例在机器学习中，模型评估是衡量算法性能的关键步骤。scikit-learn（简称sklearn）提供了一套全面的模型评估工具，帮助开发者量化模型的准确性、健壮性和其他重要特性。本文将详细介绍sklearn中的模型评估指标，并通过代码示例展示如何应用这些指标。模型评估的重要性模型评估指标是理解和改进模型性能的基础。它们可以提供以下信息：准确性：模型预测的准
Python进行HTTP GET请求华科℡云微服务云原生自动化
在Python编程中，HTTPGET请求是获取网络资源的一种常用方式。GET请求通过向服务器发送请求行和请求头，从指定的URL获取数据。本文将详细介绍如何在Python中使用requests库发送HTTPGET请求，并处理响应。一、安装requests库首先，确保你的Python环境中安装了requests库。如果没有安装，可以使用以下命令进行安装：bash复制代码pipinstallreques
【Python】2.1字面量我是初九人生苦短我爱Python python 字符串
字面量(literal)在计算机科学中，字面量（literal）是用于表达源代码中一个固定值的表示法（notation）。几乎所有计算机编程语言都具有对基本值的字面量表示，诸如：整数、浮点数以及字符串；而有很多也对布尔类型和字符类型的值也支持字面量表示；还有一些甚至对枚举类型的元素以及像数组、记录和对象等复合类型的值也支持字面量表示法。简单地说，字面量是用于表示固定值的符号(token)字面量是某
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23