PaperWeekly

Google BERT应用之《红楼梦》对话人物提取

作者丨庞龙刚

学校丨UC Berkeley博士后

研究方向丨高能核物理、人工智能

之前看到过一篇文章，通过提取文章中对话的人物，分析人物之间的关系，很好奇如何通过编程的方式知道一句话是谁说的。但是遍搜网络没有发现类似的研究。

前段时间看到一个微信里的读书小程序，将人物对话都提取出来，将一本书的内容通过微信对话的方式表达出来，通过将对话的主角替换成读者的微信号以及用户头像，从而增加读者的代入感。试了之后非常佩服程序作者的巧思。这使得我写一个自然语言处理程序，提取书中对话，以及对话人物的念头更加强烈。

之前并没有多少 NLP 的经验，只零碎试过用 LSTM 训练写唐诗，用 jieba 做分词，用 Google 的 gensim 在 WikiPedia 中文语料上训练词向量。最近 Google 的 BERT 模型很火，运行了 BERT 的 SQuAD 阅读理解与问答系统，分类器以及特征提取例子之后，觉得这个任务可以用 BERT 微调来完成，在这里记录实验的粗略步骤，与君共勉。

我把训练数据和准备数据的脚本开源，放在 GitLab 上，开放下载。

该目录包含以下内容：

用于提取对话人物语境的脚本 conversation_extraction.ipynb；
辅助打标签的脚本 label_data_by_click_buttons.ipynb；
提取出的语境文件：honglou.py；
打过标签的训练数据：label_honglou.txt；
从打过标签的数据合成百万级别新数据的脚本：augment_data.py；
将训练数据转换为 BERT/SQUAD 可读的脚本：prepare_squad_data.py；
预测结果文件：res.txt（使用 36000 组数据训练后的预测结果）；
预测结果文件：res_1p2million.txt（使用 120万组数据训练后的预测结果）。

对比之后发现使用更多的数据训练所提升的效果有限，比较大的提升是后者在没有答案时，输出是输入的完整拷贝。

BERT/SQuAD 预言的结果可以从 res.txt 里面找到。

准备训练数据

《红楼梦》中的对话很好提取，大部分对话都有特定的格式，即一段话从：“开始，从”结束。使用 Python 的正则表达式，可以很容易提取所有满足这样条件的对话。

如果假设说出这段话的人的名字出现在这段话的前面，那么可以用这段话前面的一段话作为包含说话人（speaker）的上下文（context）。如果说话人不存在这段上下文中，标签为空字符串。

下面是第一步提取出的数据示例：

{'istart': 414, 'iend': 457, 'talk': '原来如此，下愚不知．但那宝玉既有如此的来历，又何以情迷至此，复又豁悟如此？还要请教。', 'context': '雨村听了，虽不能全然明白，却也十知四五，便点头叹道：'},
{'istart': 463, 'iend': 526, 'talk': '此事说来，老先生未必尽解．太虚幻境即是真如福地．一番阅册，原始要终之道，历历生平，如何不悟？仙草归真，焉有通灵不复原之理呢！', 'context': '士隐笑道：'},
{'istart': 552, 'iend': 588, 'talk': '宝玉之事既得闻命，但是敝族闺秀如此之多，何元妃以下算来结局俱属平常呢？', 'context': '雨村听着，却不明白了．知仙机也不便更问，因又说道：'},
{'istart': 880, 'iend': 891, 'talk': '此系后事，未便预说。', 'context': '士隐微微笑道：'},
{'istart': 19, 'iend': 45, 'talk': '老先生草庵暂歇，我还有一段俗缘未了，正当今日完结。', 'context': '食毕，雨村还要问自己的终身，士隐便道：'},
{'istart': 52, 'iend': 68, 'talk': '仙长纯修若此，不知尚有何俗缘？', 'context': '雨村惊讶道：'},
{'istart': 51, 'iend': 77, 'talk': '大士，真人，恭喜，贺喜！情缘完结，都交割清楚了么？', 'context': '这士隐自去度脱了香菱，送到太虚幻境，交那警幻仙子对册，刚过牌坊，见那一僧一道，缥渺而来．士隐接着说道：'},
{'istart': 75, 'iend': 243, 'talk': '我从前见石兄这段奇文，原说可以闻世传奇，所以曾经抄录，但未见返本还原．不知何时复有此一佳话，方知石兄下凡一次，磨出光明，修成圆觉，也可谓无复遗憾了．只怕年深日久，字迹模糊，反有舛错，不如我再抄录一番，寻个世上无事的人，托他传遍，知道奇而不奇，俗而不俗，真而不真，假而不假．或者尘梦劳人，聊倩鸟呼归去，山灵好客，更从石化飞来，亦未可知。', 'context': '这一日空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细细看了一遍，见后面偈文后又历叙了多少收缘结果的话头，便点头叹道：'},

大部分数据的上下文都很简单，比如'士隐笑道：'等，但也有比较复杂的语境，比如'这一日空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细细看了一遍，见后面偈文后又历叙了多少收缘结果的话头，便点头叹道：'。

手动标记数据

为了训练机器，让它知道我想让它干什么，必须手动标记一些数据。我在 Jupyter notebook 下写了一个简单的 GUI 程序，将每段话变成按钮，只需要点击需要标记数据的句首和句尾，程序会自动计算标记数据在上下文中的位置，并将记录保存到文本中。

花了两个多小时，标记了大约 1500 多个数据，这些数据的最后几个例子如下：

{'uid': 1552, 'context': '黛玉又道：', 'speaker': '黛玉', 'istart': 0, 'iend': 2}
{'uid': 1553, 'context': '因念云：', 'speaker': None, 'istart': -1, 'iend': 0}
{'uid': 1554, 'context': '宝钗道：', 'speaker': '宝钗', 'istart': 0, 'iend': 2}
{'uid': 1555, 'context': '五祖便将衣钵传他．今儿这偈语，亦同此意了．只是方才这句机锋，尚未完全了结，这便丢开手不成？"黛玉笑道：', 'speaker': '黛玉', 'istart': 46, 'iend': 48}
{'uid': 1556, 'context': '宝玉自己以为觉悟，不想忽被黛玉一问，便不能答，宝钗又比出"语录"来，此皆素不见他们能者．自己想了一想：', 'speaker': '宝玉', 'istart': 0, 'iend': 2}
{'uid': 1557, 'context': '想毕，便笑道：', 'speaker': None, 'istart': -1, 'iend': 0}
{'uid': 1558, 'context': '说着，四人仍复如旧．忽然人报，娘娘差人送出一个灯谜儿，命你们大家去猜，猜着了每人也作一个进去．四人听说忙出去，至贾母上房．只见一个小太监，拿了一盏四角平头白纱灯，专为灯谜而制，上面已有一个，众人都争看乱猜．小太监又下谕道：', 'speaker': '小太监', 'istart': 103, 'iend': 106}
{'uid': 1559, 'context': '太监去了，至晚出来传谕：', 'speaker': '太监', 'istart': 0, 'iend': 2}

1500 个数据太少了，为了增加数据量，我又做了 data augmentation，将 1500 多个 speaker 插入到 1500 多个语境中，凭空生成了 200多万对训练数据。所以在训练数据中，有一些非常搞笑的内容，比如：

说毕走来，只见宝玉拄着拐棍，在当地骂袭人：

这个训练例子中的宝玉，原文应该是李嬷嬷。

训练过程

简单构造 SQUAD 的中文训练和测试数据，训练并预测，结果输出在 predictions.json 中。

训练数据的 json 格式如下：

{"data" : [{"title": "红楼梦", "paragraphs":[{context and qas item 1}, {context and qas item 2}, ... {context and qas item i}, ..., {context and qas item n}]},
{"title": "寻秦记", "paragraphs":[{}, {}, {}]},
{"title": "xxxxxx", "paragraphs":[{}, {}, {}]}],
"version" : "speaker1.0"}

输入数据是个字典，包含 “data" 和 "version" 两个键值。data 是个数组，里面的每一项对应一本书，以及这本书中的的「语境，问题，答案」字典列表。

对于每个「语境，问题，答案」，其格式又如下：

{context and qas item 1} = 
{"context": "正闹着，贾母遣人来叫他吃饭，方往前边来，胡乱吃了半碗，仍回自己房中．只见袭人睡在外头炕上，麝月在旁边抹骨牌．宝玉素知麝月与袭人亲厚，一并连麝月也不理，揭起软帘自往里间来．麝月只得跟进来．平儿便推他出去，说：",
"qas" : [ {"answers":[{"answer_start": 46, "text":"平儿"}],
"question": "接下来一句话是谁说的",
"id": "index"},
{question answer pair 2},
..., {question answer pair n}]
}

在这次尝试中，我只使用了经过 Data Augmentation 生成的 200 多万组数据中的 36000 组做训练。BERT 的 SQUAD 训练脚本 test_squad.sh 设置基本没改变，最大的改变是 max_seq_length=128，以及训练数据测试数据文件所在位置及内容。

export BERT_BASE_DIR="pathto/chinese_L-12_H-768_A-12"
export SQUAD_DIR="pathto/squad_data_chinese"
python pathto/run_squad.py \
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--do_train=True \
--train_file=$SQUAD_DIR/chinese_speaker_squad.json \
--do_predict=True \
--predict_file=$SQUAD_DIR/chinese_speaker_squad_valid.json \
--train_batch_size=12 \
--learning_rate=3e-5 \
--num_train_epochs=2.0 \
--max_seq_length=128 \
--doc_stride=128 \
--output_dir=pathto/squad_data_chinese

预测结果

因为 BERT 在维基百科的大量中文语料上做过训练，已经掌握了中文的基本规律。而少量的训练数据微调，即可让 BERT 知道它所需要处理的任务类型。

通过简单的阅读理解与问答训练，说话人提取的任务效果惊人，虽然还没有人工完全验证提取结果的正确性，但是从语境和答案对看来，大部分结果无差错。

总共数据是 10683 条，打了标签的训练数据是前面的 1500 多条。下面将预测的 10683 条中从后往前数的部分预测结果列出。

想了一回，也觉解了好些．又想到袭人身上： ||| 袭人（此预测结果❌）
那日薛姨妈并未回家，因恐宝钗痛哭，所以在宝钗房中解劝．那宝钗却是极明理，思前想后，宝玉原是一种奇异的人．夙世前因，自有一定，原无可怨天尤人．了．薛姨妈心里反倒安了，便到王夫人那里先把宝钗的话说了．王夫人点头叹道： ||| 王夫人
说着，更又伤心起来．薛姨妈倒又劝了一会子，因又提起袭人来，说： ||| 薛姨妈
王夫人道： ||| 王夫人
薛姨妈道： ||| 薛姨妈
王夫人听了道： ||| 王夫人
薛姨妈听了点头道： ||| 薛姨妈
看见袭人泪痕满面，薛姨妈便劝解譬喻了一会．W袭人本来老实，不是伶牙利齿的人，薛姨妈说一句，他应一句，回来说道： ||| 薛姨妈 （此结果从语境看不出是否正确）
过了几日，贾政回家，众人迎接．贾政见贾赦贾珍已都回家，弟兄叔侄相见，大家历叙别来的景况．然后内眷们见了，不免想起宝玉来，又大家伤了一会子心．贾政喝住道： ||| 贾政
次日贾政进内，请示大臣们，说是： ||| 贾政
回到家中，贾琏贾珍接着，贾政将朝内的话述了一遍，众人喜欢．贾珍便回说： ||| 贾珍
贾政并不言语，隔了半日，却吩咐了一番仰报天恩的话．贾琏也趁便回说： ||| 贾琏
贾政昨晚也知巧姐的始末，便说： ||| 贾政
贾琏答应了"是"，又说： ||| 贾琏
贾政道： ||| 贾政
贾政说毕进内．贾琏打发请了刘姥姥来，应了这件事．刘姥姥见了王夫人等，便说些将来怎样升官，怎样起家，怎样子孙昌盛．正说着，丫头回道： ||| 丫头
王夫人问几句话，花自芳的女人将亲戚作媒，说的是城南蒋家的，现在有房有地，又有铺面，姑爷年纪略大了几岁，并没有娶过的，况且人物儿长的是百里挑一的．王夫人听了愿意，说道： ||| 王夫人
王夫人又命人打听，都说是好．王夫人便告诉了宝钗，仍请了薛姨妈细细的告诉了袭人．袭人悲伤不已，又不敢违命的，心里想起宝玉那年到他家去，回来说的死也不回去的话，"如今太太硬作主张．若说我守着，又叫人说我不害臊，若是去了，实不是我的心愿"，便哭得咽哽难鸣，又被薛姨妈宝钗等苦劝，回过念头想道： ||| 薛姨妈宝钗（此预测结果❌）
于是，袭人含悲叩辞了众人，那姐妹分手时自然更有一番不忍说．袭人怀着必死的心肠上车回去，见了哥哥嫂子，也是哭泣，但只说不出来．那花自芳悉把蒋家的娉礼送给他看，又把自己所办妆奁一一指给他瞧，说那是太太赏的，那是置办的．袭人此时更难开口，住了两天，细想起来： ||| 袭人
不言袭人从此又是一番天地．且说那贾雨村犯了婪索的案件，审明定罪，今遇大赦，褫籍为民．雨村因叫家眷先行，自己带了一个小厮，一车行李，来到急流津觉迷渡口．只见一个道者从那渡头草棚里出来，执手相迎．雨村认得是甄士隐，也连忙打恭，士隐道： ||| 士隐
雨村道： ||| 雨村
甄士隐道： ||| 甄士隐
雨村欣然领命，两人携手而行，小厮驱车随后，到了一座茅庵．士隐让进雨村坐下，小童献上茶来．雨村便请教仙长超尘的始末．士隐笑道： ||| 士隐
雨村道： ||| 雨村
士隐道： ||| 士隐
雨村惊讶道： ||| 雨村
士隐道： ||| 士隐
雨村道： ||| 雨村
士隐道： ||| 士隐
雨村听了，虽不能全然明白，却也十知四五，便点头叹道： ||| 雨村
士隐笑道： ||| 士隐
雨村听着，却不明白了．知仙机也不便更问，因又说道： ||| 雨村听着，却不明白了．知仙机（此预测结果❌）
士隐叹息道： ||| 士隐
雨村听到这里，不觉拈须长叹，因又问道： ||| 雨村
士隐道： ||| 士隐
雨村低了半日头，忽然笑道： ||| 雨村
士隐微微笑道： ||| 士隐
食毕，雨村还要问自己的终身，士隐便道： ||| 士隐
雨村惊讶道： ||| 雨村
士隐道： ||| 士隐
这士隐自去度脱了香菱，送到太虚幻境，交那警幻仙子对册，刚过牌坊，见那一僧一道，缥渺而来．士隐接着说道： ||| 士隐
那僧说： ||| 那僧
这一日空空道人又从青埂峰前经过，见那补天未用之石仍在那里，上面字迹依然如旧，又从头的细细看了一遍，见后面偈文后又历叙了多少收缘结果的话头，便点头叹道： ||| 空空道人
想毕，便又抄了，仍袖至那繁华昌盛的地方，遍寻了一番，不是建功立业之人，即系饶口谋衣之辈，那有闲情更去和石头饶舌．直寻到急流津觉迷度口，草庵中睡着一个人，因想他必是闲人，便要将这抄录的《石头记》给他看看．那知那人再叫不醒．空空道人复又使劲拉他，才慢慢的开眼坐起，便草草一看，仍旧掷下道： ||| 空空道人
空空道人忙问何人，那人道： ||| 那人
那空空道人牢牢记着此言，又不知过了几世几劫，果然有个悼红轩，见那曹雪芹先生正在那里翻阅历来的古史．空空道人便将贾雨村言了，方把这《石头记》示看．那雪芹先生笑道： ||| 雪芹先生
空空道人便问： ||| 空空道人
曹雪芹先生笑道： ||| 曹雪芹先生
那空空道人听了，仰天大笑，掷下抄本，飘然而去．一面走着，口中说道： ||| 空空道人

结果分析：大部分简单的语境，BERT 都可以正确的预测谁是说话的那个人，但是有些复杂一点的，就会出错，比如上面这些例子中的：

想了一回，也觉解了好些．又想到袭人身上： ||| 袭人（此预测结果❌）
王夫人又命人打听，都说是好．王夫人便告诉了宝钗，仍请了薛姨妈细细的告诉了袭人．袭人悲伤不已，又不敢违命的，心里想起宝玉那年到他家去，回来说的死也不回去的话，"如今太太硬作主张．若说我守着，又叫人说我不害臊，若是去了，实不是我的心愿"，便哭得咽哽难鸣，又被薛姨妈宝钗等苦劝，回过念头想道： ||| 薛姨妈宝钗（此预测结果❌）
雨村听着，却不明白了．知仙机也不便更问，因又说道： ||| 雨村听着，却不明白了．知仙机（此预测结果❌）

第三个错误最是搞笑，好像机器还没有明白“雨村听着，却不明白了．知仙机”并不是一个人的名字。

下面我再从其他预言的结果中挑选了一些看起来不容易预测，但是机器正确理解并预测的例子：

10575 贾兰那里肯走．尤氏等苦劝不止．众人中只有惜春心里却明白了，只不好说出来，便问宝钗道： ||| 惜春
10183 王夫人已到宝钗那里，见宝玉神魂失所，心下着忙，便说袭人道： ||| 王夫人
王仁便叫了他外甥女儿巧姐过来说： ||| 王仁（下面一句话算谁说的？我也很懵）
9490 正推让着，宝玉也来请薛姨妈李婶娘的安．听见宝钗自己推让，他心里本早打算过宝钗生日，因家中闹得七颠八倒，也不敢在贾母处提起，今见湘云等众人要拜寿，便喜欢道： ||| 宝玉

人物关系分析

按照相邻的两个说话者极有可能是对话者统计出红楼梦中人物关系如下，宝玉与袭人之间对话最多（178+175），宝玉与黛玉之间对话次之（177+174），宝玉与宝钗之间对话（65+61），仅从对话次数来看，袭人与黛玉在宝玉心目中的占地差不多，宝钗（65+61）占地只相当于黛玉的三分之一，略高于晴雯（46+41）。

通过这个例子，深深感觉 Google 的 BERT 预训练+微调的自然语言处理模型之强大。很多 NLP 的问题可以转换成 “阅读理解 + 问答”（SQuAD）的问题。在此写下假期 3 天做的一个有趣的尝试，希望看到更多使用 BERT 开发出更多好玩的应用。

[('宝玉-袭人', 178),
('黛玉-宝玉', 177),
('袭人-宝玉', 175),
('宝玉-黛玉', 174),
('宝玉-宝玉', 137),
('贾母-贾母', 115),
('宝玉-宝钗', 65),
('凤姐-凤姐', 64),
('宝钗-宝玉', 61),
('黛玉-黛玉', 59),
('贾母-凤姐', 57),
('贾政-贾政', 54),
('袭人-袭人', 48),
('宝玉-晴雯', 46),
('贾琏-凤姐', 46),
('宝钗-黛玉', 45),
('凤姐-贾母', 44),
('黛玉-宝钗', 42),
('凤姐-贾琏', 42),
('王夫人-贾母', 41),
('宝玉-贾母', 41),
('晴雯-宝玉', 41),
('王夫人-宝玉', 41),
('贾母-宝玉', 40),
('宝玉-贾政', 39),
('黛玉-紫鹃', 39),
('黛玉-湘云', 38),
('紫鹃-黛玉', 37),
('凤姐儿-贾母', 35),
('众人-贾政', 35)]

点击以下标题查看更多往期内容：

自动机器学习（AutoML）最新综述
图神经网络综述：模型与应用
近期值得读的10篇GAN进展论文
自然语言处理中的语言模型预训练方法
从傅里叶分析角度解读深度学习的泛化能力
两行代码玩转Google BERT句向量词向量
AI Challenger 2018 机器翻译参赛总结
Airbnb实时搜索排序中的Embedding技巧
深度长文：NLP的巨人肩膀（上）
NLP的巨人肩膀（下）：从CoVe到BERT

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：[email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取最新论文推荐

你可能感兴趣的:(Google BERT应用之《红楼梦》对话人物提取)

底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
蘩漪：新女性？利己主义者赮_红雨
蘩漪是曹禺《雷雨》笔下的女性形象。对于她的喜爱，曹禺在之前的访谈中，就已经表达得很清楚了，蘩漪是他所倾心的女子的“代替者”。在这个女性身上有着曹禺最精心的描写，但同时她的身上又存在着一些时代的问题。图片发自App首先，繁漪是追求自由和幸福的新女性形象。她是精神悲剧的核心人物，她对周朴园的反抗，具有典型意义。她是位资产阶级家庭出身的小姐，受过五四新思潮的影响，她任性、傲慢，追求人格独立、个性自由和爱
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
2019-08-16 希望在东方
《春游荣华山》春游荣华山，乍暖还寒。青苔路，石阶险。山路弯上弯！为寻古寺往幽探。细雨已润江南岸，初春芳草现。老树新芽冒枝端，人间又过到新年。今游荣华山，树茂参天，古寺悠闲。细雨飘落发端！三眼井旁，投币许心愿，并祷一世安然。更喜大女明事端，应心安，放开颜。修竹静默，雨中吐心愿。待得春风浩吹时，春笋节节攀。图片发自App图片发自App图片发自App
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
《太虚游》第六十二章。玄牝之威。古楼臭道士
“好好好，流云这孩子深得我心，想必长爻知道是你的话定然会惊喜不已的。”白玄牝听得风流云应了下来，脸色慈和，伸手在他头顶轻轻抚了抚，如同抚在怀中九尾小狐一样自然，极其温柔。身后的四位青丘长老同时一怔，嘴角微动，似要开口劝阻。风流云只感到一道霞光瑞气如有实质一般顺着头顶百会大穴直沉在下丹田内，随后这股气息又逐渐凝聚，似乎给自己吃了什么东西一般。啊喔不好，这祖奶奶该不会是看中我这肉身，像人魔一样，要给她
童年那些故事教给我们的山川大地日月星辰
同事的女儿二次考研失败，但是仍不气馁还想接着再学再考，得为孩子点个赞，可是同事很矛盾，以她的意见，当初女儿大学毕业就该直接考编，回到家过安稳日子，我问她还记不记得《小马过河》的故事？她说跟小马有啥关系？幼儿园就给孩子讲《小马过河》，当然孩子们除了喜欢故事里的“人物”小松鼠、老牛、小马跟老马，对小马爱劳动喜欢帮助妈妈干活也是有基本认知的，孩子们对为什么老牛说水浅、而松鼠说水深也有一定的常识，到了成人
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
我与《红楼梦》‖纪念曹雪芹出生307周年！归海逸舟是周成功子阳佳乐归海逸舟是周成功子阳佳乐
【今日作家推荐】中国古典小说之首《红楼梦》，其作者曹雪芹是文坛泰斗。约1715年5月28日，曹雪芹出生。所以，今天推荐的是中国人众所周知的作家——曹雪芹。曹雪芹在世界读者心目中也影响广大，可以与西方世界引以为豪的莎士比亚、歌德等媲美。1、我与《红楼梦》我一直想写一篇和《红楼梦》相关的文章，现在机会终于来了！《红楼梦》作为我国家喻户晓的文学名著，其影响是空前的。还在我很小的时候，姥姥经常讲《红楼梦》
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
趁吾身未老逍遥书生111
趁吾身未老池非2020年，一场突如其来的新冠脑炎疫情，打破了原有的状态。工作与生活的轨迹发生了不确定的变化。01因为隔离防疫，正常的教学不能进行，线上网课成为教学的新形式，年过五十的我面对新的教学形式有些应不暇。只得退而求次，不再负责高考班级的课程。这样，就不用上网课做直播了。感觉很轻松很闲的同时，也感觉到了英雄迟暮。不得不承认，老了。该交班了。因为不能出门，整天呆在家里，一开始还很兴奋，终于可以
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
好习惯:锻炼孩子的思考力好习惯2011
家长在教育孩子时，应积极鼓励孩子提问，让孩子尽量相信自己能够解决问题，还要注意激发孩子的好奇心，使孩子对所探究的问题产生强烈的求知欲望。在适当的时候，家长们也要问孩子一些问题，锻炼孩子的思考能力。只要我们愿意，就可以用适合孩子年龄的理解的方式和语言，引导孩子进行思考，并学到知识。知识是一环扣一环的，我们为孩子解开一个谜，就为解开下一个谜作了准备，只要我们用心，孩子的知识链条就会越接越长。孩子们在学
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
读《红楼梦》第十九回情切切良宵花解语意绵绵静日玉生香梦一场_c315
元春回宫，贾府上下又忙碌了二三日，方收拾停当，个个是累得人仰马翻。王熙凤为了不落人口舌也只能硬撑着，凡事冲在前头。袭人的母亲来面见贾母，将袭人接回去吃年饭，晚上才会回来，宝玉甚觉无聊。宁府这边唱戏，贾珍来邀宝玉过府观赏，刚欲出门，元春赐了糖蒸酥酪来，宝玉想着平日里袭人最爱吃，便留给袭人，自己出门看戏去了。到了宁府，只闻锣鼓喧天，热闹非凡，宝玉稍坐了片刻，忽想起一间小书房里挂着一张美人图，今日府上这
思考成长丁昆朋
这篇文章是加紧赶出来“应付”日更，一方面不想要再晚睡了；另一方面不想失去日更达人的称号，只能坐下来匆忙写下一点文字。既然标题是成长，先来总结一下这段时间的收获：1、整理箱子站着可以看电脑，坐着反而是一种享受，减少了坐着腰酸背痛的现象；2、使用讯飞输入法大大增加自己的输出量；3、Anaconda+“pythontutor.com"+Google算是简单入门python；4、英语的阅读文章能力、听力提
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key