诸神缄默不语

Re5：读论文 TWAG: A Topic-guided Wikipedia Abstract Generator

诸神缄默不语-个人CSDN博文目录

本文是ACL2021论文，在ACL上的官方网页为：TWAG: A Topic-Guided Wikipedia Abstract Generator - ACL Anthology
PDF版会议论文下载地址为：https://aclanthology.org/2021.acl-long.356.pdf

ArXiv网址为：[2106.15135] TWAG: A Topic-Guided Wikipedia Abstract Generator

代码为：THU-KEG/TWAG: Code and dataset for the ACL 2021 paper “TWAG: A Topic-guided Wikipedia Abstract Generator”

文章目录

1. 模型构造思路
2. 问题定义与模型介绍
- 2.1 通用的Wikipedia abstract generation
- 2.2 基于topic的Wikipedia abstract generation
- 2.3 TWAG模型
- - 2.3.1 topic detector
  - 2.3.2 Topic-aware Abstract Generation
  - - 2.3.2.1 Topic Encoder
    - 2.3.2.2 Topic Predictor
    - 2.3.2.3 Sentence Decoder
  - 2.3.3 训练
  - - 2.3.3.1 Topic Detector Training
    - 2.3.3.2 Abstract Generator Training
3. 模型原理
4. 实验
- 4.1 baseline
- 4.2 数据集
- 4.3 实验设置
- 4.4 实验结果
- - 4.4.1 ROUGE[^5]
  - 4.4.2 human evaluation
  - - 4.4.2.1 QA
    - 4.4.4.2 linguistic quality
- 4.5 Ablation Study
- - 4.5.1 Learning Rate of Topic Detector.
  - 4.5.2 Soft or Hard Topic.
  - 4.5.3 Number of Section Labels.
5. 代码实现和复现
- 5.1 论文官方实现
- - 5.1.1 分类
  - 5.1.2 生成
- 5.2 我自己写的复现

1. 模型构造思路

本文的研究任务是维基百科摘要生成（Wikipedia abstract generation），从网上海量文本信息中生成维基百科摘要。
本文将维基百科摘要视为对一个实体（entity）的描述，可以分解为不同的主题（topic）（如animal类实体的描述，可以分解为distribution、taxonomy、description等topic。每个topic对应多个维基百科内容中的小标题（section label）。具体的topic划分和section label与topic的对应关系见后文4.2部分对数据集的描述）。

以Arctic Fox的维基百科举例：

图中左半部分是Arctic Fox的维基百科摘要，包含一个动物的3个正交的主题（颜色对应）：Description, Taxonomy and Distribution。
右半部分是Arctic Fox是维基百科section label，分别与topic对应（颜色）。

本文所用的topic是根据实体的domain（Wikipedia categories）得到的。

本文提出的是两阶段的模型TWAG（two-stage Topic-guided Wikipedia Abstract Generation model），使用主题信息指导摘要生成。
第一步topic detection：识别输入原文中每一个自然段属于哪一个主题（这个分类器（classifier-based topic detector）通过已有的Wikipedia文章生成）
第二步：sentence-wise生成摘要：预测摘要每一句的主题分布（topic distribution），以得到对应的topic-aware representation，用Pointer-Generator network¹从中生成摘要句子。

本文提出的下一步研究方向是在topic-aware abstract generator模块应用预训练模型，并将topic-aware model应用到其他富含主题信息的领域（如体育比赛报道）。

2. 问题定义与模型介绍

2.1 通用的Wikipedia abstract generation

输入文档可以用不同粒度的textual units表示，本文中选取的粒度是自然段，因为它能表示相对完整、紧凑的语义信息。
输入文档 $\mathcal{D}=\{d_1, d_2, . . . , d_n\}$ （n个自然段）

输出Wikipedia abstract $\mathcal{S}=\{s_1,s_2,\dots,s_m\}$ （m个句子）

任务目标：找到optimal abstract $\mathcal{S}^*$ （原话是“最好地总结输入”，我认为按照下式也可以直观地理解为“给定输入，可能性最大的摘要”，“靠近真实摘要”）：
$\mathcal{S}^*=\argmax_SP(\mathcal{S}|\mathcal{D})$

2.2 基于topic的Wikipedia abstract generation

每个Wikipedia文章由abstract, the content table（section label ${l\}$ ）, and textual contents（与content table对应的 ${p\}$ ）组成，abstract在语义上与section label指示的topics对应。
由于不同维基百科文章的content table不同，因此不便直接用section label，所以特定域都选用了共有的topics（合并相似section labels）。
topic集合 $\mathcal{T}=\{T_1,T_2,\dots,T_{n_t}\}$ （ $n_t$ 个topic），每个topic $T_i=\{l_i^1,l_i^2,\dots,l_i^m\}$

对于输入文档 $\mathcal{D}$ ，每个自然段都对应一个隐主题（latent topic）： $\mathcal{Z}=\{z_1,z_2,\dots,z_{n}\}$ ，其中 $z_i\in\mathcal{T}$ ，是 $d_i$ 的主题。
则我们的Wikipedia abstract generation任务目标可以重写为：
$\mathcal{S}^*=\argmax_ZP(\mathcal{Z}|\mathcal{D})\argmax_SP(\mathcal{S}|\mathcal{D,Z})$

这样，这个任务就可以分解为topic detection（最大化 $\argmax_ZP(\mathcal{Z}|\mathcal{D})$ ）和topic-aware abstract generation（最大化 $\argmax_SP(\mathcal{S}|\mathcal{D,Z})$ ）

2.3 TWAG模型

模型示意图：

图中示例的domain有3个主题。
左边部分是topic detector，判断每个输入自然段所属的主题。
右边部分是 topic-aware abstract generator，基于输入自然段（根据检测出的section进行分组为topic-specific text group (TTG) $\mathcal{G}_k$ ）和对应主题逐句生成摘要：先预测该句的topic distribution，将其与全局hidden state融合，得到topic-aware representation，用copy-based decoder生成该句话。

（其实我觉得这个图画得还不够清晰，尤其是sentence decoder部分，感觉画得有些含混。文本说明部分我也有些半看不懂的。感觉可能需要看一下原版PGN和TWAG代码才能彻底搞懂）

2.3.1 topic detector

将该任务视为分类任务，表示为 $\mathcal{Z}=\text{Det}(\mathcal{D})$ 。
具体的实现为：用ALBERT²进行编码，然后用一层全连接网络进行分类任务：
$\begin{aligned} \mathbf{d} & =\text{ALBERT}(d) \\ z & =\argmax\big(\text{linear}(d)\big) \end{aligned}$
（ $\mathbf{d}$ 是 $d$ 的表示向量，ALBERT模型经过微调）

2.3.2 Topic-aware Abstract Generation

2.3.2.1 Topic Encoder

通过输入文档，对主题（topical representations）和每个token进行表征。

$\mathcal{G}_k$ 包含了一个实体特定主题的显著信息： $\mathcal{G}_k=\text{concat}\Big(\big\{d_i|z_i=T_k\big\}\Big)$
为了进一步捕获隐含语义信息（hidden semantics）： $\mathbf{g}_k,\mathbf{U}_k=\text{BiGRU}\big(\mathcal{G}_k\big)$ （ $\mathbf{g}_k$ 是 $\mathcal{G}_k$ 的final hidden state， $\mathbf{U}_k=(\mathbf{u}_1,\mathbf{u}_2,\dots,\mathbf{u}_{n_{G_k}})$ 是 $\mathcal{G}_k$ 每个token的hidden state， $n_{G_k}$ 是 $\mathcal{G}_k$ 中的token数）

2.3.2.2 Topic Predictor

预测摘要句的topic distribution，生成topic-aware sentence representation。

逐句：
$\argmax_SP(\mathcal{S}|\mathcal{D,Z})=\prod^m_{i=1}\argmax_{s_i}P(s_i|\mathcal{D,Z,s_{SargmaxP(S∣D,Z)=i=1∏msiargmaxP(si∣D,Z,s<i)$

第一步：用GRU decoder生成每一句的主题分布 $\mathbf{e}_{t}$ 。
在每一个time stamp $t$ ，生成全局hidden state $\mathbf{h}_t$ ，然后估算主题上的概率分布 $\mathbf{q}_t$ ：
$\begin{aligned} \mathbf{h}_t&=\text{GRU}(\mathbf{h}_{t-1},\mathbf{e}_{t-1})\\ \mathbf{q}_t&=\text{softmax}\big(\text{linear}(\mathbf{h}_t)\big) \end{aligned}$
$\mathbf{h}_0$ 看代码（TWAG/src/c_generate_soft/model.py第241行左右）是通过2.3.2.1 topic encoder输出的。具体怎么做的我还没看。
$\mathbf{e}_{t-1}$ 是上一步的topical information， $\mathbf{e}_{0}$ 初始化为全0向量。
从 $\mathbf{q}_t$ 中得到 $\mathbf{e}_{t}$ 有两种方式：
① hard topic：直接选择概率最大的主题作为该句主题，使用对应的topical representation作为该句的主题分布： $\mathbf{e}_t^{hard}=\mathbf{g}_{\argmax_i(q_i)}$
② soft topic：将每句话视为各个主题的融合体，用各主题的topical representation的加权求和作为该句的主题分布： $\mathbf{e}_t^{sort}=\mathbf{q}_t\cdot\mathbf{G}$ （其中 $\mathbf{G}=(\mathbf{g}_1,\mathbf{g}_2,\dots,\mathbf{g}_{n_t})$ 是topical representations组成的矩阵）
（最终本文选择soft topic。一是因为在语义上，摘要每句话会含有多个主题的信息；二见后文ablation study部分实验结果证明soft topic效果更好）

第二步：得到topic-aware representation（hidden state） $\mathbf{r}_t=\mathbf{h}_t+\mathbf{e}_t$

每一步会运行一次stop confirmation： $p_{stop}=σ\big(\text{linear}(h_t)\big)$ （其中 σ 是sigmoid函数）
如果 $p_{stop}>0.5$ ，TWAG就会停止解码。

2.3.2.3 Sentence Decoder

基于topic-aware representations生成摘要中的该句话。

PGN¹同时从输入文档和词表中选择token。

从输入文档中复制token：
decoder需要token-wise hidden states $\mathbf{U}=(\mathbf{u}_1,\mathbf{u}_2,\dots,\mathbf{u}_{n_{u}})$ （ $n_u$ 是输入token数）（通过concat所有TTG的token-wise hidden states得到： $\mathbf{U}=[\mathbf{U}_1,\mathbf{U}_2,\dots,\mathbf{U}_{n_u}]$ ）
对句子的第 $k$ 个token，decoder计算所有输入自然段上的 attention distribution $\mathbf{a}_k$ ， $\mathbf{a}_k$ 的每个元素 $\mathbf{a}_k^i$ 是输入自然段中token $i$ 被选择的概率： $\mathbf{a}_k^i=\text{softmax}\big(\text{tanh}(\mathbf{W}_u\mathbf{u}_i+\mathbf{W}_s\mathbf{s}_k+\mathbf{b}_a)\big)$ （其中 $\mathbf{s}_k$ 是decoder hidden state， $\mathbf{s}_0=\mathbf{r}_t$ （topic-aware representation）， $\mathbf{W}_u,\mathbf{W}_s,\mathbf{b}_a$ 是可训练的参数）

从词表中生成token：
用attention mechanism计算context vector（encoder hidden states的加权求和）： $\mathbf{c}_k^*=\sum\limits_i\mathbf{a}_k^i\mathbf{u}_i$
将该向量传入一个新的2层神经网络得到词表上的probability distribution： $P_{voc}=\text{softmax}\Bigg(\text{linear}\bigg(\text{linear}\Big(\big[\mathbf{s}_k,\mathbf{c}_k^*\big]\Big)\bigg)\Bigg)$

在两种机制间转换： $p_{gen}=\sigma\big(\mathbf{W}_c^T\mathbf{c}_k^*+\mathbf{W}_s^T\mathbf{s}_k+\mathbf{W}_x^T\mathbf{x}_k+\mathbf{b}_p\big)$ （其中 $\mathbf{x}_k$ 是decoder输入， $\sigma$ 是sigmoid函数， $\mathbf{W}_c^T,\mathbf{W}_s^T,\mathbf{W}_x^T,\mathbf{b}_p$ 是可训练的参数）
最终的probability distribution是： $P(w)=p_{gen}P_{voc}(w)+(1-p_{gen})\sum\limits_{i:ww_i=w}\mathbf{a}_k^i$ （其中 $ww_i$ 是 $\mathbf{u}_i$ 对应的token）

2.3.3 训练

topic detection和abstract generation的模块是分开训练的。

2.3.3.1 Topic Detector Training

数据集构建见本博文4.2数据集部分介绍。
本文使用negative loglikelihood损失函数。

2.3.3.2 Abstract Generator Training

topic-aware abstract generation部分的损失函数由两部分构成：①sentence decoder对每一句摘要的损失函数 $\mathcal{L}_{sent}$ 的平均值。②stop confirmation的交叉熵损失函数 $\mathcal{L}_{stop}$

①参考¹，本文使用该句每个目标单词的negative log likelihood的平均值： $\mathcal{L}_{sent}=\dfrac{1}{m}\sum\limits_{t=1}^m\Big(\dfrac{1}{n_{s_t}}\sum\limits_{i=1}^{n_{s_t}}-\log P(w_i)\Big)$ （其中 $m$ 是句子数， $n_{s_t}$ 是摘要第 $t$ 句的长度）

② $\mathcal{L}_{stop}=-y_s\log p_{stop}-(1-y_s)\log(1-p_{stop})$
当 $t > m$ 即应该停止生成摘要句子时， $y_s=1$ ，反之 $y_s=0$

3. 模型原理

为什么不用基于图的表示学习方法做抽取式摘要：因为从各种来源收集到的输入文档往往有噪音，并缺乏内在联系³，因此难以构建relation graph。（introduction）
用topic生成摘要的好处：减少冗余，使内容更完整。（introduction）
本文的任务是生成紧凑的摘要，因此需要对topic进行fusion、理解topics之间的关联与差异（topic distribution），而非使用独立的topics（见本博文2.3.2.1部分对软主题的介绍）。（Wikiasp: A dataset for multi-domain aspect-based summarization. 则是反例。该文献使用aspect作为术语）（Wikipedia-related Text Generation）
识别文本中的主题信息“模仿人类识别实体的方法”（conclusion）

4. 实验

4.1 baseline

TF-S2S⁴：用Transformer decoder，用卷积层压缩自注意力机制里的键值对。
CV-S2D+T⁵：用一个卷积encoder和2层hierarchical decoder，用LDA建模主题信息。
HierSumm⁶：用注意力机制建模自然段间关系，用图加强文档的表示学习。
BART⁷：预训练的seq2seq模型。

4.2 数据集

本文使用的数据集是WikiCatSum⁵。

该数据集是WikiSum的子数据集。含有Wikipedia中的3个域：Company, Film and Animal
每个域的数据集划分比例都是train (90%), validation (5%) and test (5%)
删除了文章中的超链接和图像。用spaCy包划分自然段。经下述处理后最终得到的数据集划分比例是8:1:1。

对于topic detection阶段的标签构建，本文首先将已有的维基百科文章（2019-07-01）构建为 section label : textual contents ${l:p\}$ 形式，然后将textual contents分解为自然段 $p=(d_1,d_2,\dots,d_{n_p})$ ，这样数据集就变成了label-paragraph对 ${l:d\}$ ，然后再把同一topic的label合并（对每个域，选择了 $n_t=20$ 个最常出现的label，手动将其分配给各主题。Reference或Notes等缺乏语义信息的label被丢弃。下图是分配表），这样数据集就变成了topic-paragraph对 ${T:d\}$ 。

（不同颜色代表不同 $n_t$ 时选择的label）

此外，每个域还专门构建了一个NOISE主题，指没用的部分（如scripts或广告），这一部分是通过正则表达式提取的，如含有“cookie”,“href”或看起来像reference。

经处理后得到的最终的数据集信息：

用于摘要生成的数据则是非维基百科数据，以防数据泄露问题。

4.3 实验设置

代码使用PyTorch和transformers库，设备是NVIDIA GeForce RTX 2080。
topic detection阶段使用的预训练模型是transformers库的albert-base-v2，保持原参数，以3e-5为学习率训练了4个epoch。
abstract generation阶段用单层BiGRU将TTGs编码为512维的hidden states。输入文档保存开头400个tokens，转换为300维的GloVe⁸词向量。词表长度为50000，OOV token用其邻近10个tokens的平均嵌入表示。这个模块训练了10个epoch，第一个epoch的学习率是1e-4，其他的是1e-5。
在评估结果前，删除了所有与其他句重复超过50%的句子以减少冗余⁹。
需要beam search的模型，beam size都设置为5。

（Appendix B）使用BART-base，因为BART-large效果差（生成文本出现重复，损失函数下降慢），本文怀疑是因为过拟合。

4.4 实验结果

4.4.1 ROUGE¹⁰

本文所使用的评估指标是ROUGE F1 指标（原文给出的原因：因为没有限制摘要生成长度，所以用这个combines precision and recall to eliminate the tendency of favoring long or short results的指标）。

TF-S2S和HierSumm使用原文数据集的子集来训练得到的结果小于原文结果，本文作者认为可能因为数据不足，这也证明了TWAG模型的data-efficient。

案例分析：

4.4.2 human evaluation

此外参考¹⁰，本文构建了含有2部分内容的human evaluation：

4.4.2.1 QA

question-answering (QA)，架构来自¹¹，检查摘要中的factoid信息，根据不同的真实摘要，每个样例创造2-5个问题，问题示例：
（全部的评估集合在论文附带的GitHub项目中，待补）

从每个域抽取了15个样例，共45个来做human evaluation。
选了3名参与人员以自动生成的摘要作为背景知识来回答问题。能回答问题越多的摘要越好。
答案量化打分：正确答案——1，部分正确答案——0.5，错误答案——0.1，无法回答——0。
（对0.1的解释：Notice that we give a score of 0.1 even if the participants answer the question incorrectly, because a wrong answer indicates the summary covers a certain topic and is superior to missing information.）

结果：

（TF-S2S和HierSumm在域Film和Animal上表现很差可能是因为在小数据集上欠拟合）

4.4.4.2 linguistic quality

让参与人员从3个角度来阅读生成摘要并在1-5分间打分（分越高说明质量越高）：

Completeness (does the summary contain sufficient information?)
Fluency (is the summary fluent and grammatical?)
Succinctness¹² (does the summary avoid redundant sentences?)

结果：

4.5 Ablation Study

4.5.1 Learning Rate of Topic Detector.

1e-7准确率高，但最终rouge值低，因此本文最终选择了3e-5。本文怀疑是因为学习率太低导致了过拟合。

4.5.2 Soft or Hard Topic.

4.5.3 Number of Section Labels.

section labels的频率符合长尾分布。

$n_t=20$ 得到的最终实验结果最好。

5. 代码实现和复现

5.1 论文官方实现

具体内容持续更新。
大略来说，步骤是分类（topic detection）→生成（abstract generation），可以解耦也可以端到端地运行。（我看了一下，这个端到端说的好像是代码一步把分类和生成两步都做完，本质上还是解耦的。但是我还没有仔细看，具体的待补）

5.1.1 分类

5.1.2 生成

TWAG/src/c_generate_soft/model.py：
BiGRUEncoder：论文中的topic encoder，实现了一个BiGRU模型。

DocumentDecoder：论文中的topic predictor，hidden $\mathbf{h}_{t-1}$ input $\mathbf{e}_{t-1}$ →decoder（torch.nn.GRUCell）→hidden_out $\mathbf{h}_t$ →out_linear（torch.nn.Linear）→softmax（torch.nn.Softmax）→topic_dist $\mathbf{q}_t$

TopicDecodeModel：整个生成部分。
预测每一句话的sent_hiddens→avg_sent_hidden（ $\mathbf{e}_t$ ）→h_0_sent=avg_sent_hidden+doc_hidden（topic-aware representation $\mathbf{r}_t=\mathbf{e}_t+\mathbf{h}_t$ ）

5.2 我自己写的复现

没写，待补。

Get to the point: Summarization with pointer-generator networks. ↩︎ ↩︎ ↩︎
Albert: A lite bert for self-supervised learning of language representations. ↩︎
Automatically Generating Wikipedia Articles: A Structure-Aware Approach ↩︎
Generating wikipedia by summarizing long sequences. ↩︎
Generating summaries with topic templates and structured convolutional decoders. ↩︎ ↩︎
Hierarchical transformers for multi-document summarization. ↩︎
Bart: Denoising sequence-to-sequence pretraining for natural language generation ↩︎
GloVe: Global vectors for word representation. ↩︎
这个应该是因为生成式摘要里常见的重复问题。 ↩︎
Rouge: A package for automatic evaluation of summaries. ↩︎ ↩︎
Discourse constraints for document compression. ↩︎
简洁 ↩︎

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
[Unity]在场景中随机生成不同位置且不重叠的物体 Bartender_Jill Graphics图形学笔记 unity 游戏引擎动画
1.前言最近任务需要用到Unity在场景中随机生成物体，且这些物体不能重叠，简单记录一下。参考资料:Howtoensurethatspawnedtargetsdonotoverlap?2.结果与代码结果如下所示：代码如下所示：usingSystem.Collections.Generic;usingUnityEngine;namespaceAssets.Scripts{publicclassNew
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
一文让你彻底搞懂什么是VR、AR、AV、MR 码上飞扬 vr ar mr av
随着科技的飞速发展，现实世界与虚拟世界的界限变得越来越模糊。各种与现实增强相关的技术如雨后春笋般涌现，令人眼花缭乱。本文将为你详细解读四种常见的现实增强技术：虚拟现实（VR）、增强现实（AR）、混合现实（MR）和增强虚拟（AV），让你彻底搞懂它们之间的区别与联系。一、虚拟现实（VR）1.什么是VR？虚拟现实（VirtualReality，简称VR）是一种通过计算机模拟生成的三维环境，使用户能够沉浸
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
JavaScript中秋快乐！ Q_w7742 javascript 开发语言 ecmascript
我们来实现一个简单的祝福网页~主要的难度在于使用canvas绘图当点击canvas时候，跳出“中秋节快乐”字样，需要注册鼠标单击事件和计时器。首先定义主要函数：初始化当点击canvas之后转到onCanvasClick函数，绘图生成灯笼。functiononCanvasClick(){//事件处理函数context.clearRect(0,0,canvas1.width,canvas1.heigh
python之pyecharts制作可视化数据大屏 cesske 大数据
文章目录前言一、安装Pyecharts二、创建Pyecharts图表三、设计大屏布局四、实时数据更新五、部署和展示总结前言使用Pyecharts制作可视化数据大屏是一个复杂但有趣的过程，因为Pyecharts本身是一个用于生成Echarts图表的Python库，而Echarts是由百度开发的一个开源可视化库，支持丰富的图表类型和高度自定义。然而，Pyecharts本身并不直接提供“大屏”的解决方案
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
Kubernetes 自定义控制器开发 IT回忆录 Kubenetes kubernetes
目录前言一、CRD二、创建数据库表（Mysql）二、控制器开发1.使用kubernetes的examplecontroller模板2.在controller.go中新增数据表监听方法3.修改tools工具生成资源对象结构体定义这里记录开发k8s控制器的一般方式，controller开发主要使用k8s提供的client-go库进行。前言Controller监听集群内部资源对象的变化，编辑资源对象(增
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟