K5niper

文献阅读 - From Word Embeddings To Document Distances

From Word Embeddings To Document Distances

M. J. Kusner, Y. Sun, N. I. Kolkin, K. Q. Weinberger, From Word Embeddings To Document Distances, ICML (2015)

摘要

词嵌入（word embedding）：根据单词在语句中的局部共存性，学习单词语义层面的表示（semantically meaningful representations for words）。

单词移动距离（Word Mover’s Distance，WMD）：基于词嵌入，衡量文本文档（text documents）间距离的函数。WMD以一个文档的嵌入词移动至另一个文档的嵌入词的最小距离（the minimum amount of distance that the embedded words of one document need to “travel” to reach the embedded words of another document）作为两个文本文档间不相似度（dissimilarity）的度量。

WMD测度不包含超参数（hyperparameters）。

1 引言

文档表示的最常用的两种方法：

词袋模型（bag of words，BOW）；
词频逆文档频率（term frequency - inverse document frequency，TF-IDF）。

由于各文档的BOW（TF-IDF）表示通常近似正交性（frequent near-orthogonality），二者并不适于度量文档距离；另外，二者无法表示不同单词间的距离（not capture the distance between individual words）。

文档的低维隐含变量表示（a latent low-dimensional representation of documents）：

隐含语义索引（Latent Semantic Indexing，LSI）：对BOW特征空间（feature space）进行特征分解（eigendecompose）；
主体模型（Latent Dirichlet Allocation，LDA）：将相似词按概率分配到不同的主题（probabilistically groups similar words into topics），并将文档表示这些主题的分布（represents documents as distribution over these topics）

通常，语义关系体现在词向量的运算上（semantic relationships are often preserved in vector operations on word vectors），即嵌入词向量间的距离能够表示语义（distances between embedded word vectors are to some degree semantically meaningful）。本文将文本文档表示为嵌入词的加权点云（a weighted point cloud of embedded words），文本文档 $A$ 和 $B$ 间的单词移动距离（Word Mover’s Distance，WMD）定义为：为匹配（match）文档 $B$ 的点云（point cloud），文档 $A$ 中的单词（words from document $A$ ）所需移动（travel）的最小累积距离（minimum cumulative distance），Fig. 1。

WMD最优问题是最短测地距离（Earth Mover’s Distance，EWD）运输问题（transportation problem）的特例。本文给出几个下界距离（lower bounds）用于近似WMD或对查询范围剪枝（approximations or to prune away documents that are provably not amongst the $k$ -nearest neighbors of a query）。

WMD特性：（1）无超参（hyper-parameter free）；（2）可解释性强（highly interpretable），文档距离可解释为少量不同单词间的稀疏距离（the distance between two documents can be broken down and explained as the sparse distances between few individual words）；（3）高检索准确率（high retrieval accuracy）。

2 相关工作

Okapi BM25

LDA

LSI

TextTiling-EMD

Stacked Denoising Autoencoders （SDA）、mSDA

Componential Counting Grid

3 Word2Vec词嵌入（Word2Vec Embedding）

word2vec：词嵌入过程（word-embedding procedure），使用（浅层）神经网络语言模型（a (shallow) neural network language model）学习单词的向量表示（vector representation）。

skip-gram模型：由输入层、投影层（a projection layer）和输出层组成，用于预测相邻单词（nearby words）。通过最大化语料库（corpus）中相邻单词（neighboring words）的对数概率（log probability），训练各单词词向量（word vector），即给定单词序列（a sequence of words） $w_{1}, \cdots, w_{T}$ ：

$\frac{1}{T} \sum_{t = 1}^{T} \sum_{j \in nb(t)} \log p(w_{j} | w_{t})$

其中， $n b (t)$ 表示单词 $t$ 的相邻单词集合、 $p(w_{j} | w_{t})$ 表示相应词向量（associated word vectors） $\mathbf{v}_{w_{j}}$ 和 $\mathbf{v}_{w_{t}}$ 之间的层级归一化指数（hierarchical softmax）。由于结构简单和层级归一化指数，skip-gram能够使用台式机在数十亿单词上训练（due to its surprisingly simple architecture and the use of the hierarchical softmax, the skip-gram model can be trained on a single machine on billions of words per hour using a conventional desktop computer），因此能学到复杂的单词关系。

4 WMD距离（Word Mover’s Distance）

$\mathbf{X} \in \R^{d \times n}$ 表示 $n$ 个单词的word2vec嵌入矩阵（a word2vec embedding matrix），其第 $i$ 列 $\mathbf{x}_{i} \in \R^{d}$ 表示第 $i$ 个单词在 $d$ 维空间中的词嵌入。假设文本文档表示为归一化词袋模型（normalized bag-of-words，nBOW）向量 $\mathbf{d} \in \R^{n}$ ，即如果单词 $i$ 出现 $c_{i}$ 次，则 $d_{i} = \frac{c_{i}}{\sum_{j = 1}^{n} c_{j}}$ 。通常，nBOW向量 $\mathbf{d}$ 非常稀疏（very sparse）。

$n$ BOW（ $n$ BOW representation）

向量 $\mathbf{d}$ 为 $n - 1$ 维单纯形（simplex），包含不同唯一词的两文档（different unique words）位于单纯形不同的区域中，但这两个文档的语义确可能相近（semantically close）。

词映射损失（word travel cost）

本文将单词对（individual word pairs）间的语义相似度（document distance metric）包含进文档距离度量（document distance metric）。单词不相似度通常采用在word2vec嵌入空间（the word2vec embedding space）中的欧氏距离（Euclidean distance）度量。单词 $i$ 和 $j$ 之间的距离为： $\| \mathbf{x}_{i} - \mathbf{x}_{j} \|_{2}$ ，表示一个单词移动到另一个单词的代价（the cost associated with “traveling” from one word to another）。

文档距离（document distance）

（1）令 $\mathbf{d}$ 、 $\mathbf{d}^{\prime}$ 表示两个文档在 $n - 1$ 维单纯形（simplex）上的 $n$ BOW表示。

（2）假定 $\mathbf{d}$ 中的每个单词 $i$ 都可以全部或部分映射到 $\mathbf{d}^{\prime}$ 中的任意单词（each word $i$ in $\mathbf{d}$ to be transformed into any word in $\mathbf{d}^{\prime}$ in total or in parts）。

（3）令 $\mathbf{T} \in \R^{n \times n}$ 表示（稀疏）流矩阵（a (sparse) flow matrix），其中 $\mathbf{T}_{ij} \geq 0$ 表示 $\mathbf{d}$ 中单词 $i$ 到 $\mathbf{d}^{\prime}$ 中单词 $j$ 的流量（how much of word $i$ in $\mathbf{d}$ travels to word $j$ in $\mathbf{d}^{\prime}$ ）。

（4）为将 $\mathbf{d}$ 完全转移至 $\mathbf{d}^{\prime}$ ， $\mathbf{d}$ 中单词 $i$ 的流出量为 $d_{i}$ ，即 $\sum_{j} \mathbf{T}_{ij} = d_{i}$ ；同时 $\mathbf{d}^{\prime}$ 中单词 $j$ 的流入量为 $d_{j}$ ，即 $\sum_{i} \mathbf{T}_{ij} = d_{j}$ （to transform d entirely into $\mathbf{d}$ we ensure that the entire outgoing flow from word $i$ equals $d_{i}$ , i.e. $\sum_{j} \mathbf{T}_{ij} = d_{i}$ . Further, the amount of incoming flow to word $j$ must match $d_{j}$ , i.e. $\sum_{i} \mathbf{T}_{ij} = d_{j}$ ）。

则两个文档间的距离定义为：将 $\mathbf{d}$ 中所有单词迁移至 $\mathbf{d}^{\prime}$ 中的最小加权累积代价（the distance between the two documents as the minimum (weighted) cumulative cost required to move all words from $\mathbf{d}$ to $\mathbf{d}^{\prime}$ ），即：

$\sum_{i, j} \mathbf{T}_{ij} c(i, j)$

运输问题（transportation problem）

给定约束，将 $\mathbf{d}$ 移至 $\mathbf{d}^{\prime}$ 的最小加权累积代价为如下线性规化（linear program）的解：

$\begin{aligned} & \min_{\mathbf{T} \geq 0} \sum_{i, j = 1}^{n} \mathbf{T}_{ij} c(i, j) \\ \text{subject to:} & \\ & \sum_{j = 1}^{n} \mathbf{T}_{ij} = d_{i}, \ \forall i \in \{ 1, \cdots, n \} \\ & \sum_{i = 1}^{n} \mathbf{T}_{ij} = d_{j}^{\prime}, \ \forall j \in \{ 1, \cdots, n \} \\ \end{aligned}$

■ $\mathbf{T}_{ij} \geq 0$ ■

WMD距离（word mover’s distance）即为方程（1）的解。由于 $c (i, j)$ 是一个测度（metric），可以证明WMD也是一个测度。

可视化（visualization）

4.1 快速距离计算（Fast Distance Computation）

WMD优化问题的最佳平均计算时间复杂度（best average time complexity）为 $\mathcal{O} (p^{3} \log p)$ ，其中 $p$ 表示文档中唯一词（unique words）的数量（the number of unique words in the documents）。■即 $p$ 为 $n$ BOW向量长度■

WMD运输问题的下界距离：

词质心距离（word centroid distance）

根据三角不等式（triangle inequality），文档 $\mathbf{d}$ 和 $\mathbf{d}^{\prime}$ 之间的质心距离（centroid distance） $\| \mathbf{X} \mathbf{d} - \mathbf{X} \mathbf{d}^{\prime} \|$ 为其WMD距离的下界（lower bound），

$\sum_{i, j = 1}^{n} \mathbf{T}_{ij} c(i, j) \geq \| \mathbf{X} d_{i} - \mathbf{X} d_{j}^{\prime} \|_{2}$

■■

$\begin{aligned} \sum_{i, j = 1}^{n} \mathbf{T}_{ij} c(i, j) & = \sum_{i, j = 1}^{n} \mathbf{T}_{ij} \| \mathbf{x}_{i} - \mathbf{x}_{j}^{\prime} \|_{2} \\ & = \sum_{i, j = 1}^{n} \| \mathbf{T}_{ij} (\mathbf{x}_{i} - \mathbf{x}_{j}^{\prime}) \|_{2} \\ & \geq \| \sum_{i, j = 1}^{n} \mathbf{T}_{ij} (\mathbf{x}_{i} - \mathbf{x}_{j}^{\prime}) \|_{2} \\ & = \| \sum_{i = 1}^{n} \left( \sum_{j = 1}^{n} \mathbf{T}_{ij} \right) \mathbf{x}_{i} - \sum_{j = 1}^{n} \left( \sum_{i = 1}^{n} \mathbf{T}_{ij} \right) \mathbf{x}_{j}^{\prime} \|_{2} \\ & = \| \sum_{i = 1}^{n} d_{i} \mathbf{x}_{i} - \sum_{j = 1}^{n} d_{j}^{\prime} \mathbf{x}_{j}^{\prime} \|_{2} \\ & = \| \mathbf{X} d_{i} - \mathbf{X} d_{j}^{\prime} \|_{2} \\ \end{aligned}$

■

由于每个文档都用其加权平均词向量表示（each document is represented by its weighted average word vector），本文称之为词质心距离（Word Centroid Distance, WCD）。WCD距离的计算时间复杂度为 $\mathcal{O} (dp)$ （it is very fast to compute via a few matrix operations and scales $\mathcal{O} (dp)$ ）。

对于最近邻（nearest-neighbor）问题，WCD能够缩小候选点范围（promising candidates），以加速WMD搜索。

WCD易于计算，但不够紧致（not very tight）。

松弛词移动距离（relaxed word moving distance）

通过放松WMD优化问题（relaxing the WMD optimization problem）并移除一个约束条件（removing one of the two constraints respectively），可以更紧致的下界（much tighter bounds）。

若移除第二个约束条件，优化问题为：

由于WMD最优问题的解需要满足两个约束条件，移除一个后，解的可行域变大，因此松弛问题的解必为WMD距离的下界（this relaxed problem must yield a lower-bound to the WMD distance, which is evident from the fact that every WMD solution (satisfying both constraints) must remain a feasible solution if one constraint is removed）。

最优流矩阵 $\mathbf{T}^{\ast}$ 为：

$\mathbf{T}^{\ast} = \begin{cases} d_{i}, & \text{if } j = \argmin_{j} c(i, j) \\ 0, & \text{otherwise} \end{cases} \tag {2}$

令 $\mathbf{T}$ 为松弛问题的任意可行解（feasible solution）， $\forall$ 单词 $i$ ，其最近词为 $j^{\ast} = \argmin_{j} c(i, j)$ ，则

$\sum_{j} \mathbf{T}_{ij} c(i, j) \geq \sum_{j} \mathbf{T}_{ij} c(i, j^{\ast}) = c(i, j^{\ast}) \sum_{j} \mathbf{T}_{ij} = c(i, j^{\ast}) d_{i} = \sum_{j} \mathbf{T}_{ij}^{\ast} c(i, j)$

因此， $\mathbf{T}^{\ast}$ 必能生成最小损失（a minimum objective value）。计算该解仅需确定 $j^{\ast} = \argmin_{j} c(i, j)$ （identification），可在欧氏word2vec空间中做最近邻搜索（a nearest neighbor search in Euclidean word2vec space）。对文档 $D$ 中的每个词向量 $\mathbf{x}_{i}$ ，需要找到文档 $D^{\prime}$ 中的最相似的词向量 $\mathbf{x}_{j}$ 。

若移除第一个约束，最近邻搜索过程相反，即对文档 $D^{\prime}$ 中的每个词向量 $\mathbf{x}_{j}$ ，需要找到文档 $D$ 中的最相似的词向量 $\mathbf{x}_{i}$ 。

令两个松弛解分别为 $l_{1} (\mathbf{d}, \mathbf{d}^{\prime})$ 、 $l_{2} (\mathbf{d}, \mathbf{d}^{\prime})$ ，通过取二者中的最大值（taking the maximum of the two），可得到更紧致的下界，称为松弛WMD（Relaxed WMD，RWMD）：

$l_{r} (\mathbf{d}, \mathbf{d}^{\prime}) = \max \left( l_{1} (\mathbf{d}, \mathbf{d}^{\prime}), l_{2} (\mathbf{d}, \mathbf{d}^{\prime}) \right)$

预读取与减枝（prefetch and prune）

查找查寻文档（a query document）的 $k$ 近邻：

（1）根据与查寻文档的WCD距离对所有文档进行排序，并计算前 $k$ 个文档的WMD距离；

（2）遍历（traverse）其余文档，首先检查各文档的RWMD下界是否大于当前 $k$ 近邻文档的WMD距离，如果条件为真则剪枝（check if the RWMD lower bound exceeds the distance of the current $k$ -th closest document, if so we can prune it）；否则计算其WMD距离，并更新 $k$ 近邻文档。

由于RWMD近似（RWMD approximation）的极其紧致，在一些数据集上， $95$ 的文档能被剪枝。

5 实验

5.1 数据集

SMART停用词（stop word）列表

比较7种文档表示基线（baseline）：词袋（bag-of-words，BOW）、TFIDF（term frequency-inverse document frequency）、BM25 Okapi、LSI（Latent Semantic Indexing）、LDA（Latent Dirichlet Allocation）、mSDA（Marginalized Stacked Denoising Autoencoder）、CCG（Componential Counting Grid）

欧氏距离 $k$ 近邻，超参使用贝叶斯优化（Bayesian optimization）

5.2 文档分类（Document classification）

5.3 词嵌入（Word embeddings）

5.4 词嵌入（Word embeddings）

RWMD距离与WMD距离极其接近，WCD距离与WMD距离相差较远。

6 结论

文献阅读 250303-Fire weakens land carbon sinks before 1.5 °C ZzYH22 笔记
Fireweakenslandcarbonsinksbefore1.5 °C来自##Intro:使用火-植被耦合模型来探索全球变暖水平的区域影响和反馈。讨论了1.5°C的目标是否与在考虑火灾状况变化时避免重大生态系统变化一致。我们发现，火灾开始显著影响全球碳储存的全球变暖水平比工业化前水平高出1.07°C（0.8–1.34°C），并得出结论，火灾已经在降低土地碳汇的有效性方面发挥了重要作用。由于气
AVM 环视拼接鱼眼相机选与握 #环视拼接 AVM
https://zhuanlan.zhihu.com/p/651306620AVM环视拼接方法介绍从内外参推导IPM变换方程及代码实现（生成AVM环视拼接图）_avm拼接-CSDN博客经典文献阅读之--ExtrinsicSelf-calibrationoftheSurround-viewSystem:AWeakly...(环视系统的外参自标定)-CSDN博客经典文献阅读之--:AWeakly...
文献阅读 250222-A Robust Causal Machine Learning Approach ZzYH22 笔记
InferringHeterogeneousTreatmentEffectsofCrashesonHighwayTraffic:ADoublyRobustCausalMachineLearningApproach来自##Intro:研究问题：高速公路交通事故对交通系统和经济都产生了相当大的影响。在这种情况下，准确可靠的应急响应对于有效的交通管理至关重要。但是，车祸对交通状态的影响因不同因素而异，并
文献阅读(part2)--Towards K-means-friendly spaces Simultaneous deep learning and clustering GUI Research Group 机器学习 python 深度聚类
学习笔记，仅供参考文章目录AbstractIntroductionBackgroundandRelatedWorksProposedFormulationOptimizationProcedureInitializationviaLayer-wisePre-Training(通过分层预训练进行初始化)AlternatingStochasticOptimizationExperiments合成数据演
【文献阅读分享】PAP-REC：个性化自动提示生成框架✨ Sheakan 推荐系统论文阅读总结人工智能推荐系统
标题期刊年份PAP-REC:PersonalizedAutomaticPromptforRecommendationLanguageModelACMTransactionsonInformationSystems(TOIS)2024研究背景在信息爆炸的时代，我们每天都要面对海量的数据和选择，这时候推荐系统就像我们的智能小助手，帮助我们在茫茫信息海洋中找到真正需要的资源。但是，传统的推荐系统模型大多
《Semantic communications - Principles and challenges》语义通信文献阅读与分析总结 snow每天都要好好学习深度学习深度学习
《语义通信：原理与挑战》文献详细总结1.语义通信的概念语义通信是一种超越传统香农通信范式的全新通信模式，它关注的是信息意义的传递，而不仅仅是数据本身的准确传输。传统通信强调比特级别的准确性，而语义通信更强调信息对接收方执行特定任务的有效性。这种模式被认为是第六代（6G）无线网络的核心技术之一，能够支持包括智能交通、智能监控、视频会议、增强现实（AR）和虚拟现实（VR）在内的多种智能应用。在语义通信
文献管理工具Zotero超详细教程，包含各个方面程序猿000001号论文阅读
1、为什么要使用Zotero上面两种方式对于后期进行写作，文献查找以及文献引用的都不方便，使用文献管理软件具有以下优点：下面是目前几款常见的文献阅读软件的对比：通过上面对比，可以看出Zotero在文献管理软件中具有一定的优势，下面介绍Zotero软件的使用。2、如何将论文导入Zotero2.1通过浏览器插件在浏览器中安装zotero插件后，在浏览器右上角就能够出现一个文件夹图标，此时就可以点击该文
Python——基于ERA5数据的饱和水汽压差（VPD）批量计算（Clausius-Clapeyron 克劳修斯-克拉伯龙关系）雨宫芳树算法 python arcgis 数据分析开发语言
一、前言之前我发布过基于CRU数据和Goff-Gratch公式计算VPD的博客，见下方：基于CRU数据计算VPD的博客但是，CRU数据的分辨率还是较为粗糙（0.5°×0.5°），而ERA5land数据集分辨率能很好地满足我的需求（0.1°×0.1°）。但是，ERA5land数据集并不提供水汽压和湿度变量供于下载，这导致利用Goff-Gratch公式很难进行计算。结合近期文献阅读和整理，这里提供另一
[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
想提升英文文献阅读速度？有哪些实用方法？ paixiaoxin 科研方法文献工具人工智能科研研究生文献管理文献阅读文献翻译 scholaread
在科研的道路上，筛选文献就像是大海捞针，找对了方法，就能快速锁定那些有价值的信息。尤其是在实验方向尚未确定时，如何从海量文献中筛选出“金子”，就显得尤为重要。关键的第一步：精准筛选当你面对一堆英文文献时，首先得明白，不是每一篇文献都值得你细读。这时候，筛选的技巧就显得至关重要。以下是如何快速而精准地进行筛选：快速阅读技巧：先看摘要和结论：这是最快速了解文章核心的方法。如果这两部分都看不懂或者不感兴
研究生师兄谈SCI论文写作心得华大基因学院
即将毕业的高产博士师兄（博士在读期间累计发表SCI论文11篇，其中第一作者或通讯作者论文10篇），受学院委托介绍一下论文写作经验，希望能对大家更快、更轻松发表学术论文提供些许帮助。一、文献阅读在开展课题前，阅读文献是一个不可或缺的环节，只有充分了解你要做的课题，才能得心应手地设计课题，进而快速的围绕计划开展研究、准备数据，方便后期撰写论文。实际上，很多小伙伴常常花费大量时间看各种文献，但还是往往不
Pytorch学习记录-接近人类水平的GEC（使用混合机器翻译模型）我的昵称违规了
五月第二周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Textmaching的应用方面，读完之后找demo复现，然后应用。理论方面的论文也都是英文的8.NearHuman-LevelPerformanceinGrammaticalErrorCorrectionwithHybridMachineTranslation昨天一天没看论文，发现我文献阅读速度太
文献阅读（42）——使用深度学习在眼底照中检测糖网并分类（综述）柚子味的羊文献阅读深度学习分类人工智能
使用深度学习在眼底照中检测糖网并分类（综述）Deeplearningfordiabeticretinopathydetectionandclassificationbasedonfundusimages:AreviewIF=6.698/Q1文章目录使用深度学习在眼底照中检测糖网并分类（综述）先验知识/知识拓展文章结构文章结果1.introduction方法1.眼底图像一般的分析pipeline2.
机器学习第二十五周周报 ConvLSTM 沽漓酒江机器学习人工智能
文章目录week25ConvLSTM摘要Abstract一、李宏毅机器学习二、文献阅读1.题目2.abstract3.网络架构3.1降水预报问题的建模3.2ConvolutionalLSTM3.3编码-预测结构4.文献解读4.1Introduction4.2创新点4.3实验过程4.3.1Moving-MNISTDataset4.3.2雷达回波数据集4.4结论三、基于pytorch实现ConvLST
机器学习第二十八周周报 PINNs2 沽漓酒江机器学习人工智能
文章目录week28PINNs2摘要Abstract一、Lipschitz条件二、文献阅读1.题目数据驱动的偏微分方程2.连续时间模型3.离散时间模型4.结论三、CLSTM1.任务要求2.实验结果3.实验代码3.1模型构建3.2训练过程代码小结参考文献week28PINNs2摘要本文主要讨论PINN。本文简要介绍了Lipschitz条件。其次本文展示了题为Physics-informedneura
文献阅读：金鱼端脑细胞类型图谱揭示了空间结构和细胞类型进化的多样性程序员
:::block-1文献介绍文献题目Atelencephaloncelltypeatlasforgoldfishrevealsdiversityintheevolutionofspatialstructureandcelltypes\研究团队AmitZeisel（以色列理工学院）、RonenSegev（本·古里安大学）\发表时间2023-11-01\发表期刊ScienceAdvances\影响因子
文献阅读-nomogram文章（七） cHarden13
题目：DevelopmentandValidationofaRadiomicsNomogramforPreoperativePredictionofLymphNodeMetastasisinColorectalCancerlogistic回归；放射组学；结直肠癌；淋巴结转移ref：医学方：临床医生的逆袭：深入解析临床研究预测类文章思路，带你成为科研“大牛”！一.纳入病人纳入2007.2-2010.
【思维导图认证班】戴兰第四幅思维导图作业-日程规划一为宝贝
我没有选择一日的时间来进行规划，而是以一个市级课题的完成来规划具体的步骤，因为这段时间都在集中做课题，没有安排其他的事情，所以没安排具体的时间。步骤分四部分：准备、撰写、查重和提交。准备又分为文献阅读准备和人员访谈准备；撰写分为结题报告、成果鉴定、成果要报。查重为知网，小于30%。提交分电子版和纸质版。心得：撰写前梳理整个课题的环节，撰写中边阅读文献边记录自己撰写的思路，撰写后按照思维导图傻瓜式准
200320复盘呼噜噜_77b5
上午上课，完成皮肤病学习。下午文献阅读，洗了个澡，然后完成单词，听力，阅读，口语。晚上部分完成老板任务。总得来讲，时间大部分利用了，效率和质量有待提高。
文献阅读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces Espresso Macchiato 文献阅读 Mamba Transformer SSSM S6 SSM
文献阅读：Mamba:Linear-TimeSequenceModelingwithSelectiveStateSpaces1.文章简介2.方法介绍1.StateSpaceModels2.SelectiveStateSpaceModels3.实验考察&结论1.简单问题上的验证2.实际场景效果1.语言模型2.DNA模型3.语音模型3.细节考察1.速度和内存考察2.消融实验4.结论&思考文献链接：ht
2019-7-20晨间日记风雨兼程_007
今天是什么日子起床：0800就寝：2300天气：晴心情：美纪念日：无叫我起床的不是闹钟是梦想年度目标及关键点：结束一年的学校生活，重整行装再出发！本月重要成果：文献阅读报告选对方向今日三只青蛙/番茄钟看望阿姨，学习人家的好习惯看看优秀的人的家庭是怎么样的从中学习，思考人生成功日志-记录三五件有收获的事务给儿子修玩具枪，让其有自豪感陪娃学习，共同见证人家的成长信任感，信赖这东西靠培养财务检视看清楚自
Pytorch学习记录-GEC语法纠错我的昵称违规了
Pytorch学习记录-GEC语法纠错01五月第一周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Textmaching的应用方面，读完之后找demo复现，然后应用。理论方面的论文也都是英文的，国内这块做的真的不行啊……学习计划GEC概念AlibabaatIJCNLP-2017Task1:EmbeddingGrammaticalFeaturesintoL
scanpy 教程 1：预处理和聚类 3k PBMCs Tiger Z 程序人生
「写在前面」学习一个软件最好的方法就是啃它的官方文档。本着自己学习、分享他人的态度，分享官方文档的中文教程。软件可能随时更新，建议配合官方文档一起阅读。推荐先按顺序阅读往期内容：文献篇：1.文献阅读：SCANPY：大规模单细胞基因表达数据分析2.文献阅读：scverse项目为单细胞组学数据分析提供了计算生态系统目录1预处理2主成分分析3计算邻域图4嵌入邻域图5对邻域图进行聚类6寻找标记基因官网教程
文献阅读：金鱼端脑细胞类型图谱揭示了空间结构和细胞类型进化的多样性 Tiger Z 程序人生
文献介绍「文献题目」Atelencephaloncelltypeatlasforgoldfishrevealsdiversityintheevolutionofspatialstructureandcelltypes「研究团队」AmitZeisel（以色列理工学院）、RonenSegev（本·古里安大学）「发表时间」2023-11-01「发表期刊」ScienceAdvances「影响因子」13.6
文献阅读02-2022-12-15 不学无术吗
题目：recentadvancesinRNAstructurome摘要：RNAstructuresareessentialtosupportRNAfunctionsandregulationinvariousbiologicalprocesses.Recently,arangeofnoveltechnologieshavebeendevelopedtodecodegenome-wideRNAstr
2024.2.4周报 Nyctophiliaa 人工智能深度学习
目录摘要一、文献阅读1、题目2、摘要3、模型架构4、文献解读一、Introduction二、实验三、结论二、PINN一、PINN比传统数值方法有哪些优势二、PINN方法三、正问题与反问题总结摘要本周我阅读了一篇题目为DeepResidualLearningforImageRecognition的文献，文章的贡献是作者提出了残差网络的思想，且证明了更深层的残差网络具有比VGG网络更低的复杂度和更高的
一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率 qq_43314576 人工智能机器学习深度学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract文献阅读：一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率二、使用步骤1、研究背景2、方法提出3、相关方法3.1、FSR网络结构3.2、多阶段FSR网络结构4、实验工作5、方法比较LSTM代码学习2.1、什么是LSTM2.2、LSTM的处理过程2.3、LSTM代码分析总结摘要本周主要阅读了2020C
基于场景文字知识挖掘的细粒度图像识别算法 qq_43314576 算法深度学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract文献阅读：基于场景文字知识挖掘的细粒度图像识别算法1、研究背景2、方法提出方法模块3、试验4、文章贡献二、RNN代码学习2.1、什么是RNN2.2、RNN的处理过程2.3、RNN简单代码实现总结摘要本周主要阅读了2022CVPR的文章，基于场景文字知识挖掘的细粒度图像识别算法，该论文提出了一种通过挖掘场景文
2019-05-06文献阅读记录一行白鹭上青天
2019-05-06阅读记录：题目：基于RS和GIS的桓仁县乡村聚落景观格局分析（2005年发表）期刊：测绘与空间地理信息Geomatics&SpatialInformationTechnology作者：于淼；李建东摘要：运用RS和GIS技术以及景观分析方法,以辽东山区桓仁县典型的6个乡镇乡村聚落为研究对象,选取乡村聚落斑块数、斑块面积、斑块密度、平均斑块面积、面积加权平均斑块分维数等5个景观指数
对于CNN的文献阅读和识别手写数字的复现白小李深度学习 cnn 神经网络
摘要一、文献阅读1、题目2、摘要3、引言4、CNN模型结构5、实验过程6、同GS算法的对比二、CNN识别手写数字1、两个性质2、图像卷积总结摘要在论文方面阅读了基于CNN网络对于大气湍流相位的提取，对CNN的结构网络和运行原理进行了学习，对CNN识别手写数字方面展开了编码，采用MINST数据集进行训练模型，并计划通过窗口就行可视化展现。Ireadthepaperonphaseextractiono
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 fred@myhost.com # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla