winkake

数学之美学习笔记

16年一月份阅读了吴军的《数学之美》，真有种相见恨晚的感觉！对于刚刚学习自然语言处理的人来说，这是最佳入门读物，没有之一。下面是我在学习中做的一些知识点的阅读笔记，有些内容、公式摘自Tomas M.Cover的《信息论基础》，详情请参考原著，本文仅作个人阅读笔记学习使用。

1.熵、联合熵、条件熵、互信息、相对熵

信息的作用是排除不确定性，信息量就得关于不确定性的多少。

对于任意一个随机变量X，其熵为：

对于服从联合分布为p(x,y)的一对离散随机变量，即x,y一起出现的概率，其联合熵为

条件熵即在知道Y取不同值时X的概率分布，在Y的条件下的条件熵为

延伸：一对随机变量的联合熵等于其中一个随机变量的熵加上另一个随机变量的条件熵：

互信息（Mutual Information）度量两个随机事件的相关性，度量一个随机变量包含另一个随机变量的信息量，即在给定另一随机变量知识的条件下，原随机变量不确定度的缩减量：

相对熵（Relative Entropy），又叫交叉熵，也用来衡量相关性，但衡量的是两个取值为正的函数的相关性，刻画两个概率分布之间的距离的一种度量，互信息是它的特殊形式。相对熵D（p||q）度量当真实分布为p而假设分布为q时的无效性。两个概率密度函数为p（x）和q（x）之间的相对熵公式如下：

延伸：两个随机变量X和Y,他们的联合概率密度函数为p（x，y），其边际概率密度函数分别是p（x）和 p（y）。互信息为联合分布 p（x，y）和乘积分布 p（x）p（y）之间的相对熵：

相对熵是不对称的，即

为了使用的方便性，詹森和香农提出新的相对熵计算方法，即将上面的不等式两边取平均：

这一计算方法曾用在google的自动问答系统中，衡量两个答案的相似性。如何衡量需要进一步探索！

相对熵的应用：文中提出利用相对熵可以得到词频率-逆向文档频率（TF-IDF）。IDF的公式为log(D/Dw)，其中D是全部文档数，Dw是关键词w出现的文档数量。就是一个特定条件下（TF为特定条件）关键词的概率分布的相对熵。

推导思路：一个关键词的权重可以利用这个词的信息量来衡量，即：

其中N是整个语料库的大小，是个可以忽略的常数。上述公式可以简化为：

考虑关键词的分辨率，满足一下假设：

（1）每个文献大小基本相同，均为M个词，M=N/D；

（2）一个关键词无论在文献中出现几次，贡献都相同，其要么在一个文献中出现C(w)=TF(w)/D(w)次，要么出现零次。

此时每个关键词的权重及其信息量表示为：

可以看出关键词的信息量I(w)越大，TF-IDF值越大；C(w)即关键词命中的文献中关键词平均出现的次数越多，即第二项越小，TF-IDF值越大。

熵与互信息的关系：

由此可知，互信息I(X,Y)是在给定Y知识的条件下X的不确定度的缩减量，也可得到 I(X;Y)=H(Y)-H(Y|X) ,即X含有Ｙ的信息量和Ｙ含有Ｘ的信息量等同。

由联合熵的分解公式　H(X,Y)=H(X)+H(Y|X) 、互信息的分解公式 I(X;Y)=H(Y)-H(Y|X)，可得

I(X;Y)=H(X)+H(Y)-H(X,Y)。

扩展：H(X)、H(Y)、H(X,Y)、H(X|Y)、H(Y|X)、I(X;Y)之间的关系用文氏图表示如下：

2.最大熵原理（The Maximum Entropy Principle）

最大熵原理指出，对一个随机事件的概率分布进行预测时，应该满足全部已知的条件而对未知的情况不做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为此时概率分布的信息熵最大，所以称这种模型为“最大熵模型”！通俗理解就是当我们遇到不确定性时，就要保留各种可能性。

匈牙利著名数学家、信息论最高奖香农奖得主希萨（I.Csiszar）证明：对任何一组不自相矛盾的信息，最大熵模型不仅存在而且是唯一的。并且都有同一个非常简单的形式--指数函数。最大熵模型计算量很大，宾夕法尼亚大学马库斯教授的高徒拉纳帕提（Adwait Ratnaparkhi）找到几个最适合用最大熵模型且计算量相对不太大的自然语言处理问题，比如词性标注、句法分析。他成功将上下文信息、词性（名词、动词、形容词）以及主谓宾等句子成分，通过最大熵模型结合起来，做出当时世界上最好的词性标注系统和句法分析器。

模型的训练：如下图通过20种特征计算网页d的概率的最大熵模型

其中归一化因子Z保证概率加起来等于1，参数λ需要通过模型训练获得。

最原始的最大熵模型训练方法为通用迭代算法GIS（Generalized Iterative Scaling），其原理大致为：

（1）假定第零次迭代的初始模型为等概率的均匀分布

（2）用第N次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小，否则变大

（3）重复步骤2 直到收敛

这种训练方法为典型的期望值最大化算法（Expectation Maximization,简称EM），由希萨解释清楚这种算法的物理含义。由于GIS算法每次迭代时间很长，需要迭代很多次才收敛，且不太稳定，因此很少实际使用，只通过其来了解最大熵模型的算法。之后达拉.皮垂兄弟对其改进，提出了改进迭代算法IIS（Improved Iterative Scaling），使最大熵模型训练时间缩短一两个数量级，吴军在约翰.霍普金斯大学读博士时发现一种数学变换，又将训练时间在IIS基础上减少两个数量级。

总结：最大熵模型形式简单，从效果上看是唯一一种既能满足各种信息源的限制条件又能保证平滑性的模型，但实现复杂，计算量巨大。

扩展阅读：

EM算法的物理含义

3.贝叶斯网络

由于网络中，每个节点的概率都可以用贝叶斯公式来计算，因此得名贝叶斯网络。马尔科夫假设保证了贝叶斯网络便于计算，即网络中的每个状态取决于前面有限个状态，但贝叶斯网络的拓扑结构比马尔可夫链灵活，不受其链状结构的约束。即马尔科夫链是贝叶斯网络的特例，而贝叶斯网络是马尔科夫链的推广。贝叶斯网络是一个加权的有向图。

应用：吴军说利用贝叶斯网络找出近义词和相关词，但对于具体如何应用还需探索；

文中举例贝叶斯网络在词分类中的应用，即针对文章、概念（主题）、关键词之间建立贝叶斯网络，感觉和LDA（Latent Dirchlet Allocation）比较相似。实现的难点在于如何从大规模文章中准确自动抽取关键词，通过句法分析是否能够解决？这又涉及到中文分词和中文句法解析器的准确性问题。其次无论是通过文本、关键字关联矩阵的奇异值分解还是使用余弦举例的聚类，词语分出来的每一类为一个概念，这个概念是如何标记的？是按照顺序标记还是人工判定为一个具体的主题？

书中指出只考虑关键词和文本的关系，较少考虑关键词的上下文关系使得概念的聚类过于广泛，无法应用。google之后对这个网络的重构中考虑关键词的相似性从原来的在文本中同现扩展为上下文中同现，同时支持不同颗粒的概念。其意思是否是对每一个词语又根据其在文章中的上下文不同细分为结合上下文的下位类？这样原先的词语维度就会扩展为原先的好多倍。不同颗粒的概念是否和上下文选择的个数有关？

贝叶斯网络的训练：分为结构和参数的训练两个部分。（1）结构的训练，优化的贝叶斯结构要保证其产生的序列可能性最大即后验概率最大。理论上需要考虑每一天路径，计算复杂度无法实现。一般采用贪心算法（Greedy Algorithm）即在每一步方向寻找有限步，缺点是会陷入局部最优，最终远离全局最优解。可以采用蒙特卡洛（Monte Carlo）的方法，找许多随机数在贝叶斯网络中检测是否陷入局部最优，但其计算量较大。还有一个新方法是计算网络中节点之间两两的互信息，保留互信息较大的节点直接的链接，然后对简化的网络进行完备的搜索，找到全局优化的结构。（2）参数的训练即计算网络中节点之间弧的权重，利用期望值最大化算法EM。

扩展阅读：数学之美番外篇：平凡而又神奇的贝叶斯网络（强烈建议多读几遍！！！）

奥卡姆剃刀的精神：如果两个理论具有相似的解释力度，那么优先选择那个更简单的（往往也正是更平凡的，更少繁复的，更常见的）。最大似然方法：在贝叶斯模型比较中，不考虑先验概率的方法就是最大似然方法。

公式P(h | D) ∝ P(h) * P(D | h)中h表示预测可能的值，D表示观测数据。这个式子的抽象含义是：对于给定观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小（先验概率，Prior ）”即P(h)和“这个猜测生成我们观测到的数据的可能性大小”（似然，Likelihood ）即P(D | h)的乘积。奥卡姆剃刀就是说 P(h) 较大的模型有较大的优势，而最大似然则是说最符合观测数据的（即 P(D | h) 最大的）最有优势。另外工作在贝叶斯公式的似然P(D | h)上的剃刀叫做贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor），即似然估计也选择了最简单的模型。

最优贝叶斯推理的思想是就是将多个模型对于未知数据的预测结论加权平均起来（权值就是模型相应的概率），但模型空间可能是连续的，计算非常耗时。感觉和随机森林算法有相似之处！

朴素贝叶斯就是指贝叶斯方法加上了条件独立假设。

层次贝叶斯模型，前面讲的贝叶斯，都是在同一个事物层次上的各个因素之间进行统计推理，然而层次贝叶斯模型在哲学上更深入了一层，将这些因素背后的因素（原因的原因，原因的原因，以此类推）囊括进来。一个教科书例子是：如果你手头有 N 枚硬币，它们是同一个工厂铸出来的，你把每一枚硬币掷出一个结果，然后基于这 N 个结果对这 N 个硬币的 θ （出现正面的比例）进行推理。如果根据最大似然，每个硬币的 θ 不是 1 就是 0 （这个前面提到过的），然而我们又知道每个硬币的 p(θ) 是有一个先验概率的，也许是一个 beta 分布。也就是说，每个硬币的实际投掷结果 Xi 服从以 θ 为中心的正态分布，而 θ 又服从另一个以 Ψ 为中心的 beta 分布。层层因果关系就体现出来了。进而 Ψ 还可能依赖于因果链上更上层的因素，以此类推。这和LDA的核心思想很相似。

LDA漫游指南，LDA算法是英国剑桥大学的David M.Blei以PLSA（LDA之前的另一个概率模型）为基础，加上了贝叶斯先验，从而诞生了LDA算法。

4.通信模型、马尔可夫链、隐马尔可夫模型、条件随机场

问题：根据接收到的观测信号O1,O2,...如何推测信号源发出的信息S1,S2,.....

数学表示：S1,S2,.....=Arg Max P(S1,S2,.....|O1,O2,...)

=P(O1,O2,...|S1,S2,....)P(S1,S2,....) / P(O1,O2,..)

P(O1,O2,..)已经观测到，可以忽略掉。

19世纪概率论从对随机变量的研究发展到对随机变量的时间序列即随机过程的研究。马尔可夫提出的马尔可夫假设为随机过程中各个状态St的概率分布，只与它的前一个状态S(t-1)有关，即P(St|S1,S2,S3,...St-1)=P(St|St-1)。

符合这一假设的过程为马尔可夫过程，即马尔可夫链。

隐含马尔可夫模型满足两个条件：（1）有一个隐含的满足马尔可夫链的状态序列S1,S2,.....，观测不到

（2）但是这个隐藏的序列在每个时刻t都会输出一个符号Ot，且Ot跟St相关且仅跟St相关。即St和Ot满足独立输出假设。

第一个问题可以简化表示为

隐含马尔科夫模型的训练：

（1）给定一个模型，如何计算某个特定的输出序列的概率；（Forward-Backward算法）

（2）给定一个模型和某个特定的输出序列，如何找到最可能产生这个输出的状态序列；（维特比算法）

（3）给定足够的观测数据，如何估计隐含马尔科夫模型的参数。

模型参数有：转移概率，即前一个状态St-1到当前状态St的概率P(St|St-1)；

生成概率，即每个状态St产生输出符号Ot的概率P(Ot|St )。

模型参数的训练有两种方法：一种是利用大量人工标注的数据，称为有监督的训练方法；一种是仅通过大量观测到的信号O1,O2,...就能推测出模型参数，称为无监督的训练方法，其中主要使用的是鲍姆-韦尔奇算法（Baum-Welch Algorithm）即使用期望值最大化算法EM通过迭代不断估计新的模型参数，使得目标函数达到最大化。

互联网时代，网民生成的句子很随意，利用拉纳帕提的括括号的深层文法分析得出全部的语法树，分析出的正确率很低。好在很多自然语言处理的应用中只要做浅层分析（Shallow Parsing）也叫部分句法分析(partial parsing)或语块分析(chunk parsing)，即不需要得出全部的语法树，只需要找出其中主要的词组和他们之间的关系即可。条件随机场（Conditional Random fields）简称CRF，使得句子浅层分析的正确率达到95%。

条件随机场也是隐含马尔科夫模型的一种扩展，和贝叶斯网络一样也是一种概率图模型，但贝叶斯网络是有向图，条件随机场是无向图。解释如下。

隐马模型中，观测值xi只取决于产生它的状态yi，和前后状态yi-1,yi+1都无关，而条件随机场则把xi，yi-1，yi，yi+1都考虑进来。

扩展阅读：条件随机场技术博客，其中介绍了模型的训练算法和一些c++实现工具；

条件随机场文献阅读指南，详细介绍了相关文献。

5.动态规划、维特比算法

动态规划（Dynamic Programming）通俗讲就是把一个复杂的问题拆分为一系列简单的问题（状态）和状态转移公式，以递推的方式来解决。其他解释详见：知乎中关于动态规划的讨论。利用动态规划可以解决任何一个图中的最短路径问题。

维特比算法是应用最广的特殊的动态规划算法，是针对篱笆网络（Lattice）的有向图最短路径问题提出的。

即隐马尔可夫模型中的隐含序列状态是固定的，但是每个状态值是可变的，就形成上图的篱笆网络。其中Xij表示状态Xi的第j个可能的值，每个状态Xi的输出是固定的yi。原先的转移概率P(Xi|Xi-1)变为更复杂的篱笆网络。维特比算法的基础可以概括为三点：

（1）如果概率最大的路径P经过某个点如X22，那么从起点S到X22的子路径Q一定是S到X22之间的最短路径；

（2）从起点S到重点E的路径必定经过第i时刻的某个状态，假定第i时刻有k个节点，那么如果记录了从S到第i个状态的所有k个节点的最短路径，最终的最短路径必定经过其中的一条。那么在任何某个时刻，只要考虑非常有限条候选路径即可。

（3）结合上述两点，当从状态i进入状态i+1时，假设从S到状态i上各个节点的最短路径已经找到，并且记录在这些节点上，那么在计算从S到i+1状态的某个节点的最短路径时，只要考虑从S到i的所有的k个节点的最短路径，以及从这k个节点到i+1状态的节点的距离即可。

6.期望最大化算法（Expectation Maximization Algorithm）

一般性问题描述：根据许多观测数据，让计算机不断迭代来学习一个模型。首先，根据现有模型（比如均匀分布）计算各个观测数据输入到模型的计算结果，这个过程就叫做期望值计算过程（Expectation）即E过程；接着重新计算模型参数，使期望值最大化，这个过程就是最大化过程（Maximization）即M过程。

EM算法的应用举例：

（1）前面提到的隐马尔可夫模型的训练方法鲍姆-韦尔奇算法（Baum-Welch Algorithm）就是EM算法，其中E过程就是根据现有的模型计算每个状态之间转移的次数以及每个状态产生他们输出的次数，M过程就是根据这些次数重新估计隐马模型的参数。他的最大化的目标函数就是观测值的概率。

（2）最大熵模型参数训练的通用迭代算法也是EM算法，E过程是根据现有的模型计算每一个特征的数学期望值，M过程就是根据这些特征的数学期望值和实际观测值的比值，调整模型参数，最大化的目标函数就是熵函数。

注意：EM算法得到的解不一定是全局最优解而可能是局部最优解。如果优化的目标函数是凸函数，那么得到的一定是全局最优解。

《Operating System Concepts》阅读笔记：p272-p285 操作系统
《OperatingSystemConcepts》学习第27天，p272-p285总结，总计14页。一、技术总结1.semaphoreAsemaphoreSisanintegervariablethat,apartfrominitialization,isaccessedonlythroughtwostandardatomicoperations:wait()andsignal().2.monit
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
FLOW MATCHING FOR GENERATIVE MODELING 阅读笔记冰冰冰泠泠泠笔记机器学习算法
论文提出了一种新的生成模型。论文的目的是给定一个目标分布，有目标分布的一定量的样本，但是不知道目标分布的概率密度函数，学习一个模型能生成服从目标分布的新样本。FlowMatching(FM)是一种训练连续标准化流ContinuousNormalizingFlow(CNF)的方法。FM是一种通用的方法。FM可以用于训练扩散路径，用FM训练扩散路径更稳定。FM也可以用于训练其他路径，一个例子是训练最优
《Operating System Concepts》阅读笔记：p228-p257 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第25天，p228-p257总结，总计30页。一、技术总结1.algorithmevaluation评估CPU调度算法需要考虑的因素有：CPUutilization,responsetime或者throughput。基于以上几个因素，选择依据为：(1)MaximizingCPUutilizationundertheconstraintthatt
《Operating System Concepts》阅读笔记：p258-p271 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第26天，p258-p271总结，总计14页。一、技术总结1.criticalsectionAsectionofcoderesponsibleforchangingdatathatmustonlybeexecutedbyonethreadorprocessatatimetoavoidaracecondition.2.Peterson’ssolu
《Operating System Concepts》阅读笔记：p208-p227 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第24天，p208-p227总结，总计20页。一、技术总结1.vmstatLinux系统上vmstat命令的作用是“Reportvirtualmemorystatistics”。2.schedulingalgorithms(1)FCFS(first-comefirst-serve)(2)SJF(shortest-job-first)准确的叫法应
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
《Operating System Concepts》阅读笔记：p258-p271 操作系统
《OperatingSystemConcepts》学习第26天，p258-p271总结，总计14页。一、技术总结1.criticalsectionAsectionofcoderesponsibleforchangingdatathatmustonlybeexecutedbyonethreadorprocessatatimetoavoidaracecondition.2.Peterson'ssolu
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
《Operating System Concepts》阅读笔记：p208-p227 操作系统
《OperatingSystemConcepts》学习第24天，p208-p227总结，总计20页。一、技术总结1.vmstatLinux系统上vmstat命令的作用是“Reportvirtualmemorystatistics”。2.schedulingalgorithms(1)FCFS(first-comefirst-serve)(2)SJF(shortest-job-first)准确的叫法应
《计算机组成及汇编语言原理》阅读笔记：p28-p47 编程
《计算机组成及汇编语言原理》学习第3天，p28-p47总结，总计20页。一、技术总结1.VirtualMachine2.stack3.Thefetch-executeCycle在控制单元(ControlUnit,CU)里面有一个指令寄存器(InstructionRegister,IR)和一个程序计数器(ProgramCounter,PC)。PC保存下次要访问的内存(memory)地址,IR保存从内
《计算机组成及汇编语言原理》阅读笔记：p1-p8 编程
《计算机组成及汇编语言原理》学习第1天，p1-p8总结，总计8页。一、技术总结1.Intel8088microprocessor(微处理器)，1979-1988。2.MS-DOSMicrosoftDiskOperatingSystem的缩写，是一个操作系统(operatingsystem)。3.Moore'sLaw&Moore'ssecondlaw(1)Moore'slawThenumberoft
《Operating System Concepts》阅读笔记：p200-p202 操作系统
《OperatingSystemConcepts》学习第22天，p200-p202总结，总计3页。一、技术总结1.CPU-I/Oburst(1)CPUburstSchedulingprocessstateinwhichtheprocessexecutesonCPU.(2)I/OburstSchedulingprocessstateinwhichtheCPUperformsI/O.2.racecon
【大模型基础_毛玉仁】0.系列文章 XiaoJ1234567 大模型基础_毛玉仁大语言模型基础语言模型大模型基础_毛玉仁
更多内容：XiaoJ的知识星球系列文章【大模型基础_毛玉仁】系列文章参考本系列文章，是对浙江大学毛玉仁、高云君等人著作的《大模型基础》的阅读笔记。原书涵盖传统语言模型、大语言模型架构、提示工程、参数高效微调、模型编辑和检索增强生成等几大模块。原书参考链接及目录如下：《大模型基础》Github:https://github.com/ZJU-LLMs/Foundations-of-LLMs《大模型基础
机器学习—赵卫东阅读笔记（一）走在考研路上深度学习了解机器学习笔记人工智能
第一章：机器学习基础1.1.2机器学习主要流派1.符号主义2.贝叶斯分类——基础是贝叶斯定理3.联结主义——源于神经学，主要算法是神经网络。——BP算法：作为一种监督学习算法，训练神经网络时通过不断反馈当前网络计算结果与训练数据之间的误差来修正网络权重，使误差足够小。4.进化计算——通过迭代优化，找到最佳结果。——具有自组织、自适应、自学习的特性，能够有效处理传统优化算法难以解决的复杂问题（例如N
《Operating System Concepts》阅读笔记：p188-p199 操作系统
《OperatingSystemConcepts》学习第21天，p188-p199总结，总计12页。一、技术总结1.thread-localstorageDataavailableonlytoagiventhread.2.transaction(1)英语中的意思c/u.trans-("across")+agere("todrive,do,peform")。theactofperformsthacr
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
《计算机组成及汇编语言原理》阅读笔记：p178-p199 asm
《计算机组成及汇编语言原理》学习第14天，p178-p199总结，总计22页。一、技术总结1.关于end的一点疑问p178,Forexample,oneinstruction(BSWAP)swapstheendbytesina32-bitregister(specifiedasanargument),ataskthatcouldbeperformedusingbasicarithmeticinad
《Operating System Concepts》阅读笔记：p179-p179 操作系统
《OperatingSystemConcepts》学习第19天，p179-p179总结，总计1页。一、技术总结1.Pythonthreadpool(1)示例书上介绍的是Javathreadpoo,因为本人工作中使用的编程语言是Python,所以补充一下Python中的threadpool用例。importconcurrent.futuresimporturllib.requestURLS=['ht
《Operating System Concepts》阅读笔记：p177-p178 操作系统
《OperatingSystemConcepts》学习第18天，p177-p178总结，总计2页。一、技术总结1.implicitthreadAprogrammingmodelthattransfersthecreationandmanagementofthreadingfromapplicationdeveloperstocompilersandrun-timelibraries.2.threa
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
《Operating System Concepts》阅读笔记：p159-p161 操作系统
《OperatingSystemConcepts》学习第16天，p159-p161总结，总计3页。一、技术总结1.thread(1)定义AthreadisabasicunitofCPUutilization;itcomprisesathreadID,aprogramcounter(PC),aregisterset,andastack.Aprocesscontrolstructurethatisan
2025年2月文章一览 python
2025年2月编程人总共更新了17篇文章：1.2025年1月文章一览2.《OperatingSystemConcepts》阅读笔记：p2-p83.《OperatingSystemConcepts》阅读笔记：p9-p124.《OperatingSystemConcepts》阅读笔记：p13-p165.《OperatingSystemConcepts》阅读笔记：p17-p256.《OperatingS
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-VOC.yaml 红色的山茶花 YOLO 笔记深度学习
VOC.yamlultralytics\cfg\datasets\VOC.yaml目录VOC.yaml1.YAML文件内容2.所需的库和模块3.defconvert_label(path,lb_path,year,image_id):4.Download5.Convert1.YAML文件内容#UltralyticsAGPL-3.0License-https://ultralytics.com/li
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-model.py 红色的山茶花 YOLO 笔记深度学习
model.pyultralytics\models\yolo\model.py目录model.py1.所需的库和模块2.classYOLO(Model):3.classYOLOWorld(Model):1.所需的库和模块#UltralyticsAGPL-3.0License-https://ultralytics.com/licensefrompathlibimportPathfromultra
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-converter.py 红色的山茶花 YOLO 笔记深度学习
converter.pyultralytics\data\converter.py目录converter.py1.所需的库和模块2.defcoco91_to_coco80_class():3.defcoco80_to_coco91_class():4.defconvert_coco(labels_dir="../coco/annotations/",save_dir="coco_converted
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-metrics.py 红色的山茶花 YOLO 笔记深度学习
metrics.pyultralytics\utils\metrics.py目录metrics.py1.所需的库和模块2.defbbox_ioa(box1,box2,iou=False,eps=1e-7):3.defbox_iou(box1,box2,eps=1e-7):4.defbbox_iou(box1,box2,xywh=True,GIoU=False,DIoU=False,CIoU=Fal
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-tasks.py 红色的山茶花 YOLO 笔记深度学习
tasks.pyultralytics\nn\tasks.py目录tasks.py1.所需的库和模块2.classBaseModel(nn.Module):3.classDetectionModel(BaseModel):4.classOBBModel(DetectionModel):5.classSegmentationModel(DetectionModel):6.classPoseModel
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默