算法学习者

CIPS青工委学术专栏第12期 | 自动文摘研究进展与趋势

题目：自动文摘研究进展与趋势

作者：万小军、姚金戈（北京大学计算机科学技术研究所）

作者简介：

万小军，北京大学计算机科学技术研究所教授，博士生导师，语言计算与互联网挖掘实验室负责人。研究方向为自然语言处理与文本挖掘，研究兴趣包括自动文摘与文本生成、情感分析与观点挖掘、语义计算与信息推荐等，在相关学术会议与期刊上发表高水平学术论文上百篇。担任计算语言学顶级国际期刊Computational Linguistics编委，TACL常务评审委员（Standing Reviewing Committee），多次担任自然语言处理领域一流与重要国际会议领域主席或SPC（包括ACL、NAACL、IJCAI、IJCNLP等），自主或合作研制了自动文摘开源平台PKUSUMSUM、AI写稿机器人Xiaomingbot等系统。

姚金戈，北京大学计算机科学技术研究所博士生，研究方向为自然语言处理与自动文摘。

自动文摘的目的是通过对原文本进行压缩、提炼，为用户提供简明扼要的文字描述。根据处理的文档数量，自动文摘可以分为只针对单篇文档的单文档自动摘要和针对文档集的多文档自动摘要。根据是否提供上下文环境，自动文摘可以分为与主题或查询相关的自动摘要以及普通自动摘要。根据摘要的不同应用场景，自动文摘可以分为传记摘要、观点摘要、学术文献综述生成等，这些摘要通常为满足特定的应用需求。

自动文摘可以看作是一个信息压缩过程，将输入的一篇或多篇文档压缩为一篇简短的摘要，该过程不可避免有信息损失，但是要求保留尽可能多的重要信息。自动文摘系统通常涉及到对输入文档的理解、要点的筛选，以及文摘合成这三个主要步骤。其中，文档理解可浅可深，大多数自动文摘系统只需要进行比较浅层的文档理解，例如段落划分、句子切分、词法分析等，也有文摘系统需要依赖句法解析、语义角色标注、指代消解，甚至深层语义分析等技术。

研究现状与进展

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要（extractivesummarization）和生成式摘要（abstractive summarization）。抽取式方法相对比较简单，通常利用不同方法对文档结构单元（句子、段落等）进行评价，对每个结构单元赋予一定权重，然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析，对信息进行融合，利用自然语言生成技术生成新的摘要句子。

目前主流自动文摘研究工作大致遵循如下技术框架：

内容表示→ 权重计算→ 内容选择→ 内容组织

首先将原始文本表示为便于后续处理的表达方式，然后由模型对不同的句法或语义单元进行重要性计算，再根据重要性权重选取一部分单元，经过内容上的组织形成最后的摘要。现有的研究工作针对不同设定和场景需求展开，为上述框架中的各个技术点提供了多种不同的设计方案。有不少相关研究也尝试在统一的框架中联合考虑其中的多个技术点。

1 内容表示与权重计算

原文档中的每个句子由多个词汇或单元构成，后续处理过程中也以词汇等元素为基本单位，对所在句子给出综合评价分数。以基于句子选取的抽取式方法为例，句子的重要性得分由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反映其重要性，我们可以使用每个句子中出现某词的概率作为该词的得分，通过将所有包含词的概率求和得到句子得分(Nenkova and Vanderwende,2005; Vanderwende et al., 2007)。也有一些工作考虑更多细节，利用扩展性较强的贝叶斯话题模型，对词汇本身的话题相关性概率进行建模(Daume III and Marcu, 2006; Haghighi and Vanderwende,2009; Celikyilmaz and Hakkani-Tur, 2010)。

一些方法将每个句子表示为向量，维数为总词表大小。通常使用加权频数(Salton and Buckley, 1988; Erkan and Radev,2004)作为句子向量相应维上的取值。加权频数的定义可以有多种，如信息检索中常用的词频-逆文档频率（TF-IDF）权重。也有研究工作考虑利用隐语义分析或其他矩阵分解技术，得到低维隐含语义表示并加以利用(Gong and Liu, 2001)。得到向量表示后计算两两之间的某种相似度（例如余弦相似度）。随后根据计算出的相似度构建带权图，图中每个节点对应每个句子。在多文档摘要任务中，重要的句子可能和更多其他句子较为相似，所以可以用相似度作为节点之间的边权，通过迭代求解基于图的排序算法来得到句子的重要性得分(Erkan and Radev, 2004; Wan et al., 2007; Wanand Yang, 2008)。也有很多工作尝试捕捉每个句子中所描述的概念，例如句子中所包含的命名实体或动词。出于简化考虑，现有工作中更多将二元词（bigram）作为概念(Gillicket al., 2008; Li et al., 2013)。

另一方面，很多摘要任务已经具备一定数量的公开数据集，可用于训练有监督打分模型。例如对于抽取式摘要，我们可以将人工撰写的摘要贪心匹配原文档中的句子或概念，从而得到不同单元是否应当被选作摘要句的数据。然后对各单元人工抽取若干特征，利用回归模型(Ouyanget al., 2011; Hong and Nenkova, 2014)或排序学习模型(Shenand Li, 2011; Wang et al., 2013)进行有监督学习，得到句子或概念对应的得分。文档内容描述具有结构性，因此也有利用隐马尔科夫模型（HMM）、条件随机场（CRF）、结构化支持向量机（Structural SVM）等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作(Conroy,2001; Shen et al., 2007; Sivos and Joachims, 2012)。所提取的特征包括所在位置、包含词汇、与邻句的相似度等等。对特定摘要任务一般也会引入与具体设定相关的特征，例如查询相关摘要任务中需要考虑与查询的匹配或相似程度。

2 内容选择

无论从效果评价还是从实用性的角度考虑，最终生成的摘要一般在长度上会有限制。在获取到句子或其他单元的重要性得分以后，需要考虑如何在尽可能短的长度里容纳尽可能多的重要信息，在此基础上对原文内容进行选取。

2.1 贪心选择

可以根据句子或其他单元的重要性得分进行贪心选择。选择过程中需要考虑各单元之间的相似性，尽量避免在最终的摘要中包含重复的信息。最为简单常用的去除冗余机制为最大边缘相关法(Maximal Marginal Relevance – MMR)(Carbonell and Goldstein, 1998)，即在每次选取过程中，贪心选择与查询最相关或内容最重要、同时和已选择信息重叠性最小的结果。也有一些方法直接将内容选择的重要性和多样性同时考虑在同一个概率模型框架内(Kulesza and Taskar, 2011)，基于贪心选择近似优化似然函数，取得了不错的效果。

此后有离散优化方向的研究组介入自动文摘相关研究，指出包括最大边缘相关法在内的很多贪心选择目标函数都具有次模性(Lin and Bilmes, 2010)。记内容选取目标函数为F(S)，其自变量S为待选择单元的集合；次模函数要求对于，以及任意单元u，都满足如下性质：

这个性质被称为回报递减效应（diminishing returns），很符合贪心选择摘要内容的直觉：由于每步选择的即时最优性，每次多选入一句话，信息的增加不会比上一步更多。使用特定的贪心法近似求解次模函数优化问题，一般具备最坏情况近似比的理论保证。而实际应用中研究发现，贪心法往往已经可以求得较为理想的解。由于贪心法易于实现、运行效率高，基于次模函数优化的内容选择在近年得到了很多扩展。多种次模函数优化或部分次模函数优化问题及相应的贪心解法被提出，用于具体语句或句法单元的选取(Linand Bilmes, 2011; Sipos et al., 2012; Dasgupta et al., 2013; Morita et al.,2013)。

2.2 全局优化

基于全局优化的内容选择方法同样以最大化摘要覆盖信息、最小化冗余等要素作为目标，同时可以在优化问题中考虑多种由任务和方法本身的性质所导出的约束条件。最为常用的形式化框架是基于0-1二值变量的整数线性规划(McDonald,2007; Gillick and Favre, 2009)。最后求解优化问题得到的结果中如果某变量取值为1，则表示应当将该变量对应的单元选入最后的摘要中。由于整数线性规划在计算复杂性上一般为NP-难问题，此类方法的求解过程在实际应用中会表现较慢，并不适合实时性较高的应用场景。有研究工作将问题简化后使用动态规划策略设计更高效的近似解法。也有少量研究工作尝试在一部分特例下将问题转化为最小割问题快速求解(Qian and Liu, 2013)，或利用对偶分解技术将问题化为多个简单子问题尝试求得较好的近似解(Almeida and Martins, 2013)。更为通用的全局优化加速方案目前仍是一个开放问题。

3 内容组织

3.1 内容简化与整合

基于句子抽取得到的语句在表达上不够精练，需要通过语句压缩、简化、改写等技术克服这一问题。在这些技术中相对而言较为简单的语句压缩技术已经广泛被应用于摘要内容简化。现行主要做法基于句法规则(Clarke and Lapata, 2008)或篇章规则(Clarke and Lapata, 2010; Durrett et al., 2016)，例如如果某短语重要性较高需要被选择用于构成摘要，那么该短语所修饰的中心词也应当被选择，这样才能保证得到的结果符合语法。这些规则既可以直接用于后处理步骤衔接在内容选取之后进行，也可以用约束的形式施加在优化模型中，这样在求解优化问题完毕后就自然得到了符合规则的简化结果。局部规则很容易表达为变量之间的线性不等式约束，因此尤其适合在前面提到的整数线性规划框架中引入。另外，关于语句简化与改写方面目前也有相对独立的研究，主要利用机器翻译模型进行语句串或句法树的转写(Wubben et al., 2012)。由于训练代价高以及短语结构句法分析效率和性能等诸多方面原因，目前很少看到相关模块在摘要系统中的直接整合与应用。

一些非抽取式摘要方法则重点考虑对原句信息进行融合以生成新的摘要语句。基于句法分析和对齐技术，可以从合并后的词图直接产生最后的句子(Barzilayand McKeown, 2005)，或者以约束形式将合并信息引入优化模型(Bing et al., 2015)等方式来实现。

还有部分研究者尝试通过对原文档进行语义理解，将原文档表示为深层语义形式（例如深层语义图），然后分析获得摘要的深层语义表示（例如深层语义子图），最后由摘要的深层语义表示生成摘要文本。近期的一个尝试为基于抽象意义表示（AbstractMeaning Representation, AMR）进行生成式摘要(Liu et al., 2015)。这类方法所得到的摘要句子并不是基于原文句子所得，而是利用语义分析和自然语言生成技术从语义表达直接生成而得。这类方法相对比较复杂，而且由于自然语言理解与自然语言生成本身都没有得到很好的解决，因此目前生成式摘要方法仍属于探索阶段，其性能还不尽如人意。

3.2 内容排序

关于对所选取内容的排序，相关研究尚处于较为初级的阶段。对于单文档摘要任务而言，所选取内容在原文档中的表述顺序基本可以反映这些内容之间正确的组织顺序，因此通常直接保持所选取内容在原文中的顺序。而对于多文档摘要任务，选取内容来自不同文档，所以更需要考虑内容之间的衔接性与连贯性。早期基于实体的方法(Lapataand Barzilay, 2005; Barzilay and Lapata, 2008)通过对实体描述转移的概率建模计算语句之间的连贯性。据此找到一组最优排序的问题很容易规约到复杂性为NP-完全的旅行商问题，精确求解十分困难。因此多种近似算法已经被应用于内容排序。近年来，深度学习技术被用于语句连贯性建模与排序任务中，Li与Jurafsky (2016)提出基于LSTM的辨别式模型与生成式模型，能够取得比较理想的排序效果。未来随着篇章分析、指代消解技术的不断进步，多文档摘要中的语句排序问题也有机会随之产生更好的解决方案。

4 端到端摘要

随着深度学习技术在分布式语义、语言模型、机器翻译等任务上取得了一系列突破性成果，相关方法在文摘任务上的应用研究也受到广泛关注。基于编码器-解码器（encoder-decoder）架构的序列到序列学习模型（sequence-to-sequencelearning）目前最为流行，因为可以避免繁琐的人工特征提取，也避开了重要性评估、内容选择等技术点的模块化，只需要足够的输入输出即可开始训练。但这些方法需要比传统方法规模远远更大的训练语料，加上当前主流的神经网络框架尚不能够有效对长文档进行语义编码，因此目前的相关研究大多只能集中于语句级简化和标题生成，一般仅仅以文档首句作为输入，以一个短句作为输出(如Rush et al., 2015; Gu et al., 2016等)。极少数近期工作开始同时在同一个神经网络框架里考虑句子选取和摘要生成，尝试对语句层次进行编码并在此基础上引入层次化注意机制(Li et al., 2015; Cheng et al., 2016)，但效果尚未能明显改善传统方法已经能够取得的性能。

展望

自动文摘是自然语言处理领域的一个重要研究方向，近60年持续性的研究已经在部分自动文摘任务上取得了明显进展，但仍需突破很多关键技术，才能提高其应用价值、扩大其应用范围。

展望未来，以下研究方向或问题值得关注：

多语言自动文摘资源建设：目前的自动文摘资源总体上偏少，无论是数据还是工具与系统。一方面会影响评测结果的准确性，另一方面也无法为有监督学习方法尤其是深度学习方法提供充足的训练数据。业界需要投入更多的人力物力来建设多语言自动文摘资源。

自动文摘评价方法的完善：目前的自动文摘评价方法需要进一步完善，尤其是自动评价方法。基于词汇重叠程度的ROUGE等评价方法虽然被广泛采用，但质疑声不断。业界需要提出更加合理的自动评价准则，综合考虑摘要的多种性质，这将极大推动业界对自动文摘的研究。

基于自然语言生成的自动文摘：生成式摘要方法更符合人类撰写摘要的习惯，但自然语言生成技术的复杂性和不成熟阻碍了生成式摘要方法的研究进展。深度学习技术在自然语言生成问题上的逐步应用给生成式摘要带来了希望和机遇，未来几年将会有越来越多的研究者基于深度学习技术从事生成式摘要方法的研究，也有望取得重要进展。

篇章信息和语义信息的有效利用：现有方法利用的信息主要基于由统计频数或出现位置所反映的重要性度量，一般比较表层，而忽视了对文档篇章信息与语义信息的利用。文档本身的语义表达具备很强的结构性，各语义单元之间存在紧密联系，这一点在目前提出的结构预测模型中也几乎没有考虑。另一方面，应尽可能保证最后抽取或生成的摘要在描述上前后一致、表达连贯。因此，对文档篇章与语义信息的有效利用将有可能大大改善自动文摘系统的性能。

综述自动生成：综述自动生成是一类特殊的自动文摘任务，具有广泛的应用价值，可帮助自动撰写新闻事件深度报道、学术文献综述、舆情报告等。与传统自动文摘任务不同，综述一般较长，可以长达数千字，牵涉到篇章的整体逻辑性与局部连贯性，因此更具有挑战性。目前业界仅仅对学术文献自动综述进行了简单了尝试，效果差强人意，未来几年期待业界研究者在更多综述自动生成任务上进行有益的尝试，并在特殊应用场景下实现风格相对固定的综述文章自动撰写。

面向复杂问题回答的自动摘要：基于关键词检索的搜索引擎正在逐步向基于自然语言检索的问答引擎过渡。而对于很多种类的问题，并不适合使用简单的一两个短语作答。比如搜索引擎用户时常需要进行对定义（“是什么”）、原因（“为什么”）、步骤（“怎么做”）、观点（“怎么样”）等方面的查询。与只需少量简单实体作答的事实型问题相对，这一类问题往往被称为非事实型问题或复杂问题。相对完整地回答非事实型问题需要对单个文档甚至多个相关文档中的部分内容进行提取、聚合与总结。由于非事实型问答固有的困难性，相关研究在学术圈进展缓慢，期待未来有更多的研究者敢于迎接此项挑战。

除了上述研究方向与问题之外，未来自动文摘将会越来越多地与其他技术相结合，面向全新的应用需求，形成更具特色的自动文摘任务，该领域的研究也将更加多样化。

最后，我们有理由相信，随着语义分析、篇章理解、深度学习等技术的快速发展，自动文摘这一重要且有挑战性的自然语言处理问题在可预见的未来能够取得显著的研究进展，并且更多地应用于互联网产品与服务，从而体现自身的价值。

参考文献

Almeida, M. B., & Martins, A. F. (2013). Fast andRobust Compressive Summarization with Dual Decomposition and Multi-TaskLearning. In ACL.

Bing L., Li P., Liao Y., Lam W., Guo W., & PassonneauR. J. (2015). Abstractive Multi-Document Summarization via Phrase Selection andMerging. In ACL.

Barzilay, R., & Lapata, M. (2008). Modeling localcoherence: An entity-based approach. Computational Linguistics, 34(1), 1-34.

Barzilay, R., & McKeown, K. R. (2005). Sentencefusion for multidocument news summarization. Computational Linguistics, 31(3),297-328.

Carbonell, J., & Goldstein, J. (1998). The use ofMMR, diversity-based reranking for reordering documents and producingsummaries. In SIGIR.

Celikyilmaz, A., & Hakkani-Tur, D. (2010). A hybridhierarchical model for multi-document summarization. In ACL.

Cheng, J., & Lapata, M. (2016). Neural Summarizationby Extracting Sentences and Words. In ACL.

Clarke, J., & Lapata, M. (2008). Global inference forsentence compression: An integer linear programming approach. Journal of Artificial Intelligence Research,399-429.

Clarke, J., & Lapata, M. (2010). Discourseconstraints for document compression. Computational Linguistics, 36(3),411-441.

Conroy, J. M., & O'leary, D. P. (2001). Textsummarization via hidden markov models. In SIGIR.

Dasgupta, A., Kumar, R., & Ravi, S. (2013).Summarization Through Submodularity and Dispersion. In ACL.

Daumé III, H., & Marcu, D. (2006). Bayesianquery-focused summarization. In ACL.

Durrett, G., Berg-Kirkpatrick, T., & Klein, D.(2016). Learning-Based Single-Document Summarization with Compression andAnaphoricity Constraints. In ACL.

Erkan, G., & Radev, D. R. (2004). LexRank:Graph-based lexical centrality as salience in text summarization. Journal ofArtificial Intelligence Research, 22, 457-479.

Gillick, D., Favre, B., & Hakkani-Tur, D. (2008). TheICSI summarization system at TAC 2008. In Proceedings of the Text UnderstandingConference.

Gillick, D., & Favre, B. (2009). A scalable globalmodel for summarization. In Proceedingsof the Workshop on Integer Linear Programming for Natural Langauge Processing(pp. 10-18). Association for Computational Linguistics.

Gu, J., Lu, Z., Li, H., & Li, V. O. (2016).Incorporating copying mechanism in sequence-to-sequence learning. In ACL.

Haghighi, A., & Vanderwende, L. (2009). Exploringcontent models for multi-document summarization. In ACL.

Hong, K., & Nenkova, A. (2014). Improving theEstimation of Word Importance for News Multi-Document Summarization. In EACL.

Kulesza, A., & Taskar, B. (2011). Learningdeterminantal point processes. In UAI.

Lapata, M., & Barzilay, R. (2005). Automaticevaluation of text coherence: Models and representations. In IJCAI.

Li, C., Qian, X., & Liu, Y. (2013). Using SupervisedBigram-based ILP for Extractive Summarization. In ACL.

Li, J., & Jurafsky, D. (2016). Neural Net Models forOpen-Domain Discourse Coherence. arXiv, https://arxiv.org/abs/1606.01545v1.

Li, J., Luong, M. T., & Jurafsky, D. (2015). Ahierarchical neural autoencoder for paragraphs and documents. In ACL.

Lin, H., & Bilmes, J. (2010). Multi-documentsummarization via budgeted maximization of submodular functions. In HLT-NAACL.

Lin, H., & Bilmes, J. (2011). A class of submodularfunctions for document summarization. In HLT-NAACL.

Lin, C. Y., & Hovy, E. (2002). From single tomulti-document summarization: A prototype system and its evaluation. In ACL.

Liu, F., Flanigan, J., Thomson, S., Sadeh, N., &Smith, N. A. (2015). Toward Abstractive Summarization Using SemanticRepresentations. In NAACL.

McDonald, R. (2007). A study of global inference algorithms in multi-document summarization(pp. 557-564). Springer Berlin Heidelberg.

Morita, H., Sasano, R., Takamura, H., & Okumura, M.(2013). Subtree Extractive Summarization via Submodular Maximization. In ACL.

Nenkova, A., & Vanderwende, L. (2005). The impact offrequency on summarization. Microsoft Research, Redmond, Washington, Tech. Rep.MSR-TR-2005-101.

Ouyang, Y., Li, W., Li, S., & Lu, Q. (2011). Applyingregression models to query-focused multi-document summarization. Information Processing & Management,47(2), 227-237.

Qian, X., & Liu, Y. (2013). Fast Joint Compression andSummarization via Graph Cuts. In EMNLP.

Rush, A. M., Chopra, S., & Weston, J. (2015). Aneural attention model for abstractive sentence summarization. In EMNLP.

Salton, G., & Buckley, C. (1988). Term-weightingapproaches in automatic text retrieval. Information processing &management, 24(5), 513-523.

Sipos, R., Shivaswamy, P., & Joachims, T. (2012).Large-margin learning of submodular summarization models. In EACL.

Shen, C., & Li, T. (2011). Learning to rank forquery-focused multi-document summarization. In ICDM.

Shen, D., Sun, J. T., Li, H., Yang, Q., & Chen, Z.(2007). Document Summarization Using Conditional Random Fields. In IJCAI.

Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova,A. (2007). Beyond SumBasic: Task-focused summarization with sentencesimplification and lexical expansion. Information Processing & Management,43(6), 1606-1618.

Wan, X., & Yang, J. (2008). Multi-documentsummarization using cluster-based link analysis. In SIGIR.

Wan, X., Yang, J., & Xiao, J. (2007).Manifold-Ranking Based Topic-Focused Multi-Document Summarization. In IJCAI.

Wang, L., Raghavan, H., Castelli, V., Florian, R., &Cardie, C. (2013). A Sentence Compression Based Framework to Query-FocusedMulti-Document Summarization. In ACL.

Wubben, S., Van Den Bosch, A., & Krahmer, E. (2012).Sentence simplification by monolingual machine translation. In ACL.

你可能感兴趣的:(CIPS青工委学术专栏第12期 | 自动文摘研究进展与趋势)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2022-07-08 保利学府里李楚怡1307022
——保利碧桂园学府里——童梦奇趣【科学实验室】「7.9-7.10」✏玩出大智慧约99-144㎡二期全新升级力作
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen