黑符石

【深度学习】BioBERT文章翻译及个人感悟

文章地址：【https://arxiv.org/abs/1901.08746】

0. 摘要

0.1 动机

随着生物医学文献数量的快速增长，生物医学文本挖掘变得越来越重要。随着自然语言处理（NLP）的进步，从生物医学文献中提取有价值的信息已在研究人员中普及，深度学习促进了有效的生物医学文本挖掘模型的发展。但是，由于单词分布从一般领域的语料库转移到生物医学的语料库，直接将NLP的进步应用到生物医学的文本挖掘中通常会产生不令人满意的结果。在本文中，我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。

0.2 结果

我们介绍了BioBERT（用于生物医学文本挖掘的双向编码器表示Transformers），这是一种在大型生物医学语料库上预先训练的领域特定语言表示模型。通过在任务上几乎相同的体系结构，在经过生物医学语料库的预训练之后，BioBERT在许多生物医学文本挖掘任务中都大大优于BERT和以前的最新模型。尽管BERT的性能可与以前的最新模型相媲美，但在以下三个代表性的生物医学文本挖掘任务上，BioBERT的性能明显优于它们：生物医学命名实体识别（F1分数提高0.62％），生物医学关系提取（2.80％） F1分数提高）和生物医学问答（MRR提高12.24％）。我们的分析结果表明，对生物医学语料库进行BERT的预培训有助于其理解复杂的生物医学文献。

0.3 可用性和应用

我们可以在https://github.com/naver/biobert-pretrained上免费提供BioBERT的预训练权重，并在https://github.com/dmis-lab/biobert上提供用于微调BioBERT的源代码。

1.介绍

生物医学文献的数量继续迅速增加。平均而言，每天在同行评审的期刊上发表3000多篇新文章，不包括各种档案中的预览版和技术报告，例如临床试验报告。截至2019年1月，仅PubMed就有2900万篇文章。包含有关新发现和新见解的宝贵信息的报告不断地被添加到本已大量的文献中。因此，越来越需要用于从文献中提取信息的准确的生物医学文本挖掘工具。

自然语言处理（NLP）中使用的深度学习技术的进步，使生物医学文本挖掘模型的最新进展成为可能。例如，在过去几年中，长短期记忆（LSTM）和条件随机场（CRF）在生物医学命名实体识别（NER）方面的性能有了很大提高（Giorgi和Bader，2018 ; Habibi 等人，2017 ; Wang 等人，2018 ; Yoon 等人，2019）。其他基于深度学习的模型也改善了生物医学文本挖掘任务，例如关系提取（RE）（Bhasuran和Natarajan，2018年 ; Lim和Kang，2018年））和问答（QA）（Wiese 等人，2017年）。

但是，将最新的NLP方法直接应用于生物医学文本挖掘具有局限性。首先，随着最近的单词表示模型（例如Word2Vec（Mikolov 等，2013），ELMo（Peters 等，2018）和BERT（Devlin 等，2019）都在包含通用领域文本的数据集上进行训练和测试（例如Wikipedia），很难估计它们在包含生物医学文本的数据集上的表现。同样，普通语料库和生物医学语料库的单词分布也有很大不同，这对于生物医学文本挖掘模型通常可能是一个问题。结果，生物医学文本挖掘中的最新模型很大程度上依赖于单词表示形式的改编版本（Habibi 等， 2017 ; Pyysalo 等，2013年）。

在这项研究中，我们假设需要在生物医学语料库上训练当前最先进的词表示模型（例如BERT），以有效地进行生物医学文本挖掘任务。以前，Word2Vec是最广为人知的上下文无关单词表示模型之一，它是在生物医学语料库上进行训练的，该语料库包含通常不包含在通用领域语料库中的术语和表达（Pyysalo 等人，2013年）。尽管ELMo和BERT已经证明了上下文化词表示法的有效性，但它们在生物医学语料库上无法获得高性能，因为它们仅在通用领域语料库上进行了预训练。由于BERT在各种NLP任务上都取得了非常出色的结果，同时在整个任务中使用几乎相同的结构，因此将BERT应用于生物医学领域可能会有益于众多生物医学NLP研究。

2. 方法

在本文中，我们介绍了BioBERT，它是针对生物医学领域的预先训练的语言表示模型。预训练和微调BioBERT的总体过程如图1所示。首先，我们使用BERT的权重初始化BioBERT，该BERT已在通用领域语料库（英语Wikipedia和BooksCorpus）上进行了预训练。然后，对BioBERT进行生物医学领域语料库的预训练（PubMed摘要和PMC全文文章）。为了显示我们的方法在生物医学文本挖掘中的有效性，我们对BioBERT进行了微调，并对三种流行的生物医学文本挖掘任务（NER，RE和QA）进行了评估。我们使用通用领域语料库和生物医学语料库的不同组合和大小来测试各种预训练策略，并分析每种语料库对预训练的影响。我们还提供了BERT和BioBERT的深入分析，以显示我们的预训练策略的必要性。

BioBERT的预训练和微调概述

本文的贡献如下：

BioBERT是第一个基于领域特定BERT的模型，已在生物医学语料库上经过八个NVIDIA V100 GPU进行了23天的预训练。
我们表明，对BERT进行生物医学语料库的预培训可以大大提高其性能。与当前的最新模型相比，BioBERT在生物医学NER（0.62）和生物医学RE（2.80）中获得了更高的F1评分，在生物医学QA中获得了更高的MRR得分（12.24）。
与大多数以前主要专注于单个任务（例如NER或QA）的生物医学文本挖掘模型相比，我们的模型BioBERT可在各种生物医学文本挖掘任务上实现最先进的性能，而仅需进行最小的架构修改。
我们公开提供了经过预处理的数据集，经过训练的BioBERT权重以及用于微调BioBERT的源代码。

3. 模型及预料

BioBERT基本上具有与BERT相同的结构。我们简要讨论最近提出的BERT，然后详细描述BioBERT的预训练和微调过程。

3.1 BERT

从大量未注释的文本中学习单词表示法是一种悠久的方法。先前的模型（例如Word2Vec（Mikolov 等，2013），GloVe（Pennington 等，2014））专注于学习上下文无关的单词表示，而最近的工作则专注于学习上下文相关的单词表示。例如，ELMo（Peters 等人，2018）使用双向语言模型，而CoVe（McCann 等人，2017）使用机器翻译将上下文信息嵌入单词表示中。

BERT（Devlin 等人，2019）是一个基于上下文的单词表示模型，该模型基于标注语言模型并使用双向Transformer 进行了预训练（Vaswani 等人，2017）。由于无法看到将来的单词的语言建模的本质，以前的语言模型仅限于两个单向语言模型（即从左到右和从右到左）的组合。BERT使用掩蔽语言模型来预测序列中的随机掩蔽词，因此可用于学习双向表示。而且，它在大多数NLP任务上都具有最先进的性能，同时只需要最小的特定于任务的体系结构修改。BERT的作者认为，合并双向表示而不是单向表示的信息对于以自然语言表示单词至关重要（Krallinger 等，2017）。由于篇幅所限，我们请读者参考Devlin 等。（2019）进一步了解BERT。

3.2 预训练BioBERT

作为通用语言表示模型，BERT在英文Wikipedia和BooksCorpus上进行了预培训。但是，生物医学领域文本包含相当多的领域特定专有名词（例如BRCA1，c.248T> C）和术语（例如转录，抗菌剂），大多数生物医学研究人员都理解它们。结果，为通用语言理解而设计的NLP模型通常在生物医学文本挖掘任务中表现不佳。在这项工作中，我们对BioBERT进行了PubMed摘要（PubMed）和PubMed Central全文文章（PMC）的预训练。表1列出了用于BioBERT的预训练的文本语料库，表2列出了经过测试的文本语料库组合。为了提高计算效率，每当使用Wiki + Books语料库进行预训练时，我们就使用Devlin 等提供的预训练的BERT模型初始化BioBERT （2019）。我们将BioBERT定义为一种语言表示模型，其预训练语料库包括生物医学语料库（例如BioBERT（+ PubMed））。

表1：用于BioBERT的文本语料库列表

语料库	单词数	所属领域
English Wikipedia	25亿	通用
BooksCorpus	8亿	通用
PubMed摘要	45亿	生物医学
PMC全文文章	135亿	生物医学

表2：在以下文本语料库的不同组合上对BioBERT进行预训练：English Wikipedia（Wiki），BooksCorpus（Books），PubMed摘要（PubMed）和PMC全文文章（PMC）

关于词性标注，BioBERT使用WordPiece标注法（Wu 等，2016），这缓解了OOV（未登录词）的问题。使用WordPiece标注法，任何新单词都可以由频繁的子单词表示（例如Immunoglobulin => I ## mm ## uno ## g ## lo ## bul ## in）。我们发现，使用带格词汇（而不是小写）可以在下游任务中获得更好的性能。尽管我们可以基于生物医学语料库构建新的WordPiece词汇表，但是我们使用了BERT BASE的原始词汇表出于以下原因：
（i）BioBERT与BERT的兼容性，这允许重新使用在通用域语料库上进行过预训练的BERT，并使得更容易互换使用基于BERT和BioBERT的现有模型
（ii）任何新的仍然可以使用BERT的原始WordPiece词汇表来对生物医学领域的单词进行表示和微调。

3.3 微调BioBERT

只需进行最小的架构修改，即可将BioBERT应用于各种下游文本挖掘任务。我们针对以下三个具有代表性的生物医学文本挖掘任务对BioBERT进行了调整：NER，RE和QA。

命名实体识别是最基本的生物医学文本挖掘任务之一，其中涉及到识别生物医学语料库中的众多领域特定专有名词。虽然以前的大多数解决方案都是基于LSTM和CRF的不同组合构建的（Giorgi和Bader，2018年 ; Habibi 等人，2017年 ; Wang 等人，2018年），但BERT具有基于双向 Transformer 的简单架构。BERT基于来自最后一层的表示使用单个输出层来仅计算令牌级别的BIO2概率。注意：虽然以前在生物医学NER中的工作经常使用在PubMed或PMC语料库上训练的词嵌入（Habibi 等，2017 ;Yoon 等。，2019），BioBERT在预训练和微调期间直接学习WordPiece嵌入。对于NER的评估指标，我们使用了实体级别的准确性，召回率和F1得分。

关系提取是对生物医学语料库中命名实体的关系进行分类的任务。我们利用了BERT原始版本的句子分类器，该分类器使用[CLS]标记对关系进行分类。基于来自BERT的[CLS]令牌表示，使用单个输出层执行句子分类。我们使用预定义标签（例如@ GENE $或@ DISEASE $）使句子中的目标命名实体匿名。例如，具有两个目标实体（在这种情况下为基因和疾病）的句子表示为“ @ GENE $位置986处的丝氨酸可能是血管造影@ DISEASE $的独立遗传预测因子。”的精确度，召回率和F1得分报告RE任务。

问题解答是根据相关段落回答以自然语言提出的问题的任务。为了对BioBERT进行质量检查进行微调，我们使用了与SQuAD相同的BERT架构（Rajpurkar 等，2016）。我们使用了BioASQ事实数据集，因为它们的格式与SQuAD相似。使用单个输出层计算答案短语开始/结束位置的令牌级别概率。但是，我们发现，在提取的质量检查设置中，约有30％的BioASQ拟事实问题无法回答，因为确切的答案并未出现在给定的段落中。像Wiese 等人。（2017），我们从训练集中排除了具有无法回答的问题的样本。此外，我们使用了相同的预训练过程Wiese 等。（2017），它使用SQuAD，并在很大程度上改善了BERT和BioBERT的性能。我们使用了BioASQ的以下评估指标：严格的准确性，宽松的准确性和平均倒数排名。

4. 结果

4.1 数据集

如下表3列出了生物医学NER数据集的统计数据。我们使用了Wang 等提供的所有NER数据集的预处理版本。（2018），但2010 i2b2 / VA，JNLPBA和Species-800数据集除外。由于从其训练集中删除了重复的文章，因此预处理的NCBI疾病数据集的注释少于原始数据集。我们使用CoNLL格式（https://github.com/spyysalo/standoff2conll）预处理2010 i2b2 / VA和JNLPBA数据集。Species-800数据集已根据Pyysalo（https://github.com/spyysalo/s800）的数据集进行了预处理和拆分）。我们没有为BC2GM数据集使用备用注释，并且所有NER评估均基于实体级别的精确匹配。请注意：尽管最近还有其他一些引入的高质量生物医学NER数据集（Mohan和Li，2019），但我们使用了许多生物医学NLP研究人员经常使用的数据集，这使得将我们的工作与他们的工作进行比较变得容易得多。
RE数据集包含基因-疾病关系和蛋白质-化学关系（表4）。我们提供的代码提供了预处理的GAD和EU-ADR数据集。对于CHEMPROT数据集，我们使用了Lim和Kang（2018）中描述的相同预处理程序。我们使用了BioASQ事实数据集，可以将其转换为与SQuAD数据集相同的格式（表5）。我们使用了BioASQ组织者提供的完整摘要（PMID）以及相关的问题和答案。我们已经公开提供了经过预处理的BioASQ数据集。对于所有数据集，我们使用先前工作中使用的相同数据集拆分（Lim和Kang，2018；Tsatsaronis 等，2015；Wang 等，2018）进行公平评估；但是，从Giorgi和Bader（2018）中找不到LINAAEUS和Species-800的分裂，并且可能有所不同。像以前的工作（Bhasuran和Natarajan，2018年）一样，我们报告了对没有单独测试集（例如GAD，EU-ADR）的数据集进行10倍交叉验证的性能。

表3：生物医学命名实体识别数据集的统计数据：

数据集	实体类型	标注实体数量
NCBI疾病（Dogan 等，2014）	疾病	6881
2010 i2b2 / VA（Uzuner等，2011）	疾病	19665
BC5CDR（Li 等，2016）	疾病	12694
BC5CDR（Li 等，2016）	药物/化学	15411
BC4CHEMD（Krallinger 等，2015）	药物/化学	79842
BC2GM（Smith 等，2008）	基因/蛋白质	20703
JNLPBA（Kim 等，2004年）	基因/蛋白质	35460
LINNAEUS（Gerner 等，2010）	种类	4077
物种-800（Pafilis 等，2013）	种类	3708

注意：实体标注数量统计由：Habibi （2017）和Zhu （2018）等人提供。

表4：生物医学关系提取数据集的统计：

数据集	实体类型	关系数
GAD（Bravo et al。，2015）	基因疾病	5330
欧盟ADR（Van Mulligen et al。，2012）	基因疾病	355
CHEMPROT（Krallinger 等人，2017）	蛋白质化学	10031

注意：对于CHEMPROT数据集，对训练，验证和测试集中的关系数求和。

表5：生物医学问答数据集的统计：

数据集	训练集大小	测试集大小
BioASQ 4b-类固醇（Tsatsaronis 等，2015）	327	161
BioASQ 5b-类固醇（Tsatsaronis 等，2015）	486	150
BioASQ 6b-类固醇（Tsatsaronis 等，2015）	618	161

我们将BERT和BioBERT与当前的最新模型进行比较，并报告其得分。请注意，每个最新模型都具有不同的体系结构和训练过程。例如，Yoon 等人的最新模型。在JNLPBA数据集上训练的（2019）基于具有字符级CNN的多个Bi-LSTM CRF模型，而在LINNAEUS数据集上训练的Giorgi和Bader（2018）的最新模型使用Bi-LSTM CRF具有字符级LSTM的模型，并且还接受了银标准数据集的培训。另一方面，BERT和BioBERT具有完全相同的结构，并且仅使用金标准数据集，而不使用任何其他数据集。

4.2 硬件环境及训练时长

我们使用了在英语维基百科和BooksCorpus上预训练的BERT BASE模型进行1M步。BioBERT v1.0（+ PubMed + PMC）是经过训练的470K步骤的BioBERT（+ PubMed + PMC）版本。当同时使用PubMed和PMC语料库时，我们发现200K和270K的预训练步骤分别对于PubMed和PMC是最佳的。我们还使用了BioBERT v1.0的消融版本，仅在PubMed上进行了200K步的预训练（BioBERT v1.0（+ PubMed）），在PMC上进行了270K步的训练（BioBERT v1.0（+ PMC））。在最初发布BioBERT v1.0之后，我们在PubMed上对BioBERT进行了100万步的预培训，我们将此版本称为BioBERT v1.1（+ PubMed）。除非另有说明，否则其他超参数（例如用于预训练BioBERT的批处理大小和学习速率计划）与用于预训练BERT的参数相同。

我们使用Naver智能机器学习（NSML）（Sung 等人，2017）对BioBERT进行了预培训，该技术用于需要在多个GPU上运行的大规模实验。我们使用了八个NVIDIA V100（32GB）GPU进行预训练。最大序列长度固定为512，最小批量大小设置为192，每次迭代产生98304个单词。在这种情况下，要对BioBERT v1.1（+ PubMed）进行BioBERT v1.0（+ PubMed + PMC）的培训要花费将近23天的时间，超过10天。尽管我们竭尽全力使用BERT_LARGE，但由于BERT_LARGE的计算复杂性，我们仅使用BERT_BASE。

我们使用单个NVIDIA Titan Xp（12GB）GPU在每个任务上微调BioBERT。请注意，微调过程比预训练BioBERT的计算效率更高。为了进行微调，选择了10、16、32或64的批量大小，并选择了5e-5、3e-5或1e-5的学习率。由于训练数据的大小比Devlin 等人使用的训练数据小得多，因此在QA和RE任务上对BioBERT进行微调不到一个小时（2019）。另一方面，BioBERT在NER数据集上达到最高性能需要花费20多个epochs。

4.3 实验结果

NER的结果示于表6。首先，我们观察到仅对通用域语料库进行了预训练的BERT是非常有效的，但是BERT的微观平均F1得分要比最新模型低（2.01）。另一方面，在所有数据集上，BioBERT的得分均高于BERT。在9个数据集中，有6个数据集的BioBERT均优于最新模型，而按微观平均F1得分计算，BioBERT v1.1（+ PubMed）则较最新模型高0.62。LINNAEUS数据集的相对较低的得分可归因于以下方面：（i）缺乏用于训练先前的最新模型的银标准数据集，以及（ii）先前使用的不同训练/测试集划分作品（Giorgi and Bader，2018），这是不可用的。

表6：生物医学命名实体识别中的测试结果：

注意：报告每个数据集的精度（P），召回率（R）和F1（F）分数。最佳成绩以粗体显示，第二最佳成绩用下划线标出。我们在不同的数据集上列出了最新技术（SOTA）模型的得分，如下所示：Xu 等人的得分。（2019）关于NCBI疾病，Sachan 等人的分数。（2018）关于BC2GM，Zhu 等人的分数。（2018）（单一模型）于2010 i2b2 / VA，Lou 等人的得分。（2017）关于BC5CDR疾病，Luo 等人的评分。（2018） on BC4CHEMD，Yoon 等人的得分。（2019）BC5CDR-chemical和JNLPBA上的得分，以及Giorgi和Bader（2018）在LINNAEUS和Species-800上的得分。

每个模型的RE结果如表7所示。BERT的性能优于CHEMPROT数据集上最新模型的性能，这证明了它在RE中的有效性。从平均水平（微型）来看，BioBERT v1.0（+ PubMed）的F1得分高于最新模型。此外，BioBERT在3个生物医学数据集中有2个获得了最高的F1分数。

表7：生物医学关系提取测试结果

注意：报告每个数据集的精度（P），召回率（R）和F1（F）分数。最佳成绩以粗体显示，第二最佳成绩用下划线标出。GAD和EU-ADR的得分来自Bhasuran和Natarajan（2018），CHEMPROT的得分来自Lim和Kang（2018）。

QA结果显示在表8中。我们对每批最新模型的最佳分数进行微平均。BERT获得了比最新模型更高的微观平均MRR分数（高7.0）。所有版本的BioBERT均明显优于BERT和最新模型，尤其是BioBERT v1.1（+ PubMed）的严格准确度为38.77，宽大的准确度为53.81，平均倒数排名得分为44.77 ，所有数据均进行了微平均。在所有生物医学QA数据集上，BioBERT的MRR均达到了最新水平。

表8：生物医学问答测试结果：

注意：报告了每个数据集上的严格精度（S），宽容精度（L）和平均倒数排名（M）分数。最佳成绩以粗体显示，第二最佳成绩用下划线标出。最佳的BioASQ 4b / 5b / 6b分数来自BioASQ排行榜（http://participants-area.bioasq.org）。

5. 讨论

我们使用了其他大小不同的语料库进行预训练，并研究了它们对性能的影响。对于BioBERT v1.0（+ PubMed），我们将预训练步骤数设置为200K，并更改PubMed语料库的大小。图2（a）显示，BioBERT v1.0（+ PubMed）在三个NER数据集（NCBI Disease，BC2GM，BC4CHEMD）上的性能随PubMed语料库的大小而变化。对10亿个单词进行预训练是非常有效的，每个数据集的性能最多可以提高到45亿个单词。我们还在不同的预训练步骤中保存了BioBERT v1.0（+ PubMed）中的预训练权重，以衡量预训练步骤的数量如何影响其在微调任务上的性能。图2（b）显示了相对于预训练步骤数，相同的三个NER数据集上的BioBERT v1.0（+ PubMed）的性能变化。结果清楚地表明，随着预训练步骤数量的增加，每个数据集的性能都会提高。最后，图2（c）显示了在所有15个数据集上，相对于BERT，BioBERT v1.0（+ PubMed + PMC）的绝对性能提高。F1分数用于NER / RE，MRR分数用于QA。BioBERT大大提高了大多数数据集的性能。

（a）更改PubMed语料库大小以进行预训练的影响。（b）BioBERT在不同检查点的NER性能。（c）BioBERT v1.0（+ PubMed + PMC）与BERT相比的性能提高
在新标签页中打开下载幻灯片
（a）改变PubMed语料库大小以进行预训练的影响。（b）BioBERT在不同检查点的NER性能。（c）BioBERT v1.0（+ PubMed + PMC）与BERT相比的性能提高

如表9所示，我们对BERT和BioBERT v1.1（+ PubMed）的预测进行了采样，以了解预训练对下游任务的影响。BioBERT可以识别BERT无法识别的生物医学命名实体，并且可以找到命名实体的确切边界。虽然BERT通常会为简单的生物医学问题提供错误的答案，但是BioBERT会为此类问题提供正确的答案。此外，BioBERT可以提供名称较长的实体作为答案。

表9：来自NER和QA数据集的BERT和BioBERT的预测样本：

注意： NER的预测命名实体和QA的预测答案以粗体显示。

6. 结论

在本文中，我们介绍了BioBERT，它是用于生物医学文本挖掘的预训练语言表示模型。我们证明了在生物医学语料库上对BERT进行预培训对于将其应用于生物医学领域至关重要。只需对特定任务进行最小的架构修改，BioBERT就可以在生物医学文本挖掘任务（例如NER，RE和QA）上胜过先前的模型。

BioBERT的预发行版本（2019年1月）已被证明在许多生物医学文本挖掘任务中非常有效，例如临床笔记的NER（Alsentzer 等人，2019），人类表型基因RE（Sousa 等人。，2019）和临床颞叶RE（Lin 等人，2019）。以下BioBERT的更新版本将提供给bioNLP社区：（i）仅基于PubMed摘要进行训练的BioBERT BASE和BioBERT LARGE，无需从现有BERT模型进行初始化；以及（ii）根据特定领域的词汇进行训练的BioBERT BASE和BioBERT LARGE在WordPiece上。

7. 个人心得

根据阅读本论文，个人心得如下：

该论文旨在原本的BERT模型下，做了专业的数据收集与训练，从而能够对于专业领域内的命名实体识别、关系抽取以及问答内容得到不错的提升，本质上是数据集上的聚焦，模型层面的变化文章中并未有说明之处。
训练一套BERT模型确实耗时耗力，如果有相应已经与训练完成的权重的话，最好是能借鉴就借鉴，然后根据自己的需求做微调，这也是BERT出现之后很普遍的行业做法了，迁移学习将会是以后算法工程师应该必备的技能了。
另外就是关于数据在国内的应用，论文借鉴的依旧是英文相关数据，虽说作者们大多都是来自韩国，可见数据本身也是页内极其匮乏（并未有韩语相关数据），因此个人觉得工业级应用的话，首先依旧是积攒数据，认真做好基础工作。
最后，想要吐槽的一点是Bio应该包括的不仅仅是训练中提及的几种类型，而且也没有同同类型的模型结果做对比，而是对标的BERT，例如NER就没有与之前主流的BiLSTM+CRF做横向对比。有点看不见房间里的大象的意思。

感谢：感谢谷歌翻译
另外，以上观点纯属个人感悟，欢迎批评指正。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo