zenRRan

NER | 命名实体识别在QQ音乐上的应用

每天给你送来NLP技术干货！

分享嘉宾：Kevin 腾讯音乐算法工程师

编辑整理：韦国迎天虹

出品平台：DataFunTalk

导读：命名实体识别（Named Entity Recognition，简称NER）是自然语言处理中的热点研究方向之一，目的是识别文本中的命名实体，并将其归纳到相应的实体类型中。命名实体识别也是NLP最重要的底层任务之一，在学术界和工业界一直都是重点研究的问题。今天主要和大家分享音乐领域的命名实体识别技术，包括以下几方面内容：

背景介绍
候选生成与训练数据构建
用户Query NER模型
音乐文本NER模型
未来展望

背景介绍

1. NER的定义与应用

NER就是识别文本中具有特定意义的实体，在音乐领域中实体主要包括歌曲名、歌手名、影视、综艺、版本、音乐流派等，例如：

Block B在一周的偶像中挑战二倍速的Her，rap部分感觉Zico的舌头都要打结了

给我来一个东方红谢谢

这里有歌曲名（Her、东方红）、歌手名（Block B、Zico）、综艺（一周的偶像）。在音乐领域中，NER在多种类型的文本上都有着广泛的应用，这里我们主要分为两大类：用户query理解和音乐文本结构化。

① 用户query理解

用户的query理解，包括了搜索框内的文本搜索以及语音场景下的搜索。比如说这里用户在搜索框内输入的query是 "周杰伦的七里香"，由于我们库内没有同名的资源，因此这里我们就需要NER模块从中来提取出歌手名=周杰伦、歌曲名=七里香，这样我们才知道用户想要的其实是周杰伦唱的七里香这首歌。

② 音乐文本结构化

音乐文本的结构化，主要是从我们库内的视频标题、歌单标题、评论等非结构化文本数据中抽取出一些音乐领域的实体，便于在搜索推荐等任务中应用。

2. NER的发展历程

NER在早期的时候主要是基于规则和词典，还有统计机器学习的方法（HMM、CRF、SVM等），这类方法主要的优点是速度比较快，精确率比较高，但是召回率通常比较低。目前工业界主要是在搜索的场景下，采用这类方法来处理一些高频query，以实现线上大多数请求的快速响应。

2016~2018年之间随着深度学习的发展，相关从业者也在NER领域做了比较多的研究工作，提出了基于浅层神经网络的方法。它的基础结构是通过LSTM或者IDCN这样的浅层神经网络去抽取文本的特征，然后通过CRF进行解码，得到对应的实体序列，在这样的模型基础上，融入外部词典特征和领域内信息等外部知识进行模型优化。此外还有其他一些研究工作，考虑如何融入多粒度信息，比如LSTM+CHAR-CNN增加一个字符级的CNN融入，LATTICE-LSTM通过对LSTM的结构进行修改实现词以及短语等不同粒度信息的融入。根据我们的调研，这类目前依然是工业界主流的解决方案，我们在用户query NER中就采用了这一类的方法。

2018年后，随着Bert的兴起，基于大规模预训练语言模型的方法成为了趋势，这类方法主要特点是，将浅层的文本抽取器、特征提取器，改成Bert这样的大规模训练语言模型，从而获取质量更高的embedding去优化下游的任务。此外在这类方法的基础上还会有一些相关的优化，比如说ACL2020的FLAT，基于transformer序列全连接的结构，实现外部词典信息的引入。目前这类方法是学术界的一个研究重点，我们是在音乐文本的命名实体识别上采用了这类的解决方案，并针对场景进行了一些优化。

3. 音乐领域NER的难点

① 领域相关性强

如果没有领域内的相关知识，文本中的实体难以正确地被识别，比如：张碧晨时间有泪忧伤的恰如其分，这句话中《时间有泪》是一首歌曲，如果我们事先不知道它是歌曲名，仅通过文本层面的信息很难正确地切分出它的边界。

② 实体名命名不受限且歧义大

这里的歧义主要有两方面，第一个是实体名与自然语言表述的歧义，比如：天后梅艳芳与歌神张学友同台合唱，薛之谦唱过一首歌《天后》，但是在这个句子中 "天后" 并不是歌曲名，而是对歌手梅艳芳的一个称谓。第二的话是同样一个实体名在不同场景下实体类型可能不同，比如：“安静的歌曲”与“歌曲安静”，前面的 "安静" 指的是一种歌曲类型，而后面的 "安静" 指的是周杰伦唱的歌曲《安静》。

③ 缺乏足够的上下文信息

这一难点主要是针对于用户query，因为用户query通常是一些实体的堆叠，很多都缺乏上下文信息，并且和正规的文本相差比较远，比如：张韶涵夜空中最亮的星邓紫棋。它是由（张韶涵、夜空中最亮的星、邓紫棋）三个实体堆叠而成的，没有任何的上下文信息可以利用。

④ 表述具有多样性

这一难点主要是针对于音乐文本，音乐文本同开放域文本一样，也是具有多样性的。同样的意思可能有多种表达方式，并且表达方式相对于正规文本来说更加的不规范。比如对这样一个视频标题：女歌手弹唱一首恰似你的温柔，真是好听。如果我们把弹唱替换成演唱/带来/创作，甚至其它的表述方式，它都是合理的。

4. 整体解决方案

从上述四个难点可以看出，要想正确识别文本中的实体，需要将实体属性的建模以及文本信息的建模相互结合起来。这里介绍一下我们的一个整体解决方案，主要分为离线和在线两个部分。

① 离线模块

离线分为三个子模块：基础数据、中间层数据、模型。

基础数据
基础数据包括搜索日志、播放日志、曲库数据等内容，其中搜索日志和播放日志主要是对用户行为上报的存储，曲库数据主要是存储在库中的结构化资源数据。
中间层数据
中间层数据主要是基于基础数据进行计算和变换所得到的中间层数据，包括实体知识库、规则库、实体候选集以及训练语料等。
实体知识库是对结构化资源信息和用户行为日志进行一些整合变换得到的key-value集合，其中key表示的实体名，value是这个实体对应的一些属性，通过这样的存储方式，便于下游工作对它的利用。
规则库主要是对于用户query文本，通过Bootstrapping之类的文本挖掘方法，从中挖掘出一些频繁出现的模式，然后存储到规则库中。
实体候选集主要是存储文本中可能是实体的片段，关于实体候选集和训练语料的构建，后面会比较详细阐述我们采用的方法。
模型
在前面的难点中提到了，我们这里主要有两大类的文本，一类是纯UGC的文本，比如用户的query，另外一类就是相对而言中长一些的文本，比如标题、评论等。针对这两类不同的文本，我们采用两类不同的模型，因为用户query的上下文信息比较缺乏，我们采用了GRU对文本进行编码，对于其他的一些中长类的文本，我们采用BERT来提取更丰富的上下文信息。在两类baseline模型的基础上，我们针对如何去融入领域内的知识进行了一些探索，在下文都会进行详细阐述。

② 在线模块

线上预测分为四个部分：首先经过一个候选生成与初筛模块，得到文本中存在的候选片段，然后依次通过规则和模型识别得到识别结果，最后再通过融合模块进行融合，得到最终的识别结果。通过这样的方式，我们可以将规则的高精确以及模型的高召回结合起来，得到质量比较高的识别结果。

候选生成与训练数据构建

1. 候选生成

候选提取就是从文本中提取出尽可能不重叠的高置信候选实体。

在上图例子中，针对用户query“陈小春的歌乱世巨星”，通过与知识库匹配，可以得到“陈小春”、“小春”、“小春的歌”等候选实体。如果直接将这些信息加入到模型中，会给模型带来很大的噪声，因为这些候选在这个片段中位置上是高度重叠的，因此我们需要通过一个筛选模块，从中筛选出一些尽可能不重叠的候选，比如最终我们选择了陈小春，乱世巨星两个候选，然后把他们加入到模型中，就可以提供一个比较好的外部信息。前面我们提到了音乐领域的NER是有强领域相关性的，因此候选的效果对最终的效果有很大的影响。

针对候选的提取业界常见的解决方案主要有最大匹配和最小匹配方法：

最大匹配算法贪心地去选择一个最长的候选，它的主要缺点是对于词典的质量要求比较高，比如对于这个句子：请为我播放陈慧琳记事本。由于我们库内有“陈慧琳记事本”这样一个同名实体，因此通过最大匹配我们就会切出“陈慧琳记事本”这样一个候选，显然这是一个错误的候选。
最小匹配算法近似于利用实体词典来进行切词，它虽然说解决最大匹配带来的问题，但是它切分力度太细，很容易将一个正确的实体切散，比如对于这个句子：郑中基演唱的晴天阴天雨天。最小匹配可能得到的结果就是“晴天”、“阴天”、“雨天”三个候选，本来“晴天阴天雨天”是郑中基演唱的一首歌，在这里就被切散了。

针对最大和最小匹配存在的问题，我们综合最大和最小匹配的优势，设计了一个适合我们应用场景的路径选择方法。首先针对原始的候选实体，我们抽取出所有可能的候选，然后构建出候选的有向图，比如对于上面这个例子：陈小春的歌乱世巨星。我们用一个有向图来表示所有可能的候选的路径，接下来去计算每一条路径的分数，然后根据路径的分数筛选出红色标红的路径就是分数最高的路径，根据这条路径选择最终的候选集合。这里的关键在于如何计算每条路径的分数，我们从三个角度来计算分数，首先是候选实体的置信度，它主要评估候选本身的置信度，或者说它的热度；然后是路径命中规则情况计算得到的分数，其实也就是实体级别的一个语言模型分数，主要评估路径的流畅性；最后我们引入了一个Root-Link考察候选被其它候选的覆盖情况，这是音乐领域的一个特性，如果一个候选是所有重叠候选中最长的实体部分，通常情况下，我们更倾向于认为它是一个正确的实体，最终将这三类分数综合加权得到了每一条路径的分数。

在具体计算的过程中，我们做了一个优化，当文本比较长时，遍历所有路径依次计算分数的开销过大。因此我们采用了 beam_search的方式，对于每一个token只保留以它为结尾的N条路径，把整个有向图分为多个部分分开计算。比如对于上面的例子，我们对于"乱"这个token，就保留以它为结尾的两条路径。当我们对这个token后面进行路径选择时，就与前面的路径无关了，这样就可以减少整体的计算量。

2. 训练数据构建

① 重要性与难点

训练数据是模型的燃料，对模型效果起着决定性的作用。在我们的应用场景中，训练数据构建主要有以下两个难点，第一个是缺乏高质量的标注数据，在query的场景下，只有用户query点击这样的label，且质量通常不是很高；第二个是人工标注的成本高，因为NER通常采用BIO这样的标注体系，每个token都需要打上标记，这种方式逐个去标非常耗费人力。

② 解决方案

我们通过主动学习迭代提升标签质量，同时构造弱监督数据去扩充训练数据量。首先我们根据用户的点击后验来构建一份质量不是很高的训练数据，再通过我们预制的一些规则模板对它进行校正，以及对一些明显有问题的label进行校正，得到一份可以用于训练模型的数据1.0。然后通过训练数据1.0，我们做一个交叉验证，从中来筛选出一些低置信度、模型不是很确定的数据，对这些数据进行重标。通过这样的方式，我们使用模型自动筛选出可能有问题的数据，减少人力标注的数量，得到一份经过清洗后的训练数据2.0。我们再去用训练数据2.0训练模型，利用这版模型去预测一些未标注数据，把这些外边数据作为一个弱监督的数据，将其加入到原始的实验数据中，从而构建了一个闭环的迭代过程，经过迭代后，模型训练数据的数量和质量上都有提升。

在迭代之外，我们还引入了EDA自动扩展训练数据，主要策略有实体替换、非实体片段替换、实体名扰动等。比如我们把一首片段中的歌曲名替换成另一首歌曲：来一首七里香→来一首吻别；把非实体片段替换：来一首七里香→播放七里香；实体名扰动：来一首七里香→来一首七七里香，因为我们NER在语音场景下也会有应用，而语音场景下有很多用户可能会说错歌曲名，通过实体名扰动构建类似数据，可以增加模型整体的鲁棒性。

用户Query NER模型

1. V1版

① 思路

前面提到了用户Query通常比较简短、信息比较少，因此我们第一版模型考虑对每一个候选去抽取出一些特征，然后采用传统的分类模型去判断每一个候选的类型，因为不是所有的候选都在最终正确结果中保留，因此不保留也作为一种类型。

② 特征体系

特征体系方面，以Query为例，主要提出以下三类特征，第一类是候选实体本身的属性，包括些热度、覆盖度、语言类型等；第二类是命中规则的特征，主要作用是通过人为统计的方式，给模型提供一些可能存在的上下文层面信息，因为Query没有显式引入上下文的信息；第三类是实体间的关系，主要包括一些成对的关系，因为在音乐领域经常有一些演唱，可以从中生成一些成对关系，比如王菲演唱过约定，我们就将（王菲，约定）这样的信息也加入到特征中。

③ 效果与分析

在构建特征后，我们采用了传统分类模型xgboost进行尝试，最终整体的precision为0.894，勉强达到了可用的水平，但是recall仅有0.835，没有达到可用的水平。这一版模型的主要意义就是我们通过传统的特征工程选出了一些对于NER具有帮助的特征，但我们没有显示地去引入候选的上下文信息。虽然Query的上下文信息不多，但还是存在一些的，因此我们后续的优化方案，就是通过深度模型去更好地建模上下文信息。

2. V2版

① 思路

V2版我们采用业界比较常见的思路，首先将NER转化为序列标注问题，将实体按照它所属的token以及位置来对实体的每一部分给出标注，比如说对于上图的Query，我们得到它对应的一个标注。

② 特征与模型

特征层面我们仍然采用了V1版中得到的特征，只不过加入特征的方式相比V1版有一些区别，我们将每一类特征对应到token本身，每一类特征都是一个特定的候选，把每一类特征加到其所属的图层中，最终每一个token会对应到多个类别的特征。

模型层面的话，我们采用了一个比较常用的解决方案，首先得到每个token对应的token embedding，然后经过上图橘黄色标注的Domain Fushion层，将每个token对应的多个特征拼接起来，得到token融合领域知识后的特征，最终经过BiLSTM+CRF编码和解码得到实体序列。

② 效果与分析

V2版的召回率相对V1版有明显的提升，我们去做了一些case分析，发现整体也是符合预期的。good case主要是扩召回一些query干扰信息比较多但上下文特征比较强的实体，比如上图第一个例子，在歌曲名“你的浅笑”前有非常多口语化的表述，V1版由于没有显示的引入文本层面信息，就无法识别出这类实体。对于第二个例子：花千骨主题音乐歌曲，因为V1版中我们通过模板来引入上下文信息，有一个模板是影视剧名+主题曲，这里只把“曲”换成“音乐”，模板就失效了，通过深度模型，我们可以学习到“曲”和“音乐”是近义词，这样就能够正确地识别出“花千骨”是影视剧名。

V2版也存在一些问题，最大的问题就是歧义大的实体识别不准，举两个例子。

来一个恋人主题曲郑颖娟的、帮我找下有没有东方红这首歌。第一个例子模型没有识别出“影视剧名=恋人”，主要原因就是因为“恋人”的影视意图很弱，我们提到恋人，第一反应是认为它应该是一个歌曲而不是影视剧。第二个例子是语音场景下的一个query，模型错误地识别出“歌曲名=有没有”，主要原因是因为“有没有”本身是一个热度比较高的歌曲，模型受到热度特征的干扰导致了误判。

因此我们需要针对问题的特点设计一个定制化的领域内信息融入模块来解决歧义的问题。我们首先需要解决候选实体类型的歧义，然后就是实体与常用表述之间的歧义，针对这两点问题，我们设计了V3版的模型。

3. V3版

针对V2版的问题，V3版主要做了两个方面的优化。首先在融合外部知识的Domain Fushion层，我们把多个特征concat的方式改成采用feature self attention，通过attention机制去捕捉对于识别当前token更重要的一些特征。第二个优化点，在进入BiLSTM进行序列编码前增加了一个multi view attention层，它主要是基于NLP歧义知识融合中常用的rethinking机制的思想，通过目标token的临近上下文，对目标token的多个输入特征进行重新筛选，这样可以在一定程度上利用query中歧义较小的片段，对歧义较大片段信息融合中的错误进行一些校正。

这里我们通过在不同层引入feature self attention（FSA）和multi view attention（MVA），分别从特征值本身，以及邻近上下文信息两个角度，优化多特征融合时的信息选择，显著解决了有歧义实体的误伤和召回不足的问题。在做了这两个方面的优化后，V3版整体的precision和recall都有明显的提升，达到了一个比较可用的水平。

音乐文本NER模型

1. 特征抽取优化

我们直接用从query中探索出的NER模型套用在音乐文本识别任务上，发现F1只有84%，分析发现主要是因为音乐文本的上下文相比query是比较丰富的，和正规文本更加接近。因此我们采用大规模训练语言模型（e.g. Bert）对文本进行编码，Bert是多层transformer结构的叠加，而transformer最重要的结构是self attention，关于bert的模型结构这里就不做赘述了。Bert通过在大规模无标记语料上进行训练，得到一个比较好的语言模型，不同类型的语言模型（e.g. BERT, ROBERTA, SpanBERT）主要是预训练任务的差别，其中最重要的预训练任务是MLM，它其实就是将文本中的一些token改成[MASK]这样的标记，然后通过模型去学习[MASK]位置的token，从而去感知语言的一些表达方式和特性，因此Bert几乎刷新了所有NLP下游任务的SOTA。

① 思路

我们V1版的优化其实是比较简单的，就是将我们Query NER中采用的最终模型中的Token Embedding层替换成了ROBERTA，将原本上下文无关的很弱的Embedding表示替换成由ROBERTA得到的上下文相关且质量非常高的Embedding表示，其余后续模型结构不做任何改动，经过优化效果相比直接采用Query NER模型有一些提升，F1 score由84%提高到88.4%，但是整体未达到可用效果的要求。

② 问题分析

我们对于存在的问题做了一些比较详细的分析。首先第一点问题是对候选间长距离依赖关系刻画不足，比如上图第一个例子，《rage of dust》其实是影视《机动战士高达》的主题曲，但是由于两者在文本中的距离比较远，导致模型对于它们之间的关系没有很好的捕捉，造成这种情况的原因首先是我们的候选筛选策略难以保证选出的路径是最优的，其次就是知识融合框架对候选之间长距离依赖捕捉支持不足。

第二点是模型过于依赖部分的领域知识，比如实体间的成对信息，对于上图第二个例子，因为迈克尔杰克逊曾唱过一首歌《History》，它的翻译名就是历史，导致模型误识别出：歌曲名=历史，主要是因为我们没有显示地将候选词间的关系建模到模型中。

最后一点就是对于部分实体上下文说法较长尾的情况，模型识别比较依赖书名号等符号，比如对于上图第三个例子，如果这里我们将书名号去掉，可能模型就无法正确的识别出歌曲名为“十面埋伏”，主要原因是相关的训练数据比较少，并且label标注不全。

针对前两个问题，我们的优化方案是去探索一个更好的知识融合方式；对于第三个问题，我们主要通过提高训练数据利用效率解决。

2. 知识融合框架

目前工业界和学术界比较常见的知识融合框架主要有三大类，下面主要围绕这三类框架的典型代表，以及在我们任务上的知识融合优化展开阐述。

① Lattice LSTM

第一类以Lattice LSTM为代表，它通过对LSTM或GRU模型的结构进行一些修改，实现词/短语级别信息的引入。

② CGN

第二类以CGN为代表，它不修改原本的文本编码方式，在编码层后叠加一些图神经网络，实现引入更多粒度的信息。

③ FLAT

最后一类以FLAT为代表，这也是我们在音乐文本NER任务中最终选用的知识融合框架。

FLAT在transformer模型的基础上，引入多粒度信息（主要是词典信息），将文本中存在的一些词直接拼接到Token后面，得到了一个包含异质信息的序列。通过将词和token放在一个序列中，在Self-Attention计算时，词级别的信息就自然而然地融入到整个模型中，这样就不需要像CGN这样的模型，人为构建图表述候选和token之间的关联再通过GNN去编码，而是对attention score的计算进行修正，实现多粒度信息的引入。

我们尝试直接将FLAT模型应用于音乐文本NER，对文本部分用ROBERTA来进行编码得到它的Token Embedding，对候选词部分采用与Query NER中一样的Feature Self Attention，对每个候选实体多个层面的特征组合，得到每个候选实体的Embedding，然后将Token Embedding和候选实体的Embedding拼接到一个序列中，后面再接一层Flat Self Attention得到融合后的表示，最后通过CRF对Token进行解码。

观察效果我们发现直接应用FLAT进行知识融合并没有明显的提升，F1 Score相比第一版还有一点下降。我们对一些case进行分析，发现召回显著降低，对于一些连续的实体片段，在结果中出现了很多缺失，比如对于这个例子：【洛天依乐正绫言和心华】四小只幼女大合唱，这里其实有四个歌手，但是模型只识别出了其中的两个。我们通过一些实验，发现导致问题的主要原因是模型对于元素间距离的数值过于敏感，另外是由于ROBERTA部分输出的表示与候选实体的表示属于异质信息，因此我们在FLAT模型的基础上，结合这里的几个问题进行了一些优化。

我们主要的优化点在于Attention Score的计算方式。原始的FLAT直接通过元素间的位置关系来建模，一共计算了四种不同的位置信息，分别是lattice的开始减开始，开始减结束，结束减开始，结束减结束。我们通过分析发现，当我们的训练数据质量还有数量都不是很足的时候，这样的设计方式可能会导致模型对于距离本身的一个具体数值产生依赖，因此我们对这种位置关系的计算方式进行了修改。首先我们显示地引入token与候选实体之间关系，比如依赖、包含、相交等关系，然后针对原始的四个位置信息，把它变成了一个position，通过它表示两个token在序列中最短的位置信息，通过它去建模两个元素之间的位置关系。此外我们还引入了一个pair的信息，主要目的是将一些非位置信息，比如候选实体间的成对，包括一些其他的关系引入到模型中，通过这几点优化，模型的效果有了显著的提升。除此之外，我们基于异构图网络的思想，对不同类型的节点先进行节点级别的信息聚合，再对不同类型作语义级别聚合。

3. 提高训练数据利用效率

关于如何去提升训练数据的利用效率，业界比较常见的解决方案是从训练数据的角度出发，基于不确定性的方法去训练模型。整体思想是认为label本身存在漏标的可能，通过针对label来进行探索，把没有标注为实体部分改标为实体，然后进行模型的迭代训练。

在我们音乐文本NER的应用中，我们发现基于不确定性训练的方法主要有两个缺点，第一个是它需要进行多次的迭代训练，整体效率会比较低；第二点是因为音乐领域本身名称歧义非常大，这里可能会有一些不太合适的探索，会导致模型整体产生偏差，后面的修正也无法让它回到原来正确的方向上。因此在音乐文本NER任务中我们从模型的角度出发，通过领域和任务数据上post train来实现训练数据的利用效率。在得到预训练模型基础上，对领域和任务相关的一些数据进行一轮post train，得到一个领域内的预训练模型，再去做下游的NER任务，这个流程其实也是目前NLP任务整体的一个范式。

在post train任务设计的探索中，我们首先采用的是标准的MLM，即对于每一个token，以15%的概率把它制成mask，以85%的概率保留原token。我们选取了库内的一些视频标题，然后采用标准的MLM作为post train任务，结果发现它提升很小，基本上没有解决什么长尾case。

因此我们对原始的MLM进行了一些改动，做了一个强化实体边界的MLM任务，它的思想是去优化MLM任务中的mask策略，迫使模型重点关注与实体识别相token。比如看上图中的例子，我们已知实体属性：冯提莫=歌手、单身情歌=歌曲，可以在已知的实体前后根据类型插入不同的模式，比如在单身情歌前后插入书名号，在冯提莫前面插入歌手或者网红这样的标记，然后在构造MLM数据时，以更大的概率将我们人为添加的标记作为mask，对于每个部分，首先来判断它是否是我们添加的标记，如果是就用一个较大的概率P1来执行mask，否则以一个比较小的概率P2来执行mask，通过这样使得被mask的大部分都是我们人为添加的标记，这样也迫使得模型更加关注于实体的边界信息。通过这种方式，可以扩招回一些中文长尾case，模型对于实体边界的感知能力也会更强，此外还可以用它来补充一些label。

最终，在加入优化后的FLAT，以及加入领域内相关的post train之后，整体的F1 score可以达到比较可用的水平。

未来展望

我们在NER任务上主要考虑以下三个方面的优化：

首先，我们可能去学习实体的知识图谱表示，将它融入到模型的候选实体表征中，这样可以得到候选实体更深层次的语义表示。
第二就是针对候选可能导致错误传导的问题，联合优化候选生成与最终结果预测。
最后，考虑通过优化现有的模型范式来更好地支持嵌套NER以及不连续NER，以支持到更多的业务场景。

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

你可能感兴趣的:(大数据,自然语言处理,数据挖掘,算法,编程语言)

BWA、Bowtie2、TopHat 和 HISAT2 这四款常用的序列比对软件请你喝好果汁641 生信 BSR linux linux
1.BWA（Burrows-WheelerAligner）BWA是一种常用的基因组比对工具，特别适合将低差异的短序列（如Illumina读取序列）比对到大型参考基因组上。BWA包含三种主要算法：BWA-backtrack：适用于短读序列（如100bp左右）。BWA-SW：支持较长的读序列，通常在70bp到1Mbp之间。BWA-MEM：是目前推荐的算法，适用于高质量的长读序列。它比BWA-backt
【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn） Want595 Python大数据采集与分析大数据 python hadoop
编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）搭建完全分布式高可用大数据集群（VMware+CentOS+FinalShell）搭建完全分布式高可用大数据集群（Hadoop+MapReduce+Yarn）本机PyCharm连接CentOS虚拟机在阅读本文前，请确保已经阅读过以上三篇文章，成功搭建了Hadoop+MapReduce+Yarn+Python
最近最少使用算法（LRU最近最少使用）缓存替换算法辞半夏丶北笙算法算法缓存 java
含义最近最少使用算法（LRU）是一种缓存替换算法，用于在缓存空间有限的情况下，选择最少使用的数据项进行替换。该算法的核心思想是基于时间局部性原理，即刚被访问的数据在未来也很有可能被再次访问。实现LRU算法的实现可以通过一个双向链表和一个哈希表来完成。双向链表用于按照访问顺序维护缓存中的数据项，哈希表用于存储数据项的引用，以便快速定位和访问。如果缓存未满，则直接将新的数据项插入链表头部。如果缓存已满
Go语言之接口 WongBynn Go go
接口接口类型是对其他类型行为的概括与抽象。通过使用接口，我们可以写出更加灵活和通用的函数，这些函数不用绑定在一个特定类型的实现上。很多面向对象的编程语言都有接口的概念，Go语言的接口的独特之处在于它是隐式实现的。换句话说，对于一个具体的类型，无需声明它实现了哪些接口，只要提供接口所必需的方法即可。这种设计让你无需改变已有的类型的实现，就可以为这些类型创建新的接口，对于那些不能修改包的类型，这一点特
算法设计策略和风化雨基础工作算法
在算法设计中，核心策略是通过特定方法将复杂问题分解或转化，从而高效求解。以下是算法的主要设计策略及其核心思想和应用场景：1.分治法（DivideandConquer）核心思想：将问题拆分为多个相同或相似的子问题，递归求解后合并结果。步骤：分解→解决子问题→合并。特点：子问题相互独立，无重叠。通常通过递归实现。经典算法：归并排序（MergeSort）快速排序（QuickSort）二分查找（Binar
leetcode刷题/贪心算法 45. 跳跃游戏 II 公仔面i leetcode刷题/贪心算法 leetcode 数据结构算法 c++贪心算法
45.跳跃游戏II题意:给你一个非负整数数组nums，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。你的目标是使用最少的跳跃次数到达数组的最后一个位置。假设你总是可以到达数组的最后一个位置。示例1:输入:nums=[2,3,1,1,4]输出:2解释:跳到最后一个位置的最小跳跃数是2。从下标为0跳到下标为1的位置，跳1步，然后跳3步到达数组的最后一个位置。示例2:输入
Python搜索算法——广度优先搜索BFS SmiledrinkCat 算法 Python 编程题 python 宽度优先开发语言
广度优先搜索算法（Breadth-FirstSearch,BFS）是一种用于图或树中的搜索算法。它从根节点开始，逐层遍历所有节点，直到找到目标节点或遍历完整个图或树。BFS通常使用队列数据结构来实现。广度优先搜索算法步骤：初始化一个队列，将根节点加入队列中。在每一步中，从队列中取出一个节点，并将其所有未访问过的邻居节点加入队列。标记已经访问过的节点，避免重复访问。重复上述步骤，直到队列为空（表示已
【Leetcode刷题记录】45. 跳跃游戏 II--贪心算法钓一朵雪算法算题笔记 leetcode 贪心算法
45.跳跃游戏II给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){inttime=0;intn=nums.size(),i=0;while(i=n-1){time++;break;}intmax=0,maxIndex=0;for(int
【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之ClickHouse篇王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021
算法问题整理（二）分享总结快乐算法
网络资料整理个人学习，感谢各位大神！（若侵则删）问题10:卷积-目标检测系列问题参考：40+目标检测网络架构大盘点！从基础架构ResNet到最强检测器Yolov7再到最新部署神器GhostNetV2【深度学习】YOLO检测器家族所有版本（2024最新汇总、详细介绍）_yolo各个版本-CSDN博客YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍！！-腾讯云开发者社区-腾讯云关键挑战：类
大模型技术对大数据生态链的全面革新敏叔V587 大数据
大模型技术对大数据生态链的全面革新在数字化浪潮汹涌澎湃的当下，大数据和人工智能技术已成为推动各行业发展的关键力量。其中，大模型技术的崛起，正深刻地改变着大数据生态链的格局，为数据的处理、分析与应用带来了前所未有的变革。今天，就让我们一同深入探讨大模型技术对大数据生态链的多维度影响，并结合实际案例展开分析。一、大模型技术：重塑数据采集与整合（一）智能采集优化传统的数据采集往往依赖于预设规则和人工干预
【Rust自学】10.2. 泛型 SomeB1oody Rust自学 rust 开发语言后端
喜欢的话别忘了点赞、收藏加关注哦，对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)题外话：泛型的概念非常非常非常重要！！！整个第10章全都是Rust的重难点！！！10.2.1.什么是泛型泛型的主要功能是提高代码的复用能力，适用于处理重复代码的问题，也可以说是实现数据与算法的分离。泛型是具体类型或其它属性的抽象代替。它的意思是你写代码时写的泛型代码并不是最终的代码，而是一种模版，里面有一些
Rust编程基础教程：结构体和枚举类型 AI天才研究院一天一门编程语言编程实践大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍一、什么是Rust语言？Rust是由MozillaResearch开发的一门新兴的现代通用编程语言，它的设计目标是提供高效、可靠和并发的软件。它已经成为MozillaFirefox、GoogleChrome、Dropbox等知名网站的后台语言，被越来越多的初创公司、小型公司和企业采用。它拥有独特的安全保证、极高的性能、实时性能保证以及活跃的社区支持。二、为什
机器学习算法-逻辑回归 Larkin88 机器学习算法逻辑回归
机器学习算法-逻辑回归1.K-近邻算法（略）2.线性回归（略）3.逻辑回归3.1逻辑回归介绍逻辑回归（LogisticRegression)是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归，但是它与回归之间有一定的练习。由于算法的简单和高效，在实际中应用非常广泛。1、逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号2逻辑回归的原理2.1输入$$h(w)=w_
深入详解人工智能机器学习算法——逻辑回归算法猿享天开人工智能基础知识学习人工智能机器学习算法逻辑回归
引言逻辑回归（LogisticRegression）是机器学习中一种基本而重要的分类算法。在这篇文章中，我们将深入解析逻辑回归的各个方面，包括其基础知识、数学原理、实现方法、以及应用场景。我们还将通过具体的代码示例和应用案例，帮助您全面理解逻辑回归算法。第一部分：逻辑回归的基础知识1.1什么是逻辑回归？逻辑回归是一种用于解决二分类问题的回归分析方法。尽管名字中带有“回归”，逻辑回归的目标是将预测结
错误信息：Traceback (most recent call last): L_cl 常见算法与知识积累 python
错误信息Traceback(mostrecentcalllast):File"E:\python.learning\pythonDateExcavateTreat\数据挖掘课程设计\2_京东用户意向购买数据探索.py",line74,indf_ui=df_ui.to_frame().reset_index()File"E:\python.learning\lib\site-packages\pan
DVSwitch 项目推荐邹卿雅
DVSwitch项目推荐DVSwitchCustomizablecontrolbasedonUISwitchandUISegmentedControlwritteninObjective-C.项目地址:https://gitcode.com/gh_mirrors/dv/DVSwitch项目基础介绍和主要编程语言DVSwitch是一个基于Objective-C编写的开源项目，旨在提供一个高度可定制的
算法排序——堆排序妖尾Liu 算法数据结构 java
从今天开始尝试写一写博客吧，记录一下每日的所学。目录一.算法流程二.算法特性堆排序（heapsort）是一种基于堆数据结构实现的高效排序算法。在实现堆排序之前还有一个方法如下：输入数组并建立小顶堆，此时最小元素位于堆顶。不断执行出堆操作，依次记录出堆元素，即可得到从小到大排序的序列。以上方法虽然可行，但需要借助一个额外数组来保存弹出的元素，比较浪费空间。在实际中，我们通常使用一种更加优雅的实现方式
每日一题——小根堆实现堆排序算法 tt555555555555 算法题 C语言学习笔记算法排序算法数据结构八股文面试 c语言
小根堆实现堆排序算法堆排序的基本思想堆排序的步骤实现步骤1.构建小根堆2.删除最小元素并调整堆C语言实现输出示例代码解释1.percolateDown函数2.buildMinHeap函数3.heapSort函数4.printArray函数排序过程详解步骤1：构建小根堆步骤2：删除堆顶元素并调整堆最终结果总结堆排序是一种基于堆数据结构的排序算法，利用堆的性质来高效地对数组进行排序。堆排序的时间复杂度
DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索 kaichu2 论文翻译 DeepSeek
DeepSeek-R1：通过强化学习提升大型语言模型推理能力的探索在人工智能领域，大型语言模型（LLMs）的发展日新月异，其在自然语言处理和生成任务中的表现逐渐接近人类水平。然而，如何进一步提升这些模型的推理能力，使其能够更好地处理复杂的逻辑、数学和科学问题，一直是研究的热点。最近，DeepSeek-AI团队发布的DeepSeek-R1模型为这一领域带来了新的突破。本文将详细介绍DeepSeek-
Python 中实现基于CNN和BiLSTM与注意力机制结合的多输入单输出回归预测 nantangyuxi Python python cnn 回归分类开发语言人工智能神经网络
目录Python中实她基她CNN和BiLTTM她注意力机制结合她多输入单输出回归预测...1项目背景介绍...1项目目标她意义...1项目挑战...2项目特点她创新...3项目应用领域...3项目效果预测图程序设计...4项目模型架构...4项目模型描述及代码示例...5项目模型算法流程图...6项目目录结构设计及各模块功能说明...7项目部署她应用...8项目扩展...10项目应该注意事项...
Python 实现基于高斯混合模型聚类结合CNN-BiLSTM-Attention的风电场短期功率预测 nantangyuxi Python python 聚类 cnn 人工智能数据挖掘开发语言神经网络
目录Python实现基于高斯混合模型聚类结合CNN-BrtiLTTM-Attentrtion的风电场短期功率预测...1项目背景介绍...1项目目标与意义...2项目挑战...2项目特点与创新...2项目应用领域...3项目效果预测图程序设计...3项目模型架构...4项目模型描述及代码示例...4项目模型算法流程图...6项目目录结构设计...7项目部署与应用...8项目扩展...9项目应该注意
Python-玩转数据-凸优化人猿宇宙 python 数据挖掘人工智能
一、说明最优化问题目前在机器学习，数据挖掘等领域应用非常广泛，因为机器学习简单来说，主要做的就是优化问题，先初始化一下权重参数，然后利用优化方法来优化这个权重，直到准确率不再是上升，迭代停止，那到底什么是最优化问题呢？比如你要从上海去北京，你可以选择搭飞机，或者火车，动车，但只给你500块钱，要求你以最快的时间到达，其中到达的时间就是优化的目标，500块钱是限制条件，选择动车，火车，或者什么火车都
【C++STL标准模板库】二、STL三大组件咖喱年糕 C++c++容器算法迭代器
文章目录1、容器2、算法3、迭代器二、STL三大组件1、容器容器，置物之所也。研究数据的特定排列方式，以利于搜索或排序或其他特殊目的，这一门学科我们称为数据结构。大学信息类相关专业里面，与编程最有直接关系的学科，首推数据结构与算法。几乎可以说，任何特定的数据结构都是为了实现某种特定的算法。STL容器就是将运用最广泛的一些数据结构实现出来。常用的数据结构：数组（array），链表（list），tre
系统架构设计师——微服务架构庄隐 #系统架构设计师架构系统架构微服务系统架构设计师
概述微服务架构是一种将单一应用程序作为一套小服务的开发方法，每个服务运行在其独立的进程中，并通常围绕特定的业务功能进行构建。这些服务可以通过轻量级的通信协议（如HTTP/JSON）进行交互和数据交换。关键特征：模块化：每个微服务都是独立模块，专注于单一的业务功能，这使得服务更易于理解、开发和维护。独立性：微服务彼此独立，可以在不同的编程语言和平台上实现，增加了技术多样性和灵活性。松耦合：服务之间通
浅谈C++ 之STL Name_1024
浅谈C++之STL一、sortsort使用方便，效率较高，底层实现是用快排的方式进行排序要使用该算法，需要#include头文件(算法头文件）sort底层实现用的是快速排序1.sort用法一对基本类型的数组从小到大排序:sort(数组名+n1，数组名+n2）;n1和n2都是int类型的表达式，可以包含变量如果n1=0,则+n1可以不写将数组中下标范围为[n1,n2)的元素从小到大排序。下标为n2的
智能运维分析决策系统：赋能数字化转型的新引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的新引擎在数字化转型的浪潮中，企业对于高效、智能的运维管理需求日益迫切。传统的运维模式往往依赖于人工经验，难以应对大规模、复杂多变的IT环境。智能运维分析决策系统（AIOps,ArtificialIntelligenceforITOperations）应运而生，它利用大数据、机器学习、人工智能等技术，实现了运维的自动化、智能化，极大地提升了运维效率与质量，为企业
大规模语言模型从理论到实践 DeepSpeed实践 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践DeepSpeed实践文章目录大规模语言模型从理论到实践DeepSpeed实践1.背景介绍1.1大规模语言模型的兴起1.2训练和部署LLM的挑战1.3DeepSpeed：赋能LLM规模化1.4本文结构2.核心概念与联系2.1模型规模与性能的关系2.2模型并行化：数据并行、模型并行和流水线并行2.3混合精度训练2.4梯度累积3.DeepSpeed核心算法原理&具体操作步骤3
一致性 hash 算法理解与实现一致性哈希算法java
前言近段时间在了解分布式时，经常绕不开一个算法:一致性哈希算法。于是在了解并实践这个算法后，就有了此文章。算法间的对比在分布式分片中，存在着几种算法:取模，分段，一致性hash。取模分段一致性哈希上层是否感知是是否迁移成本高高低，只涉及相邻节点单点故障影响高高低，只影响相邻节点算法复杂度低低高热点数据存在存在存在一致性哈希主要解决问题从上述对比可知，一致性哈希主要降低节点上下线中带来的数据迁移成本
物联网架构之Hadoop moluxiangfenglo 架构 hadoop 大数据
hadoop体系结构Hadoop是一个开源的分布式计算平台，主要用于存储和处理大规模数据集。其核心架构包括以下几个关键组件：1.HadoopDistributedFileSystem(HDFS)HDFS是Hadoop的分布式文件系统，用于存储大数据集。它具有以下特点：主从架构：包括一个NameNode（主节点）和多个DataNode（从节点）。数据块存储：将大文件分割成多个数据块，每个数据块通常大
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本