开放知识图谱

领域应用 | 知识图谱在小米的应用与探索

本文转载自公众号：DataFunTalk。

分享嘉宾：彭力小米

编辑整理：马瑶

出品平台：DataFunTalk

导读：小米知识图谱于2017年创立，已支持公司了每天亿级的访问，已赋能小爱同学，小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱，这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括：

小米知识图谱介绍：包括小米的商业模式、小米人工智能部、知识图谱在人工智能部的定位、小米知识图谱的发展历程、以及小米知识图谱的落地场景。
小米知识图谱关键技术：小米知识图谱在成长过程中的技术积累。
小米行业知识图谱探索：结合业务，跟大家分享下小米在行业图谱上的探索。

小米知识图谱介绍

1. 小米知识图谱介绍

在了解小米知识图谱之前，先介绍下小米的商业模式。小米在商业模式上提出硬件+新零售+互联网铁人三项的商业模式。这种商业模式下有像手机、小米音箱类的智能硬件；有米商城，有品电商这样的新零售；还有像人工智能这样的互联网服务。三者相扶相持，相互促进，是一种闭环的生态模式，在这种生态模式下，有很多潜在的应用场景，对人工智能，对内容和知识有很多诉求。

小米人工智能部已经构建了完整的中台体系，囊括了视觉、NLP、知识图谱、语音、深度学习等底层的基础能力，其中知识图谱就处于这一层。

中间层是问答服务、智能客服等应用能力层，上层是小爱同学、商城等互联网业务和传统业务层，这些都是知识图谱的落地场景，其中小爱同学是小米公司推出的虚拟人工的智能助理，小爱同学适用于手机、音响、电视、手表以及手环等穿戴设备，通过搭载小爱同学的智能硬件，可以满足用户获取知识和信息的需求。

小米知识图谱在中台体系下不断的成长，2017年小米知识图谱有了一些开放知识的积累， 2018年知识图谱团队成立，2018年底，通用知识图谱的构建，百科类图谱构建完成，2019年中，业务拓展，线上调用达到近亿次，2019年底，知识扩增，知识积累了超三百亿，2020年行业探索，行业图谱落地。虽然发展的比较晚，但是在自己的业务场景下，发展还算迅速。

小米知识图谱在公司的职责，主要是研究开放领域和行业领域的构建和应用技术，并把图谱推广到相关业务场景上，来提高用户的满意度的和业务变现转化能力。团队已构建超三百亿开放知识和涉及13个领域。除此之外，小米还参与了一些开放知识图谱的构建，是OpenKG之OpenBase子项目组主要成员单位，是IEEE知识图谱国家标准编制组主要成员。

小米知识图谱已经已经赋能公司10+个业务场景，这些落地场景包括智能问答、智能客服、小爱同学、虚拟助手、全局搜索、NLP等这样通用的知识领域。还有像游戏中心、广告，小米有品，小米网等这样的行业知识，下面我会重点介绍一下具体场景的细节。

2. 应用场景：智能问答

第一个是小米知识图谱在智能问答场景的应用，这个比较广泛，落地的设备较多，已服务于手机、音响、智能穿戴、智能车载、电视、儿童设备。应用于小爱音响、小爱同学、小寻手表、车载设备等，满足用户近亿次/天的请求，后面我们介绍落地场景的示例。

目前，智能问答包括两种模式：一种是一般问答模式，还有一种是规则推理的。一般问答场景下，在返回具体答案的同时，还会把关联实体的附加信息满足给用户，比如用户询问巩俐的籍贯的时候，返回答案不只是会返回山东济南，还会把问答实体巩俐的视频，人物关系，资讯新闻，代表作品等都呈现给用户，这样在用户兴趣激发上起到了很大作用。另外一个古诗词CASE，也能很好的体现这一点，比如用户问静夜思的作者是谁，用户除了想得到这首诗的作者外，可能还想温故这首诗，也可能想要了解这首诗的释义。所以我们会把有声资源、释义一并满足给用户。

最后，问答在歧义场景下还支持列表形式展现。

除了一般的问答方式以外，小米还支持推理的问答。比如：多条件推理，多跳关系推理，还支持像求最大值，最小值这种基础推理算子。多条件推理的例子如：山东籍的双子座是谁，首先会对数据库中人物实体的生日推理出星座是双子座，然后推出省份，最后筛选聚合产出实体结果，第二种是多跳关系推理，比较典型的就是人物与人物的六度关系推理，如：徐志摩与梁思成的儿子梁从诫是什么关系？我们会试图计算起始实体到目标实体的关系的最短可达路径呈现给用户。现有的推理逻方法，比如说基于规则的推理、基于模型的推理，规则推理主要包含规则引擎和一阶的逻辑规则。模型推理是用机器学习去表示学习关系推理。所以这里根据自己的需求、应用场景和应用情况去选择。

后面介绍一些基于智能问答的一些方法。基于图谱的智能问答，通用流程如下：语音识别环节，意图识别，实体匹配，实体查询返回结果。

举个例子，如武汉大学周边什么好吃的，首先做分词或者词法分析，分出武汉大学和好吃的这些关键mention，然后意图识别计算得到是美食需求的，第三步是实体识别，把mention武汉大学映射到知识图谱中的实体上，把属性好吃映射成推荐食物，最后实体查询计算，返回热干面，武昌鱼，豆皮，油焖大虾。

小米基于知识问答有很多方法，第一种是基于模版的方法，它的大体流程是这样的：

第一步对query做实体链接（实体链接技术在第二部分会详细介绍），第二步把实体名用实体链接后的主实体对应的实体类型替换后去离线的模板库匹配，返回模板库中映射后的归一的模版，最后查询实体库返回答案。

举个例子：

姚明的老婆是谁，第一步先做实体链接，后面把姚明的实体类型人物替换姚明，去人物垂域模板规则库查询模板，发现命中了lambda_x.配偶这个模板。最后在图谱数据国查询姚明的配偶，返回答案叶莉。这种方法有一个好处就是准确率比较好，是离线挖掘的模板，所以性能也比较好，但是缺点也比较明显泛化能力差。其中模板的挖掘方法的话，主要是离线从知识图谱中实体中找目标实体对，然后去问答论坛去匹配问题与答案分别出现的pair，生成模板的pair，这么做会有很多噪声需要做进一步过滤，比如：需要过滤掉出现多属性的问答对的情况和频次出现比较低的情况。

为了解决第一种方法泛化性能比较差的问题，用第二种方式基于槽填充的方式来互补。第一种方法在李白有哪些诗的时候，可以命中模版库满足用户的需求。但是变成李白有名的诗有哪些时，就无法找到答案了。为了解决这种问题，我们用了槽填充和意图识别联合学习的方法方法，借鉴了2016年liu的基于attention的意图检测和插槽填充联合学习的的方法。该方法把槽填充与意图识别联合的学习，方法包含两部分槽填充和意图识别，两部分组成，第一部分是槽填充问题转化为序列标注的NER问题，第二步是意图识别，把意图识别转换为文本分类问题。最后把两个问题整合做一个联合学习。PPT右下角已给出论文和代码。该方法在部分垂哉上的召回的提升比较明显。在菜谱，古诗垂域上欠召回的badcase解决率为30%

第三种方法是基于子图检索，该方法依赖于实体的关系路径。具体第一步query做实体链接，把实体转化为实体ID，第二步根据实体周围的属性筛选出候选路径。第三步对输入文本与候选路径进行实体语义相似和排序，取top结果。

以姚明老婆的国籍是啥为例子，第一步用实体链接找到用到接接到知识图谱姚明这个实体；第二步就是找到姚明这个实体周边的候选的属性路径，如姚明的配偶的国籍，姚明配偶的身高，姚明配偶的类型，姚明教练的出生日期，姚明队友的出生地等；第三步用bert计算候选路径和目标路径的相似关系，除了相似度外，引入了像类型过滤这样的条件约束，过滤给出排序分值然后取一个最大值。

以上都是基于图谱的结构化的问答场景，对于非结构的, 比如：天空为什么是蓝色的，怎么控制猫的饮食量，青蛙王子是不是安徒生的童话，这三种为什么，怎么样，是不是，类型的问题，以上方法无法解决，需要通过基于搜索的FAQ的方式，这里就不介绍了。

3. 应用场景：智能客服

第二个是知识图谱到智能客服的场景。目前智能客服已经落地小米网和小米金融等业务场景下。PPT中是智能客服团队用NL2SQL的方法在基金客服上的一个落地场景。

知识图谱在智能客服中的技术框图体系，第一层是数据标准化层，主要包括数据仓库，数据治理，数据融合，第二层是AI引擎层，有实体抽取引擎，属性集合引擎、知识图谱引擎等，第三层是数据共享交换层，第四层是数据服务，数据分析等。

4. 应用场景：小米商城&游戏中心

第三个应用场景是在小米商城和游戏中心的应用，目前商品图谱和游戏图谱已应用到小米商城，有品商城，游戏中心等业务下。已落在有品商城/小米商城的场景词搜索发现、用户sug引导、商品评价的用户观点的的用户观点的抽取及聚合，及游戏的评论的观点抽取及聚合业务上。在小米的商品图谱取得不错的效果，已助力商品转化率、用户购买转化率及游戏下载率至少有30%的提升。

5. 应用场景：AI虚拟助手

另外小米知识图谱还在多模态图谱应用场景下做了尝试，与AI虚拟助手合作探索了图片态与文本态实体语义关联，目前已上线植物识图的功能，后面会持续的扩展。小米知识图谱的落地场景很多，这里只介绍了一部分，后面是小米知识图谱积累的一些关键技术。

小米知识图谱关键技术

1. 小米知识图谱赋能各业务场景

目前小米知识图谱已经具备20+关键能力，比如实体链接，实体融合，概念图谱，实体推理，实体分类，知识理解，实体关联，用户理解等等，后面挑出实体链接，实体融合，概念图谱挖掘三个关键技术和大家分享探讨。

2. 关键技术：实体链接

实体链接 ( Entity Linking )，也叫实体链指，该任务要求我们将非结构化数据中的表示实体的词语(即所谓mention，对某个实体的指称项)识别出来，并将从知识库 ( 领域词库，知识图谱等 ) 中找到mention所表示的那一个实体所以实体链接的任务定义：就是给定文本mention,判定指代知识图谱中的实体首先第一个是实体链接 ( Entity Linking )。

举个例子：

比如说刘德华的天下无贼主题曲那一天是谁唱的，实体链接需要把刘德华，天下无贼，那一天三个mention联接到知识图谱的实体上。以方便应用到如主题分析，语义的信息检索等更深度的应用场景下。

常见的实体链接如PPT流程。包括中文的切词，命名实体识别，候选实体选取，实体消歧，实体排序，判空几部分。第一步中文切词有很多方法，比如像结巴等一些开源的工具，我们的做法是整合了已有的实体名、实体同义词名，及开放锚文本信息做为词典，用维特比算法构造了切词功能。除了切词外我们还用的序列标注的方式做了命名实体识别，把实体词表与NER的结果合并。

其中NER用的是BERT+CRF。在NER的训练数据集构造上，起初用远程监督的方法构造训练集的方法，但是发现在句子中有多个实体词的情况，远程监督的方式只能标注出部分实体词，这样对模型的召回影响比较大。所以我们利用开放比赛的标注数据作为数据集，再加上部分远程监督的数据和人工标注的数据作为最终的训练样本。这种方式的训练结果比只有远程监督的样本训练的结果提升10个点左右。

接下来第二步是候选实体选取，我们离线挖掘了大量的同义词，别名，缩写词等，放在图谱实体。命中label，alias，同义词，缩写的作为候选对象。但是调研中发现过多的候选词不一定有好的效果，比如：长尾的，互动比较少、丰富度比较少的实体引入会造成很多噪声并且很影响处理性能。因此我们利用用户使用的热度，实体的流行度，实体丰富度等对候选实体做了筛选和过滤。精简后准确率提升了3%，召回下降0.4%，预测速度提升50%。

接下来是实体消歧，实体排序，判空这三块。这三块不好解耦，所以可以一块来说。这里用到了两处种特征，第一种是上下文无关的，第二种是语义相关联的特征。

上下文无关的特征包含：实体流行度，用户热度，实体丰富度等等。语义相关的特征包括三部分：

① 对输入实体mention预测实体类型, 用到的18年Raiman, J. R., & Raiman, O. M.发表的"DeepType：用神经网的分类系统演化来做多语言实体链链接"的方法，该方法基于当我们知道了候选实体的类型之后，这个消歧的任务便被解决得差不多了的假设将实体链接过程看成是分类获取的过程。分类的过程是针对知识库中的分类体系设计了一个DeepType的预测系统。具体是用输入数据文本通过bert编码取CLS 位置的向量、候选实体对应开始和结束位置对应的特征向量，三个向量连接，经过全连接层，最后softmax激活得到候选实体的类别得到分类。

② 是DeepMatch部分，参照18年 Le, P., & Titov, I的一种通过候选实体与mention之间的潜在关系建模来提升实体链接的效果。该文章提出了将实体链接问题转化为文本语义匹配问题，构建了一个DeepMatch模型来匹配输入语句的上下文和候选实体的描述信息对。把待消歧文本作为text_a，每个候选实体的SPO全部连接起来组成一段文本text_b，计算text_a和text_b的相关性。训练时选取连接到的实体作为正例，在候选实体里选取负例。两个句子长度最大选取为256，负样本选取了3个。取CLS 位置向量、候选实体对应开始和结束位置对应的特征向量，三个向量连接经过全连接层，最后sigmoid激活得到候选实体的概率得分。

③ 除了这两个特征外还有共现、协同推断等特征。最后把是否存在多个同义词指向同一个实体、其他mention是否出现在该实体的信息里、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等经过MLP得到一个分值，排序取 top1的实体，如果top1的分值大于阈值就判定该实体，如果小于阈值则为空。

小米知识图谱通过该方法参加了2020CCKS比赛，很荣幸拿到了总决赛的第一名，F1的值达到了0.8954。但是这种方法在我的业务场景，准确率召回可以达到96%以上。

另外，除了效果，这里在业务上有会有处理性能的问题，所以这里用到三种方法加速，第一是引用了tensorflow的batching serving，第二是把bert中的transformer 用nvidia的faster Transformer替换，第三是用Fp16的方法量化，这种加速效果比较明显的QPS从30提升到1200。

3. 关键技术：知识融合

第二种关键技术，是知识融合，该任务的定义是，给定实体集合，识别并合并等价实体 ( 注：等价定义为待融实体指代了现实世界中同一事物或概念 ) 。举这个例子，花木兰电影有来自腾讯，爱奇艺，优酷，豆瓣，电视猫，维基的数据。需要把实体化后的小实体，找到归一组，合并融合生成新的实体，更新至知识库图谱中这一过程中称为知识融合。

基于任务定义，把这种任务，拆解成了实体对齐和实体择优两部分。

实体对齐的方法目前包含成对的实体对齐，集体实体对齐，大规模集体实体对齐及知识库与知识库之间的模式层的实体对齐。小米着重做的是成对对齐，现在用了就两种的方法：

第一种方法是传统的方法，基于观察的先验，比如：

① 类别间的属性重要度是不同的 ( 比如人物中，出生时间，出生地点，性别，职业很重要；地点类的，经度，纬度很重要；视频: 上映时间，演员，导演，角色很重要；生物：种属科目纲很重要等 )。

② 文本中的时间，地点很重要，( 比如一些infoxbox中未覆盖的事件的时间及地点等 ) 基于这两个经验，我用一些tfidf的方法计算一些属性在不同类中的重要性，并找文本中的时间/地点做为一个重要的文本特征，并计算对应属性值相似度，目前用对一些相似度主要是一基于字粒度的文文相似度，及token粒度的主题相似度等。

第二种方法用基于embedding的deep Match方法，主要参照了2018年ACM SIGMOD 的方法做了一些改进，该方法把实体中的每个属性下的O的Value concate成一个句子，通过双向LSTM等一模型encodeing成向量，计算每个属性下的emdming的相似度，最后经过一个分类模型，判断是否是同一个实体。该方法没有考虑类别中的属性重要度的差异，所以准确与召回效果都不太理想，我们也在考虑更多的方法尝试改进。

以上两种方法是针对对于结构化实体对齐的方法，如果是开放文本要依赖实体链接技术。

知识融合第二部实体择优，是在经过实体对齐后，把实体属性的差异性或者冲突性做消解。目前的做法基于以下几个方面对实体的质量进行控制控制：

实体的更新时效性
权威性，不同来源，权威性不同的，比如，人民网的权威性要比一般咨询类的站会要高
丰富性，不同来源O的值缺失程度是不同的
共现频次，当多源有冲突时，可以用投票的选出不同来源中出现最多的属性

4. 关键技术：概念图谱

概念图谱的概挖掘目前小米图谱基本三种方式构建。

第一种是在本体模式层构建了分类体系，分类体系参照了一些开放的行业和分类标准，还参考了一些人工整理的行业的标准体系。

第二种是基于autophrase的方法，是实例层的ISA关系的挖掘，该方法是2017年一篇论文中采用海量文本挖掘的方法，该方法通过主要是用短语挖掘的方法来挖掘概念。这种方法需要满足四个条件：

流行度：质量短语应该出现的频率足够高
一致性：token在高质量短语中的搭配出现的概率明显高于预期
信息性：短语可以表达一个特定的主题或概念
完备性：一个短语可以在特定的文档上下文中解释为一个完整的语义单元

这个模型的训练用实体的长文本和内容文本、远程的Wikipedia/cn_probase拿到的开放的的高质量的短语及根据不同领域标注的高质量的词语三个输入作为输入语料。第二步用n_gram的候选筛选，出正样本与负样本，正样本是N_grame频率大于阈值和人工标注的领域短语及人工cnproese匹配的高质量短语；剩余是负样本。由于负样本中掺杂大量的正样本，所以后面是从负样本中使用集成分类器训练了多个基分器来从负样本中强化出正样本。为了保证概念短语的质量，方法通过词性分析过滤不符合语法的短语。

针对概念挖掘的第三种方法是基于序列标注的方法。分为两步。第一步做一个分类，针对实体长文本描述进行句子拆分，之后判断否有这个概念相关的一个实体词。第二步使用Bert+BiLSTM+CRF的方式作序列标注，标注出SPO的值。

上面三种方法都是概念挖掘，对于实体与概念的关联，可以用实体分类的方法把模式层的与实体挂接，用实体链接的方法把开放词中的短语与体挂接。

5. 关键技术：自动化构建技术

除些之外呢，小米图谱还在工程构建已有了一套完成的自动化构建技术，可以支持用户定制，自动实体化，自动实体关系等。

小米行业知识图谱探索

小米知识图谱的关键技术还有很多，我们在这里只给大家介绍典型的几个关键技术，有兴趣的话可以线下交流。最后我们看一下小米知识图谱在行业的一些探索。

1. 商品图谱

第一个业务场景的探索商品图谱，主要的应用场景是小米商城，小米品的搜索和推荐场景，目标就是辅助电商平台精准的搜索。

现在商品图谱已在商品分类体系的建设、主商品词提取、商品同义词挖掘、上下位体系构建、场景概念挖掘五个方向构建完成。其中分类体系是在模式层的构建；主商品词提取和商品同义词挖掘用于精确匹配与召回；上下位体系结构用于用户推荐；场景概念挖掘用于搜索发现及场景推荐。

场景挖掘以泰国旅游为例，可以与沙滩鞋，电话卡，浮潜装备等商品有关联，烧烤场景可能与烧烤架，木炭，食材等商品关联。

目前商品图谱已把这五个方向的数据和技术落地到小米商城，有品商城上。用户转化率和商品转化率都有不错的提升。

2. 上位词

上位词挖掘的方法分为三部分：

第一部分是上位词判定，用bert加上分类模型从用户日志的query中提取出来确识别是否是商品词或者上位词。第二部分通过层次化的分类器，对挖掘到的上位词合并到分类体系中，这里用的了HMC的多分类器。第三部分是把商品与上位词关联，用商品名做texta, 上位词做textb，把关联问题转化为文本分类问题。

目前用这种方法挖掘出的上位词，平均每个商品覆盖10.5个上位词。

3. 同义词

商品图谱涉及到的还有一个就是同义词挖掘。我们是从商品标题中抽取同义词，在调研中发现，很多商铺为了尽可能多的命中搜索词，会把可能多的把相同相近或者同义的词堆砌到商品名中。所以基于这个假设，我们把同义词的挖掘，转化为一个序列标注问题。

其中训练数据用人工标注+ ( 通用图谱+同义词库 ) 远程数据作为训练样本。商品title做为texta, 候选的词做为textb最后标注出BIOS。因为店铺除了堆砌到同名商品外，还会打包买一些东西，比如锅盘垫与炒锅盖打包卖，所以这样做会有准确的问题。为了这种问题，我用了以下三种方法去噪：

检测上位关系是否冲突，锅盘垫->餐具->餐垫，炒锅盖->锅具->锅盖等
用词向量相似度
用bert相似度计算分类判断是否同义

用三种方法过滤后我们的准确率达到94%。

4. 金融图谱

第二个行业落地场景，是客服团队金融图谱在小米金融信贷及保险等业务的应用。我们就业务场景中的身份核实的子功能举例：

碰撞识别主查核实多个用户的公司地址是否为同一公司
关联方探查，是判断申请贷人与信息是否一致

后面就是金融知识图谱的框图：

除了商品及游戏及金融行业的应用外，我们在更多的行业图谱的落地及更多的通用图谱的应用场景也在持续探索中。

总结

简单总结下，小米知识图谱已构建超百亿的知识，落地10+的业务场景，拥有20+个技术能力，拥有成熟的自动化构建流程，小米知识图谱已有多个行业知识图谱落地。最后，欢迎大家体验/使用小爱同学等小米的产品，也欢迎大家吐槽！

今天的分享就到这里，谢谢大家。

嘉宾介绍：

彭力

小米 | 高级软件工程师

彭力，小米AI Lab知识图谱高级软件工程师，参与IEEE p2807知识图谱的标准制定；在小米主要负责知识图谱的构建和探索知识图谱在公司业务场景下落地。已推动知识图谱在小爱同学、小米商城、游戏商城、虚拟助手、智能问答等业务开花结果。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 网站。

你可能感兴趣的:(大数据,自然语言处理,数据挖掘,编程语言,机器学习)

景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量 superior tigre C++学习：六个月从基础到就业 c++学习
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量本文是"C++学习：六个月从基础到就业"系列的第一篇技术文章，主要回顾C++的基本数据类型、变量定义和常量使用，为后续深入学习打下基础。查看完整系列目录了解更多内容。引言编程的本质是对数据的处理，而数据类型、变量与常量是任何编程语言的基础构建块。在C++中，对这些基础概念的深入理解不仅能让我们编写出正确的代码，还能帮助我们编
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
如何使用JSON输出解析器解析语言模型的输出 vaidfl json 语言模型 easyui python
在现代AI应用中，让语言模型返回结构化的数据是一个重要的能力，特别是在需要进一步处理或集成的时候。本文将深入探讨如何利用JsonOutputParser来解析语言模型的JSON输出。技术背景介绍随着语言模型的普及，许多应用场景需要从自然语言处理任务中获取结构化的输出。针对这一需求，输出解析器应运而生，它能够帮助我们定义JSON模式，通过提示语言模型生成符合该模式的输出，并将其解析为JSON格式。核
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
使用LocalAI进行文本嵌入的实战指南 bavDHAUO python
技术背景介绍文本嵌入是一种将文本片段转换为高维向量的技术，可以用于自然语言处理任务中的相似性计算、信息检索等应用。LocalAI提供了一种本地化的嵌入解决方案，允许开发者在本地环境中运行和测试嵌入模型。通过在本地部署LocalAI服务，您可以避免依赖外部API，享受更快的响应速度和更好的数据隐私。核心原理解析LocalAIEmbedding类主要负责与本地运行的LocalAI服务通信，进行文本嵌入
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_