Ultipa

数据库查询语言的进化（下）

UQL(Ultipa图查询语言)如何在图上实现查询功能？

1. 从某个顶点出发，找到它的第1到第K层（跳）的所有邻居并返回

UQL=Ultipa Query Language，是与Ultipa Graph高并发实时图数据库匹配的查询语言。

除了明显的性能优势外，UQL的另外一个重要特点是高易用性、易掌握，并有贴近自然语言的易读性。UQL可以通过Ultipa Manager、Ultipa CLI或Ultipa SDK/API的接口调用。此外，实现上面的查询，在UQL中只需要1句话即可完成。

一句话uQL:

spread().src(123).depth(6).spread_type(“BFS”).limit(4000);

上面的语句简单易懂，基本上不需要太多解释，调用spread()函数，从顶点123出发，搜索深度为6层，以BFS的方式进行搜索，限定返回最多4000个顶点（以及关联的边）。在上图中，红色的小点就是起始顶点，通过以上语句操作的全部返回的顶点和边所形成的子图就直接显示在Ultipa Graph的WEB界面上了。

事实上，spread()这个操作相当于允许从任何顶点出发找到它的联通子图，或者说它的邻居网络的形态可以被直接计算出来，并通过可视化界面直观展示出来。用这种方式也可以看出生成的联通子图中的顶点和边所构成的热点、聚集区域等图上的空间特征 ,而并不需要传统数据库中的 E-R模型图。

2. 给定的多个顶点，自动组网（形成一张顶点间相互联通的网络）

本查询相对于熟悉传统数据库的读者来说或许就显得过于复杂了，用SQL也许无法实现这个组网功能。但是，对于人的大脑而言，这是个很天然的诉求——当你想在张三、李四、王五和赵六之间组成一张关联关系的网络的时候，你已经开始在脑海里绘制下面这张图了。

很显然，uQL倾向于继续使用1句话来实现这个“不可能”的操作：

autoNet().addSrcs(12,21,30,40,123).depth(4).limit(5)
autoNet()就是我们调用的主要函数，它的名字已经非常直白了 ——自组网操作。你只需要提供一组顶点的ID信息，组网搜索的深度（4层=4跳），任意两个顶点间的路径数量限制（5）。

下面，我们从纯数学的角度来分析一下，这个组网操作的计算复杂度：

可能返回路径数量： C(5, 2) * 5 = (5 * 4 / 2) * 5 = 50 条
预估图上计算复杂度： 50 paths *(E/V)4 = 50 * 256 = 12800

注：我们假设图中的(边数/顶点数)比例=4（平均值），也就是E/V=4，搜索深度为4的时候每条路径需要平均计算256（4**4）次。

这个查询在现实世界的应用中意义非同凡响。例如执法机关会根据电话公司的通话记录来跟踪多名嫌疑人的通话所组成的深度网络的特征来判断是否有其它嫌疑人牵连其间，犯罪集团是否存在某种异动，或者任意个数的嫌疑人构成的犯罪组织（crime ring）间的微妙的联动关系等。

传统大数据技术框架之上，这种多节点的组网操作极为复杂，甚至是没有可能完成的任务。

原因是因为计算复杂度太高，对于计算资源的需求太高，在短时间内没有可能完成，或者是以T+7（亦或T+15、T+30）的方式实现，等到结果出来的时候，嫌疑人早已逃之夭夭或者罪案已发生良久了。

假设有1000个嫌疑人需要参与组网，他们之间形成的网络的路径至少有 50万条(1,000 * 999) / 2）。如果查询路径深度为6层，如上所述，这个计算复杂度是20亿次（假设E/V=4,实际上E/V可能>=10，那么计算次数可能达到50万亿次）。

基于Spark架构的计算平台可能需要数天来完成运算；
利用Ultipa Graph，该操作是以实时到近实时（T+0）的方式完成的。

Ultipa Graph在不同的数据集上做过性能评测，Ultipa的性能至少是Spark框架的几百倍到数千倍。如果原来需要Spark系统1天完成的计算，Ultipa仅需数秒、数分钟！当与罪案斗争的时候，每一秒都很宝贵。

值得一提的是，作为实时高并发图数据库，Ultipa Graph在性能第一的前提下，还开发了集简洁、直观、易懂于一体的UQL语言(Ultipa查询语言)——只要掌握了最基本的语法规则后，只需20分钟，就能让一名普通人开始上手使用Ultipa图系统。

UQL借鉴并采用了锁链式查询（chain-query）的语言风格，对于熟悉文档型数据库MongoDB的读者而言，上手UQL就更加简单了。例如，一个简单的链式路径（点到点）查询语句：

上面的例子中是去查询两个顶点间深度为5度的路径，限定返回5条路径，并且返回匹配的属性“name”(通常是顶点或边的名称属性)。

我们再来看一个稍微复杂一点的例子，模板查询，当然，它所完成的功能也更加的强大。例如下面的例子中t()代表调用模板查询调用，t(a)表达的是为当前模板设定一个别名为a，从顶点12开始，经过一条边抵达到属性age值为20的顶点b（别名），返回这个模板所匹配的结果a和抵达顶点b的名字。和传统SQL类似的地方是可以对任何过滤条件设置别名，和SQL不同的地方是，当异构的结果a和b.name一同被返回的时候，a表达的是整个模板搜索所对应的路径结果的集合，而b.name则是一组顶点的属性的数组集合（如下图所示）。这种异构灵活性是SQL不具备的。

下面我们再用一个例子来说明在图查询中使用简单的查询语言实现深度的、递归式的查询：

t(a1).n(n1{age:20}).e(e1{rank:{$bt:[20,30]}})[3:7].n(n2).limit(50).
return(a1, n1, e1, n2._id, n2.name)

这个语句中，从年龄=20岁的顶点（可能有多个）出发，进行深度为3-7层的路径搜索查询抵达某些顶点，并且路径中每条边的权重介于20-30之间，找到50条路径，并返一系列异构的数据（模板匹配的路径本身、起始顶点、边、终止顶点的两个属性）。这种灵活度在SQL当中，如果不通过书写大量的封装代码是很难实现的，而且这种搜索深度也是令关系型数据库望而却步的——通常会发生因内存或系统资源耗尽而导致数据库出现SEG-FAULT。

3.数学统计类型的查询，例如count(),sum(), min(), collect()等

这个例子对于SQL编程爱好者而言一点都不陌生 ——统计一家公司员工的工资总和。

t§.n(12).le({type:“works_for”}).n(c{type:“human”}).return(sum(c.salary))

在UQL中实现也是一句话的事情：

· 从公司顶点12出发
· 找到所有工作于（边关系）本公司的员工，别名为c
· 返回他们全部工资之和

在一张小表中，这个操作在SQL语境下同样毫无压力，但是在一张大表中（千万或亿万行），或许这个SQL操作就会因为表扫描而变得缓慢了。而在Ultipa数据库中因为采用相邻哈希+近邻存储的存储逻辑及并发逻辑优化，这种面向一步抵达的邻居顶点的数学统计操作几乎不会受到数据集大小的影响，进而可以让任务执行时间基本恒定！

下面这个例子中，则是统计该公司的员工都来自于哪几个省:

t§.n(12).e({type:“works_for”}).n(c{type:“employee”}).
return(collect(c.province))

上面的两个例子是来说明通过uQL的方式同样可以实现传统关系型SQL查询所能实现的功能。同样，返回结果也可以以关系型数据库查询结果所常用的表单、表格的方式来呈现，例如下面的两图所示：

在Ultipa Manager中以表格的方式展示结果列表
上图中，khop()操作返回的是从初始顶点出发经过depth()限定的深度搜索后返回的第K层的邻居的集合，select()的使用允许你选定需要具体返回的属性。

下图中展示的是类似的操作在Ultipa CLI中返回的结果示例。注意下图中的时间有两个维度，引擎时间和全部时间，其中引擎时间是内存图计算引擎的运算耗费时间，而全部时间还包括一些持久化存储层的数据转换的时间。

4. 强大的基于模板的全文搜索

如果一个数据库系统中不能支持全文搜索，那么我们很难能称其为完整的数据库。在图数据库支持全文搜索并不是一个全新的事情，例如老牌的图数据库Neo4j中通过集成Apache Lucene的全文搜索框架，让用户可以通过Cypher语句来对顶点（及其属性）进行全文本搜索。在Ultipa Graph中我们并没有采用开源的Apache Lucene/Solr，其中一个很重要的原因是性能落差，在我们看来Lucene/Solr的架构的性能要指数级的低于Ultipa的核心计算引擎（另外一个次要的原因是这种开源的框架中依然存在着不可预知的一些问题，在生产环境中一旦暴露，修复起来非常困难，这个或许可被看做是开源的一个重大迷思）。

在uQL中完成面向顶点的全文搜索，只需要下面这句简单的查询语句：

find().nodes(~name:“Sequoia*”).limit(100).select(name,intro)

这句uQL返回的是找到100个包含“红杉”字样的顶点，并返回它们的name和intro属性。这个查询非常类似于传统数据库中的面向某张表的列信息查询。同样的，也可以针对边来进行查询，例如下面：

find().edges(~name:“Love*”).limit(200).select(*)

找到图中所有的边上的name属性中存在“爱情“字样的关系。

当然，如果我们的全文检索只是停留在点、边查询，那么这就略显单薄了。在Ultipa图数据库中，其创造性的发明了基于模板匹配的全文本查询。例如，模糊的搜索从“红杉”出发到“招银”的一张关联关系网络，网络中的路径搜索深度不超过5层，返回20条路径所构成的子图。注意：这个搜索时从模糊匹配顶点出发，到达模糊匹配的另外一套顶点！

t().n(~name: “Sequoia*”).e()[:5].n(~name: CMB*").limit(20).select(name)

如果不用上面这句简单得不能再简单的uQL，你能想象如何用其它SQL或NoSQL语言来实现吗？假设我们在一个工商数据集之上，在天眼查、企查查做类似的查询，你要先找到名字中包含有红杉或招银字样的公司，然后再分别对每一家公司的投资关系进行梳理，你需要查清楚每家被投公司的合作、竞争、董监高等关系，然后再慢慢梳理出来是否能在5步之内关联上名称中包含红杉字样的一家公司和包含招银字样的另一家公司。这个操作绝对的是让人疯狂的，你可能需要花费数天的时间来完成，或者能够通过写代码调用API的方式来“智能”化的实现。无论如何，你很难在下面两件事情上击败UQL:

· 效率和时延（Efficiency and Latency）：一言以蔽之实时性！ · 准确率和直观度（Efficacy and
Accuracy）:直观、易读、易懂
在上图中，这个看起来简单而又实际上非常复杂的查询操作仅仅耗时50ms！这种复杂查询的效率性是前所未有的。

一门先进的（数据库）查询语言的优美感，不是通过它到底有多复杂，而是通过它有多简洁来体现的。它应该具备这样的一些通性：

· 易学、易懂（Easy to Learn，Easy to Understand） · 高性能（Lightning
Fast）：当然，其实这个其实取决于底层的数据库引擎！
· 系统的底层复杂性不应该暴露到语言接口层面（System Complexity Shielded-Off）

特别是上文的最后一点，如果读者对于SQL或Gremlin或Cypher或GraphSQL当中复杂的嵌套逻辑心有余悸的话，你会更理解下面的这个比喻：当古希腊神话中的泰坦Atlas把整个世界（地球）抗在他的肩膀上的时候，世界公民们（数据库用户）并不需要去感知这个世界有多沉重（数据库有多复杂）。

5. 复杂的图算法

区别于其他数据库，图数据库的优势之一是集成化的算法功能支持。图上有很多种算法，例如出入度、中心度、排序、传播、连接度、社区识别、图嵌入、图神经元网络等等。随着商用场景的增多，相信会有更多的算法被移植到图上或者被发明创造出来。

以鲁汶社区识别算法为例，这个算法出现的时间仅仅十几年，它得名于它的诞生地——比利时法语区的鲁汶大学（Louvain University）。它发明的初衷是用来通过复杂的多次递归遍历一张由社交关系属性构成的大图中的点、边来找到所有的顶点（例如人、事、物）所构成的关联关系社区，紧密关联的顶点会处于同一社区，不同的顶点可能会处于不同的社区。在互联网、金融科技领域，鲁汶算法受到了相当的重视。下面这行uQL语句完成了鲁汶算法的调用执行：

algo().louvain({phase1_loop:5, min_modularity_increase:0.01})
在图数据库中，调用一个算法与执行一个API调用是比较类似的，都需要提供一些必须的参数。上例中，用户仅需提供最少两个参数就可以执行鲁汶。当然，可选的，用户可以设定更为复杂的参数集来优化鲁汶算法，因篇幅所限，本文不展开描述，若对此感兴趣的读者可关注Ultipa官网。

注：原生的鲁汶社区识别算法的实现是串行的，也就是说它需要从全图中的所有顶点出发，逐个顶点、逐条边的去进行反复的运算。试想在一张大图中（千万顶点以上），这个计算的时间复杂度绝对的是要以T+1来衡量的。例如在Python的NetworkX库中，对一个普通的（几十万-几百万顶点）图数据集进行鲁汶运算要耗时数个、数十个小时，但是在Ultipa Graph上面这个计算的耗时通过高度的并发被剧烈的缩短到了毫秒、秒级！在这里，我们探讨的不是10倍—100倍的性能超越，而是成千上万倍的性能提升！如果读者觉得我们给出的案例只是天方夜谭或是痴人说梦，或许你应当重新审视一下你对于数据结构、算法以及它们的最优工程实现的理解了。

UQL图查询语言中还支持很多功能强大的操作，上面的5个例子只是起到了一个抛砖引玉的作用，笔者希望它们能揭示UQL的简洁性，并唤起读者去思考一个问题：你到底是愿意去绞尽脑汁的书写成百上千行的SQL代码，并借此杀死你我他的大量脑细胞来读懂你的代码呢？还是考虑用更简洁、方便却更加强大的图语言呢？

关于数据库查询语言，Ultipa认为：

· 数据库查询语言不应该只是数据科学家、分析员的专有工具，任何业务人员都可以（并应该）掌握的一门查询语言。 ·
查询语言应当便于使用，所有数据库底层的架构、工程实现的复杂性应当对于上层的用户而言是透明的！
·介于图数据库的巨大潜力，在未来的一段时间内会大幅的替代SQL的负载，有一些业界顶级的公司，例如微软和亚马逊已经预估未来8-10年间，会有40-50%的SQL负载会迁移到图数据库之上完成。让我们拭目以待。

有些人认为，包括一些知名的投资机构和行业“专家”，关系型数据库和SQL永远也不会被取代。我们发现这种看法禁不起推敲。如果我们稍微回顾一下不是很久远的历史就会发现，关系型数据库在70—80年代取代了导航型数据库，它已经称霸了行业40—50年了，如果历史真正教会我们任何东西，那就是对于任何事情的执着和痴迷都不会长久，特别是在这个互联网科技的时代。

最后，用笔者喜欢的一段话送给诸位读者：

“What you cherish, perish”

“What you resist, persist”

你珍爱的，终将消亡

你抵抗的，必将永存。

·END·

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

数据库查询语言的进化（下）

UQL(Ultipa图查询语言)如何在图上实现查询功能？

你可能感兴趣的:(数据库,数据挖掘,自然语言处理,算法,人工智能)