StoneDB开源社区

研发分享 | StoneDB 如何给 Tianmu 引擎增加 delete 功能 #1 调研之旅

❝
StoneDB 作为开源项目，一直秉持开源开放的基本原则，我们的社区版代码现在已经完全在 Github 上开源，并不断提高代码的可读友好性，同时，为了让大家更好地理解我们是如何打造一款一体化 HTAP 开源数据库的，我们会定期把一些核心技术的研发实现思路分享给大家，也算是抛砖引玉，如果读者有更好的实现思路，也欢迎与我们沟通，甚至可以参与到我们社区版的开发中~
❞

Tianmu 引擎是 StoneDB 团队自研的一款列式存储引擎，在6月初刚开源时，并不支持 delete 功能，对此很多用户都提出了需求的意见，所以我们当时也把 delete 功能列入到我们的年度 Roadmap 里了，预计在10月20号的 StoneDB_5.7_v1.0.1 正式版本中，上线此功能。第一期，我将分享一下对 delete 功能的调研情况。

前置知识：数据库中删除数据的三种方式

以 Mysql 5.7 为例，数据库删除数据的方式一共有三种：

delete
truncate
drop

以上三种方式都可以删除数据，但是使用场景是不同的。

对于整个表进行删除的执行速度来说：

drop > truncate >> delete

DELETE

delete 是属于数据库的 DML 操作语言，一般是根据条件逐行进行删除。

使用 delete 删除数据时，数据库只能删除数据不能删除表的结构，并且会触发数据库的事务机制。

delete 执行时，会先将所删除数据缓存到 rollback segment 中，事务 commit 之后生效。

在 InnoDB 中，使用 delete 其实并不会真正的把数据删除，是一种逻辑删，数据库底层实际上只是给删除的数据做了一个已删除的标记，因此，删除数据后的表占空间大小和删除前是一样的。

TRUNCATE

truncate 属于数据库 DDL 定义语言，不走事务，原数据不放到 rollback segment 中，操作不触发 trigger。执行后立即生效，无法找回（慎用删除执行后，数据就没了，不可恢复）。

truncate 删除表会立刻释放磁盘空间。truncate table其实有点类似于drop table 然后 create,只不过这个 create table 的过程做了优化，比如表结构文件之前已经有了等等。所以速度上是接近 drop table 的速度;

DROP

drop 属于数据库 DDL 定义语言，同 truncate ，执行后立即生效，无法找回。

drop table table_name立刻释放磁盘空间 ,drop 语句将删除表的结构、被依赖的约束(constraint)、触发器(trigger)、索引(index); 依赖于该表的存储过程/函数将保留,但是变为 invalid 状态。

Tianmu 引擎对 delete 功能的调研

Tianmu 是一个列式存储引擎，列式存储的出现主要是为了方便快捷查询和高效存储大量同类型的数据而设计的，主要使用场景就是 OLAP。下面是 OLAP场景的部分关键特征：

绝大多数是读请求
数据以相当大的批次(> 1000行)更新，而不是单行更新;或者根本没有更新。
已添加到数据库的数据不能修改。
对于读取，从数据库中提取相当多的行，但只提取列的一小部分。
列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节)
处理单个查询时需要高吞吐量(每台服务器每秒可达数十亿行)
事务不是必须的
对数据一致性要求低

而 OLAP 场景下，对于数据的 delete 的操作可以说没有或者频率很小。列式存储对比行式存储来说并不擅长数据的增删改，如果是为了极致的查询性能，完全可以舍弃 DML 操作（比如初期的 ClickHouse 也不支持 delete）。但是为了功能的完整性，我们初期就放开了 insert 和 update 的功能，不过没有对 delete 功能进行支持。

随着用户的呼声越来越多，我们开始对各个有列式存储的数据库进行了一个调研，如下表所示：

目前行业现状

通过分析目前行业内支持列式存储的主流数据库，大部分都是支持的，就算不支持直接 delete,也是支持 DML 同步的，所以 Tianmu 引擎的 delete 功能确实有必要进行开发支持。

主流列式数据库的 delete 方案

openGauss

存储结构

openGauss 列存储引擎的底层存储结构与 Tianmu 引擎类似，存储基本单位是CU（Compression Unit，压缩单元），即表中一列的一部分数据组成的压缩数据块。行存引擎中是以行作为单位来管理，而当使用列存储时，整个表整体被按照不同列划分为若干个 CU。

每个 CU 对应一个 CUDesc 的记录，在 CUDesc 里记录了整个 CU 的事务时间戳信息、CU 的大小、存储位置、magic 校验码、min/max 等信息。

每张列存表还配有张 Delta 表，Delta 表自身为行存储表。当有少量的数据插入到一张列存表时，数据会被暂时放入 Delta 表，等到达阈值或满足一定条件或操作时再行整合为 CU 文件。Delta 表可以避免单点数据操作带来的很重的 CU 操作与开销。

delete 策略

CU 中数据的删除，实际上是标记删除。删除操作，相当于是更新了 CUDesc 表中 CU 对应 CUDesc 记录的 delete bitmap（删除位图）结构，标记列中某行对应数据已被删除，而 CU 文件数据不会被更改。这样可以避免删除操作带来的 IO 放大以及解压、压缩的高额 CPU 开销。这样的设计，也可以使得对于同一个 CU 的 select（查询）和 delete（删除）互不阻塞，提升并发能力。列存储 CU 中数据更新，则是遵循 append-only（仅允许追加）原则的，即 CU 文件仅会向后进行延展扩充，亦或是启用新的 CU 文件，而不是在对应行在 CU 中的位置就地更新。

ClickHouse

存储结构

ClickHouse 支持在建表时，指定将数据按照某些列进行 sort by。排序后，保证了相同 sort key 的数据在磁盘上连续存储，且有序摆放。在进行等值、范围查询时，where 条件命中的数据都紧密存储在一个或若干个连续的 Block 中，而不是分散的存储在任意多个 Block，大幅减少需要 IO 的 block 数量。另外，连续 IO 也能够充分利用操作系统 page cache的预取能力，减少 page fault。

delete 策略

特点：缺少高频率，低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据。

ClickHouse是个分析型数据库。OLAP场景下，数据一般是不变的，因此 ClickHouse 对 update、delete 的支持是比较弱的，实际上并不支持标准的 update、delete 操作。

ClickHouse 通过 alter 方式实现更新、删除，它把 update、delete 操作叫做 mutation(突变)。

标准SQL的更新、删除操作是同步的，即客户端要等服务端返回执行结果（通常是int值），而ClickHouse的update、delete是通过异步方式实现的，当执行update语句时，服务端立即返回，但是实际上此时数据还没变，而是排队等着。

Mutation具体过程

首先，使用where条件找到需要修改的分区；然后，重建每个分区，用新的分区替换旧的，分区一旦被替换，就不可回退；对于单独一个分区，是原子性的；但对于整个 mutation，如果涉及多个分区，则不是原子性的。

PolarDB In-Memory Column Index

存储结构

特点：PolarDB 将列存实现为 InnoDB 的二级索引。

在 PolarDB 中所有 Primary Index 和 Secondary Index 都实现为一个 B+Tree。列索引在定义上是一个 Index，但其实是一个虚拟的索引，用于捕获对该索引覆盖列的增删改操作。

实现为 InnoDB 二级索引方案的优点：

查询执行器的工程实现非常简单
可以复用 InnoDB 的事务处理框架
可以复用 InnoDB 的数据编码格式
DDL 语句操作非常灵活
可以复用 InnoDB 的 Redo 事务日志模块
二级索引与主表有一样的生命周期，方便管理

PolarDB In-Memory Column Index 的存储使用了无序且追加写的格式。

列索引中记录按 RowGroup 进行组织，每个 RowGroup 中不同的列会各自打包形成 DataPack。

每个 RowGroup 都采用追加写，分属每个列的 DataPack 也是采用追加写模式。

对于一个列索引，只有个 Active RowGroup 负责接受新的写入。

当该 RowGroup 写满之后即冻结，其包含的所有 DataPack 会转为压缩格保存到磁盘上，同时记录每个数据块的统计信息便于过滤。

列存 RowGroup 中每新写入一行都会分配一个 RowID 用作定位，属于一行的所有列都可以用该 RowID 计算定位，同时系统维护 PK 到 RowID 的映射索引，以支持后续的删除和修改操作。

delete 策略

在 PolarDB In-Memory Column Index 中，删除操作只需要设置一个删除标记位。更新操作采用标记删除的方式来支持，对于更新操作，首先根据 RowID 计算出其原始位置并设置删除标记，然后在 ActiveRowGroup 中写入新的数据版本。

当一个 RowGroup 中的无效记录超过一定阈值，则会触发后台异步 compaction 操作，其作用一方面是回收空间，另一方面可以让有效数据存储更加紧凑，提升分析型查询的效率。

各列式存储的delete方案汇总

好了，以上就是我对 delete 功能的一个调研情况，下一期我将分享一下，Tinamu 引擎实现 delete 的具体思路。

作者：李红建（空海）

编辑：宇亭

StoneDB 代码已完全在 Github 开源，欢迎关注：

https://github.com/stoneatom/stonedb

StoneDB 官网：

https://stonedb.io/

StoneDB 团队成员与 MySQL 之父 Monty 会面，共话未来数据库形态

爆肝整理5000字！HTAP的关键技术有哪些？| StoneDB学术分享会

解读《Benchmarking Hybrid OLTP&OLAP Database Systems》| StoneDB学术分享会

你可能感兴趣的:(技术文章,数据库,mysql,数据结构,database,数据库开发)

21.合并两个有序链表太白IT记算法题链表数据结构
将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。思路：这里使用的主要数据结构是单链表。该算法采用经典的双指针技术来合并列表。Adummynodeiscreated;thisnodedoesnotholdanymeaningfulvaluebutservesasthestartingpointofthemergedlinkedlist.将创建一个虚拟节点;
如何设计高可用容灾架构？深山技术宅素养 PHP 经验架构
设计高可用容灾架构需遵循分级冗余、自动故障转移、数据零丢失原则，通过多层次防御体系保障业务连续性。以下为经过亿级流量验证的架构方案及实施步骤：一、全局容灾架构拓扑graphTBsubgraphRegionA[主地域-上海]AZ1[可用区A]-->LB1[SLB负载均衡]AZ2[可用区B]-->LB1LB1-->App1[应用集群]App1-->DB1[(MySQLMGR组)]App1-->Cach
存储延时数据，帮你选数据库和缓存架构呢喃coding 系统架构设计架构
1.理解存储媒介量化延时类别描述延时缓存/内存L1cachereference1ns缓存/内存L2cachereference4ns缓存/内存Mainmemoryreference（DDR4，5-10ns为补充说明）100ns网络传输SendpacketCA->Netherlands->CA150,000,000ns（150ms）磁盘存储HDD(HardDiskDrive)读写1-10ms磁盘存储
C#配置全面详解：从传统方式到现代配置系统阿蒙Armon C#工作中的应用 c#网络数据库
C#配置全面详解：从传统方式到现代配置系统在软件开发中，配置是指应用程序运行时可调整的参数集合，如数据库连接字符串、API地址、日志级别等。将这些参数从代码中分离出来，便于在不修改代码的情况下调整应用行为。C#提供了多种配置管理方式，从传统的XML配置文件到现代的多源配置系统，每种方式都有其适用场景。本文将全面介绍C#中的配置技术，帮助开发者根据项目需求选择合适的配置方案。一、配置基础与核心概念1
C#中Struct与IntPtr转换：实用扩展方法阿蒙Armon C#工作中的应用 c#
C#中Struct与IntPtr转换：实用扩展方法在C#编程的世界里，我们常常会遇到需要与非托管代码交互，或者进行一些底层内存操作的场景。这时，IntPtr类型就显得尤为重要，它可以表示一个指针或句柄，用来指向非托管内存中的数据。而结构体作为一种常用的数据结构，在与IntPtr进行数据传递和转换时，往往需要一些繁琐的操作。为了简化这些操作，提高开发效率，我们可以通过扩展方法来封装相关的功能。接下来
什么是DO、DTO、VO、BO、AO，还在傻傻分不清？今天一文带你了解这些概率 Gq.xxu java 系统架构
在分层架构的Java应用中，DO、DTO、VO、BO、AO等概念用于解耦不同层级的数据传递和业务逻辑。它们分别承担不同职责，以下是对这些概念的详细解释：1.DO（DataObject/DomainObject）定义：与数据库表结构直接映射的对象，通常由DAO层操作。用途：在数据访问层（DAO）中承载数据库查询结果，如UserDO对应user表字段。特点：属性与数据库字段一一对应。仅包含数据，不包含
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结积跬步，慕至千里软件安装及程序错误解决方案集数据库 clickhouse
目录零、前言一、clickhouse数据库表在starrocks数据库建表时问题总结1.1数据类型类问题：1.2数据导出阶段：二、doris数据库表在starrocks数据库建表时问题总结2.1properties不支持的属性（直接删除）：2.2properties需修改属性2.3properties：doris建表语句分区明细，starrocks数据不需要明确设定，会自动更新2.4分桶设置问题2
【LLM】Llama-Index 架构 FOUR_A LLM llama 架构
数据源（DataSources）PDF/文档数据库API网页音频/视频知识库自定义源数据连接器（DataConnectors）用于从各种数据源提取和加载数据，以便进行索引和查询。1.SimpleDirectoryReader含义：简单目录读取器。功能：主要用于读取本地文件系统中的目录内容。它可以列出目录中的文件和子目录，通常用于文件管理或数据预处理阶段。例如，在一个数据处理项目中，你可能需要列出某
软考（软件设计师）数据库原理-数据库规范化理论，四大范式，完整性约束
关系数据库规范化理论，四大范式，完整性约束关系数据库规范化是一种组织数据库表结构和字段的技术，目的是减少数据冗余、消除更新异常，并确保数据依赖的合理性。一、范式基本概念范式（NormalForm）是符合某一种级别的关系模式的集合，分为1NF、2NF、3NF、BCNF、4NF、5NF等，级别越高约束越严格。二、各范式详细说明1.第一范式（1NF）要求：表中每个字段都是原子性的，不可再分每个字段具有相
【PTA数据结构 | C语言版】输出 1 ~ n 秋说 PTA 数据结构题目集数据结构 c语言算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目给定正整数n，输出1~n，每个数字占一行。本题旨在测试不同的算法在各种数据情况下的表现。各组测试数据特点如下：数据0：测试基本正确性；数据1：n=1；数据2：n=1000；数据3：n=10000；数据4：n=100000；数据5：n=1000000。输入格式:输入在一行中给出正整数n(≤10^6)。输出格式:输出1~n，每个数字占一行。输
mybatis打印完整mysql_mybatis 通过拦截器打印完整的sql语句以及执行结果操作 weixin_39672680
开发过程中，如果使用mybatis做为ORM框架，经常需要打印出完整的sql语句以及执行的结果做为参考。虽然mybatis结合日志框架可以做到，但打印出来的通常都是sql和参数分开的。有时我们需要调试这条sql的时候，就需要把参数填进去，这样未免有些浪费时间。此时我们可以通过实现mybatis拦截器来做到打印带参数的完整的sql，以及结果通过json输出到控制台。直接看代码和使用方法吧：MyBat
基于新型非易失性内存（NVM）的数据库事务日志优化技术详解瑕疵热点资讯数据库
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于新型非易失性内存（NVM）的数据库事务日志优化技术详解基于新型非易失性内存（NVM）的数据库事务日志优化技术详解基于新型非易失性内存（NVM）的数据库事务日志优化技术详解引言传统事务日志的挑战1.性能瓶颈分析2.典型性能对比NVM事务日志优化技术1.日志结构设计2.原子写入优化3.崩溃恢复机制性能优化策略1
【容器】优质文章分享
文章目录加速器Docker教程安装坑volumn网络配置踩坑其他dockerfiledocker-compose手册教程网络坑docker使用dockermysqldockermongoredisdocker-rabbitmqnginxtomcatnacoszookeeperelasticsearch加速器现在docker镜像站真的不好找了。阿里什么的加速目前只能给阿里自己的容器用了。且用且珍惜D
python进阶之数据结构与算法--入门-二叉树小白piao 数据结构与算法python篇数据结构算法二叉树 python
二叉树概念：之前已经提及了关于树的概念，要想知道之前讲了什么请关注，前边文章里都有提及。这里不做赘述。二叉树是具有以下属性的有序树：1、每个节点最多有两个孩子节点2、每个孩子节点被命名为左子节点和右子节点3、对于每个节点的孩子节点，在顺序上，左子节点优先于右子节点4、若子树的根为内部节点v的左子节点或者右子节点，则该子树相应地被称为节点v的左子树或者右子树5、若每个节点都有零个或者两个节点，则这样
微算法科技（NASDAQ: MLGO）探索Grover量子搜索算法，利用量子叠加和干涉原理，实现在无序数据库中快速定位目标信息的效果。 MicroTech2025 算法科技数据库
在信息爆炸的时代，数据的海量化带来了前所未有的挑战，如何从庞大的数据库中迅速找到所需信息，成为信息技术领域亟待解决的问题。传统的搜索算法在面对大规模数据时，效率逐渐下降，难以满足现代社会的需求。量子计算的出现为解决这一问题带来了新的思路和方法，Grover量子搜索算法作为量子计算领域的重要算法之一，在快速搜索目标信息方面具有巨大潜力。Grover量子搜索算法是一种基于量子力学原理的搜索算法，它利用
亲测有效！鸿蒙App用户数据备份与恢复全攻略（含代码）前端世界 harmonyos harmonyos 华为
摘要在鸿蒙（HarmonyOS）应用开发中，用户数据的安全和持久保存是非常关键的一环。不管是用户的登录信息、操作记录，还是偏好设置，若能提供备份和恢复功能，不仅能有效提升用户体验，也能在换设备、卸载重装后保留数据。本文将带你从头到尾实现一套用户数据的本地备份与恢复机制，涵盖数据库读取、文件写入、数据解析等，配合可运行的Java示例代码，并结合真实应用场景拆解原理和细节。引言在移动设备上运行的鸿蒙应
vue项目中使用nodejs实现登录芜湖湖湖湖 nodejs vue mysql javascript
用vue,nodejs,mysql做的一个登录的页面代码放完的话有点麻烦，只放实现功能的代码把。vue部分:exportdefault{data(){return{loginForm:{username:'',password:'',},//下面两行是vuelogo的不用理会circleUrl:require('../assets/logo.png'),size:100}},methods:{su
文献分享: 注释数据库＆溯源半环理论(Part2) Dann Hiroaki 文献阅读笔记数据库抽象代数
文章目录3.\textbf{3.}3.处理递归查询:基于Datalog\textbf{Datalog}Datalog3.1.\textbf{3.1.}3.1.关于Datalog\textbf{Datalog}Datalog3.1.1.\textbf{3.1.1.}3.1.1.Datalog\textbf{Datalog}Datalog基本结构3.1.2.Datalog\textbf{3.1.2.}
C# 项目卷纸要用清风的 C#c#开发语言
语言基础开发环境与工具框架与库数据库与数据存储项目架构与设计模式前端技术（全栈开发场景）版本控制与协作测试与质量保障部署与运维安全实战项目建议学习资源推荐总结语言基础C#语法：变量、数据类型、控制流（条件语句、循环）、运算符、异常处理（try-catch）等。面向对象编程（OOP）：类与对象、继承、多态、封装、接口、抽象类。高级特性：委托（Delegate）与事件（Event）LINQ（Langu
Python namedtuple 详解：作用与使用方法
文章目录一、什么是namedtuple主要特点：二、namedtuple的作用1.替代普通元组，提高代码可读性2.替代简单类，减少样板代码3.作为轻量级数据结构三、基本使用方法1.创建namedtuple类型2.创建实例3.访问字段4.不可变性测试四、高级特性与方法1._asdict()-转换为有序字典2._replace()-创建新实例并替换字段3._fields-查看字段名4._make()-
MySQL数据库主从复制 KellenKellenHao 数据库 mysql
概述1、master开启二进制日志记录2、slave开启IO进程，从master中读取二进制日志并写入slave的中继日志3、slave开启SQL进程，从中继日志中读取二进制日志并进行重放4、最终，达到slave与master中数据一致的状态，我们称作为主从复制的过程。基础环境设置防火墙和上下文#主从[root@slave~]#systemctldisable--nowfirewalldRemov
MySQL8数据库高级特性 KellenKellenHao oracle 数据库 sql
创建测试表 createdatabasejxcharactersetutf8; usejx; my>descusers; +----------+-------------+------+-----+---------+----------------+ |Field |Type |Null|Key|Default|Extra | +----------+-------------+--
我与C语言二周目邂逅vlog—1.熟悉而又陌生-初识C语言 hope kc c语言开发语言
如题，在下是一名大二学生，希望改过自新，重新学习C语言（同时也在学习数据结构，希望各位大佬多多指教）1.C语言的历史C语言最初作为Unix系统的开发工具而发明的。如今成为一种高级语言，可谓C生万物2.编译与链接C语言代码是放在.c为后缀的文件里，.c为后缀的文件称为源文件，.c本身就是文本文件，无法直接运行，所以要得到最终运行的可执行程序，中间要经过编译和链接两个过程。3.VS项目的创建打开VS时
设计模式之访问者模式缘来是庄设计模式设计模式访问者模式 java
目录定义结构适用场景使用示例定义访问者模式（VisitorPattern）是一种‌行为型设计模式‌，其核心思想是将数据结构与数据操作解耦，允许在不修改现有对象结构的前提下定义作用于对象元素的新操作。访问者模式有以下核心要点：1）‌数据结构稳定，被访问的对象结构（元素类）相对固定，不频繁变动。2）‌操作可扩展，新增操作只需添加新的访问者类，无需修改元素类代码，符合开闭原则。3）‌双分派机制，通过ac
AWS MES集成：PLM到车间秒级同步方案百态老人 aws postman 云计算
以下是针对"AWSMES集成框架：通过Lambda转换PLMBOM→DynamoDB→MQTT至车间"的完整技术方案，结合AWS服务特性和制造业需求设计：一、架构设计目标数据流闭环：实现PLM系统到车间设备的自动化数据管道实时性：BOM变更秒级同步至车间可靠性：MQTTQoS1保障消息必达无服务器化：降低运维成本，按需伸缩二、技术组件详解1.PLMBOM数据解析数据结构特征：多视图结构（EBOM/
数据结构入门:链表
链式存储结构通过使用指针将分散的存储单元链接起来，每个元素由数据部分和指针部分组成。链式表的定义和特点链式表的每个节点包含两个部分：数据域：存储数据元素。指针域：存储下一个节点的内存地址。链式表的头指针指向第一个节点，最后一个节点的指针域为NULL，表示链表结束。链式表的特点是插入和删除操作比较方便，不需要移动大量元素，但随机访问效率较低。示例代码：链式表的实现及取值操作（C语言）#include
C++软件设计模式之迭代器模式捕鲸叉软件设计模式 C++设计模式 c++迭代器模式
迭代器模式是一种行为设计模式，它允许你顺序访问一个聚合对象的元素，而不暴露其底层表示。在C++软件设计中，迭代器模式的主要目的是将数据的遍历行为与数据结构本身分离，使得数据结构的修改不会影响到遍历代码。目的和意图解耦遍历与数据结构：迭代器模式使得遍历算法独立于数据结构的实现。这意味着你可以改变数据结构的内部表示，而不需要修改遍历代码。提供统一的访问接口：无论底层数据结构如何，迭代器都提供了一套统一
如何阅读、学习 Git 核心源代码？ belldeep Linux Git 学习 git 源代码
学习Git核心源代码是一个深入理解版本控制系统底层原理的绝佳方式。以下是分阶段的系统性建议，结合了实践经验和学习路径设计：一、前置知识储备C语言进阶重点掌握指针操作（尤其是二级指针和函数指针）结构体嵌套与内存对齐哈希表、链表等基础数据结构实现POSIXAPI系统调用（文件IO、进程控制）Git原理深入重读《ProGit》第10章（GitInternals）理解对象模型四元组：blob/tree/c
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
C++ 设计模式之迭代器模式 L_qingting 设计模式 c++设计模式迭代器模式
C++设计模式之迭代器模式简介1、迭代器模式（Iterator）是一种行为型设计模式，它允许我们顺序访问一个聚合对象中的各个元素，而又不暴露该对象的内部表示。迭代器模式提供了一种方法来遍历容器（容器对象，如列表、集合等）中的元素，而不需要了解容器底层的表示。2、迭代器模式（Iterator）应用场景包括但不限于：2.1、当你的集合具有复杂的数据结构，并且你希望对客户代码隐藏其复杂性时。2.2、当你
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他