chengg0769

解决海量数据的新思路——分布式数据库(转)

我其实曾经尝试过多次用PB开发三层。包括pB7的transport，和COM+，MTS，甚至pb11后的webservices，但是总觉得烦躁。为什么呢？transport，和COM+，MTS和webservices的概念都是一样的。就是用一种代理的思路，客户端的意思先要告诉中间层，由中间层进行数据的串行化，传给客户端，客户端再进行操作和修改，再告诉中间层去更新。理论与实践表明，其开发的难度，稳定性，和访问速度，都是跟二层直连没法比的。pb的transport和MTS的效率要高一些，因为数据返回比较简练，而webservices是xml，而xml在数据串行化上的功耗相当大，使得访问起来有点慢动作。目前我自己包括其他小型的运用项目开发者，都没法无痛地开发三层，都是在用两层进行快速开发。之前有自己评估了一下，三层的COM+开发，访问一个数据库，开发量是二层的5倍。工作量是5倍，则开发成本也就是5倍，交货期和后期维护成本也是这样的。而且所谓的三层减少客户端更新也是梦魇！只是一个美好说法，修改中间层不会修改客户端的情况很少！真怀疑鼓吹三层的人的居心！

比如我们要完成1. 普通查询（只读）；2. 新录入数据； 3. 修改数据

1. 普通查询（只读）： a。连接中间层，b。中间层实例化对象，查询，串行化，返回adoset或者ds的描述字串，c。客户端导入adoset或者ds描述字串，显示。

2. 新录入数据：本地插入数据，b。串行化发给中间层，c。中间层通过ds填充，d。连接数据库然后写入。并返回结果。

3. 修改数据：a。中间层读取原始数据，b。串行化发给客户端，c。客户端填充，d。客户端修改，e。客户端保存时，要发回给中间层，然后更新其状态，最后update。

可见，与二层的直连开发来说，中间的处理异常繁杂，而且要处理很多异常，又不能直接messagebox弹出，必须要返回很多错误代码，在本地提示，一个异常处理不好，客户端根本看不到错误原因。而二层的任何操作，本质上只有一个或者最多两个步骤。而且稳定性高的多。因为三层加多了数据的流通环节。

另外一个，在居于数据大批量处理的系统中，靠编程代码来逐行处理数据是不可能的。比如要统计一个商业报表，都是有传到条件等参数，然后通过procedure进行逐步统计得到，并返回符合条件的结果集。所以：在数据处理的程序中，三层显得多余！实在是多余。仅仅只是一个访问代理而已。如果仅仅鼓吹三层是减轻客户端数据处理压力的话，那也是一个笑话，因为现在的电脑配置都非常高。可以这么说，以前那些文章里提到的一些很旧的电脑在现在看，也能轻松处理一些客户端逻辑，并非一定要靠中间层。比如现在的双核电脑。我想，一般的服务器，还比不上20台普通PC吧。除非是小型机，否则运算能力是没有任何说服力的。而且服务器上也不能得到很多内存！而现在pc机的CPU和内存是绝对的大！大的吓人！而且，也不太可能配备很多中间服务器的。所以以前那种客户端很差的情况下，将计算量放在中间层的做法，在今天来看，应该是一个错误的思路了。如果50人都需要处理一个过程，导不如把基本数据取下来，由50个客户端自行处理。而且很多人认为那种HP的入门的服务器（2-N万的那种，就是服务器，其实不然），那种服务器如果不提高配置，如加CPU，加内存，它的基本配置是很低的，有的低得只够带带IIS。而且我的客户听说ECC内存条要1500-2500/1G，居然想不加内存条。！！！所以三层有点跟服务器厂商打工的味道。

客户端的智能升级，自动升级现在很多软件都能解决得很好，所以不构成要用三层的理由。

复杂的统计逻辑等都需要procedure，所以也不构成需要三层的理由，因为商业逻辑也不是在三层里处理的。

三层能占的一个好处是，三层服务器跟数据库在一个局域网内。可能通讯上有优势。另外在复杂交易的控制上能起到很大作用。不过并非所有运用都如此。

那自然就想到：分布式数据库。

不仅可以把客户端的基础数据访问量分布在多台sql服务器，而且可以直接执行procedure和function，sql服务器现在也支持模组程序和扩展功能开发。那，我认为仅仅起到一个访问代理的作用的三层，已经显得毫无意义了。利用分布式数据库系统，更能支持更大规模的运用。就是把三层的服务器拿来配置服务器组用于sql分布式数据。而且访问和编程更简单。并发量和连接数也应该不是问题。从google等大规模运用来看，大型的高并发访问的最好办法不是用大型机，也不是分层，而是分布式，用服务器来组装成群组和流水线等，分而治之。至于数据在多台服务器之间复制，同步，分区，等等。或者复杂的访问策略，压力分配，都是可以在编程这个层面不用去考虑的。就像访问一台服务器一样的编程，岂不是我们都期望的吗。

所以后续将多看相关文章，深入研究一下。当然这个分布式主要指负载平衡！把多个使用者摊分到多台服务器上。

//以下是别人的文章：

http://www.javaeye.com/topic/225650

目前，分布式的概念越来越流行，但是在数据库领域里，分布式的应用相对较少。在参阅了Google的Map/Reduce概念后，我构思了一种分布式数据库的架构，并实现了其雏形，现在将其基本思路写出来，希望能起到抛砖引玉的作用。我工作时间不长，其中错误，不完善之处还请大家多多指出，谢谢。

设计这个分布式数据库的目的在于快速的处理海量数据。基本思路其实很简单，将数据分布到多个数据节点中，在执行SQL语句时，分析SQL语句的语义，对一个或多个数据库进行操作。这样就可以使查询的压力分散到每一个节点上面，面对海量数据时的处理时间大大缩短。

先拿几个简单的SQL语句做分析，看看在分布式的环境下和平常有何不同。假设我们现在有两个数据节点A和B，表名为Table，其中ID为1~100的数据保存在节点A，ID为101~200的数据保存在节点B。以下的SQL语句都是同时对2个数据库执行。

Select * from Table where ID=1
这样A数据库将返回ID为1的数据，数据库B返回为空。这时简单的合并A和B的数据，就可以得到正确的结果。

Select top 10 * from Table
这时A数据库将返回10条数据，B数据库返回10条数据，这时如果合并A和B，将返回20条结果。这时必须移除多余的10条数据才是正确的结果。

Select * from Table order by ID
这时A，B数据库将返回所有的数据，但是要使得数据符合order by的条件，很显然应该进行一次排序操作。

Select top 10 * from Table order by ID
这时A，B数据库都返回10条数据，经过合并后，还要经过排序，移除的操作，才能确保结果正确。

SQL语句中需要处理的关键字还有max，min，count，sum，avg等，这里就不写出来了。经过这几个例子我们可以看到，其实只要经过一些处理，分别对不同数据节点上的查询，可以转化成对单一数据库查询等效的结果。而这些处理归纳起来，只有合并，排序，移除这三种情况，其实这和Map/Reduce思想非常的类似，无论什么复杂的动作，最终归结都可以通过几个简单操作来完成。这些处理当然需要一定的时间，但是在面对海量数据时，很多情况下，处理所需要的时间可以小到忽略不计。

上面只是一些简单的SQL语句，面对一些复杂的SQL语句，要在SQL语句处理的过程中，进行数据节点之间的数据交换才能完成的（例子在文末会给出）。因此要实现一个完全能够处理SQL语句的分布式数据库，需要在数据库的内核部分进行改动。在实现这个组件时，时间是有限的，进行内核部分的改造不现实，所以我采取了中间件的方式，来实现了这个分布式数据库的雏形，采用的数据库是MSSQL2000，下图是我设计的分布式数据库的概念图（参见附件1）：

如图所示，数据根据一定规则分布（一般可以直接Hash主键）到每一个数据节点中，由分布式数据库服务器对每个数据节点进行访问，进行归并/排序/移除操作，然后通过数据接口，返回给程序。

其中几个数据接口所适用的场景为：

Reader：提供对数据库的查询结果，逐条进行读取的接口。在海量数据下，有时候需要读取大量数据进行处理，如果一次读取到内存中显然不现实。此时可以使用Reader模式逐条读取，进行分批处理。

DataFiller：提供对数据的XML包装，适用于小数据量的读取，主要是给Web应用提供一个方便的接口。

Command：执行delete，update，insert等不返回数据的SQL语句。

BulkCopy：批量插入接口。主要是为大数据量的导入提供高速接口。

实现这个中间件，难点应该是在SQL语句的语义分析上。这块应该使用编译原理来实现，但是在我的实现中，并没有用到，原因一个是时间问题，另外一个是因为基于中间件的方式，对一些复杂的SQL语句无法得到正确的结果。所以使用了正则表达式和一些方法来对SQL语句进行分析，分析出应该如何对执行结果进行处理，以及SQL语句应该发送到单个节点还是多个节点。以下是处理的流程示意图（参见附件2）：

在实现时需要注意的地方是，一定要让SQL语句从发送到执行，到返回结果之间没有任何延迟，否则每秒能够执行的SQL语句最多只有几十条。一开始我使用的模型是很常见的查询线程模型（参见附件3）：

每个语句执行完毕之后，在HashMap中将执行状态设置为执行完毕。使用一个查询线程，不断的遍历HashMap，发现有执行完毕的语句，便将其发往结果处理模块。为了避免CPU占用率100%，查询线程必须要有Sleep语句，但是windows下线程轮切的最小时间段为15ms，并且在Sleep的过程中，CPU将优先处理其他线程，这样Sleep一次至少需要20ms。这样，无论SQL查询再快，分布式数据库的处理速度也会被限制在1000/20=50条/秒以下。在我做的第一个模型中，每秒最多只能处理20多条SQL语句，在面对Web应用时，显然是不够的。

后来我采用的是信号量机制，即在生成Query线程时，给其分配一个信号量，执行每个SQL语句都会将一个监视线程加入线程池，监视线程堵塞住，等待所有信号量置为发信状态，然后立刻将结果送入结果处理模块。Windows处理信号量是非常快的，可以以CPU指令周期来计量。经过这个改进，分布式数据库处理一个查询的语句，基本等同于执行查询所需的时间。当然，这样的设计造成了使用的线程比较多，调试起来非常困难，需要非常小心的设计，而且在数据节点多的时候，必须维护一个成百上千线程的线程池，个人觉得是非常不好的。我注意到无论处理多少数据，MSSQL中的线程只有20多个，可以判断出他们的设计是非常精巧的，肯定和我的这种设计不同。如果有更好的方法解决这个问题，请不吝赐教，谢谢。

以上便是一个分布式数据库中间件的基本概念和一个基本实现。当然，实现一个商用的中间件，还有很多工作需要做，例如权限，数据安全，节点故障处理，日志等模块，都有很多改进的地方。目前我实现的这个中间件非常简陋，由于MSSQL本身的限制，有很多模块实现得不够优雅，不过唯一值得欣慰的是，性能上来说是非常不错的，达到了分布式系统的初衷。目前有3台机器作为数据节点运行，进行随机数据访问时，负载基本平均分到了每一个节点上。大数据量读取，大数据量写入一般都有单数据库2倍以上的速度。当然，分布式不是万能的，目前有些问题是无法解决的。例如：

1、多表问题：简单的举个例子，例如有一张用户表，一张产品ID表，还有一张交易记录表，以用户表，产品ID表为外键，如果执行诸如

Select * from 交易记录表 where 交易记录表.产品ID=产品ID表.ID and 交易记录表.用户ID=用户表.用户ID

这样的语句时，如果只对执行完的结果进行处理，无论如何架构这几张表，都会出错。为什么？原因有点难说清楚，有兴趣的话仔细思考一下就知道了。
对于这样的语句，中间件根本无法处理，只有修改内核，在执行语句的过程中，对每个数据节点进行数据交换，才可以解决。目前的解决方法是把其中一张表放到单个数据库上。不过这样程序看起来就很怪异，一个查询动作要用到两个不同的数据库访问类，没有弄明白整个框架的程序员都不知道为什么要这样做。

2、语意分析：在分布式的环境下，SQL语意转换为操作原语的难度更加高了，确保其逻辑完全正确很困难，我离散数学学得很差，目前还不能达到100%的正确率，所以不得不在数据接口中保留了手动模式，即手工决定该如何处理数据，非常的丑陋。以目前的识别率，一些复杂的SQL语句要么分开几次写，要么使用手动模式自定义其处理流程才能确保其正确，目前也没时间去完善分析模块，只能随它去了。

提出这些问题希望能得到大家的指点，毕竟独自一人开发思路会有很多局限性，个人感觉其中还有很多地方可以挖掘，完全可能成为另外一种处理海量数据的方式。最后，谢谢你的观赏。

描述: 查询线程模型
大小: 15.3 KB

描述: SQL查询流程示意图
大小: 36.3 KB

描述: 分布式数据库的概念图
大小: 24.9 KB

还有一些文章参考：

http://tech.ddvip.com/2008-09/122180807067490.html

http://www.ningoo.net/html/2009/amoeba_for_mysql_distribute_environment.html

http://fineboy.cnblogs.com/archive/2005/08/03/206395.html

http://news.chinabyte.com/368/115368.shtml

http://news.csdn.net/n/20061124/98200.html

UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
vue3中el-table中点击图片放大时，被表格覆盖叫我小鹏呀 vue.js javascript 前端
问题：vue3中el-table中点击图片放大时，被表格覆盖。解决方法：el-image添加preview-teleported
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

解决海量数据的新思路——分布式数据库(转)

你可能感兴趣的:(sql,数据库,中间件,服务器,HashMap,table)