E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
海量数据处理
之Bloom Filter
问题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为,这里漏写个了a1)中。这样每个小文件的大约为30
ts173383201
·
2012-08-08 14:00
数据结构
function
String
filter
insert
fun
海量数据处理
之外排序
前言:本文是对July博文http://blog.csdn.net/v_JULY_v/article/details/6451990的一些总结现在先让我们来看一道有关外排序的题:问题描述:输入:一个最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数)的文件,其中每个数都小于等于n,且n=10^7。输出:得到按从小到大升序排列的包含所有输入的整数的列表。条件:最多有大约1MB的内存空间
ts173383201
·
2012-08-07 15:00
File
delete
FP
merge
iostream
磁盘
海量数据处理
系列之(一)Java线程池使用
原文:http://www.cnblogs.com/cstar/archive/2012/06/14/2549494.html1. 为什么要用线程池? 在Java中,如果每当一个请求到达就创建一个新线程,开销是相当大的。在实际使用中,每个请求创建新线程的服务器在创建和销毁线程上花费的时间和消耗的系统资源,甚至可能要比花在实际处理实际的用户请求的时间和资源要多的多。除了创建和销毁线程的开销
EmmaGood
·
2012-08-07 10:00
java
jvm
String
服务器
Class
任务
数据结构大总结系列之从HASH谈到set/map再到hashtable/hash_map/hash_set
前言:今天又看了July的博文教你如何迅速秒杀掉:99%的
海量数据处理
面试题,其中有介绍到set/map与hashtable/hash_map/hash_set,本文就是对其做的一些总结。
ts173383201
·
2012-08-06 15:00
数据结构
算法
Integer
文档
insert
pair
海量数据处理
常用思路和方法
大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1.Bloomfilte
xiaoyu714543065
·
2012-08-01 10:00
SQL Server 强大的分区技术(使用语句检测和优化数据库 (MSSQL个人笔记之数据库优化之路 三)
今天要一起学习下大数据处理技术:分区技术一般在
海量数据处理
过程中经常会使用到分区技术把表和视图划分为不同的区域,没个区域中包含满足特定条件的数据。
szstephenzhou
·
2012-07-26 17:00
sql
数据库
优化
server
database
System
insert
多维度的运算
基础应用软件要适应
海量数据处理
的要求,就必须在自身功能上有所拓展。永中Office2012中的应用,就从功能上,在各个层面加大了对数据处理方面的应用维度。
铭浩_IT
·
2012-07-26 15:48
运算
多维度的运算
基础应用软件要适应
海量数据处理
的要求,就必须在自身功能上有所拓展。永中Office2012中的应用,就从功能上,在各个层面加大了对数据处理方面的应用维度。
铭浩_IT
·
2012-07-26 15:48
运算
海量数据处理
专题(一、二、三)
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu、google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。
cuker919
·
2012-07-22 12:00
数据库
面试
filter
Google
百度
腾讯
公开的海量数据集 Public Research-Quality Datasets
相应之下,目前对于
海量数据处理
人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理
rensanning
·
2012-07-20 10:00
海量数据
数据集
公开的海量数据集 Public Research-Quality Datasets
相应之下,目前对于
海量数据处理
人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处
rensanning
·
2012-07-20 10:00
海量数据
数据集
公开的海量数据集 Public Research-Quality Datasets
相应之下,目前对于
海量数据处理
人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理
rensanning
·
2012-07-20 10:00
海量数据
数据集
公开的海量数据集 Public Research-Quality Datasets
相应之下,目前对于
海量数据处理
人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处
rensanning
·
2012-07-20 10:00
海量数据
数据集
海量数据处理
算法
海量数据处理
算法(转) http://blog.sina.com.cn/s/blog_7594443501011axs.html 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu
jiangm520
·
2012-07-20 00:00
海量数据
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
chenbang110
·
2012-07-18 11:00
大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
housheng33
·
2012-07-14 10:00
系统架构
海量数据处理
分析
海量数据处理
分析笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。
jibcy
·
2012-07-12 10:00
php 大数据量及
海量数据处理
算法总结
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloomfilter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立has
无奈的朱熹
·
2012-07-11 09:06
PHP
(转)十道
海量数据处理
面试题与十个方法大总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的
海量数据处理
面试题。
laiahu
·
2012-07-08 22:00
十道
海量数据处理
面试题与十个方法大总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结 作者:July、youwang、yanxionglu。
laiahu
·
2012-07-08 22:00
数据结构
hadoop
算法
开篇
最近确定了下一步的研究方向:
海量数据处理
与云计算(BigDataandCloudComputing)。
liu_jason
·
2012-06-29 22:00
Cloudera部署Hadoop规划与安装
MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的
海量数据处理
,目前最成功的应用是分布式搜索引擎。
haibo600
·
2012-06-28 18:31
Cloudera部署
Hadoop规划与安装
Cloudera部署Hadoop规划与安装
MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的
海量数据处理
,目前最成功的应用是分布式搜索引擎。
haibo600
·
2012-06-28 18:31
Cloudera部署
Hadoop规划与安装
ubuntu
SQL Server 2005对
海量数据处理
分类:SQLServer2008-11-2713:49300人阅读评论(0)收藏举报数据库基础SQLServer2005对
海量数据处理
SQLServer2005对
海量数据处理
超大型数据库的大小常常达到数百
wilsonke
·
2012-06-27 14:00
sql
server
JAVA
海量数据处理
之二(BitMap)
路漫漫其修远兮,吾将上下而求索。想要更快,就要深入挖掘JAVA基础的数据结构,从来分析出所编写的JAVA代码为什么把内存耗尽,思考有什么办法可以节省内存呢?啊哈!算法。这里采用了BitMap思想。 首先来看一个实验:指定VM参数大小:-Xms256m-Xmx540m Java代码import java.util.TreeSet; public class Test { p
downloadsunlight2009
·
2012-06-26 13:00
java
数据结构
String
存储
Class
import
海量数据处理
之一
项目组里因为需要,现要开发一个数据过滤软件,针对文本文件(txt文件),文本文件里的数据是11位的手机号码,数据约有四千万行,进行数据过滤(重复号码过滤,位数非11位的进行过滤)尽量脱离数据库。而且要提速,太慢了客户不满意的。 显然在内存里过滤数据是最快的,可是显然对于2G内存的本来说,可分配给JAVAHAEP的大小是容不下这么多数据的。那怎么办呢? 索引机制: 首先的想到的是通过Lucen
downloadsunlight2009
·
2012-06-26 13:00
【算法】
海量数据处理
面试题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
guansir
·
2012-06-20 20:00
JAVA
海量数据处理
之二(BitMap)
路漫漫其修远兮,吾将上下而求索。想要更快,就要深入挖掘 JAVA 基础的数据结构,从来分析出所编写的 JAVA 代码为什么把内存耗尽,思考有什么办法可以节省内存呢? 啊哈!算法。这里采用了 BitMap 思想。 首先来看一个实验: 指定 VM 参数大小: -Xms256m -Xmx540m
周凡杨
·
2012-06-20 18:00
java
算法
bitmap
bitset
数据
JAVA
海量数据处理
之二(BitMap)
路漫漫其修远兮,吾将上下而求索。想要更快,就要深入挖掘 JAVA 基础的数据结构,从来分析出所编写的 JAVA 代码为什么把内存耗尽,思考有什么办法可以节省内存呢? 啊哈!算法。这里采用了 BitMap 思想。 首先来看一个实验: 指定 VM 参数大小: -Xms256m -Xmx540m
周凡杨
·
2012-06-20 18:00
java
算法
数据
bitmap
bitset
[翻译]Twitter的实时海量数据 处理方案
首发于:我是买家博客作者:杨鑫奇 对于实时的
海量数据处理
方案,最近在看hadoop和storm的比较,以及细看了下nathanmarz大侠的storm介绍之后,决定深入,在他的博客中发现了一本他写的bigdata
·
2012-06-19 15:00
twitter
海量数据处理
之一
项目组里因为需要,现要开发一个数据过滤软件,针对文本文件(txt文件),文本文件里的数据是11位的手机号码,数据约有四千万行,进行数据过滤(重复号码过滤,位数非11位的进行过滤)尽量脱离数据库。而且要提速,太慢了客户不满意的。 显然在内存里过滤数据是最快的,可是显然对于2G内存的本来说,可分配给JAVA
周凡杨
·
2012-06-18 18:00
java
内存
海量数据
大文件
海量数据处理
之一
项目组里因为需要,现要开发一个数据过滤软件,针对文本文件(txt文件),文本文件里的数据是11位的手机号码,数据约有四千万行,进行数据过滤(重复号码过滤,位数非11位的进行过滤)尽量脱离数据库。而且要提速,太慢了客户不满意的。 显然在内存里过滤数据是最快的,可是显然对于2G内存的本来说,可分配给JAVA
周凡杨
·
2012-06-18 18:00
java
内存
海量数据
大文件
海量数据处理
与存储调研
海量数据处理
与存储调研1 Hadoop发展现状[[1]]ApacheNutch是Hadoop的源头,该项目始于2002年,是ApacheLucene的子项目之一。
ajian005
·
2012-06-07 14:00
mapreduce
hadoop
服务器
存储
Facebook
存储系统
从Hadoop框架与MapReduce模式中谈
海量数据处理
MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:
海量数据处理
ajian005
·
2012-06-07 14:00
mapreduce
hadoop
框架
数据库
hbase
存储
海量数据处理
之从Hadoop框架与MapReduce模式中谈
海量数据处理
(淘宝技术架构)
MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:
海量数据处理
ts173383201
·
2012-06-06 15:00
mapreduce
hadoop
框架
数据库
hbase
存储
海量数据处理
一:常见的题目:- 1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。- 2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序- 3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返
csdn_zuoqiang
·
2012-06-05 10:00
海量数据
大型网站采用的具有稳定性的系统构架
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
jay1412008
·
2012-05-31 20:29
大型网站
系统构架
C++算法与架构工程师
设计及其实现高速存储引擎4.设计及其开发适用于海量数据挖掘和大型网站后端的Infrastructure职位需求:1.热爱探索和钻研2.熟练掌握C++程序设计3.熟练掌握Linux开发环境优先条件:1.熟悉
海量数据处理
和挖掘的基本算法
刘强
·
2012-05-29 16:00
[转]
海量数据处理
方法总结
1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的
hzjxy0624
·
2012-05-24 15:00
海量数据
文章: Java SE1.6中的Synchronized
海量数据处理
,
·
2012-05-24 13:00
文章
java
se1
文章: Java SE1.6中的Synchronized
海量数据处理
,
·
2012-05-24 05:00
java
文章
se1.6
海量数据处理
以前觉得用不到,现在发现都很实用。本文整理和大家分享一些SQL数据库对于海量数据面试题及答案给大家,很不错哦,喜欢请收藏一下。 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s
y_static_y
·
2012-05-19 17:07
海量数据
海量数据处理
以前觉得用不到,现在发现都很实用。本文整理和大家分享一些SQL数据库对于海量数据面试题及答案给大家,很不错哦,喜欢请收藏一下。1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s遍历文件a,
y_static_y
·
2012-05-19 17:07
海量数据
core
java
海量数据处理
、分析和挖掘技术讨论之外
海量数据能够支撑生产力以及消费者剩余的新一波增长。例如我们估计,一家零售商充分利用大数据有可能增加其经营利润率由60%以上。利用大数据不仅能够充分考虑消费者的李应,并且能够满足企业自身利益的增长。海量数据的使用将变成企业竞争力和增长力的关键因素。从竞争力和潜在价值捕获的角度来看,所有公司都需要认真对待大数据。大多数行业,既定的竞争对手以及新进入者都将利用数据驱动战略,从实时信息获取创新力。
411114
·
2012-05-18 18:06
大数据量
海量数据
大数据处理
海量数据处理
海量数据处理
、分析和挖掘技术讨论之外
海量数据能够支撑生产力以及消费者剩余的新一波增长。例如我们估计,一家零售商充分利用大数据有可能增加其经营利润率由60%以上。利用大数据不仅能够充分考虑消费者的李应,并且能够满足企业自身利益的增长。海量数据的使用将变成企业竞争力和增长力的关键因素。从竞争力和潜在价值捕获的角度来看,所有公司都需要认真对待大数据。大多数行业,既定的竞争对手以及新进入者都将利用数据驱动战略,从实时信息获取创新力。
敏捷商业智能
·
2012-05-18 18:00
大数据量
海量数据
海量数据处理
海量数据分析
徐易容「再创业」:从抓虾网到美丽说的16个转变!
因为自己懂得数据挖掘,而RSS正是
海量数据处理
。纯粹是从自己的角度,从擅长的技术角度去思考和决定的考虑市场,考虑别人的需求。
x32sky
·
2012-05-18 15:00
rss
互联网
生活
创业
腾讯
产品
敏捷商业智能style intelligence,
海量数据处理
、分析和挖掘
据IDC统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将增长44倍。 国金证券发布的一份关于海量数据的报告也指出,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC,以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载方式。对海量数据价值的挖掘趋势迎来了一个前所未有的“数据为王”时代。 企业一直将数据视为重要资产,在信息化的发展进程中,企业向来通过数据库、商业智
411114
·
2012-05-17 17:50
大数据量
海量数据
海量数据处理
海量数据分析
敏捷商业智能style intelligence,
海量数据处理
、分析和挖掘
海量数据多维分析据IDC统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将增长44倍。 国金证券发布的一份关于海量数据的报告也指出,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC,以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载方式。对海量数据价值的挖掘趋势迎来了一个前所未有的“数据为王”时代。 企业一直将数据视为重要资产,在信息化的发展进程中,企业向来通
敏捷商业智能
·
2012-05-17 17:00
海量数据
海量数据处理
海量数据处理
海量数据分析
十道
海量数据处理
面试题与十个方法大总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。
tianlincao
·
2012-05-16 15:00
mapreduce
面试
filter
url
query
扩展
海量数据处理
海量数据处理
http://blog.csdn.net/v_JULY_v/article/category/1106578http://blog.csdn.net/v_july_v/article/details
gukesdo
·
2012-05-16 15:00
mapreduce
算法
url
BI
query
电话
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他