E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据之路
十三年来,淘宝走过的
大数据之路
2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图1),不同阶段面临了不一样的挑战,随着我的理解回顾下这些年大数据所经历过的故事:图1数据仓库平台发展三个阶段第一个阶段:RAC时代2008年前的单节
AMY行致远
·
2020-07-02 01:58
数据仓库
阿里巴巴大数据实践-读书笔记
7月份,阿里的数据技术及产品部的同学们出了一本书,
大数据之路
-阿里巴巴大数据实践,号称全面系统的介绍了阿里巴巴的大数据系统架构。
彩色蚂蚁
·
2020-07-01 20:00
00.Cloud
菜鸟de
大数据之路
——(1)Kaggle数据集Titanic分析
前言Kaggle是一个2010年由AnthonyGoldbloom创建的专门为数据科学服务的网站,提供数据科学竞赛,数据库托管,编写和代码分享服务,堪称数据科学家的交友平台。今天,我将试图解决Kaggle上面的经典入门问题——Titianic竞赛https://www.kaggle.com/naresh31/titanic-machine-learning-from-disaster。这个竞赛的主
DouglasLikeToCode
·
2020-06-30 21:58
机器学习
大数据之路
:非科班、零基础、转行大数据开发
文章略长,重点较多,建议收藏。一、笔者背景1、本科阶段专业自动化,主要学习C语言、嵌入式、硬件等,拿过电设、飞思卡尔等国奖,没刷过算法、对软件几乎零基础2、研究生阶段硕士985,控制专业,研一开始,从零基础学习了Java基础、算法、大数据框架等。3、收获offer春招实习拿到了蚂蚁金服、拼多多、华为(终端)、远景能源、华泰证券(Java)等。二、我为什么转行大数据开发1、大家都选择Java开发,那
TALKDATA
·
2020-06-30 04:46
大数据学习之路
阿里巴巴
大数据之路
——数据模型篇
阿里巴巴
大数据之路
——数据模型篇一、概述1.什么是数据模型?数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。
许鸿于
·
2020-06-29 23:42
阿里巴巴大数据之路
大数据之路
——flume(1.9.0官网学习)
Flume简介Flume初始的发行版本目前被统称为FlumeOG(originalgeneration),属于cloudera。2011年10月22号,cloudera完成了Flume-728,对Flume进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为FlumeNG(nextgeneration);改动的另一原因是将Flume纳入apache旗下,clouderaFl
wy888882
·
2020-06-29 22:12
大数据
浅谈一个新人的
大数据之路
CCCCCold丶大数据之禅第一章,
大数据之路
浅谈数仓&数据集市&数据湖数据模型模型ETL频率:模型存储技术:模型数据分层:模型架构分层:模型主题域:模型创建类型:模型存储类型:模型压缩算法:队列:节点
Cold丶kl
·
2020-06-29 06:31
大数据之禅
实用大数据系统设计
另外,如果你选择合适的开源工具,也往往会使你的
大数据之路
起到事半功倍的效果。下面会列出实用并且较低成本的大数据实施系统,供参考。
weixin_34378922
·
2020-06-28 18:59
阿里云机器学习平台的思考
最近读了阿里的《
大数据之路
-阿里巴巴大数据实践》,对于其机器学习平台也蛮感兴趣,正好阿里出了本新书《解析阿里云机器学习平台》,顺便读了下,感触也不少,结合最近团队机器学习的一些思考,特别在此分享于你。
weixin_33928467
·
2020-06-28 08:46
读书笔记|为产品经理总结阿里
大数据之路
阿里大数据体系分为四层,由下而上分别是数据采集层、数据计算层、数据服务层和数据应用层。阿里巴巴大数据体系架构一、数据采集分为日志采集和数据库数据同步两部分:日志采集体系方案包括浏览器页面日志采集(采用Aplus.JS)和无线客户端日志采集(使用UserTrack的SDK采集),浏览器日志采集分为页面浏览日志采集(PV、UV)和页面交互日志采集(获知用户兴趣点或者体验优化点),无线端日志采集将日志行
小桶学产品
·
2020-06-28 01:53
大数据之路
(转)
引言最近有很多人问我如何学习大数据?我也是思考了很多时日才动笔写下此文。一方面我自己还只是大数据学习中的一个小学生,贸然动笔怕贻笑大方;另一方面大数据本身领域博大精深,其涵盖领域之广技术种类之多确实很难用一篇文章囊括。怎奈“下雨天打孩子,闲着也是闲着”,况笔者一直坚持写技术类的博客,今天也请允许我写一点务虚类的东西吧。本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线,帮助它们开启大数据
weixin_30532987
·
2020-06-27 21:54
大数据之路
、阿里巴巴大数据实践读书笔记 --- 第十四章、存储和成本管理
在大数据时代,移动互联、社交网络、数据分析、云服务等应用迅速普及,对数据中心提出了革命性的需求,存储管理已经成为了IT核心之一。对于数据爆炸式的增长,存储管理也要面临一系列挑战。如何有效地降低存储资源的消耗,节省存储成本,将是存储管理孜孜追求的目标;一、数据压缩在分布式文件系统中,为了提高数据的可用性与性能,通常会讲数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。目前M
杨鑫newlfe
·
2020-06-27 05:00
大数据挖掘与大数据应用案例
数据仓库
高屋建瓴 | 阿里巴巴
大数据之路
By大数据技术与架构场景描述:在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来
run_bigdata
·
2020-06-26 06:13
我的
大数据之路
--2019拉钩网爬取(破解反爬虫)
拉钩拉钩,你都不给我钩,我怎么拉呀序言:号称爬虫界的喜马拉雅–拉钩,今天看看威力如何吧!!!只是用作简单学习,想要获得大数据,请联系拉钩工程师。一、打开网页,输入数据挖掘。右键查看源代码(谷歌浏览器),发现什么鸟数据都没有。猜测是Ajax请求。然后F12分析源码打开在线解析json点这里,把Response返回的JSON格式输入进去,看是不是我们想要的。恩恩,是这个没错了。接下来就搞它。二、点开H
小牛头#
·
2020-06-25 20:51
大数据
我的
大数据之路
-- 爬取猫眼电影复联4的影评
吐槽---刚刚没电了,写的东西TM全没了,又要重写一遍。CSDN啊,你已经长大了,该学会自动保存了。昨天和两位小伙伴去看了,总体感觉还是不错的。整个的过程中能引起观众笑的恐怕就只有浩克出现的那几段。看3D带两副眼睛是真的难受。再加上临时出现一些人生大事(其实我不想发生的)。看完后脑袋愈发觉得疼痛,记昨晚第一次失眠。脑袋还是有点疼,但是技术还是要学的。我很好奇观众对复联4的评价,所以今天就打算爬取猫
小牛头#
·
2020-06-25 20:51
大数据
大数据学习Day01 --初识大数据
Day01–千里之行,始于足下前言自学
大数据之路
,希望见证自己每一天的成长心得了解大数据了解大数据相关岗位大数据与Hadoop的关系正文什么是大数据大数据,指在一定时间内,无法用常规软件工具捕捉、管理和处理的数据
best of best
·
2020-06-25 16:33
大数据学习
大数据之路
——阿里巴巴大数据实践:总述
阿里巴巴大数据系统架构图:Aplus.JS是web端日志采集技术UserTask是APP端日志采集技术TimeTunel(TT)是一个实时消息处理平台,类似于kafka+stormDataX是一个数据同步工具,将下层的不同的DB兼容在一起4.DataX是一个数据同步工具,将下层的不同的DB兼容在一起MaxCompute是离线计算平台StreamCompute是实时计算平台OneData是数据整理和
LUK流
·
2020-06-25 09:31
大数据之路
——阿里巴巴大数据实践:离线数据开发
1.MaxCompute离线数据开发(1)在逻辑层有WorkerSchedulerExecutor三个角色:Worker处理所有的阻STful请求,包括用户空间(Project)管理操作、资源(Resource管理操作、作业管理等,对于SQLDMLMR等需要启动MapReduce的作业,会生成MaxComputeInstance(类似于Hive中的Jo,提交给Scheduler一步处理。Sched
LUK流
·
2020-06-25 09:31
大数据之路
——阿里巴巴大数据实践:日志采集要点
1.基于UT(uservisit)采集的“透传参数功能”透传参数功能,即把当前页面的某些信息,传到下个页面,甚至是下下个页面的日志中。比如:访问淘宝,搜索“连衣裙”->list页面->商品A,分析商品A的时候,顺带着,list页面和“连衣裙”关键字都会被放入A的日志中了,给以后数据分析带来了很大的方便。2.客户端日志聚合在客户访问页面时,我们提前在客户端进行日志聚合,减少对日志采集服务器端的请求次
LUK流
·
2020-06-25 09:31
我的
大数据之路
- Flume 案例:监听上传Hive日志文件到HDFS
目录Goal:监听上传Hive日志文件到HDFSHow:1.拷贝Hadoop相关jar到Flume的lib目录下:2.创建flume-hive-hdfs.conf文件:3.开启你的集群然后执行监控配置:Done:作为一个程序员,郁闷的事情是,面对一个代码块,却不敢去修改,更糟糕的是,这个代码块还是自己写的。--摘自前端入门到精通Goal:监听上传Hive日志文件到HDFS类似如下情景,hive产生
有一个码农,他叫封子
·
2020-06-25 03:31
大数据
《
大数据之路
:阿里巴巴大数据实践》
《
大数据之路
:阿里巴巴大数据实践》语录目录一、数据采集1◆日志采集1▼浏览器的页面日志采集1▼无线客户端的日志采集2(1)页面事件3(2)控件点击事件3(3)其它事件3(4)特殊场景3(5)H5&Native
不急吃口药
·
2020-06-23 15:50
滴普科技
阿里云数加大数据计算服务MaxCompute文章索引(持续更新201705)
一分钟了解阿里云产品:大数据计算服务MaxCompute概述数加平台如何通过Serverless架构实现普惠大数据淘宝
大数据之路
【视频】不要犹豫了解这些即可玩转阿里云MaxComputeMaxCompute
chuhan3075
·
2020-06-22 23:27
大数据之路
-- 常用辅助框架
数据转换工具sqoop:Apache的顶级项目,官方网站http://sqoop.apache.org/ApacheSqoop(TM)是一种设计工具,用于在ApacheHadoop和结构化数据存储(如关系数据库)之间高效地传输大量数据。将MapReduce程序组成,打包成jar形成Sqoop,充分使用了MR并行计算的特点加快数据传输,是连接传统型数据库和hadoop的桥梁(关系型数据库数据导入ha
Mai_Noe
·
2020-06-22 01:47
浅谈一个新人的
大数据之路
-ORC篇
CCCCCold丶大数据之禅ORCFile原理TEXTFile普通列式存储RCFileORCFileORCFile原理ORCFile是什么?ORC的全称是(OptimizedRowColumnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。ORCFile演变史TEXTFile->列式存储->RCFile->O
Cold丶kl
·
2020-06-21 12:59
大数据之禅
对数据漂移处理的一点理解
《
大数据之路
》一书中对数据漂移的处理是这么说的:数据漂移的处理通常我们把从源系统同步进人数据仓库的第一层数据称为ODS或者staging层数据,阿里巴巴统称为ODS。
〇白衣卿相〇
·
2020-05-20 13:10
数据产品经理的私藏书单
作为数据产品经理,一直关注行业动向,所以每次市面上出现有关于数据产品的书,都会很快去读,下面是我搜罗的书籍,大家可以了解下~《
大数据之路
:阿里巴巴大数据实践》豆瓣评分:7.9(239人评价)内容简介:《
idatadesign
·
2020-05-10 21:45
泛读阿里巴巴大数据实践
图片来自
大数据之路
清晰的分层,明确的数据流转通道,大数据业界耳熟能祥的中间件产品,加上阿里巴巴每年双11一骑绝尘的数据处理速度和诸多闪耀的商业智能,证明这绝逼是个牛逼的架构无疑!
肖桥
·
2020-04-11 21:56
读《
大数据之路
-阿里巴巴大数据实践》一
本书可以作为进入大数据的一本入门书(不涉及技术问题,仅涉及使用场景),可以比较快速的了解大数据在阿里(其他公司同理)的使用方式和场景。其中技术内容不多,场景和想法比较多。书中最精华部分还是关于数据模型设计相关内容,阿里的数据模型也是经历了多次迭代才成为现在的样子。阿里巴巴的大数据系统的体系架构图,有利于系统全面了解阿里的数据平台。划分为数据采集、数据计算、数据服务及数据应用四层,后面的内容就是围绕
九则
·
2020-04-11 18:36
阿里云E-MapReduce团队:37篇
大数据之路
干货分享,我收藏了
01.MySQL:互联网公司常用分库分表方案汇总文章简介:不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至无连接可用。接下来就可以想象了吧(并...更多详细阅读:访问标题链接即可查看原文02.2020计算平台事业部校招开始啦!文章简介:前端/后端/应届生/社畜通通需要更多详细阅读:访
lxg
·
2020-04-10 14:24
2016年度大数据精华文章集锦
展望回顾2016年终盘点大数据篇:跨越巅峰,迈向成熟淘宝
大数据之路
:回顾这些年淘宝大数据所经历过的故事双11前、中、后三阶段大数据计算平台全揭秘ApacheBeam|下一代的大数据处理标准大数据分析引擎
司小幽
·
2020-04-03 01:43
大数据之路
:阿里巴巴大数据实践
一、总述1.1对大数据的理解大、快、多样性只是表象,大数据的真正价值在于生命性和生态性。阿里巴巴称之为“活数据”。活数据是全本记录、实时驱动决策和迭代,其价值是随着使用场景和方式动态变化的。简单的把数据定义为正/负资产都太简单。数据也不是会枯竭的能源。数据可以被重复使用,并在使用中升值;数据与数据链接可能会像核反应一样产生价值的聚变。数据使用和数据聚变又产生新的数据。活数据的基础设施就需要来承载、
脐橙CC
·
2020-04-02 07:37
2020年读书计划(23/365)
专业类书籍:必读银行信息系统架构大数据Bank3.0:銀行轉型未來式BrettKing银行转型未来式bank4.0智能商业银行转型2025洞见数据价值:大数据挖掘要案纪实
大数据之路
:阿里巴巴大数据实践金融科技的中国时代
vickyhit
·
2020-03-27 17:12
元数据
--《
大数据之路
》元数据又分为技术元数据和业务元
嘿嘿hhahaah
·
2020-03-01 15:56
淘宝
大数据之路
2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(如图1),不同阶段面临了不一样的挑战,随着我的理解回顾下这些年大数据所经历过的故事:图1数据仓库平台发展三个阶段第一个阶段:RAC时代2008年前的单节
度她余生
·
2020-02-24 03:50
《
大数据之路
》读书笔记
第2章日志采集2.1浏览器的页面日志采集主要分为两类:页面展现日志采集、页面交互日志采集2.1.1页面浏览日志采集流程一次HTTP请求中发生了什么:https://blog.csdn.net/qq_40804005/article/details/82876209以访问淘宝首页为例,(1)输入URL(2)发起HTTP请求,一个标准的HTTP请求包含请求行(方法、URL、版本号)、请求报头(head
kaiker
·
2020-01-05 11:46
多位阿里数据人经验汇总:
大数据之路
——阿里大数据实践
定位于阿里集团数据中台,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿里大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。通过这个体系,超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴自身的业务和外部千
IT程序员
·
2020-01-04 16:23
日志采集与用户行为链路分析
日志采集这部分内容,其实在上一篇文章
大数据之路
读书笔记里面多多少少已经提到了一些。
彩色蚂蚁
·
2019-12-28 10:43
基于MaxCompute的数仓数据质量管理
参考文献《
大数据之路
——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。
阿里云云栖号
·
2019-12-27 07:17
大数据之路
-阿里巴巴大数据实践-个人理解
本书是阿里巴巴分享描述了按照其公司业务的一些大数据技术实施的方案,是阿里巴巴对大数据的认知。其中也有很多值得学习的资料。本书分为数据技术篇、数据模型篇、数据管理篇、数据应用篇1、数据技术篇涉及阿里面对各种数据使用需求时的技术应对方案,其中包括日志采集、数据同步、离线数据开发及实时技术、数据服务、数据挖掘等大数据在技术平台上的应用。2、数据模型篇涉及数据在平台架构的基础上,合理组织和储存数据。3、数
yuppy_zyp
·
2019-12-27 06:16
基于MaxCompute的数仓数据质量管理
参考文献《
大数据之路
——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部著。背景及目的数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。
阿里云官网
·
2019-12-25 13:17
大数据之路
week07--day07 (修改mysql默认编码)
在Sqoop导入或者导出,我们在查看mysql的时候会出现中文乱码大部分乱码会是?这样的问号,那么该怎么处理呢?1、打开my.cnf文件vim/etc/my.cnf2、找到对应需要修改的地方共3个地方,[client][mysqld][mysql]找到对应的位置,加入以下配置[mysql]default-character-set=utf8[client]default-character-set
简简单单i
·
2019-12-22 19:00
大数据之路
week07--day07 (Hive结构设计以及Hive语法)
Hive架构流程(十分重要,结合图进行记忆理解)当客户端提交请求,它先提交到Driver,Driver拿到这个请求后,先把表明,字段名拿出来,去数据库进行元数据验证,也就是Metasore,如果有,返回有,Driver再返回给Complier编译器,进行HQL解析到MR任务的转化过程,执行完之后提交回给Driver一个MR任务,然后提交到Hadoop集群,交给YRAN进行接收请求并处理,产生结果,
简简单单i
·
2019-12-22 19:00
2个G的大数据和AI学习资料免费赠送
已收集的资源资源会不断进行更新大数据相关大数据时代:生活、工作与思维的大变革
大数据之路
:阿里巴巴大数据实践白话大数据与机器学习大数据:互联网大规模数据挖掘与分布式处理大数据存储MongoDB实战指南大数据架构师指南大数据架构详解
我不是大婶
·
2019-12-20 08:17
读《
大数据之路
:阿里巴巴大数据实践》有感
日志采集的挑战数据采集面临的主要挑战已不是日志采集技术本身,而是如何实现日志数据的结构化和规范化组织,实现更为高效的下游统计计算,提供符合业务特性的数据展现,以及为算法提供更便捷、灵活的支持等方面。规范制定——元数据注册——日志采集——自动化计算——可视化展现3、数据同步3.1数据同步方式直连同步、数据文件同步、数据库日志解析同步直连同步直连同步是指通过定义好的规范接口API和基于动态链接库的方式
似水之星
·
2019-12-08 05:39
大数据之路
之如何构建数据仓库(上云-建模-应用)
场景:xx公司刚成立,要做某一业务的大数据分析项目,原业务有y个系统需要整合上云并构建数据仓库,如果是你来主导,你将怎么做?1、如何数据集成,有哪些注意事项,工具选型。2、数据仓库的主体域如何构建,有什么痛难点。3、随时间的变化,数据仓库越来越大,历史数据如何处理?4、针对维度表,时间维度表如何进行构建。5、如何构建信息相对稳定的数据仓库,数据模型?6、如何构建一个可以商用的数据仓库。数据仓库的构
Mochou_liqb
·
2019-10-04 21:17
大数据弄潮儿
【读书笔记】
大数据之路
:阿里巴巴大数据实践
大数据之路
:阿里巴巴大数据实践简介:在Alibaba集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,
东海陈光剑
·
2019-09-27 09:19
读书笔记
大数据
Hive SQL 编译过程详解
原文链接:https://my.oschina.net/leejun2005/blog/267219
大数据之路
发布于2014/05/2101:19Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用
江畔独步
·
2019-09-26 10:58
戏说中台 — 大佬玩概念,小弟写接口
Boss一句话,让大数据部门的Leader陷入了沉思,买了本《
大数据之路
》看了两天…两天后的夜里,Leader在朋友圈发了公司同事不可见的动态“没有大公司的命,得了大公司的病…”。
aydnwba6940
·
2019-09-26 10:00
戏说中台 — 大佬玩概念,小弟写接口
Boss一句话,让大数据部门的Leader陷入了沉思,买了本《
大数据之路
》看了两天…两天后的夜里,Leader在朋友圈发了公司同事不可见的动态“没有大公司的命,得了大公司的病…”。
大叔据
·
2019-09-26 10:00
戏说中台:大佬玩概念,小弟写接口
Boss一句话,让大数据部门的Leader陷入了沉思,买了本《
大数据之路
》看了两天…两天后的夜里,Leader在朋友圈发了公司同事不可见的动态"没有大公司的命,得了大公司的病…"。
·
2019-09-26 00:00
dev
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他