E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
拉勾大数据学习
【python爬虫专项(26)】
拉勾
网数据采集(关键词网址发生变化)
拉勾
网登陆后,选择某城市,搜索任意关键字,采集岗位信息数据起始参考网址:
拉勾
网爬虫逻辑:【登陆】-【分页网页url采集】-【访问页面+采集岗位信息】这里按照“数据挖掘”为关键字搜索(注意
拉勾
网针对不同搜索的关键字网址的结构是不一样的
lys_828
·
2023-09-10 06:30
#
python爬虫专项
数据库
数据挖掘
python
网络爬虫
selenium
大数据学习
第一篇--基础知识入门篇
大数据入门总结一下近期学习的大数据知识学习之前没搞清楚的知识传统的web应用(LAMP、JavaEE、NODE系等)与大数据什么关系?之前一直以为大数据的东西就是来取代传统的Web应用的,其实并不是这样;即使是大数据的架构,应用层依然会是传统的web应用,但是会根据数据特点对数据存储(结构化数据依然会保存在传统的关系型数据库--如MySql,日志等非结构数据会保存在分布式文件系统--如Hadoop
juan777
·
2023-09-09 21:14
大数据开发
Hadoop
编程语言
大数据开发
大数据分析
编程语言
大数据
Hadoop
【
大数据学习
-hadoop1】大数据如何处理
文章目录1.大数据启蒙1.1意义1.1.1查找元素1.1.2单机处理大数据问题1.2历史1.3hadoop1.大数据启蒙学习视频大数据多,复杂度很重要,内存不够,分治处理IO仍成为瓶颈,多机器并行多机器间通信也可以并行,但仍是个问题分发上传,累计计算的话,多台同时跑+通信也比一台快总结(大数据的重点)分而治之并行计算计算向数据移动:数据移动化成本高数据本地化读取1.1意义1.1.1查找元素1w个元
叶落叶子
·
2023-09-08 13:49
big
data
大数据
0301yarn&mapredude入门-hadoop-
大数据学习
文章目录1MapReduce概述2YARN2.1yarn概述2.2yarn与MapReduce关系2.3yarn架构2.4辅助角色3MapReduce&YARN部署3.1集群规划3.2配置文件3.3分发配置文件4体验4.1集群启动命令介绍4.2提交MapReduce任务到YARN执行结语1MapReduce概述分布式计算是一种计算模型,它涉及将计算任务分解成多个子任务,并将这些子任务分配给多台计算
gaog2zh
·
2023-09-08 12:16
#
Hadoop
大数据
hadoop
mapreduce
yarn
Java 学习到什么程度可以找第一份工作?
于是我在
拉勾
上找到了一些一线互联网大厂的Java开发工程师的找平要求地点设置为北京、经验设置在1-3年(暂不考虑实习情况,实习大部分需要计算机相关专业,对于技能要求不太高),选择互联网大厂的原因是先以较高的标准作为学习目标
7e3b13701bc8
·
2023-09-07 23:50
大数据学习
笔记-HDFS(三)——集群管理运维
1、HDFS数据迁移解决方案1.1迁移方案——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁:原A机房搬迁到B机房数据的准实时同步:数据双备份使用考量因素带宽:带宽使用多了影像正常业务,带宽低了迁移慢性能:采用单机程序,还是多线程的分布式程序增量同步:TB\PB级别的数据如何只迁移增量数据数据迁移的同步性:数据迁移的过程需要保
天码村
·
2023-09-07 00:53
大数据
大数据
hdfs
学习
0401hive入门-hadoop-
大数据学习
.md
文章目录1Hive概述2Hive部署2.1规划2.2安装软件3Hive体验4Hive客户端4.1HiveServer2服务4.2DataGrip5问题集5.1CouldnotopenclienttransportwithJDBCUri结语1Hive概述ApacheHive是一个开源的数据仓库查询和分析工具,最初由Facebook开发,并后来捐赠给Apache软件基金会。Hive允许用户使用SQL语
gaog2zh
·
2023-09-06 17:43
#
hive
大数据
hadoop
hive
大数据概念解析:分布式计算与服务器集群
进入
大数据学习
当中,相关的专业词汇很多,尤其是涉及到技术概念,对于概念词汇的理解,对于后续的技术学习和掌握,也是有好处的。今天我们来着重讲解大数据当中的两个重要概念,分布式计算以及服务器集群。
成都加米谷大数据
·
2023-09-06 14:25
2018年最受大家欢迎的五大机器学习工具和五
大数据学习
数据
2018年将会是人工智能和机器学习快速发展的一年,有专家表示:相较之下Python比Java更加接地气,也自然而然地成为机器学习的首选语言在数据科学方面,Python的语法与数学语法最为接近,因此是数学家或经济学家等专业人士最容易理解和学习的语言。本文将罗列机器学习和数据科学应用程序中最有用的十大Python工具五大机器学习工具1、ShogunSHOGUN是一个机器学习工具箱,专注于支持向量机(S
栀子花_ef39
·
2023-09-06 09:13
大数据组件-Flink环境搭建
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.Flink组件介绍2.环境准备3.Flink搭建1
beixi@
·
2023-09-05 07:56
大数据技术学习
大数据
flink
运维
Flink基础实操-计算单词出现次数
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~上一篇文章写到了Flink环境搭建,这篇文章接着上篇文章延伸Flink
beixi@
·
2023-09-05 07:23
大数据技术学习
flink
单例模式
大数据
运维
大数据组件-Flume集群环境的启动与验证
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~上一篇文章写到了Flume集群环境的安装,这篇文章接着上篇文章延伸
beixi@
·
2023-09-03 20:28
大数据技术学习
大数据
flume
分布式
运维
大数据学习
一:环境准备 VMWare12、centos7、mysql安装
请参考我在博客园的博客,http://www.cnblogs.com/QTSS/p/8904072.html,以后都会在记录
大数据学习
记录,在博客园记录J2EE学习记录。若有问题,请留言。
RacyFu
·
2023-09-03 11:51
大数据学习
:kafka-producer源码分析
kafka-producer源码分析kafka-1.0.1源码下载地址一.kafka发送示例/***CreatedbyXiChuanon2021/6/7.*/publicclassProducerTest{publicstaticvoidmain(String[]args)throwsException{KafkaProducerproducer=createProducer();JSONObje
zui初的梦想
·
2023-09-03 06:38
大数据
大数据
学习
kafka
大数据组件Sqoop-安装与验证
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.Sqoop组件介绍2.环境介绍3.搭建步骤1.Sqoop
beixi@
·
2023-09-02 12:24
大数据技术学习
大数据
sqoop
hadoop
运维
服务器
大数据组件-Flume集群环境搭建
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.Flume集群环境介绍2.搭建环境介绍3.启动HDFS
beixi@
·
2023-09-02 12:24
大数据技术学习
大数据
flume
运维
分布式
Sqoop实操案例-互联网招聘数据迁移
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~上一篇文章写到了Sqoop的安装与验证,这篇文章接着上篇文章延伸
beixi@
·
2023-09-02 12:22
大数据技术学习
sqoop
hadoop
hive
linux
运维
mysql
大数据
大数据HBase学习圣经:一本书实现HBase学习自由
《尼恩大数据面试宝典》面试题集合,将变成
大数据学习
和面试的必读书籍。于是,尼恩架构团队趁热打铁,推出《大数据Flink学习圣经》,《大数据HBASE学习圣经》(本文)《大数据HBase
40岁资深老架构师尼恩
·
2023-09-02 05:50
技术圣经
面试
大数据
hbase
面试
后端
架构
java
分布式
10年大牛总结零基础学习大数据——四部曲
有很多人对大数据东西感兴趣,但是对编程语言也不太了解不过
大数据学习
并不是高深莫测的,虽然它并没有多简单,但是通过努力,零基础的朋友也是完全可以掌握大数据的。
Python大数据工程师
·
2023-09-02 05:44
为什么有人说区块链给了普通人机会?
我们不妨来看下权威机构的报告,链塔智库联合
拉勾
网在9月末发布了一份《区块链招聘分析报告》,这是从36万+互联网公司大数据中筛选的信息,分析了区块链招聘市场的现状。
7a462995966b
·
2023-09-02 05:31
强!大数据之Hadoop伪分布式这样搭建,一次就成功了!
在这里我还是要推荐下我自己建的
大数据学习
交流裙:532+二一八加上147,裙里都是学大数据开发的,如果
大数据学习05
·
2023-09-01 13:41
大数据学习
:kafkaManager功能详解
kafkaManager功能详解一.添加集群1.1常用参数说明下面已常用的选项作说明1)EnableJMXPolling是否开启JMX轮训,该部分直接影响部分kafkabroker和topic监控指标指标的获取(生效的前提是kafka启动时开启了JMX_PORT。主要影响如下之指标的查看:2)Pollconsumerinformation是否开启获取消费信息,直接影响能够在消费者页面和topic页
zui初的梦想
·
2023-09-01 12:03
大数据
大数据
学习
大数据学习
:Hive常用函数
Hive常用函数1.Hive的参数传递1.1Hive命令行查看hive命令的参数[hadoop@node03~]$hive-help语法结构:hive[-hiveconfx=y]*[]*[|][-S]说明:-i从文件初始化HQL。-e从命令行执行指定的HQL-f执行HQL脚本-v输出执行的HQL语句到控制台-pconnecttoHiveServeronportnumber-hiveconfx=yU
zui初的梦想
·
2023-09-01 12:31
大数据
大数据
学习
hive
0102阿里云配置3台ECS服务器-
大数据学习
文章目录1前言1配置VPC和子网2创建安全组3创建云服务器ECS3.1规划配置3.2配置4xshell连接服务器5配置基础环境5.1主机名映射5.2ssh免密登录5.3jdk6问题集6.1Permissiondenied(publickey,gssapi-keyex,gssapi-with-mic).6.2用tar解压文件出现错误Notfoundinarchive结语1前言公司电脑配置想要运行虚拟
gaog2zh
·
2023-09-01 06:13
大数据
大数据
云服务器
0202hdfs的shell操作-hadoop-
大数据学习
文章目录1进程启停管理2文件系统操作命令2.1HDFS文件系统基本信息2.2介绍2.3创建文件夹2.4查看指定文件夹下的内容2.5上传文件到HDFS2.6查看HDFS文件内容2.7下载HDFS文件2.8HDFS数据删除操作3HDFS客户端-jetbrians产品插件3.1BigDataTools安装3.2配置windows3.3配置BigDataTools结语以下命令执行默认配置了hadoop的环
gaog2zh
·
2023-09-01 06:08
#
Hadoop
hdfs
hadoop
大数据
大数据学习
06-SpringBoot应用部署
环境准备已经安装了Java开发环境和Maven构建工具。创建项目使用Maven创建一个新的SpringBoot项目,你可以使用SpringInitializr(https://start.spring.io/)网站或者使用命令行。选择依赖在SpringInitializr中选择你需要的依赖,如SpringWeb、SpringDataJPA等。这些依赖将会在项目中自动导入。下载项目点击"Genera
小火柴012
·
2023-09-01 06:56
学习
spring
boot
后端
大数据学习
06-Spark分布式集群部署
Spark完全分布式部署前期准备,每台服务器都需要配置安装Scala下载Scala安装包配置环境变量安装spark解压配置环境修改配置前期准备,每台服务器都需要配置配置好IPvim/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static
小火柴012
·
2023-09-01 06:22
大数据
大数据
分布式
学习
完整
大数据学习
路线,看了就会有所收获
大数据
大数据学习
路线1.Java基础——主要部分是JavaSE1.1Java初级1.2Java高级1.3其余常见基础......2.Linux基础——主要指的是Linux基本命令操作3.Hadoop生态学习
白振峰
·
2023-09-01 04:07
学习路线
大数据
hadoop
spark
分布式
数据库
大数据学习
:impala基础
impala基础1.impala介绍1.1impala概述Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sq工具。impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel
zui初的梦想
·
2023-09-01 04:05
大数据
大数据
学习
大数据学习
:Hive企业级调优
Hive企业级调优1.Hive表的数据压缩1.1数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好2、压缩时间:越快越好3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化常见压缩格式压缩方式压缩比压缩速度解压缩速度是否可分割gzip13.4%21MB/s118MB/s否b
zui初的梦想
·
2023-09-01 04:05
大数据
大数据
学习
hive
大数据学习
:Hive主流文件存储格式对比
Hive主流文件存储格式对比1.hive的SerDe1.1hive的SerDe是什么Serde是Serializer/Deserializer的简写。hive使用Serde进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐述使用SerDe的场景,我们需要了解一下Hive是如何读数据的(类似于HDFS中数据的读写操作):HDFSfiles–>InputFil
zui初的梦想
·
2023-09-01 04:34
大数据
大数据
学习
hive
大数据学习
:haproxy实现impala的负载均衡
HAProxy实现Impala的负载均衡1.HAProxy安装及启停1.1在集群中选择一个节点,使用yum方式安装HAProxy服务[root@data01-dev~]#yum-yinstallhaproxy1.2启动与停止HAProxy服务,并将服务添加到自启动列表[root@data01-dev~]#servicehaproxystart[root@data01-dev~]#serviceha
zui初的梦想
·
2023-09-01 04:33
大数据
大数据
学习
负载均衡
大数据学习
之路之HBASE
Hadoop之HBASE一、HBASE简介HBase是一个开源的、分布式的,多版本的,面向列的,半结构化的NoSql数据库,提供高性能的随机读写结构化数据的能力。它可以直接使用本地文件系统,也可以使用Hadoop的HDFS文件存储系统。不过,为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大数据的能力,使用HDFS作为文件存储系统才更为稳妥。HBase存储的数据从逻辑上来看就像一张很大的
王小冬
·
2023-09-01 00:27
大数据学习
:Hive安装部署
Hive的安装部署注意hive就是一个构建数据仓库的工具,只需要在一台服务器上安装就可以了,不需要在多台服务器上安装。此处以安装到node03为例;请大家保持统一使用hadoop普通用户操作1.1先决条件搭建好三节点Hadoop集群;node03上先安装好MySQL服务;1.2准备安装包下载hive的安装包http://archive.cloudera.com/cdh5/cdh/5/hive-1.
zui初的梦想
·
2023-08-31 20:34
大数据
大数据
学习
hive
Hive-安装与配置(1)
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.Hive环境介绍2.搭建环境准备3.建立Hive元数据库
beixi@
·
2023-08-31 09:01
大数据技术学习
运维
hadoop
分布式
大数据
hive
Hive-启动与操作(2)
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~上一篇文章写到了Hive的安装与配置,这篇文章接着上篇文章延伸
beixi@
·
2023-08-31 09:58
大数据技术学习
大数据
分布式
运维
hive
hadoop
大数据学习
教程SD版第七篇【Hive】
1.Hive简介数据仓库工具,将结构化数据映射成二维表,并提供类SQL查询,底层把HQL转换成MR程序Hive自带的客户端hiveclientbeelineclient特点HQL用于数据分析,但处理处理粒度粗处理大数据,但延迟高支持自定义函数架构原理Metastore元数据存储Client客户端MapReduce计算引擎HDFS数据源解析器解析HQL映射关系,元数据编译器把HQL转化成MR优化器优
道-闇影
·
2023-08-30 08:32
hive
hadoop
big
data
被BAT疯抢的程序员,都是怎么拿到50万年薪Offer的?
据
拉勾
数据调研显示,约有80%的工程师简历通不过初筛,进入终面的不到5%。技术面试到底应该如何准备?
java成功之路
·
2023-08-29 22:45
大数据学习
步骤
我就大致列一下,各种框架的一个学习步骤吧:注意:下面列出来的顺序只是个人建议,可以根据个人实际情况来调整顺序linux基础和javase基础【包含mysql】这些是基本功,刚开始也不可能学的很精通,最起码要对linux中的一些基本的命令混个脸熟,后面学习各种框架的时候都会用到,用多了就熟悉了。javase的话建议主要看面向对象,集合,io,多线程,以及jdbc操作即可。zookeeperzooke
摩羯青春我掌握
·
2023-08-29 18:27
2018-09-05 scrapy-spider(一)
这个命令可以显示出当前可用的spider模板这里有四个模板常用模板是basic和crawl(也不是常用,目前我只用过这两个模板)basic模板就是很普通很基础的模板,但是可以用来爬去用ajax渲染数据的网站(比如
拉勾
网
认真的史莱冰
·
2023-08-29 10:48
HBase集群环境搭建与测试
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.HBase集群环境介绍2.搭建环境准备3.搭建步骤
beixi@
·
2023-08-28 21:22
大数据技术学习
hbase
数据库
大数据
运维
分布式
linux
ZooKeeper集群环境搭建
【
大数据学习
记录篇】-持续更新中~个人主页:beixi@本文章收录于专栏(点击传送):【
大数据学习
】持续更新中,感谢各位前辈朋友们支持学习~文章目录1.ZooKeeper集群环境介绍2.搭建环境准备3.
beixi@
·
2023-08-28 21:22
大数据技术学习
zookeeper
分布式
linux
运维
大数据
文案作业2杨德俊1066
写一下抖音上的目标:治愈小郭郭、你们的李花儿、
拉勾
、阿七三、对标竞品你们的李花儿我无法模仿的优势:起步早;粉丝量大,已经超过100万我可以超越的劣势:内容原创、更新频率、内容择优四、
殽赦
·
2023-08-28 15:58
0201hdfs集群部署-hadoop-
大数据学习
文章目录1前言2集群规划3hadoop安装包上传与安装3.1上传解压4hadoop配置5从节点同步和环境变量配置6创建用户7集群启动8问题集8.1InvalidURIforNameNodeaddress(checkfs.defaultFS):file:///hasnoauthority.结语1前言下面我们配置下单namenode节点hadoop集群,使用vmware虚拟机环境搭建。vmware虚拟
gaog2zh
·
2023-08-28 06:31
#
Hadoop
大数据
hadoop
hdfs
大数据-----软件开发模型(详细讲解)
大数据学习
免费学习资料(免费教程)软件工程中,常用的开了模型有四种:瀑布模型、原型模型、增量模型和螺旋模型。
ItStar
·
2023-08-28 00:26
Spark Local环境搭建及测试
【
大数据学习
记录篇】-持续更新中~篇一:Linux系统下配置java环境篇二:hadoop伪分布式搭建(超详细)篇三:hadoop完全分布式集群搭建(超详细)-大数据集群搭建文章目录1.SparkLocal
beixi@
·
2023-08-27 23:10
大数据技术学习
spark
大数据
hadoop
运维
分布式
Spark on Yarn集群模式搭建及测试
【
大数据学习
记录篇】-持续更新中~点击传送:
大数据学习
专栏持续更新中,感谢各位前辈朋友们支持学习~文章目录1.SparkonYarn集群模式介绍2.搭建环境准备3.搭建步骤1.SparkonYarn集群模式介绍
beixi@
·
2023-08-27 23:10
大数据技术学习
spark
大数据
分布式
运维
服务器
linux
Spark Standalone环境搭建及测试
【
大数据学习
记录篇】-持续更新中~篇一:Linux系统下配置java环境篇二:hadoop伪分布式搭建(超详细)篇三:hadoop完全分布式集群搭建(超详细)-大数据集群搭建篇四:SparkLocal环境搭建及测试文章目录
beixi@
·
2023-08-27 23:08
大数据技术学习
spark
大数据
分布式
运维
服务器
linux
大数据学习
之MapReduce
1.MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。2.MapReduce优缺点优点MapReduce易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量
在远方的你等我
·
2023-08-27 17:45
大数据学习
之路
万字长文,纯干货,建议收藏阅读。大纲:一、开篇致辞二、为什么要学大数据三、学习大数据门槛四、学习路线&独家干货(学生、在职、零基础)五、推荐书单六、Q&A一、开篇致辞我今年大四,大二的时候先后在厦门的两家小公司实习Java,大三的时候在ApcheKylin的贡献团队Kyligence实习,现在在一家西班牙集团就职大数据开发。首先感谢我大二的第一份实习,它是我职场上的启蒙之旅,以致我后面的一个技术视
程序员峰哥
·
2023-08-26 17:28
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他