拉勾大数据学习第8页

【python爬虫专项（26）】拉勾网数据采集（关键词网址发生变化）

拉勾网登陆后，选择某城市，搜索任意关键字，采集岗位信息数据起始参考网址：拉勾网爬虫逻辑：【登陆】-【分页网页url采集】-【访问页面+采集岗位信息】这里按照“数据挖掘”为关键字搜索（注意拉勾网针对不同搜索的关键字网址的结构是不一样的

lys_828·2023-09-10 06:30

大数据学习第一篇--基础知识入门篇

大数据入门总结一下近期学习的大数据知识学习之前没搞清楚的知识传统的web应用(LAMP、JavaEE、NODE系等)与大数据什么关系?之前一直以为大数据的东西就是来取代传统的Web应用的，其实并不是这样;即使是大数据的架构，应用层依然会是传统的web应用，但是会根据数据特点对数据存储(结构化数据依然会保存在传统的关系型数据库--如MySql，日志等非结构数据会保存在分布式文件系统--如Hadoop

juan777·2023-09-09 21:14

【大数据学习-hadoop1】大数据如何处理

文章目录1.大数据启蒙1.1意义1.1.1查找元素1.1.2单机处理大数据问题1.2历史1.3hadoop1.大数据启蒙学习视频大数据多，复杂度很重要，内存不够，分治处理IO仍成为瓶颈，多机器并行多机器间通信也可以并行，但仍是个问题分发上传，累计计算的话，多台同时跑+通信也比一台快总结（大数据的重点）分而治之并行计算计算向数据移动：数据移动化成本高数据本地化读取1.1意义1.1.1查找元素1w个元

叶落叶子·2023-09-08 13:49

0301yarn&mapredude入门-hadoop-大数据学习

文章目录1MapReduce概述2YARN2.1yarn概述2.2yarn与MapReduce关系2.3yarn架构2.4辅助角色3MapReduce&YARN部署3.1集群规划3.2配置文件3.3分发配置文件4体验4.1集群启动命令介绍4.2提交MapReduce任务到YARN执行结语1MapReduce概述分布式计算是一种计算模型，它涉及将计算任务分解成多个子任务，并将这些子任务分配给多台计算

gaog2zh·2023-09-08 12:16

Java 学习到什么程度可以找第一份工作？

于是我在拉勾上找到了一些一线互联网大厂的Java开发工程师的找平要求地点设置为北京、经验设置在1-3年（暂不考虑实习情况，实习大部分需要计算机相关专业，对于技能要求不太高），选择互联网大厂的原因是先以较高的标准作为学习目标

7e3b13701bc8·2023-09-07 23:50

大数据学习笔记-HDFS（三）——集群管理运维

1、HDFS数据迁移解决方案1.1迁移方案——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁：原A机房搬迁到B机房数据的准实时同步：数据双备份使用考量因素带宽：带宽使用多了影像正常业务，带宽低了迁移慢性能：采用单机程序，还是多线程的分布式程序增量同步：TB\PB级别的数据如何只迁移增量数据数据迁移的同步性：数据迁移的过程需要保

天码村·2023-09-07 00:53

0401hive入门-hadoop-大数据学习.md

文章目录1Hive概述2Hive部署2.1规划2.2安装软件3Hive体验4Hive客户端4.1HiveServer2服务4.2DataGrip5问题集5.1CouldnotopenclienttransportwithJDBCUri结语1Hive概述ApacheHive是一个开源的数据仓库查询和分析工具，最初由Facebook开发，并后来捐赠给Apache软件基金会。Hive允许用户使用SQL语

gaog2zh·2023-09-06 17:43

大数据概念解析：分布式计算与服务器集群

成都加米谷大数据·2023-09-06 14:25

2018年最受大家欢迎的五大机器学习工具和五大数据学习数据

2018年将会是人工智能和机器学习快速发展的一年，有专家表示：相较之下Python比Java更加接地气，也自然而然地成为机器学习的首选语言在数据科学方面，Python的语法与数学语法最为接近，因此是数学家或经济学家等专业人士最容易理解和学习的语言。本文将罗列机器学习和数据科学应用程序中最有用的十大Python工具五大机器学习工具1、ShogunSHOGUN是一个机器学习工具箱，专注于支持向量机（S

栀子花_ef39·2023-09-06 09:13

大数据组件-Flink环境搭建

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.Flink组件介绍2.环境准备3.Flink搭建1

beixi@·2023-09-05 07:56

Flink基础实操-计算单词出现次数

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~上一篇文章写到了Flink环境搭建，这篇文章接着上篇文章延伸Flink

beixi@·2023-09-05 07:23

大数据组件-Flume集群环境的启动与验证

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~上一篇文章写到了Flume集群环境的安装，这篇文章接着上篇文章延伸

beixi@·2023-09-03 20:28

大数据学习一：环境准备 VMWare12、centos7、mysql安装

请参考我在博客园的博客，http://www.cnblogs.com/QTSS/p/8904072.html，以后都会在记录大数据学习记录，在博客园记录J2EE学习记录。若有问题，请留言。

RacyFu·2023-09-03 11:51

大数据学习：kafka-producer源码分析

kafka-producer源码分析kafka-1.0.1源码下载地址一.kafka发送示例/***CreatedbyXiChuanon2021/6/7.*/publicclassProducerTest{publicstaticvoidmain(String[]args)throwsException{KafkaProducerproducer=createProducer();JSONObje

zui初的梦想·2023-09-03 06:38

大数据组件Sqoop-安装与验证

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.Sqoop组件介绍2.环境介绍3.搭建步骤1.Sqoop

beixi@·2023-09-02 12:24

大数据组件-Flume集群环境搭建

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.Flume集群环境介绍2.搭建环境介绍3.启动HDFS

beixi@·2023-09-02 12:24

Sqoop实操案例-互联网招聘数据迁移

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~上一篇文章写到了Sqoop的安装与验证，这篇文章接着上篇文章延伸

beixi@·2023-09-02 12:22

大数据HBase学习圣经：一本书实现HBase学习自由

《尼恩大数据面试宝典》面试题集合，将变成大数据学习和面试的必读书籍。于是，尼恩架构团队趁热打铁，推出《大数据Flink学习圣经》，《大数据HBASE学习圣经》（本文）《大数据HBase

40岁资深老架构师尼恩·2023-09-02 05:50

10年大牛总结零基础学习大数据——四部曲

有很多人对大数据东西感兴趣，但是对编程语言也不太了解不过大数据学习并不是高深莫测的，虽然它并没有多简单，但是通过努力，零基础的朋友也是完全可以掌握大数据的。

Python大数据工程师·2023-09-02 05:44

为什么有人说区块链给了普通人机会？

我们不妨来看下权威机构的报告，链塔智库联合拉勾网在9月末发布了一份《区块链招聘分析报告》，这是从36万+互联网公司大数据中筛选的信息，分析了区块链招聘市场的现状。

7a462995966b·2023-09-02 05:31

强！大数据之Hadoop伪分布式这样搭建，一次就成功了！

大数据学习05·2023-09-01 13:41

大数据学习：kafkaManager功能详解

kafkaManager功能详解一.添加集群1.1常用参数说明下面已常用的选项作说明1）EnableJMXPolling是否开启JMX轮训，该部分直接影响部分kafkabroker和topic监控指标指标的获取（生效的前提是kafka启动时开启了JMX_PORT。主要影响如下之指标的查看：2)Pollconsumerinformation是否开启获取消费信息，直接影响能够在消费者页面和topic页

zui初的梦想·2023-09-01 12:03

大数据学习：Hive常用函数

Hive常用函数1.Hive的参数传递1.1Hive命令行查看hive命令的参数[hadoop@node03~]$hive-help语法结构:hive[-hiveconfx=y]*[]*[|][-S]说明：-i从文件初始化HQL。-e从命令行执行指定的HQL-f执行HQL脚本-v输出执行的HQL语句到控制台-pconnecttoHiveServeronportnumber-hiveconfx=yU

zui初的梦想·2023-09-01 12:31

0102阿里云配置3台ECS服务器-大数据学习

文章目录1前言1配置VPC和子网2创建安全组3创建云服务器ECS3.1规划配置3.2配置4xshell连接服务器5配置基础环境5.1主机名映射5.2ssh免密登录5.3jdk6问题集6.1Permissiondenied(publickey,gssapi-keyex,gssapi-with-mic).6.2用tar解压文件出现错误Notfoundinarchive结语1前言公司电脑配置想要运行虚拟

gaog2zh·2023-09-01 06:13

0202hdfs的shell操作-hadoop-大数据学习

文章目录1进程启停管理2文件系统操作命令2.1HDFS文件系统基本信息2.2介绍2.3创建文件夹2.4查看指定文件夹下的内容2.5上传文件到HDFS2.6查看HDFS文件内容2.7下载HDFS文件2.8HDFS数据删除操作3HDFS客户端-jetbrians产品插件3.1BigDataTools安装3.2配置windows3.3配置BigDataTools结语以下命令执行默认配置了hadoop的环

gaog2zh·2023-09-01 06:08

大数据学习06-SpringBoot应用部署

环境准备已经安装了Java开发环境和Maven构建工具。创建项目使用Maven创建一个新的SpringBoot项目，你可以使用SpringInitializr（https://start.spring.io/）网站或者使用命令行。选择依赖在SpringInitializr中选择你需要的依赖，如SpringWeb、SpringDataJPA等。这些依赖将会在项目中自动导入。下载项目点击"Genera

小火柴012·2023-09-01 06:56

大数据学习06-Spark分布式集群部署

Spark完全分布式部署前期准备，每台服务器都需要配置安装Scala下载Scala安装包配置环境变量安装spark解压配置环境修改配置前期准备，每台服务器都需要配置配置好IPvim/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static

小火柴012·2023-09-01 06:22

完整大数据学习路线，看了就会有所收获

大数据大数据学习路线1.Java基础——主要部分是JavaSE1.1Java初级1.2Java高级1.3其余常见基础......2.Linux基础——主要指的是Linux基本命令操作3.Hadoop生态学习

白振峰·2023-09-01 04:07

大数据学习：impala基础

impala基础1.impala介绍1.1impala概述Impala是Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sq工具。impala是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel

zui初的梦想·2023-09-01 04:05

大数据学习：Hive企业级调优

Hive企业级调优1.Hive表的数据压缩1.1数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价1、压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好2、压缩时间：越快越好3、已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化常见压缩格式压缩方式压缩比压缩速度解压缩速度是否可分割gzip13.4%21MB/s118MB/s否b

zui初的梦想·2023-09-01 04:05

大数据学习：Hive主流文件存储格式对比

Hive主流文件存储格式对比1.hive的SerDe1.1hive的SerDe是什么Serde是Serializer/Deserializer的简写。hive使用Serde进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐述使用SerDe的场景，我们需要了解一下Hive是如何读数据的(类似于HDFS中数据的读写操作)：HDFSfiles–>InputFil

zui初的梦想·2023-09-01 04:34

大数据学习：haproxy实现impala的负载均衡

HAProxy实现Impala的负载均衡1.HAProxy安装及启停1.1在集群中选择一个节点，使用yum方式安装HAProxy服务[root@data01-dev~]#yum-yinstallhaproxy1.2启动与停止HAProxy服务，并将服务添加到自启动列表[root@data01-dev~]#servicehaproxystart[root@data01-dev~]#serviceha

zui初的梦想·2023-09-01 04:33

大数据学习之路之HBASE

Hadoop之HBASE一、HBASE简介HBase是一个开源的、分布式的，多版本的，面向列的，半结构化的NoSql数据库，提供高性能的随机读写结构化数据的能力。它可以直接使用本地文件系统，也可以使用Hadoop的HDFS文件存储系统。不过，为了提高数据的可靠性和系统的健壮性，并且发挥HBase处理大数据的能力，使用HDFS作为文件存储系统才更为稳妥。HBase存储的数据从逻辑上来看就像一张很大的

王小冬·2023-09-01 00:27

大数据学习：Hive安装部署

Hive的安装部署注意hive就是一个构建数据仓库的工具，只需要在一台服务器上安装就可以了，不需要在多台服务器上安装。此处以安装到node03为例；请大家保持统一使用hadoop普通用户操作1.1先决条件搭建好三节点Hadoop集群；node03上先安装好MySQL服务；1.2准备安装包下载hive的安装包http://archive.cloudera.com/cdh5/cdh/5/hive-1.

zui初的梦想·2023-08-31 20:34

Hive-安装与配置（1）

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.Hive环境介绍2.搭建环境准备3.建立Hive元数据库

beixi@·2023-08-31 09:01

Hive-启动与操作（2）

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~上一篇文章写到了Hive的安装与配置，这篇文章接着上篇文章延伸

beixi@·2023-08-31 09:58

大数据学习教程SD版第七篇【Hive】

1.Hive简介数据仓库工具，将结构化数据映射成二维表，并提供类SQL查询，底层把HQL转换成MR程序Hive自带的客户端hiveclientbeelineclient特点HQL用于数据分析，但处理处理粒度粗处理大数据，但延迟高支持自定义函数架构原理Metastore元数据存储Client客户端MapReduce计算引擎HDFS数据源解析器解析HQL映射关系，元数据编译器把HQL转化成MR优化器优

道-闇影·2023-08-30 08:32

被BAT疯抢的程序员，都是怎么拿到50万年薪Offer的？

据拉勾数据调研显示，约有80%的工程师简历通不过初筛，进入终面的不到5%。技术面试到底应该如何准备？

java成功之路·2023-08-29 22:45

大数据学习步骤

我就大致列一下，各种框架的一个学习步骤吧：注意：下面列出来的顺序只是个人建议，可以根据个人实际情况来调整顺序linux基础和javase基础【包含mysql】这些是基本功，刚开始也不可能学的很精通，最起码要对linux中的一些基本的命令混个脸熟，后面学习各种框架的时候都会用到，用多了就熟悉了。javase的话建议主要看面向对象，集合，io，多线程，以及jdbc操作即可。zookeeperzooke

摩羯青春我掌握·2023-08-29 18:27

2018-09-05 scrapy-spider(一)

这个命令可以显示出当前可用的spider模板这里有四个模板常用模板是basic和crawl（也不是常用，目前我只用过这两个模板）basic模板就是很普通很基础的模板，但是可以用来爬去用ajax渲染数据的网站（比如拉勾网

认真的史莱冰·2023-08-29 10:48

HBase集群环境搭建与测试

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.HBase集群环境介绍2.搭建环境准备3.搭建步骤

beixi@·2023-08-28 21:22

ZooKeeper集群环境搭建

【大数据学习记录篇】-持续更新中~个人主页：beixi@本文章收录于专栏（点击传送）：【大数据学习】持续更新中，感谢各位前辈朋友们支持学习~文章目录1.ZooKeeper集群环境介绍2.搭建环境准备3.

beixi@·2023-08-28 21:22

文案作业2杨德俊1066

写一下抖音上的目标：治愈小郭郭、你们的李花儿、拉勾、阿七三、对标竞品你们的李花儿我无法模仿的优势：起步早；粉丝量大，已经超过100万我可以超越的劣势：内容原创、更新频率、内容择优四、

殽赦·2023-08-28 15:58

0201hdfs集群部署-hadoop-大数据学习

文章目录1前言2集群规划3hadoop安装包上传与安装3.1上传解压4hadoop配置5从节点同步和环境变量配置6创建用户7集群启动8问题集8.1InvalidURIforNameNodeaddress(checkfs.defaultFS):file:///hasnoauthority.结语1前言下面我们配置下单namenode节点hadoop集群，使用vmware虚拟机环境搭建。vmware虚拟

gaog2zh·2023-08-28 06:31

大数据-----软件开发模型（详细讲解）

大数据学习免费学习资料（免费教程）软件工程中，常用的开了模型有四种：瀑布模型、原型模型、增量模型和螺旋模型。

ItStar·2023-08-28 00:26

Spark Local环境搭建及测试

【大数据学习记录篇】-持续更新中~篇一：Linux系统下配置java环境篇二：hadoop伪分布式搭建（超详细）篇三：hadoop完全分布式集群搭建（超详细）-大数据集群搭建文章目录1.SparkLocal

beixi@·2023-08-27 23:10

Spark on Yarn集群模式搭建及测试

【大数据学习记录篇】-持续更新中~点击传送：大数据学习专栏持续更新中，感谢各位前辈朋友们支持学习~文章目录1.SparkonYarn集群模式介绍2.搭建环境准备3.搭建步骤1.SparkonYarn集群模式介绍