大数据开发交流

大数据学习之路（跟着大神学习一波）

前言：

一、背景介绍

二、大数据介绍

正文：

一、大数据相关的工作介绍

二、大数据工程师的技能要求

三、大数据学习规划

四、持续学习资源推荐（书籍，博客，网站）

五、项目案例分析（批处理+实时处理）

大数据学习群：119599574

前言

一、背景介绍

本人目前是一名大数据工程师，项目数据50T，日均数据增长20G左右，个人是从Java后端开发，经过3个月的业余自学成功转型大数据工程师。

二、大数据介绍

大数据本质也是数据，但是又有了新的特征，包括数据来源广、数据格式多样化（结构化数据、非结构化数据、Excel文件、文本文件等）、数据量大（最少也是TB级别的、甚至可能是PB级别）、数据增长速度快等。

针对以上主要的4个特征我们需要考虑以下问题：

数据来源广，该如何采集汇总？，对应出现了Sqoop，Cammel，Datax等工具。

数据采集之后，该如何存储？，对应出现了GFS，HDFS，TFS等分布式文件存储系统。

由于数据增长速度快，数据存储就必须可以水平扩展。

数据存储之后，该如何通过运算快速转化成一致的格式，该如何快速运算出自己想要的结果？

对应的MapReduce这样的分布式运算框架解决了这个问题；但是写MapReduce需要Java代码量很大，所以出现了Hive，Pig等将SQL转化成MapReduce的解析引擎；

普通的MapReduce处理数据只能一批一批地处理，时间延迟太长，为了实现每输入一条数据就能得到结果，于是出现了Storm/JStorm这样的低时延的流式计算框架；

但是如果同时需要批处理和流处理，按照如上就得搭两个集群，Hadoop集群（包括HDFS+MapReduce+Yarn）和Storm集群，不易于管理，所以出现了Spark这样的一站式的计算框架，既可以进行批处理，又可以进行流处理（实质上是微批处理）。

而后Lambda架构，Kappa架构的出现，又提供了一种业务处理的通用架构。

为了提高工作效率，加快运速度，出现了一些辅助工具：

Ozzie，azkaban：定时任务调度的工具。

Hue，Zepplin：图形化任务执行管理，结果查看工具。

Scala语言：编写Spark程序的最佳语言，当然也可以选择用Python。

Python语言：编写一些脚本时会用到。

Allluxio，Kylin等：通过对存储的数据进行预处理，加快运算速度的工具。

以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍，知道了他们为什么而出现或者说出现是为了解决什么问题，进行学习的时候就有的放矢了。

正文

一、大数据相关工作介绍

大数据方向的工作目前主要分为三个主要方向:

大数据工程师

数据分析师

大数据科学家

其他（数据挖掘等）

二、大数据工程师的技能要求

附上大数据工程师技能图：

必须掌握的技能11条

Java高级(虚拟机、并发)

Linux 基本操作

Hadoop（HDFS+MapReduce+Yarn ）

HBase（JavaAPI操作+Phoenix ）

Hive(Hql基本操作和原理理解）

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming ）

辅助小工具(Sqoop/Flume/Oozie/Hue等)

高阶技能6条

机器学习算法以及mahout库加MLlib

R语言

Lambda 架构

Kappa架构

Kylin

Alluxio

三、学习路径

假设每天可以抽出3个小时的有效学习时间，加上周末每天保证10个小时的有效学习时间；

3个月会有（21*3+4*2*10）*3=423小时的学习时间。

第一阶段（基础阶段）

1）Linux学习—–20小时

Linux操作系统介绍与安装。

Linux常用命令。

Linux常用软件安装。

Linux网络。

防火墙。

Shell编程等。

学习之前没搞清楚的知识

传统的web应用（LAMP、JavaEE、NODE系等）与大数据什么关系？

之前一直以为大数据的东西就是来取代传统的Web应用的，其实并不是这样；即使是大数据的架构，应用层依然会是传统的web应用，但是会根据数据特点对数据存储（结构化数据依然会保存在传统的关系型数据库——如MySql，日志等非结构数据会保存在分布式文件系统——如Hadoop的HDFS）。

大数据的东西不是取代传统的web应用，而是对web应用的增强。基于分布式存储和分布式计算，以前单机或者小规模集群无法解决的问题，使用了大数据技术之后就可以解决了，比如日志等数据当数据量非常大的时候（TB甚至PB），对这些数据的分析在传统架构上是不可能或者是非常慢的，使用了大数据技术之后就是可能的了——主要是将数据处理通过MapReduce等拆分到不同的节点（电脑）上执行，然后将节点上的结果合并，最后生成分析结果。

云计算和大数据

现在几乎所有的公司都把自己的产品吹成“云”...但是真的都是“云”么？其实很多都是传统的web应用部署到阿里云这些第三方云平台吧；还有一部分有自己服务器（一般配置），然后搞个公网ip，部署上去也说自己是“云”。

Hadoop结构（更新）

下面的内容是在看视频之前写的，作为一些参考吧。

学习历程

了解Hadoop生态系统，了解一下生态系统中各模块的作用，文章后面对各模块有一些简单的总结

HDFS

YARN

HBase

MapReduce

Hive

Pig

Mahout

Zookeeper

Sqoop

Flume

Kafka等

了解Spark，了解Spark比MapReduce的优势，学习RDD编程

Spark SQL

Spark Streaming

Spark Mlib

...

找两台电脑搭个Hadoop、Spark集群，配置Spark开发环境（SBT），运行一些demo例程，典型如WordCount

研究一下MapReduce的WordCount和Spark的WorkCount的代码，通过对比加深理解

参考如下案例，了解大数据应用，熟悉HBase，Hive，Sqoop等

HBase

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表

HBase可以直接使用本地文件系统或者Hadoop作为数据存储方式，不过为了提高数据可靠性和系统的健壮性，发挥HBase处理大数据量等功能，需要使用Hadoop作为文件系统。与Hadoop一样，HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器来增加计算和存储能力。

HIVE

Hive是一个构建于Hadoop顶层的数据仓库工具，由Facebook公司开发，并在2008年8月开源。Hive在某种程度上可以看作是用户编程接口，其本身并不存储和处理数据，而是依赖HDFS来存储数据，依赖MapReduce来处理数据。Hive定义了简单的类似SQL的查询语言——HiveQL，它与大部分SQL语法兼容，但是，并不完全支持SQL标准，比如，HiveSQL不支持更新操作，也不支持索引和事务，它的子查询和连接操作也存在很多局限。

HiveQL语句可以快速实现简单的MapReduce任务，这样用户通过编写的HiveQL语句就可以运行MapReduce任务，不必编写复杂的MapReduce应用程序。对于Java开发工程师而言，就不必花费大量精力在记忆常见的数据运算与底层的MapReduce Java API的对应关系上；对于DBA来说，可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上。所以说，Hive是一个可以有效、合理、直观地组织和使用数据的分析工具。

Impala

Hive 作为现有比较流行的数据仓库分析工具之一，得到了广泛的应用，但是由于Hive采用MapReduce 来完成批量数据处理，因此，实时性不好，查询延迟较高。Impala 作为新一代开源大数据分析引擎，支持实时计算，它提供了与Hive 类似的功能，并在性能上比Hive高出3~30 倍。Impala 发展势头迅猛，甚至有可能会超过Hive 的使用率而成为Hadoop 上最流行的实时计算平台。

Hive 与Impala 的不同点总结如下：

第一，Hive 比较适合进行长时间的批处理查询分析，而Impala 适合进行实时交互式SQL 查询。

第二，Hive 依赖于MapReduce 计算框架，执行计划组合成管道型的MapReduce 任务模式进行执行，而Impala 则把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询。

第三，Hive在执行过程中，如果内存放不下所有数据，则会使用外存，以保证查询能顺序执行完成，而Impala在遇到内存放不下数据时，不会利用外存，所以，Impala目前处理查询时会受到一定的限制。

Hive与Impala的相同点总结如下：

第一，Hive与Impala使用相同的存储数据池，都支持把数据存储于HDFS和HBase中，其中，HDFS支持存储TEXT、RCFILE、PARQUET、AVRO、ETC等格式的数据，HBase存储表中记录。

第二，Hive与Impala使用相同的元数据。

第三，Hive与Impala中对SQL的解释处理比较相似，都是通过词法分析生成执行计划。

总的来说，Impala的目的不在于替换现有的MapReduce工具，把Hive与Impala配合使用效果最佳，可以先使用Hive进行数据转换处理，之后再使用Impala在Hive处理后的结果数据集上进行快速的数据分析。

PIG

Pig 是Hadoop 生态系统的一个组件，提供了类似SQL 的Pig Latin 语言（包含Filter、GroupBy、Join、OrderBy 等操作，同时也支持用户自定义函数），允许用户通过编写简单的脚本来实现复杂的数据分析，而不需要编写复杂的MapReduce 应用程序，Pig 会自动把用户编写的脚本转换成MapReduce 作业在Hadoop 集群上运行，而且具备对生成的MapReduce程序进行自动优化的功能，所以，用户在编写Pig 程序的时候，不需要关心程序的运行效率，这就大大减少了用户编程时间。因此，通过配合使用Pig 和Hadoop，在处理海量数据时就可以实现事半功倍的效果，比使用Java、C++等语言编写MapReduce 程序的难度要小很多，并且用更少的代码量实现了相同的数据处理分析功能。Pig 可以加载数据、表达转换数据以及存储最终结果，因此，在企业实际应用中，Pig通常用于ETL（Extraction、Transformation、Loading）过程，即来自各个不同数据源的数据被收集过来以后，采用Pig 进行统一加工处理，然后加载到数据仓库Hive 中，由Hive 实现对海量数据的分析。需要特别指出的是，每种数据分析工具都有一定的局限性，Pig 的设计和MapReduce 一样，都是面向批处理的，因此，Pig 并不适合所有的数据处理任务，特别是当需要查询大数据集中的一小部分数据时，Pig 仍然需要对整个或绝大部分数据集进行扫描，因此，实现性能不会很好。

Tez

Tez 是Apache 开源的支持DAG 作业的计算框架，通过DAG 作业的方式运行MapReduce 作业，提供了程序运行的整体处理逻辑，就可以去除工作流当中多余的Map 阶段，减少不必要的操作，提升数据处理的性能。Hortonworks把Tez 应用到数据仓库Hive 的优化中，使得性能提升了约100 倍。如图15-13 所示，可以让Tez 框架运行在YARN 框架之上，然后让MapReduce、Pig 和Hive 等计算框架运行在Tez框架之上，从而借助于Tez 框架实现对MapReduce、Pig 和Hive 等的性能优化，更好地解决现有MapReduce 框架在迭代计算（如PageRank 计算）和交互式计算方面存在的问题。

Tez在解决Hive、Pig延迟大、性能低等问题的思路，是和那些支持实时交互式查询分析的产品（如Impala、Dremel和Drill等）是不同的。Impala、Dremel和Drill的解决问题思路是抛弃MapReduce计算框架，不再将类似SQL语句的HiveQL或者Pig语句翻译成MapReduce程序，而是采用与商用并行关系数据库类似的分布式查询引擎，可以直接从HDFS或者HBase中用SQL语句查询数据，而不需要把SQL语句转化成MapReduce任务来执行，从而大大降低了延迟，很好地满足了实时查询的要求。但是，Tez则不同，比如，针对Hive数据仓库进行优化的“Tez+Hive”解决方案，仍采用MapReduce计算框架，但是对DAG的作业依赖关系进行了裁剪，并将多个小作业合并成一个大作业，这样，不仅计算量减少了，而且写HDFS次数也会大大减少。

Kafka

Kafka是由LinkedIn公司开发的一种高吞吐量的分布式发布订阅消息系统，用户通过Kafka系统可以发布大量的消息，同时也能实时订阅消费消息。

在大数据时代涌现的新的日志收集处理系统（Flume、Scribe等）往往更擅长批量离线处理，而不能较好地支持实时在线处理。相对而言，Kafka可以同时满足在线实时处理和批量离线处理。

Kafka设计的初衷是构建一个可以处理海量日志、用户行为和网站运营统计等的数据处理框架

最近几年，Kafka在大数据生态系统中开始扮演越来越重要的作用，在Uber、Twitter、Netflix、LinkedIn、Yahoo、Cisco、Goldman Sachs等公司得到了大量的应用。目前，在很多公司的大数据平台中，Kafka通常扮演数据交换枢纽的角色。

在公司的大数据生态系统中，可以把Kafka作为数据交换枢纽，不同类型的分布式系统（关系数据库、NoSQL数据库、流处理系统、批处理系统等），可以统一接入到Kafka，实现和Hadoop各个组件之间的不同类型数据的实时高效交换，较好地满足各种企业应用需求。

Sqoop

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
大数据学习QQ群119599574

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
【Linux | 网络】socket编程 - 使用TCP实现服务端向客户端提供简单的服务是阿建吖! 【网络】【Linux】网络 linux tcp/ip
目录一、Comm.hpp（公共数据）二、Log.hpp（日志）三、InetAddr.hpp（管理sockaddr_in相关信息）四、NoCopy.hpp（防拷贝）五、Lockguard.hpp（自动管理锁）六、Thread.hpp（封装线程）七、ThreadPool.hpp（线程池）八、dict.txt（配置文件、简单字典）九、Translate.hpp（提供翻译服务）十、Daemon.hpp（使
Linux文件权限管理 IT摆渡者网络服务器运维 linux
Linux文件权限管理：告别777，掌握核心操作在Linux系统中，文件权限是保障系统安全的基础。不少运维新手图省事，动辄给文件设置777权限，这其实隐藏着巨大安全风险。本文带你快速掌握Linux文件权限的核心知识与实用操作，摆脱对777的依赖。一、文件权限基础概念Linux通过"用户类别+权限类型"实现权限管控，核心要素包括：•三类用户：拥有者（user）、用户组（group）、其他用户（oth
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
linux-权限管理
linux-权限管理一、权限的基本类型二、权限的表示方式1.字符形式（rwx）2.数字形式三、权限管理常用命令1.chmod2.chown3.chgrp四、隐藏权限1.lsattr2.chattr五、权限掩码六、特别权限位1.suid2.sgid3.StickyBit七、权限委托1.授权用户2.授权组里的用户3.使用命令别名授权八、ACL1.getfacl2.setfacl总结一、权限的基本类型读
linux-用户和组 2501_92004703 linux 服务器运维
linux-用户和组前言一、用户管理1.用户账户类型2.主要命令2.1useradd2.2usedel2.3usermod2.4su3.查看用户登录信息3.1w3.2who3.3last3.4lastlog3.5lastb4.用户配置文件4.1/etc/passwd4.2/etc/shadow4.3/etc/login.defs5.手工新建用户二、组管理1.组分类2.组配置文件总结前言用户和组是进
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Linux守护进程不脱发的程序猿嵌入式Linux“望闻问切“linux 嵌入式
目录1、编写守护进程的步骤2、守护进程的使用和案例设计2.1、案例功能分析2.2、守护进程代码结构2.3、代码实现2.4、代码详解3、编译和运行守护进程4、检查守护进程5、停止守护进程守护进程（Daemon）是一种在后台运行的特殊进程，通常用于执行系统服务、管理任务或处理请求。它们具有几个显著的特征，使其在系统中扮演重要角色。主要特征：长期运行：守护进程通常在系统启动时启动，并会持续运行，直至系统
VMware Fusion 13 Mac虚拟机
VMwareFusionPromac不仅能让你在Mac苹果电脑上运行Windows或Linux系统、使用非Mac平台的应用，而且还可以支持各种USB硬件设备。原文地址：VMwareFusion13Mac虚拟机
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
kylin安装docker
1.前言本文详细介绍如何在kylinv10上安装docker。系统环境如下：dockder:20.10.7linuxos:kylinv10(GFB)linuxkernel:4.19.90-52.23.v2207.gfb01.ky10.aarch642.安装docker2.1.下载docker二进制包wgethttps://mirror.nju.edu.cn/docker-ce/linux/stat
银河麒麟操作系统 v10 中离线安装 Docker ascarl2010 Docker 信创 docker eureka 容器
银河麒麟操作系统v10中离线安装Docker1.查看系统版本2.查看Linux内核版本（3.10以上）3.查看iptabls版本（1.4以上）4.判断处理器架构5.离线下载Docker安装包6.移动解压出来的二进制文件到/usr/bin目录中7.配置Docker服务7.1编辑docker的系统服务文件7.2将下面的内容复制到刚创建的docker.service文件中7.3为docker.servi
编译ARM开发板的内核镜像（linux）不霁何虹丶内核 linux 内核 uboot kernel 嵌入式
编译内核其实本质上就是熟悉流程与配置的更改，本文暂时只介绍流程，对于更改，以后详谈。一点要注意：需要先安装arm-linux-gcc交叉编译器！切记！获取内核源码如果你有开发板，那么商家大多会给你资料，其中就有对应该开发板SOC的linux内核，如果里面没有对应的linux内核源码，那么本文不适合你了，你需要移植或自己找对应的内核源码。开始制作镜像既然已经获得了源码包，经过ubuntu下的tarx
容器和 Kubernetes 中的退出码 riverz1227 k8s kubernetes 容器云原生
在Kubernetes中，Pod中容器的退出状态（exitCode）表示容器进程退出时的状态码。这个exitCode通常是应用程序或shell返回的标准UNIX/Linux退出码。理解常见的exitCode有助于我们快速定位容器异常退出的原因。一、常见exitCode及含义（基础类）exitCode含义说明常见原因0成功退出（正常）容器程序已完成任务或被优雅终止1一般性错误（GeneralErro
lxcfs：容器虚拟化资源视图的关键利器
随着容器技术的快速普及，如何让容器内的应用准确感知和使用自身的资源限制，成为容器运行时和编排系统必须面对的重要问题一、为什么需要lxcfs？容器通过Linux的cgroup实现资源隔离，限制CPU、内存等资源的使用上限。但容器内的进程访问/proc文件系统时，默认看到的是宿主机的全局资源视图，而非自身的配额。例如：容器限制了2核CPU，但/proc/cpuinfo显示宿主机的全部CPU信息。容器内
鲲鹏麒麟离线安装Docker angushine docker
服务器信息[root@testinstall]#cat/etc/kylin-releaseKylinLinuxAdvancedServerreleaseV10(Tercel)下载安装包访问https://download.docker.com/linux/static/stable/aarch64/找到合适的版本，这里采用18.09.9这个版本访问如下链接下载安装包wgethttps://down
Linux/Unix 套接字Socket编程(socket基本概念，流程，流式/数据报socket，Unix domain socket示例)
套接字文章目录套接字Isocket基础1、通信domain2、通用socket地址结构体3、socket类型4、创建和关闭socket5、将socket绑定到地址6、流socket(1)流socket服务端-客户端模型(2)系统调用listen()(3)系统调用accept()(4)系统调用connect()(5)系统调用recv()(6)系统调用send()7、数据报socket(1)数据报so
Linux/Unix线程及其同步(create、wait、exit、互斥锁、条件变量、多线程) JeffersonZU Unix/Linux系统编程 linux unix gnu c语言
线程文章目录线程I线程基本概念1、为什么引入线程2、PthreadsII线程基本操作1、创建线程2、终止线程3、线程ID4、连接已终止线程5、线程基本操作示例III通过互斥量同步线程1、基本概念2、互斥量（Mutex）3、静态分配互斥量4、互斥量锁定与解锁5、互斥量的死锁6、互斥量类型7、动态初始化互斥量IV通过条件变量同步线程1、条件变量2、静态分配的条件变量3、初始化动态分配的条件变量4、通知
VMware Fusion 13 Mac虚拟机 fengyun2891 macos mac 虚拟机
VMwareFusionmac不仅能让你在Mac苹果电脑上运行Windows或Linux系统、使用非Mac平台的应用，而且还可以支持各种USB硬件设备。原文地址：VMwareFusion13Mac虚拟机
一会通一会不通一台设备ping_Linux刚开机能ping通网关,一会就ping不通了毕须喝芮幸冰咖啡一会通一会不通一台设备ping
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":2,"count":2}]},"card":[{"des":"阿里云云盾基于对海量用户设备、IP、账户行为的画像分析，自动识别虚假账户及盗号，屏蔽垃圾信息及非法广告，同时对图片和视频进行智能鉴黄、鉴恐，降低spam，专注正
网络安全之如何设置云服务器禁止 ping？两种设置方法教你搞定云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践 sysctl.conf配置代码简单说运维宝典限时特惠服务器 web安全 linux 服务器禁止ping 云服务器禁止ping 服务器禁止ping的方法
云主机如何设置云服务器禁止ping？两种设置方法教你搞定标签：云服务器无法ping通、ping不通云主机、Linux禁止ping、ICMP屏蔽、网络安全最佳实践、sysctl.conf配置前几天上线了一个测试服务，总有安全团队扫端口，还时不时用ping探测存活，我开始思考：云服务器到底要不要禁ping？一、禁ping的好处和坏处作为一名前端转全栈开发的程序员，我越来越觉得网络安全不能忽视。“pin
TCP内核参数 XingYuyu_Coder Linux tcp sysctl.conf
TCP内核参数1.修改TCP内核参数systcl.conf在Linux系统中，/proc/sys/net/ipv4/tcp_max_syn_backlog文件、/proc/sys/net/core/somaxconn文件和/etc/sysctl.conf文件都与系统内核参数有关。它们之间的区别主要在于生效时间和持久性。直接修改/proc/sys/net/ipv4/tcp_max_syn_backl
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
52. QT插件开发--插件程序(带ui文件)的创建与编译山间点烟雨 QML /QT常用技巧汇总 qt ui 插件
1.说明一般情况下，针对代码量比较小的QT程序不需要进行插件集成化开发，但是针对大型程序来说，代码结构比较复杂，使用插件开发的方式可以提高代码开发和维护效率，团队之间的分工合作也会更加的明确。所谓插件式开发，实际上就是把程序的一部分功能封装起来，编译成一个单独的动态链接库，在主程序框架中去动态加载这个动态库即可。在windows系统中这种动态库以dll的形式存在，而在linux系统中是以so形式存
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

大数据学习之路（跟着大神学习一波）

你可能感兴趣的:(大数据,大数据学习,大数据工程师,云计算,Hadoop,hdfs,Spark,Linux)