Tancy.

Hadoop-HDFS基础知识

Hadoop-HDFS

HDFS 概述
- 1. 背景定义
- 2. 优缺点
- 3. 组织架构
- 4. HDFS文件块的大小(重点)
NN和2NN工作机制
- 1. Fsimage 和 Edits 解析
- 2. ChickPoint时间设置
- 3. NameNode 故障处理
- 4. 集群的安全模式
- 5. NameNode 多目录
DataNode
- 1. DataNode 的工作机制(重点)
- 2. 数据完整性
- 3. 超时时限设置
- 4. 服役新节点
- 5. 退役旧数据节点
- - 添加白名单
  - 黑名单退役
- 6. DataNode 多目录设置
Hadoop 2.x 新特性
- 1. 集群间数据拷贝
- 2. 小文件归档
- 3. 回收站
- 4. 快照拷贝
HDFS读写过程(重点)
- 1. 读过程
- 2. 网络拓扑—节点距离计算
- 3. HDFS读过程

边学边写，持续更新中
配合目录用

HDFS 概述

1. 背景定义

解决：管理多台机器上的文件系统。分布式文件管理系统
HDFS是其中的一种

定义：HDFS（Hadoop Distributed File System），文件系统，分布式

适用场景：适合一次写入、多次读出的场景，且不支持文件的修改。适合用于数据分析，不合适作为网盘。

2. 优缺点

优点
高容错性：自动保存多副本，且副本可增加
适合处理大数据：数据规模和文件规模巨大
可以构建在廉价机器上，通过多副本机制，提高可靠性
缺点
不适合低延时数据访问，比如毫秒级的存储数据，是做不到的
无法高效的对大量小文件进行存储：会占用大量内存存目录和块信息。无论文件多大，在NameNode里都会占用一定内存
不支持并发写入、文件随机修改：仅支持数据追加

3. 组织架构

NameNode
master，是一个主管、管理者

管理HDFS的名称空间
配置副本策略；
管理数据块（Block）映射信息；
处理客户端读写请求。

DataNode
slave。NameNode下达命令，DataNode执行命令

存储实际的数据块；
行数据块的读/写操作

Client：客户端

文件切片。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传；
与NameNode交互，获取文件的位置信息；
与DataNode交互，读取或写入数据
Client提供一些命令来管理HDFS，比如NameNode格式化
Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作

SecondaryNameNode
并非NameNode的热备。当NameNode挂掉时，它不会马上替换NameNode并提供服务。

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode
紧急情况下，可以辅助恢复NameNode

4. HDFS文件块的大小(重点)

块的大小可以通过参数 dfs.blocksize 设置
在Hadoop2.X版本中，默认大小是128MB，老版本是64MB，本地运行是32MB

为什么块的大小不能设置太小，也不能设置太大？

设置太小，会增加寻找时间
设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需要的时间。导致程序在处理这块时间会非常慢。

HDFS块的大小设置主要取决于磁盘传输速率

NN和2NN工作机制

理解概念
磁盘内存
元数据放到内存中(为了访问快)，磁盘中也要备份元数据(防止丢失)，引入 fsimage
引入edits ，只进行追加(append)操作。保证元数据的更新
先写硬盘再写内存保证数据用追加的方式

合并 fsimage 和 edits，引入 SecondaryNameNode

NN过程

加载编辑日志和镜像文件到内存
元数据的增删改请求
记录操作日志，更新滚动日志
内存数据增删改

2NN过程

请求是否需要CheckPoint
CheckPoint的触发条件
a. 定时时间到
b. edits 中的数据已满
都可以手动设置
请求执行 ChecnPoint
滚动正在写的edits(重命名，保证用户能继续写)
拷贝到2NN
加载到内存中合并
生成新的fsimage
拷贝到NN
重命名为fsimage

2NN的作用：帮助NN对 edits 和 fsimage 进行合并

1. Fsimage 和 Edits 解析

查看 fsimage
命令：
hdfs oiv

参数：
-p: 选择文件的处理器
-i: 输入的文件
-o: 输出的文件

例如：bin/hdfs oiv -p XML -i fsimage_xxx -o fsimage.xml

查看 edits
命令：
hdfs oev

参数：
-p: 选择文件的处理器
-i: 输入的文件
-o: 输出的文件

例如：bin/hdfs oev -p XML -i edits_xxx -o edits.xml

可以格式化后重启集群，跑一个案例

2. ChickPoint时间设置

在 hdfs-default.xml 中修改

触发条件1：每隔一段时间
通常情况下，2NN是每隔一个小时执行一次，3600秒
，默认值是3600
edits已满
每隔1分钟检查一次
默认值是操作数达到一百万，2NN执行一次

3. NameNode 故障处理

方法1：将2NN的数据拷贝到NN存储数据的目录

杀死NN进程
删除NN数据(name)
拷贝
重启

代码

 1. kill -9 进程号
## 用jps 看进程号
 2. rm -rf /$HADOOP_HOME/data/tmp/dfs/name
 3. scp -r root@hadoop3:/opt/hadoop-2.7.2/data/tmp/dfs/namesecondary/* ./ 
## 这里的目录和虚拟机名字不唯一，根据自己的来
 4. /sbin/hadoop-daemon.sh start namenode

方法2：守护进程
用 -importCheckpoint 选项启动 NN 的守护进程，从而完成拷贝

缩短CheckPoint的时间，更快见效
kill -9 NameNode PID
删NN的数据
如果2NN和 NN 不在一个节点上，将2NN的数据拷贝到NN的平级路径，并删除 in_use.lock 文件(平级路径是方法一中的路径)
导入检查点数据，执行一会手动结束
./bin/hdfs namenode -inportCheckpoint

4. 集群的安全模式

在安全模式中，只读不可写
集群启动完成后，会自动退出安全模式

在如图所示期间，NameNode处于安全模式

安全模式退出条件
满足最小副本条件 99.9%的块满足最小副本级别(默认值是1)
刚格式化的集群没有任何块，所以NN不会进入安全模式

基本语法

查看状态 bin/hdfs dfsadmin -safemode get
进入 bin/hdfs dfsadmin -safemode get enter
离开 bin/hdfs dfsadmin -safemode get leave
等待 bin/hdfs dfsadmin -safemode get wait

5. NameNode 多目录

增加数据可靠性，相当于在本地建了一个2NN
HA后会讲，ZooKeper会讲
在 hdfs-site.xml 文件中增加以下代码

<property> 
 <name>dfs.namenode.name.dirname> 
   <value>ﬁle:///${hadoop.tmp.dir}/dfs/name1,ﬁle:///${hadoop.tmp.dir}/dfs/name2value> 
property>

然后停止集群，删除每个集群的data 和 Logs 中所有文件
格式化集群并启动

DataNode

1. DataNode 的工作机制(重点)

DataNode 启动后，向NameNode 注册
注册成功，NN元数据中写入DN注册成功
DataNode ==每周期(1小时)==上报所有块消息
心跳，每三秒一次，心跳返回带有NN给DN的命令
超过10分钟没有收到DN的心跳，则认为该节点不可用，不会再发任何信息

2. 数据完整性

奇偶校验
CRC校验

有 md5sum 校验
sha256sum 校验更复杂

3. 超时时限设置

一般时间为 10分钟 + 30秒
计算公式
Timeout= 2 * dfs.namenode.heartbeat.recheck-interval + 10*dfs.heart beat.interval
默认的Timeout= 2 * dfs.namenode.heartbeat.recheck-interval 是5分钟
dfs.heart beat.interval默认是3s
可以去 dfs.namenode.heartbeat 文件里更矮
注意心跳的单位是毫秒

4. 服役新节点

解决数据存储容量不足问题

新建虚拟机，修改主机名，IP，安装前面的配置要求配置
安装 jdk 和 Hadoop，可以用scp分发，注意要删除data和logs，在host中加入该节点 IP
启动DataNode
启动NodeManager

5. 退役旧数据节点

限制节点加入的方法

添加白名单

添加到白名单的节点，允许访问NameNode
不在白名单的节点，都会被退出

在NameNode的$HADOOP_HOME/etc/hadoop路径下创建dfs.hosts⽂件，添加如下已有的主机名
.在NameNode的hdfs-site.xml配置⽂件中增加dfs.hosts属性:

<property> 
 <name>dfs.hostsname> 
    <value>/opt/hadoop-2.7.2/etc/hadoop/dfs.hostsvalue>
property>

配置文件分发 xsync hdfs-site.xml
刷新NameNode hdfs dfsadmin -refreshNodes
更新ResourceManager节点 yarn rmadmin -refreshNodes

如果数据不平衡，用该命令实现集群再平衡
sbin/start-balancr.sh

黑名单退役

黑名单上的主机会被强制退出

在NameNode的$HADOOP_HOME/etc/hadoop路径下创建dfs.hosts.exclude⽂件，添加主机名称(要退役的节点):
在NameNode的hdfs-site.xml配置⽂件中增加

<property> 
 <name>dfs.hosts.excludename> 
    <value>/opt/hadoop-2.7.2/etc/hadoop/dfs.hosts.excludevalue> 
property>

刷新NameNode、ResourceManager:
hdfs dfsadmin -refeshNodes
hdfs dfsadmin -refeshNodes
查看HDFS的Web UI，退役节点的状态为decommission in progress(退役中);
在hadoop5(退役的节点上)上退出DataNode和NodeManager;
数据平衡.

注意：不允许⽩名单和⿊名单同时出现同⼀个主机名称.

6. DataNode 多目录设置

每个目录存储的数据不一样，即：数据不是副本
注意和 NamaNode 区别开

停止所有组件
删除 data 和 logs 文件夹
修改配置文件并分发
在 hdfs-site.xml 中，增加以下代码

<property> 
 <name>dfs.datanode.data.dirname> 
    <value>ﬁle:///${hadoop.tmp.dir}/dfs/data1,ﬁle:///${hadoop.tmp.dir}/dfs/data2value> 
property>

格式化NameNode;
重启集群

Hadoop 2.x 新特性

1. 集群间数据拷贝

服务器之间
用scp命令实现推拉本地主机中转实现两个远程主机文件复制
集群间
用distcp 命令实现两个Hadoop集群之间的递归数据复制
例如
bin/hadoop distcp hdfs://hadoop1:9000/user/root/hello.txt hdfs://hadoop2:9000/user/root/hello.txt

2. 小文件归档

因为每个文件都是按块存储

大量的小文件会耗尽NameNode中大部分内存

存储小文件需要的磁盘容量和数据快大小无关
例如：1MB的文件设置128MB的块存储，实际用的是1MB磁盘空间而不是128MB

解决方法之一：HDFS存档文件或HAR文件
它将文件存入HDFS块，减少NameNode内存使用的同时，允许对文件进行透明的访问
具体就说：存档的文件对内是一个个独立的文件，对NameNode是一个整体，从而减少了NameNode的内存

步骤

启动YARN进程 sbin/start-yarn.sh
归档文件
例如：将/usr/root/input⽬录下的数据归档成名为input.har的归档⽂件，并把归档后的⽂件存储到/usr/root/output路径下
bin/hadoop archive -archiveName input.har -p /user/root/input /user/root/output
查看归档
hadoop fs -ls -R har:///user/root/output/input.har
注意，对har文件的操作，要加上har://
解归档文件
就是复制出来
hadoop fs -cp har:///user/root/output/input.har/* /usr/root

3. 回收站

如题，在不超时的的情况下可以恢复数据
防止误删，可备份
默认关闭
大数据只考虑存储

说明

默认值fs.trash.interval=0
0 表⽰禁⽤回收站; 其它值表⽰设置⽂件的存活时间
默认值fs.trash.checkpoint.interval=0
检查回收站的间隔时间. 如果该值为0，则该值设置与fs.trash.interval的参数值相等.
要求fs.trash.checkpoint.interval <=fs.trash.interval.

步骤

启动回收站在core-site.xml 中增加以下代码

<property> 
 <name>fs.trash.interval</name> 
    <value>1</value> 
</property>

修改访问回收站⽤户的名称，默认是dr.who，修改为root⽤户
在core-site.xml 中增加以下代码

<property> 
 <name>hadoop.http.staticuser.user</name> 
    <value>root</value> 
</property>

任意删一个，去/user/root/.Trash/ 中看
恢复回收站数据
hadoop fs -mv /user/root/.Trash/Current/user/ root/input /user/root/input
清空回收站
hadoop fs -expunge

注意：通过API程序删除的⽂件不会经过回收站，需要调⽤moveToTrash()才会进⼊回收站

Trash trash = New Trash(conf); 
trash.moveToTrash(path);

4. 快照拷贝

相当于对目录做一个备份
不会立即复制所有文件，而是指向同一个文件
当写入发生时，才会产生新文件
记录的是一个差异，根据差异恢复
实际中用的不是特别多

1.	开启指定⽬录的快照:
hdfs dfsadmin -allowSnapshot 路径
2. 禁⽤指定⽬录的快照，默认是禁⽤
hdfs dfsadmin -disallowSnapshot 路径
3.	对⽬录创建快照(当前时间) 
hdfs dfs -createSnapshot 路径
4. 以指定名称创建快照
hdfs dfs -createSnapshot 路径 名称
5. 重命名快照
hdfs dfs -renameSnapshot 路径 旧名称 新名称
6.	列出当前⽤户所有可快照⽬录
hdfs lsSnapshotableDir
7. ⽐较两个快照⽬录不同之处(重要)
hdfs snapshotDiff 路径1 路径2
8.删除快照
hdfs dfs -deleteSnapshot 路径 名称 
8. 快照恢复
hdfs dfs -cp 源路径 目的路径

HDFS读写过程(重点)

1. 读过程

客户端请求上传文件(FSDataOutputStream)
NN回应可以上传
请求上传第一个block，请NN返回可用的DN(就近分配)
NN返回可用的DN节点
客户端与DN建立通道
DN应答成功
客户端开始向DN传数据
客户端向NN反应传输完成

2. 网络拓扑—节点距离计算

在HDFS的写数据过程中，NameNode 会选择距离最近的DataNode 接收数据
节点距离：两个节点到达最近共同祖先的距离总和

3. HDFS读过程

客户端请求下载(FSDataInputStream)
NN返回目标文件的元数据(距离最近)
客户端请求读取
DN传输数据
若有多次，则重复3、4步

cd - 进入
cd $_ 进入刚创建的文件夹

进程号 ps

https://hadoop.apache.org/docs/current/api/

swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
使用由 Python 编写的 lxml 实现高性能 XML 解析 hunyxv python 笔记 python xml
转载自：文章lxml简介Python从来不出现XML库短缺的情况。从2.0版本开始，它就附带了xml.dom.minidom和相关的pulldom以及SimpleAPIforXML(SAX)模块。从2.4开始，它附带了流行的ElementTreeAPI。此外，很多第三方库可以提供更高级别的或更具有python风格的接口。尽管任何XML库都足够处理简单的DocumentObjectModel(DOM
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><