工作变成艺术

大数据开发常见问题

Linux

磁盘百分之百的问题

找到比较大的文件，然后删除大的一些日志文件

sudo find / -size +100M -exec ls -lh {} \;
&rewriteBatchedStatements=true&characterEncoding=utf-8

免密

yonghu ALL=(root) NOPASSWD: ALL,!/usr/bin/reboot, !/sbin/reboot, !/bin/su,!/usr/bin/su, !/sbin/shutdown

修改主机名

vi /etc/hostname
sudo hostnamectl set-hostname h1

SSH

如果有对应的ssh连接出错，修改ssh的配置文件允许访问。

清理buff/cache

sudo sh -c 'echo 3 > /proc/sys/vm/drop_caches'

调整内核参数：一些内核参数可以影响文件系统缓存的使用。您可以通过修改 /etc/sysctl.conf 文件来更改这些参数。其中一个常见的参数是 vm.vfs_cache_pressure，它控制了内核在释放缓存时的倾向性。通过增加该值（例如从默认的 100 到 200），可以减少缓存的大小。

资源限制问题

#调整用户的资源限制，（有时候使用doris的时候如果不配置对应的限制会出现资源su: failed to execute /bin/bash: Resource temporarily unavailable）
sudo vi /etc/security/limits.conf

bigdata soft nofile 65535
bigdata hard nofile 65535

sudo vi /etc/security/limits.d/20-nproc.conf
bigdata       soft    nproc     unlimited

Hadoop

安装hadoop之前一定要修改hostname和对应的映射/etc/hosts，因为hadoop会依赖到hostname。也就是如果本机的/etc/hosts是master，那么hostname也修改成master，不然会出现各种问题。
如果出现运行wordcount卡住的情况，那么可能是/etc/hosts对应的127.0.0.1影响了，注解掉，重启hadoop。
#查看namenode状态
hdfs haadmin -getServiceState nn1

元数据损坏问题

#####################一次元数据损坏问题##################
#删除损坏的元数据namenode节点的数据############
hdfs namenode -bootstrapStandby
#重启集群

辅助操作

删除主节点的元数据信息，将新主节点的元数据信息复制过来（把从节点的所有current的fsimgge和it'复制到主节点，其他的所有保持不变）
hadoop namenode -recover（挂了的机器进行修复）   选c然后选a
启动
sbin/hadoop-daemon.sh start namenode
查看磁盘的健康状态
curl http://master1:9870/fsck （新主节点查看磁盘状态）
如果不健康关闭安全模式然后修复
hdfs dfsadmin -safemode leave
hadoop fs -setrep -w 3 -R /
然后再查看安全状态
curl http://master1:9870/fsck
curl http://master2:9870/fsck 
hdfs haadmin -getAllServiceState

高可用

离线数据仓库从0到1-阶段二软件安装_离线数仓软件_顶尖高手养成计划的博客-CSDN博客

flink on yarn 模式下提示yarn资源不足问题分析-腾讯云开发者社区-腾讯云

Yarn动态刷新配置

yarn rmadmin -refreshQueues  刷新的命令

hadoop不能停止的问题

hadoop运行一段时间后，无法正常停止。

解决方法：
1.jps查询所有的相关进程，如namenode，然后kill -9 进程号
2.修改etc/hadoop/hadoop-env.sh 中的 hadoop-pid-dir 指定到一个有效的目录、
如：export HADOOP_PID_DIR=/home/bigdata/module/hadoop-3.1.3/pid

产生的原因是 hadoop-pid-dir 这个环境变量默认是 /tmp，而/tmp中的所有的内容是要被操作系统定期清除的，清除后，hadoop-daemon.sh stop xxx 无法找到相应的进程号，所有无法停止。

Cannot set priority of 问题

修改hdfs(主要的原因是上面修改了pid的目录以后默认执行shell的是hdfs，改成bigdata就有权限了)

HADOOP_SHELL_EXECNAME="bigdata"

手动切换主节点

#手动切换主从
kill -9 进程号
#重启namenode
sbin/hadoop-daemon.sh start namenode
#查看状态
hdfs haadmin -getAllServiceState
#查看hdfs状态
curl http://master1:9870/fsck
#离开安全模式
hdfs dfsadmin -safemode leave

Hive on Spark

hive元数据详解

Hive元数据服务MetaStore-腾讯云开发者社区-腾讯云

Mysql最大连接问题

如果连接不太够，hive on spark会失败

修改my.cnf

sudo vi  /etc/my.cnf

[mysql]
max_connections = 2000

查看系统limit限制

# 查询文件限制
$ ulimit -n
1024

修改系统文件限制

# 编辑系统文件配置文件
$ view /etc/security/limits.conf
 
# 在/etc/security/limits.conf最后增加如下两行记录
* hard nofile 65535
* soft nofile 65535

yarn logs -applicationId application_1670892172838_0002 查看对应的日志一般就可以找到答案，如果是对应的hostname无法找到，那么就是安装hadoop的时候可能没有修改hostname,修改重启hadoop就行。
如果磁盘到达百分之90往上，那么nodemanager就会是unhealth状态。
hive on spark执行脚本的时候hive -e ...,如果资源不释放在后面加一个quit;还要加上下面的配置，主要是hiveserver2会话不关闭的问题。

会话不关闭问题，hive on spark运行完以后资源不释放（hue）


hive.server2.session.check.interval
3000
The check interval for session/operation timeout, which can be disabled by setting to zero or negative value.


hive.server2.idle.session.timeout
0
Session will be closed when it's not accessed for this duration, which can be disabled by setting to zero or negative value.


hive.server2.idle.operation.timeout
0
Operation will be closed when it's not accessed for this duration of time, which can be disabled by setting to zero value. With positive value, it's checked for operations in terminal state only (FINISHED, CANCELED, CLOSED, ERROR). With negative value, it's checked for all of the operations regardless of state.

空值连接问题

原始表

普通连接

select * from test a
  left join 
  test b
  on a.q=b.q and a.g=b.g;

结果（可以看到空值没有进行关联）

如果想空值和其他值一样进行关联（可以看到现在所有的值进行了关联，包括空值）

  select * from test a
  left join 
  test b
  on COALESCE(a.q,'')=COALESCE(b.q,'') and COALESCE(a.g,'')=COALESCE(b.g,'');

failed to create spark client for spark session(资源不足导致超时)

修改两个参数



    hive.spark.client.connect.timeout
    90000ms

重建分区

#如果已经有分区的情况建表以后要执行重建分区的操作。
show partitions 库名.表名;
MSCK REPAIR TABLE 库名.表名; 
#重建分区以后分区表就出现了
show partitions 库名.表名;

Mysql使用大小写命名的时候Hive读取不到数据的问题

#mysql的表字段
isInStock  :STRING
#hive创建的表字段
isinstock  :STRING

数据加载load

#load insert overwrite 的时候如果对应的位置没有文件，那么不会清除目标表数据。
Hive Session ID = 3fabdc4b-2fc9-4026-8434-89abc58500bc

Logging initialized using configuration in jar:file:/home/bigdata/module/apache-hive-3.1.2-bin/lib/hive-common-3.1.2.jar!/hive-log4j2.properties Async: true
Hive Session ID = 745f2d91-3f62-4f29-ba49-be8b5a76ac1a
FAILED: SemanticException Line 2:17 Invalid path ''/user/hive/warehouse/abs/ods/ods_orderinfo_inc/2023-03-07'': No files matching path hdfs://bigdatacluster/user/hive/warehouse/abs/ods/ods_orderinfo_inc/2023-03-07

DataX

如果低版本的驱动连接8.0的话就要下载对应的8.0的jdbcjar

https://dev.mysql.com/downloads/file/?id=513754

应用文章

java.sql.SQLException:Could not retrieve transation read-only status server解决方法_观澄的博客-CSDN博客_sqlexception: could not retrieve transation read-o

找到对应的插件的lib文件替换就行了

jdbc:mysql://localhost:3306/demo?useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=UTC

datax读取mysql数据到hdfs如果mysql的是null到hdfs就是空字符串。

Mysql

在mysql8.0的时候存储表情更加兼容，5.7的话有点问题。

create database analyze CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

一次mysql停机处理，这是是看不到进程号无法关闭处理

yum install  -y  lsof
sudo lsof -i:3306
sudo kill -9 32075
service mysqld status (查看进程号关闭)

mysqldump  --databases dolphinscheduler hive hue > all_database_bak.sql

mysql忘记密码处理

mysql忘记密码如何修改密码_mysql忘记密码怎么修改密码_qq_30748583的博客-CSDN博客

配置用户远程登录

#mysql5.7
CREATE USER 'mysql_monitor'@'%'   IDENTIFIED BY 'Mysql@123'  WITH MAX_USER_CONNECTIONS 10;
GRANT ALL PRIVILEGES ON *.* TO 'mysql_monitor'@'%' IDENTIFIED BY 'Mysql@123' WITH GRANT OPTION;
FLUSH PRIVILEGES;
EXIT
#测试登录
mysql -umysql_monitor -pMysql@123

#mysql8.0
#已经有用户的情况
ALTER USER USER() IDENTIFIED BY 'Mysql@123';
grant all privileges on *.* to 'root'@'%' with grant option;
FLUSH PRIVILEGES;
EXIT

#创建用户授权流程
CREATE USER 'root'@'%'   IDENTIFIED BY 'Mysql@123'  WITH MAX_USER_CONNECTIONS 1000;
grant all privileges on *.* to 'root'@'%' with grant option;
FLUSH PRIVILEGES;
EXIT
#测试登录
mysql -uroot -pAdmin2022!

修改指定用户的最大连接数

修改指定用户的最大连接数目
use mysql;
select MAX_USER_CONNECTIONS from user user='root'
update user set MAX_USER_CONNECTIONS='1000' where user='root';
FLUSH PRIVILEGES;
EXIT

Screen

#进入一个窗口
screen -S hue
#后台运行应用直接关闭窗口，或者Ctrl+A

Kafka

远程访问问题(开启远程访问)，如果只是局域网内可以访问，上面的listeners和advertised的ip相同就行，还有关闭防火墙和selinux。

listeners=PLAINTEXT://0.0.0.0:9092
# Hostname and port the broker will advertise to producers and consumers. If not set, 
# it uses the value for "listeners" if configured.  Otherwise, it will use the value
# returned from java.net.InetAddress.getCanonicalHostName().
advertised.listeners=PLAINTEXT://外网对应的ip总之如果上面配置了0.0.0.0那么这里就必须配置一个因为如果不配置就是listeners的ip，这个作用就是要写到zookeeper如果是0.0.0.0外网不知道是哪个:9092

kafka启动访问hostname问题

#启动的服务和hostname有关
hostnamectl set-hostname doris2
#在访问kafka的机器也要配置好对应的/etc/hosts和启动的kafka集群的hostname对应才行
比如上面的hostname是doris2
那么访问对应的kafka的时候在访问的机器配置
/etc/hosts
doris2 kafka服务器

详解地址

https://www.jb51.net/article/235535.htm

如果这样配置以后，关闭防火墙，关闭selinux，还是不能访问，那么可能就是服务器之间配置了安全组。

Kafka事务问题

面试官：Kafka 事务是如何工作的？ - 掘金

Maxwell

mysql如果不是为full的话，那么修改的update的old就没有数据

binlog中断的问题

采集的时候binlog被删除了，maxwell采集中断，binlog的保存时间设置成7天。(这里是由于一定的网络原因问题，由于maxwell读取binlog的时候网络超时引起，比如在28号发现maxwell挂了，在29号启动maxwell，由于maxwell的ts存储的是binlog的的事件时间，在由于flume配置了用ts的时间作为时间变量，那么启动以后尽管现在是29号，它启动以后还是会把28号的数据消费过来形成 28号的目录文件)

#查询现在binlog的位置
show master status ;
#查询所有的binlog名称和位置
SHOW BINARY LOGS;
#查询具体的binlog信息
show binlog events in 'mysql-bin.004864' from 1891649;

java.net.UnknownHostException: doris2

maxwell遇到错误，测试发送到kafka集群报错UnknownHostException，设置hosts以后消息成功发送

*** ms has passed since batch creation plus linger time

自己解决的办法是因为kafka在监听，是用的hostname,所以我在消费的主机加了本地的dns,也就是修改了/etc/hosts, kafkaip doris2 ,(注意这里集群内下面图的位置我没有修改，直接修改对应的host就行了，也就是说上面的doris2 是hostname,也是kafka监听的域名，这个时候只要本地使用了hosts映射那么就可以访问了)

#测试集群是否可以发送消息
bin/kafka-producer-perf-test.sh  --topic test2 --record-size 200 --num-records 100000 --throughput -1 --producer-props bootstrap.servers=ip:9092

参考文章

kafka启动报错：java.net.UnknownHostException|unknown error at java.net.Inet6AddressImpl.lookupAllHost 很详细_血煞长虹的博客-CSDN博客

Doris

有大量内存但是不能够全部利用的问题

cat /proc/sys/vm/overcommit_memory
echo 1 > /proc/sys/vm/overcommit_memory
sudo sh -c 'echo 1 > /proc/sys/vm/overcommit_memory'
https://blog.51cto.com/lookingdream/1933132
set global parallel_fragment_exec_instance_num =8;

简单排错

#如果是mysql客户端报错查看下面的日志文件
apache-doris-fe-1.2.0-bin-x86_64/log/fe.warn.log
#如果是be挂了，查看be.out
#常见的错误码
https://doris.apache.org/zh-CN/docs/dev/admin-manual/maint-monitor/doris-error-code

top -H -p pid

优化

show variables like '%parallel_fragment_exec_instance_num%';
set  global parallel_fragment_exec_instance_num = 8;

在线表结构变更例子

https://github.com/apache/doris-flink-connector/blob/master/flink-doris-connector/src/test/java/org/apache/doris/flink/CDCSchemaChangeExample.java

配合flink

Flink sink doris案例_Z-hhhhh的博客-CSDN博客

Doris创建物化视图报错以后的处理办法

#查看节点的状态信息
SHOW PROC '/backends';
#查看表的物化视图和基表的操作
desc table_name all;
#查看表的物化视图的修改信息，和对应创建物化视图的jobid
SHOW ALTER TABLE MATERIALIZED VIEW FROM db_name;
#取消执行的job
CANCEL ALTER TABLE ROLLUP FROM db_name.table_name (446023);

创建动态分区的简单模板

insert into test values('1','1',now());
insert into test values('1','1',now());

select * from test;
drop table test;
CREATE TABLE `test` (
  `product_id` varchar(100) NOT NULL COMMENT '商品id',
  `site` varchar(50) NULL,
  `day_id` date
) ENGINE=OLAP
UNIQUE KEY(`product_id`, `site`,`day_id`)
COMMENT 'OLAP'
PARTITION BY RANGE(`day_id`)()
DISTRIBUTED BY HASH(product_id) BUCKETS 3
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"dynamic_partition.enable" = "true",
"dynamic_partition.time_unit" = "DAY",
"dynamic_partition.time_zone" = "Asia/Shanghai",
"dynamic_partition.start" = "-2147483648",
"dynamic_partition.end" = "4",
"dynamic_partition.prefix" = "p",
"dynamic_partition.replication_allocation" = "tag.location.default: 3",
"dynamic_partition.buckets" = "10",
"dynamic_partition.create_history_partition" = "true",
"dynamic_partition.history_partition_num" = "47",
"dynamic_partition.hot_partition_num" = "0",
"dynamic_partition.reserved_history_periods" = "NULL",
"dynamic_partition.storage_policy" = "",
"dynamic_partition.storage_medium" = "HDD",
"in_memory" = "false",
"storage_format" = "V2",
"disable_auto_compaction" = "false"
);

优秀案例

9 篇博文含有标签「用户案例」 - 云原生实时数据仓库

文章

配置Fe的JVM

JAVA_OPTS="-Xms16g -Xmx16g  -Xmn8g  -XX:+UseMembar -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=7 -XX:+PrintGCDateStamps -XX:+PrintGCDetails -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=80 -XX:SoftRefLRUPolicyMSPerMB=0 -Xloggc:$DORIS_HOME/log/fe.gc.log.$DATE"

# For jdk 9+, this JAVA_OPTS will be used as default JVM options
JAVA_OPTS_FOR_JDK_9="-Xms16g -Xmx16g -Xmn8g  -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=7 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=80 -XX:SoftRefLRUPolicyMSPerMB=0 -Xlog:gc*:$DORIS_HOME/log/fe.gc.log.$DATE:time"

小文件过多场景

compaction_task_num_per_disk = 4
compaction_task_num_per_fast_disk = 8
max_cumu_compaction_threads = 15
total_permits_for_compaction_score = 15000
segcompaction_threshold_segment_num = 15

JDBC Catalog的使用

show catalogs;
show catalog jdbc_catalog;
CREATE CATALOG jdbc_catalog PROPERTIES (
    "type"="",
    "user"="",
    "password"="",
    "jdbc_url" = "jdbc:mysql://ip:3306/",
    "driver_url" = "mysql-connector-java-8.0.25.jar",
    "driver_class" = "com.mysql.cj.jdbc.Driver"
);
switch jdbc_catalog;
select * from jdbc_catalog.数据库.表名称;

HDFS

Hdfs扩容

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作_大数据老司机的博客-CSDN博客_hadoop磁盘均衡

数据均衡

HDFS 磁盘均衡 | HDFS 教程




    dfs.datanode.fsdataset.volume.choosing.policy
    org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy



    dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction
    0.75f



  dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold         
  10737418240


    dfs.datanode.data.dir
    /data1,/data2,/data3,/data4

数据均衡（每一个节点都要执行）

hdfs diskbalancer -plan node2

执行计划

hdfs diskbalancer -execute /system/diskbalancer/2016-Aug-17-17-03-56/172.26.10.16.plan.json

查看状态

hdfs diskbalancer -query node2

看到PLAN_UNDER_PROGRESS 表示正在平衡，

PLAN_DONE 表示完成

查看执行的结果()

df -h

上面可以清晰的看到数据在迁移

Hdfs数据磁盘满以后处理

方法一

这个简单粗暴，直接复制数据到指定目录。

先关闭hadoop

1.由于之前的磁盘满了，如果没有指定datanode的位置那么就会在这个文件夹生成data目录存储datanode数据。

2.这个时候新添加一个磁盘，挂到/data目录下面。

3 .设置好以后先启动下hadoop。这个时候就会生成下面的文件。

/data/current/BP-1174901237-192.168.66.10-1652784708371/current/finalized

4.关闭hadoop，然后把之前的datanode的数据拷贝到新的datanode目录。

cp -r subdir0 /data/current/BP-1174901237-192.168.66.10-1652784708371/current/finalized

其他的datanode数据也全部这样直接拷贝数据过去。

5.重新启动hadoop,数据正常。

方法二

这个主要是利用了hdfs的3个副本机制。

1.关闭hadoop集群。

2.删除一个datanode的数据。

3.指定新的路径。

4.重启hadoop集群,检查下磁盘情况(可以看到现在就是有两个副本)。

http://master:9870/fsck

正常情况如下，异常情况如上面。

5.执行数据同步。

运行hadoop fs -setrep -w 3 -R /, 重新生成副本, 如果中途出现out of memory，则重新运行该命令即可

6.查看检查报告看看有哪些目录的数据丢失，是否无关数据，删除这些无关数据：hadoop fsck <目录> -delete。

7.然后在重复修改其他的datanode存储数据的路径，然后重复5-7。

实战

情况

情况是新加了一块磁盘，由于是系统盘不太好扩容。

如图可以看到系统盘已经百分之64了，现在新加一个数据盘/data.他们现在的分区存储策略是，在相差10G之内就是负载均衡的策略。


  
    dfs.datanode.data.dir
    file://${hadoop.tmp.dir}/data,/data




    dfs.datanode.fsdataset.volume.choosing.policy
    org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy



    dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction
    0.75f



  dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold
  10737418240



  dfs.disk.balancer.enabled
  true

现在的处理办法就是先关闭hadoop集群。因为现在配置了高可用。因为每一个datanode现在都有一个jounnalnode,所以停下集群。（如果现在这种情况,如下图，datanode和jn的数据存储现在都是在file://${hadoop.tmp.dir}/data，如果使用不停机修改配置的话jounnalnode可能会运行出错，动态修改配置的命令如下）

不停机修改配置（这里不做）

参考文章

Hadoop常用服务节点默认端口 - 掘金

Hadoop 变更磁盘的方法总结_铁猴的博客-CSDN博客

./hdfs dfsadmin -reconfig datanode 10.5.24.139:50020 start

注：10.5.24.139为目录调整的Datanode节点，Datanode的默认IPC地址为：50020

查看配置：

Hadoop/bin/hdfs dfsadmin -report

上面都是说明情况下面开始操作

开始操作

集群规划

1.先关闭hadoop集群.

先说明下变量，这个不用改。

core-site.xml

  
        
        hadoop.tmp.dir
        /home/bigdata/module/hadoop-3.1.3/data

原来的hdfs-site.xml


  
    dfs.datanode.data.dir
    file://${hadoop.tmp.dir}/data,/data

修改后hdfs-site.xml（先修改一个datanode的，原因是想利用hdfs的3副本机制，复制副本到新的磁盘）


  
    dfs.datanode.data.dir
    file:///data

2.重启hadoop集群(下面是我数据仓库文章里面写的hadoop集群启动脚本)。

./hadoop-server-shell.sh start

3.检查下现在的副本情况。

先检查下namenode的情况

hdfs haadmin -getAllServiceState

检查副本情况

 curl http://master1:9870/fsck

可以看到很多块都只有两个副本现在（由于是上面修改了一个datanode的存储目录，所以现在有一个副本就丢失了）

这个时候开启副本重写机制（作用就是把现在的两个副本写成3个副本，如果有内存溢出的情况，重新执行命令）。

hadoop fs -setrep -w 3 -R /

执行完以后再次执行，可以看到Missing replicas百分之0。

curl http://master1:9870/fsck

4.关闭hadoop集群

./hadoop-server-shell.sh stop

然后删除以前配置的file://${hadoop.tmp.dir}/data这个文件夹，看是否正常。


  
    dfs.datanode.data.dir
    file://${hadoop.tmp.dir}/data,/data

这里注意千万别直接删除这个目录 ,由于自己的全部删除，导致jn也删除了，然后namenode无法启动，解决办法是把没有删除jn的复制到删除的datanode对应的jn目录（因为这里面存储了namenode高可用的变化信息，删除导致namenode高可用无法启动）

#也就是rm -rf file://${hadoop.tmp.dir}/data
rm -rf data/

如果删除了解决办法(node1-3-sync-plus.sh是自己写的在datanode之间的分发脚本)，分发以后如果不出意外就启动成功了。

./node1-3-sync-plus.sh  /home/bigdata/module/hadoop-3.1.3/data/jn

要执行下面的操作只删除datanode的data目录就行。

rm -rf /home/bigdata/module/hadoop-3.1.3/data/data

操作完以后的结果对比。

重启hadoop集群

./hadoop-server-shell.sh start

查看下状态是否正常

hdfs haadmin -getAllServiceState

检查下磁盘状态

curl http://master1:9870/fsck

如果一切正常那么开始重复上面的操作，修改datanode2,然后datanode3.......

5.数据全部同步完成以后，把master1和master2的hdfs-site.xml配置文件也修改过来.

也就是直接分发下就行了(这个时候所有的机器配置文件就一样了)

./sync-plus.sh /home/bigdata/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml


  
    dfs.datanode.data.dir
    file:///data

IDEA

源码无法下载问题

无法关联源码的时候在项目的目录打开命令行

mvn dependency:resolve -Dclassifier=sources

Flink

提交任务

/home/bigdata/flink-1.13.6/bin/flink run \
 -d \
 #指定检查点
 -s hdfs://master1:8020/checkpointunique/ck/66b06ff2bb80fb39318524aef76ea719/chk-14384 \
 #yarn 集群模式
 -m yarn-cluster \
 #自定队列
 -yqu high \
 #指定提交到yarn的名称
 -ynm unique \
 -c com.bigdata.flinkmessageunique.FlinkMessageUnique \
 bigdata-flink-kafka-message-unique-1.0-SNAPSHOT-jar-with-dependencies.jar

flink-doris-connector-1.15-1.2.0.jar
flink-sql-connector-mysql-cdc-2.2.1.jar

Flink CDC

1.有主键和唯一索引的情况下，单表的cdc操作能够增，删,改，都能够同步。
2.在关联表的时候，主键用的是order_detail的id，。
  2.1 如果只是有order_info表的数据，没有order_info_detail数据，那么最后的结果没有数据，也就是说left join 不上数据。
  2.2 如果有order_info的数据，也有 order_info_detail 的数据，这个时候能够把关联的结果算到最后的结果表里面。
  2.3 如果是直接插入数据的情况，left join不会生效，left join的效果和inner join相同。
  2.4 update `demo_order_info` set order_info='nihao' where id='1'; 无效
  2.5 update `demo_order_info_detail` set order_info_detail='472398' where id=2; 有效,他是会先根据order_info_detail id 进行删除以后再添加。
  2.6 update `demo_order_info_detail` set order_info_id='1' where id=2; 只要是修改了order_info_detail的id还有他们的关联条件order_info_id，那么程序就会出错。

结论：
  如果涉及到关联操作，除非只有增加操作，不然多表关联就会出现错误。如果在初次全量同步以后，然后再增量的时候减少并行度，对于增量操作是没有影响的(这里的没有影响是断点续传没有影响)。

#上面的结论是mysql到mysql
下面是控制台就能够正常关联
          id                     order_info order_info_id         id0              order_info_detail
           5                       wo shi 5             5           5                    wo ye shi 5
           3                              3             3           3                          nihao
           6                       wo shi 5                                       
           2                     orderinfo2                                       
          11                     orderinfo1                                       

到 mysql 通过 flinkcdc 到 kafka 的数据
-- canal-json
-- insert
-- {"data":[{"id":13,"order_info":"nihao"}],"type":"INSERT"}
-- {"data":[{"id":11,"order_info":"订单y"}],"type":"INSERT"}
-- csv
-- debezium-json
-- insert
-- {"before":null,"after":{"id":2,"order_info":"订单2"},"op":"c"}
-- update
-- {"before":{"id":2,"order_info":"订单2"},"after":null,"op":"d"}
-- {"before":null,"after":{"id":2,"order_info":"修改了"},"op":"c"}
-- delete
-- {"before":{"id":1,"order_info":"订单y"},"after":null,"op":"d"}
-- json
-- maxwell-json
-- {"data":{"id":13,"order_info":"不知道"},"type":"delete"}
-- {"data":{"id":13,"order_info":"nihao"},"type":"insert"}
-- ogg-json
-- raw

Flink整合StreamPark相关配置

execution.checkpointing.externalized-checkpoint-retention: RETAIN_ON_CANCELLATION
execution.checkpointing.tolerable-failed-checkpoints: 30
execution.checkpointing.unaligned: false
state.backend: rocksdb
state.checkpoints.dir: hdfs://localhost:8020/flink-checkpoints
state.savepoints.dir: hdfs://localhost:8020/flink-savepoints
state.backend.incremental: true

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // enable checkpoint
        env.enableCheckpointing(CommonString.CHECKPOINT_TIME); // 每1分钟触发一次检查点
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE); // 设置检查点模式为仅一次
        env.getCheckpointConfig().setMinPauseBetweenCheckpoints(CommonString.MIN_PASUE_BETWEEN_CHECKPOINTS); // 设置两个检查点之间的最小暂停时间
        env.getCheckpointConfig().setCheckpointTimeout(CommonString.CHECKPOINT_TIMEOUT); // 设置检查点超时时间为2分钟
        env.getCheckpointConfig().setMaxConcurrentCheckpoints(1); // 设置同时进行的最大检查点数量为1
        env.getCheckpointConfig().setExternalizedCheckpointCleanup(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

在和kafka精确一次整合的时候，记得事务的超时时间要是检查点触发时间和超时时间之和才行不然会出错，还有就是
properties.setProperty(ProducerConfig.LINGER_MS_CONFIG, "2000"); 不能使用默认值，不然事务运行会出错
#提交yarn任务
/home/bigdata/soft/flink-1.15.0/flink-1.15.4/bin/flink run \
 -d \
 -m yarn-cluster \
 -yqu high \
 -ynm appname \
 -c com.bigdata.testApp \
 bigdata-1.0-SNAPSHOT.jar
#保存检查点
/home/bigdata/soft/flink-1.15.0/flink-1.15.4/bin/flink savepoint db37d764dec3dff2051ed330be4a61d7(flink的jobid) hdfs://localhost:8020/flink-savepoints -yid application_123(yarn 容器id)
#停止yarn上的flink任务并且保存一个指定的保存点
/home/bigdata/soft/flink-1.15.0/flink-1.15.4/bin/flink stop  db37d764dec3dff2051ed330be4a61d7  --savepointPath hdfs://localhost:8020/flink-savepoints -yid application_123s
#指定保存点运行
/home/bigdata/soft/flink-1.15.0/flink-1.15.4/bin/flink run \
 -d \
 --fromSavepoint hdfs://localhost:8020/flink-savepoints/savepoint-db37d7-690a0b97620d \
 -m yarn-cluster \
 -yqu high \
 -ynm appname \
 -c com.bigdata.testApp \
 bigdata-1.0-SNAPSHOT.jar

#日常检查
 yarn application -kill 
 yarn logs -applicationId application_1686709637666_1261

#重要事项，checkpoint不能小于1分钟timeout设置成2分钟，不然会出现意想不到的错误。

Flink TaskManager 内存管理机制介绍与调优总结-腾讯云开发者社区-腾讯云

堡垒机安装使用

https://blog.csdn.net/weixin_43279138/article/details/124441644

Python脚本模板

python执行hive

#!/usr/bin/env python
# coding=utf-8
# -*- coding=utf-8
import sys
import logging
import json
import datetime
import os

for item in range(66,1,-1):
    today_time = (datetime.datetime.now()+datetime.timedelta(days=-item)).strftime("%Y-%m-%d")
    sql_temp='''
    INSERT OVERWRITE TABLE nlp
    PARTITION(`load_date`='{}')
    select 
       *
    from 
    (
    ) as nlp;
    quit;
    '''.format(today_time)
    hive_command="hive -e " + '\"'+sql_temp+'\"'
    os.popen(hive_command)

调度器突然出问题

【异常解决】DolphinScheduler-2.0.5 工作流实例无法调度和停止异常_北溟小鱼123的博客-CSDN博客

调度器源码编译

dolphinscheduler/docs/docs/en/contribute/development-environment-setup.md at dev · apache/dolphinscheduler · GitHub任务一直正在执行状态解决办法

#找到重复的任务
SELECT code ,version,COUNT(*) cnt  from t_ds_task_definition_log group by code ,version order by cnt desc;
show create table t_ds_task_definition_log
#查找相同code的id,然后删除最后 一个
select id,code from t_ds_task_definition_log where code = '8488618187744';
#删除最后一个，保证唯一
delete from t_ds_task_definition_log where id= '97';

Shorten the command line via JAR manifest or via a classpath file and rerun.

Docker

安装mysql(测试用)

docker run -p 3307:3306 --name mysql1 --restart always  -di -v /root/mysql/mysql.conf.d/:/etc/mysql/mysql.conf.d/ -v /root/mysql/data/:/var/lib/mysql -v /root/mysql/log/:/var/log -e MYSQL_ROOT_PASSWORD=123456z  mysql:5.7

Flink

flinkcdc

配置文件中状态后端配置flink-conf.yaml

execution.checkpointing.interval: 5min
execution.checkpointing.externalized-checkpoint-retention: RETAIN_ON_CANCELLATION
execution.checkpointing.max-concurrent-checkpoints: 2
execution.checkpointing.min-pause: 10000
execution.checkpointing.mode: EXACTLY_ONCE
execution.checkpointing.timeout: 5min
execution.checkpointing.tolerable-failed-checkpoints: 5
execution.checkpointing.unaligned: false
state.backend: rocksdb
state.checkpoints.dir: hdfs://bigdata:8020/flink-checkpoints
state.savepoints.dir: hdfs://bigdata:8020/flink-savepoints
state.backend.incremental: true

Node

nvm list available
https://www.freecodecamp.org/chinese/news/nvm-for-windows-how-to-download-and-install-node-version-manager-in-windows-10/
github仓库下载
https://github.com/coreybutler/nvm-windows#installation--upgrades
安装指定版本的node
nvm install 14.17.0
查看本地机器所有的node
nvm list
使用指定版本的node
nvm use 14.17.0

StreamPark编译

apache-incubator-streampark源码编译本地运行-腾讯云开发者社区-腾讯云

flink写入kafka中文乱码问题

env.java.opts: "-Dfile.encoding=UTF-8"

K8S

nohup ./node_exporter --web.listen-address=:9101 &
https://www.yuque.com/leifengyang/oncloud/ctiwgo
https://www.kubesphere.io/zh/docs/v3.3/installing-on-linux/introduction/multioverview/
https://kubernetes.io/zh-cn/docs/concepts/overview/

#sudo iptables -F
#sudo iptables -X
sudo iptables -t nat -F
sudo iptables -t nat -X
sudo systemctl restart docker

kubesphere和hadoop一块部署的时候不会影响hadoop会影响之前部署的docker应用
#创建k8s集群（生成配置文件）
./kk create config --with-kubernetes v1.23.10 --with-kubesphere v3.3.0
#创建集群
./kk create cluster -f config-sample.yaml
./kk delete cluster -f config-sample.yaml

比较有意思的项目

基于电影知识图谱的智能问答系统（一） -- Mysql数据准备_nosql 问答系统_appleyk的博客-CSDN博客

Demo：基于 Flink SQL 构建流式应用 | Jark's Blog

https://www.cnblogs.com/chanshuyi/category/1862951.html

监控数据可视化 - prometheus-book

Grafana 使用表格面板进行数据可视化-grafana 表格

告警

Grafana alert预警+钉钉通知_grafana钉钉告警_AI强仔的博客-CSDN博客

飞书

如何使用机器人指令

Grafana 连接器

Flink监控

一口气搞懂「Flink Metrics」监控指标和性能优化，全靠这33张图和7千字（建议收藏） - 掘金

你可能感兴趣的:(Hadoop,数据治理,database)

大数据面试系列之——Hadoop 潜心_守道大数据面经面试大数据 Hadoop
Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式：多个主节点，多个
Mysql常用命令长安0511 笔记 1024程序员节
1.数据库管理指令1.1创建数据库CREATEDATABASEdatabase_name[DEFAULTCHARACTERSETcharset_name][DEFAULTCOLLATEcollation_name];功能:创建一个新的数据库。语法参数:database_name:数据库名称，遵循命名规则（如不能包含空格，长度限制等）。DEFAULTCHARACTERSET:可选，指定数据库的默认字
数据治理专业 we19a0sen 大数据
一、数据治理基础1.数据治理概述定义数据治理是组织对数据资产的全生命周期管理过程，通过制定政策、流程和技术手段，确保数据的质量、安全、合规性和有效利用。其核心目标是提升数据价值，支持业务决策，同时降低风险（如数据泄露、合规问题）。重要性•提升数据质量：通过标准化和清洗减少冗余错误，增强数据可信度；•保障数据安全：建立访问控制、加密和审计机制，防范泄露风险；•促进合规性：满足GDPR等法规要求，避免
mysql常用命令 we19a0sen 三数据分析 mysql 数据库
命令概览数据库与表操作：创建/删除数据库、设计表结构、修改表字段等基础操作。数据约束与查询：主键、外键、唯一性约束的设置，以及条件查询、聚合函数、连接查询等分析技巧。用户与权限管理：用户创建、密码修改、权限分配，保障数据库安全性。备份与恢复：逻辑备份（mysqldump）、物理备份（数据文件复制）及增量恢复方案。一、数据库操作查看数据库SHOWDATABASES;--查看当前数据库所有表SHOWC
达梦数据库备份 huazhixuthink 数据库 oracle sql
达梦数据库联机在线备份操作指南一、基础条件与准备开启归档模式‌:联机备份必须处于归档模式下，否则无法执行。需通过disql工具执行以下操作：alterdatabasemount;alterdatabaseARCHIVELOG;例子：[dmdba@server~]$cd/opt/dmdbms/bin[dmdba@serverbin]$./disqlSYSDBA/'"Dameng@123"':5236
Azkaban其一，介绍、体系架构和安装出发行进 #Azkaban Azkaban linux
目录一、简介二、Azkaban的体系结构三、Azkaban的安装步骤1、上传，解压2、生成mysql的元数据3、配置web-server4、配置exec-server5、修改所有的.sh的执行权限一、简介遇到了什么问题才会使用Azkaban?比如：想启动hadoop集群先启动zk集群，再启动hdfs,再启动yarn，再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具
11页PDF | DeepSeek平民化：AI助力数据治理整体方案（附下载） Leo.yuan 大数据人工智能
一、前言这份报告介绍了一种基于人工智能（AI）的智能数据治理整体方案，旨在通过AI的自然语言处理、学习能力、理解与推理能力等技术手段，解决传统数据治理中存在的问题，提升企业数据管理能力和效率。方案以高质量数据资产知识库为基础，结合智能化技术工具箱，针对数据治理中的痛点场景（如文档编写、元数据管理、数据标准、数据质量、数据安全、数据资产盘点等）提供智能化解决方案。通过AI技术的应用，方案能够实现数据
Oracle 数据字典无情白 Oracle oracle 数据库 sql
文章目录定义组成数据字典视图分类动态性能视图定义数据字典指的是描述数据的数据。例如：创建一个表，与表相关的信息，如位于哪个数据文件，有哪些列等等，这些信息都是描述表的，这些信息也存在表中，这些表就是数据字典，数据字典中的数据描述的是整个数据库中的各种信息。组成数据字典由数据字典基本表和数据字典视图组成。数据字典基本表和普通的表没有什么区别，只不过里面存放的是数据字典数据createdatabase
hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构) 用心去追梦 hdfs java 架构
HDFS（HadoopDistributedFileSystem）的高可用性（HA,HighAvailability）机制旨在解决单点故障问题，确保即使在NameNode出现故障的情况下，文件系统仍然可以继续正常工作。在HA配置中，有两个或多个NameNode：一个处于活动状态（Active），另一个作为备用（Standby）。JournalNodes用于同步编辑日志（EditLog），以确保两个
IntelliJ IDEA + Maven环境编写第一个hadoop程序 IT独白者 hadoop hadoop
1.新建IntelliJ下的maven项目点击File->New->Project，在弹出的对话框中选择Maven，JDK选择你自己安装的版本，点击Next2.填写Maven的GroupId和ArtifactId你可以根据自己的项目随便填，点击Next这样就新建好了一个空的项目这里程序名填写WordCount,我们的程序是一个通用的网上的范例,用来计算文件中单词出现的次数3.设置程序的编译版本打开
hadoop 百里自来卷 hadoop 大数据分布式
Hadoop是一个用于分布式存储和处理大规模数据的开源框架，它的架构主要由以下几个核心组件组成：1.Hadoop生态系统核心组件Hadoop的核心架构主要包括HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator），以及MapReduce计算框架：1.1HDFS（分布式文件系统）HDFS负责存储大规模数据，采用主从架构
第一个Hadoop程序 lqlj2233 hadoop 大数据分布式
编写和运行第一个Hadoop程序是学习Hadoop的重要步骤。以下是一个经典的“WordCount”程序示例，它统计文本文件中每个单词出现的次数。我们将使用Java编写MapReduce程序，并在Hadoop集群上运行它。一、WordCount程序概述WordCount是Hadoop的“HelloWorld”程序。它的基本逻辑如下：Mapper：读取输入文件，将每一行文本拆分为单词，并输出每个单词
在虚拟机上安装 Hadoop 全攻略麻芝汤圆 spark大数据分析 hadoop 大数据分布式 windows linux 服务器
在虚拟机上安装Hadoop是进入大数据处理和分析领域的重要一步。以下将详细讲解在常见虚拟机软件（如VMwareWorkstation、VirtualBox）中，于Linux虚拟机系统安装Hadoop的流程与要点。一、前期准备虚拟机软件与系统镜像：确保已正确安装VMwareWorkstation或VirtualBox等虚拟机软件，并且拥有目标操作系统的镜像文件（如UbuntuServerISO、Ce
【mongoDB】mongoDB 用户创建、授权、删除和修改密码 HunterMichaelG mongodb mongodb 数据库 java
1.登录数据库```/path/mongo--host=172.16.218.27--port=27017-uusername-p'XXX'--authenticationDatabase=admin```2.查看admin库表```>useadmin>showtables>showtablessystem.userssystem.version```3.查看各表数据```>db.system.v
Qt中txt文件输出为PDF格式 T风呤 qt pdf
main.cppPdfReportGeneratorpdfReportGenerator;//加载中文字体if(QFontDatabase::addApplicationFont(":/new/prefix1/simsun.ttf")==-1){QMessageBox::warning(nullptr,"警告","无法加载中文字体");}//解析日志文件QVectorentries;if(!pdf
【自学笔记】Hadoop基础知识点总览-持续更新 Long_poem 笔记 hadoop 大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem）HDFS基本命令4.MapReduceWordCount示例（Java）5.YARN（YetAnotherResourceNegotiator）6.其他组件简介总结Hadoop基础知识点总
JDBC数据库连接祈祷平安,加油 Java中级数据库
一、了解JDBC概念JDBC（JavaDatabaseConnectivity）是一种用于执行SQL语句的JavaAPI,是Java和数据库之间的桥梁。它提供了一种标准化的方式来连接不同的数据库驱动程序，并通过Java程序执行SQL操作。组成部分JDBC由一组用Java语言编写的类和接口组成，主要包括以下几个部分：驱动管理：负责加载和注册数据库驱动。Connection接口：用于代表数据库的连接，
Rocky Linux 8.5 6G内存静默模式(没图形界面)安装Oracle 19C 三生暮雨渡瀟瀟 Oracle oracle
Oracle19c下载地址DatabaseSoftwareDownloads|Oraclehttps://www.oracle.com/database/technologies/oracle-database-software-downloads.html#db_ee目录一、准备服务器1、服务器可以克隆、自己装2、修改主机名3、重启4、关闭selinux5、关闭防火墙5.1、关闭防火墙5.2、设
spark hdfs 常用命令毛球饲养员 spark spark hdfs
目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地
常用spark命令会拉小提琴的左脚大数据 spark hadoop hdfs
--spark启动localhost$spark-sql--masteryarn启动主节点yarn模式--查看hdfs文件hdfsdfs-ls/spark/myDatabase.db查看我们建的表其实是是建立在hdfs里面hdfsdfs-du-h/spark/myDatabase.db查看我们的文件大小也就是我们的表的大小要接近最小的block大小如64M或者128M-h是以我们合适的单位去展示大
Spark详解二卢子墨 Spark原理实战总结 spark
八、Spark部署模式1、Local本地模式：运行于本地spark-shell--masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone独立模式：Spark自带的一种集群模式Spark自己管理集群资源，此时只需要将Hadoop的HDFS启动Master节点有master,Slave节点上有worker启动./bin/spark
Spark基本命令 chenworeng5605 大数据 scala shell
一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash./starths.sh浏览器查看：172.16.31.17:8080停止Hadoop以及Sparkbash./stophs.sh三、基础使用参考链接：https://www.cnblogs.com/dasn/arti
Spark是什么？可以用来做什么？ Bugkillers 大数据 spark 大数据分布式
ApacheSpark是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。相比传统的HadoopMapReduce，Spark在速度、易用性和功能多样性上具有显著优势。一、Spark的核心特点速度快：基于内存计算（In-MemoryProcessing），比基于磁盘的MapReduce快10~100倍。支持高效的DAG（有向无
django app中的models迁移问题根治方法 kunkun_1230 django django 数据库
今天想给某个app里添加一张表，但是忽略了主键冲突问题，再想改的时候就一直提示Youaretryingtoaddanon-nullablefield‘id’tosensorconfigalllogwithoutadefault;wecan’tdothat(thedatabaseneedssomethingtopopulateexistingrows).Pleaseselectafix:Provid
mysql数据库中alter_详解MySQL中ALTER命令的使用寒夜剑鸣 mysql数据库中alter
MySQL的ALTER命令是非常有用的，当想改变表的名称，表的字段，或者如果要添加或删除一个现有的表中的列。让我们开始创建一个表名为testalter_tbl的用例：root@host#mysql-uroot-ppassword;Enterpassword:*******mysql>useTUTORIALS;Databasechangedmysql>createtabletestalter_tbl
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
Spark使用Parqute存储方式有什么好处冰火同学 Spark spark
列式存储：压缩效率和查询效率谓词下推存储层：查询数据块生态兼容性高：Spark，hadoop等都兼容
数据库操作命令详解：CREATE、ALTER、DROP 的使用与实践还有几根头发呀数据库 oracle 数据库 sql
引言数据库是存储和管理数据的核心工具，而DDL（DataDefinitionLanguage，数据定义语言）是构建和调整数据库结构的基石。本文将通过实际示例，详细讲解CREATE（创建）、ALTER（修改）、DROP（删除）三大核心命令的使用方法、注意事项及典型场景，帮助开发者高效管理数据库。一、CREATE：创建数据库对象1.创建数据库CREATEDATABASEshop_dbDEFAULTCH
DAMA数据管理知识体系全接触-数据治理-大数据我思故我在6789 运维专栏架构师专栏大数据专栏架构安全
第1章数据管理1.1引言数据管理的定义：是为了交付、控制、保护并提升数据和信息资产的价值，在其整个生命周期中制定计划、制度、规程和实践活动，并执行和监督的过程。数据管理专业人员的定义：是指从事数据管理各方面的工作（从数据全生命周期的技术管理工作，到确保数据的合理利用及发挥作用），并通过其工作1.1.1业务驱动因素数据管理的主要驱动力：使组织能够从其数据资产中获取价值。1.1.2目标1）理解并支撑企
初学者如何用 Python 写第一个爬虫？ ADFVBM 面试学习路线阿里巴巴 python 爬虫开发语言
??欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。??博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

大数据开发常见问题

Linux

磁盘百分之百的问题

Hadoop

元数据损坏问题

高可用

Yarn动态刷新配置

hadoop不能停止的问题

Cannot set priority of 问题

手动切换主节点

Hive on Spark

Mysql最大连接问题

会话不关闭问题，hive on spark运行完以后资源不释放（hue）

空值连接问题

failed to create spark client for spark session(资源不足导致超时)

重建分区

Mysql使用大小写命名的时候Hive读取不到数据的问题

数据加载load

DataX

Mysql

配置用户远程登录

Screen

Kafka

kafka启动访问hostname问题

详解地址

Kafka事务问题

Maxwell

mysql如果不是为full的话，那么修改的update的old就没有数据

binlog中断的问题

java.net.UnknownHostException: doris2

Doris

有大量内存但是不能够全部利用的问题

简单排错

优化

在线表结构变更例子

配合flink

Doris创建物化视图报错以后的处理办法

创建动态分区的简单模板

优秀案例

配置Fe的JVM

小文件过多场景

JDBC Catalog的使用

HDFS

Hdfs扩容

Hdfs数据磁盘满以后处理

方法一

方法二

实战

IDEA

源码无法下载问题

相关本地调试链接

Flink

提交任务

Flink CDC

Flink整合StreamPark相关配置

Python脚本模板

python执行hive

调度器突然出问题

调度器源码编译

dolphinscheduler/docs/docs/en/contribute/development-environment-setup.md at dev · apache/dolphinscheduler · GitHub任务一直正在执行状态解决办法

Shorten the command line via JAR manifest or via a classpath file and rerun.

Docker

安装mysql(测试用)

Flink

flinkcdc

Node

StreamPark编译

flink写入kafka中文乱码问题

K8S

比较有意思的项目

你可能感兴趣的:(Hadoop,数据治理,database)