MSJ3917

Spark Core基础知识

一.RDD的基本介绍

1.什么是RDD

RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可分区,里面的元素可并行计算的集合.

Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区

Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算

Dataset数据集:一个用于存放数据的集合

2.RDD的五大特性

①RDD是由一系列分区组成的(必须的)

②对RDD做计算,相当于对RDD的每个分区做计算(必须的)

③RDD之间存在着依赖关系,宽依赖和窄依赖(必须的)

④对于KV类型的RDD,我们可以进行自定义分区方案(可选的)

⑤移动数据不如移动计算,让计算程序离数据越近越好(可选的)

3.RDD的五大特点

①分区:RDD逻辑上是分区的,仅仅是定义分区的规则,并不是直接对数据进行分区操作,因为RDD本身不存储数据.

②只读:RDD是只读的,要想改变RDD中的数据,只能在现有的RDD基础上创建新的RDD

③依赖:RDD之间存在依赖关系,宽依赖和窄依赖

④缓存:如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据.

⑤checkpoint:与缓存类似,都是将中间一个RDD结果保存起来,只不过checkpoint支持持久化保存

二.如何构建RDD

构建RDD对象的方式主要有两种:

1).通过textFile(data):通过读取外部文件的方式来初始化RDD对象,实际工作中经常使用.

2).通过parallelize(data):通过自定义列表的方式来初始化RDD对象,一般用于测试.

1.并行化本地集合方式

from pyspark import SparkConf, SparkContext
import os

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("并行化本地集合创建RDD")

    # 1- 创建SparkContext对象
    conf = SparkConf().setAppName('parallelize_rdd').setMaster('local[1]')
    sc = SparkContext(conf=conf)

    # 2- 数据输入
    # 并行化本地集合得到RDD
    init_rdd = sc.parallelize([1,2,3,4,5], numSlices=6)

    # 3- 数据处理
    # 4- 数据输出
    # 获取分区数
    print(init_rdd.getNumPartitions())

    # 获取具体分区内容
    print(init_rdd.glom().collect())


    # 5- 释放资源
    sc.stop()

2.读取外部数据源方式

TextFile API的方式实现:

from pyspark import SparkConf, SparkContext
import os

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("读取文件创建RDD")

    # 1- 创建SparkContext对象
    conf = SparkConf().setAppName('textfile_rdd').setMaster('local[1]')
    sc = SparkContext(conf=conf)

    # 2- 数据输入
    # 读取文件得到RDD
    init_rdd = sc.textFile("file:///export/data/gz16_pyspark/01_spark_core/data/content.txt",minPartitions=4)

    # 3- 数据处理
    # 4- 数据输出
    # 获取分区数
    print(init_rdd.getNumPartitions())

    # 获取具体分区内容
    print(init_rdd.glom().collect())

    # 5- 释放资源
    sc.stop()

通过读取外部数据源的方式构建RDD,其对应分区数量如何确定的:

到底有多少个分区,一切以getNumPartitions结果为准

1-分区数据量,当调大local[num]中的num的值时候,不生效;调小的时候生效

2-可以在textFile算子中设置另外一个参数minPartitions,该参数用来设置RDD的最小分区数,因此最终的分区数量是>=minPartitions

3.处理小文件的操作

常规处理文件的办法:

1-大数据框架提供的现有的工具或者命令

1.1- hadoop fs -getmerge /input/small_files/*.txt /output/merged_file.txt
1.2- hadoop archive -archiveName myhar.har -p /small_files /big_files

2-可以通过编写自定义的代码,将小文件取进来,在代码中输出的时候,输出形成大的文件.

from pyspark import SparkConf, SparkContext
import os

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("读取小文件创建RDD")

    # 1- 创建SparkContext对象
    conf = SparkConf().setAppName('wholetextfile_rdd').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # 2- 数据输入
    # 读取文件得到RDD
    """
        [
            [
                ('file:/export/data/gz16_pyspark/01_spark_core/data/content.txt', 'hello hello spark\r\nhello heima spark'), 
                ('file:/export/data/gz16_pyspark/01_spark_core/data/content1.txt', 'hello hello spark\r\nhello heima spark'), 
                ('file:/export/data/gz16_pyspark/01_spark_core/data/content2.txt', 'hello hello spark\r\nhello heima spark')
            ], 
            [
                ('file:/export/data/gz16_pyspark/01_spark_core/data/content3.txt', 'hello hello spark\r\nhello heima spark'), 
                ('file:/export/data/gz16_pyspark/01_spark_core/data/content4.txt', 'hello hello spark\r\nhello heima spark')
            ]
        ]
    """
    # init_rdd = sc.wholeTextFiles("file:///export/data/gz16_pyspark/01_spark_core/data")

    init_rdd = sc.wholeTextFiles("file:///export/data/gz16_pyspark/01_spark_core/data",minPartitions=7)

    # 3- 数据处理
    # 4- 数据输出
    # 获取分区数
    print(init_rdd.getNumPartitions())

    # 获取具体分区内容
    print(init_rdd.glom().collect())

    # 5- 释放资源
    sc.stop()

wholeTextFiles:读取小文件

1-支持本地文件系统和HDFS文件系统.参数minPartitions指定最小的分区数

2-通过该方式读取文件,会尽可能使用少的分区数,可能会将多个小文件的数据放到同一个分区中进行处理

3-一个文件要完整的存放在一个元组中,也就是不能将一个文件分成多个进行读取,文件是不可分割的.

4-RDD分区数量既受到minPartitions参数的影响,同时受到小文件个数的影响

4.RDD分区数量如何确定

1-RDD的分区数量,一般设置为机器CPU核数的2-3倍,为了充分利用服务器的硬件资源

2-RDD的分区数据量受到多个因素的影响.例如:机器CPU的核数,调用的算子,算子中参数的设置,集群的类型等.RDD具体有多少个分区,直接通过getNumPartitions查看

3-当初始化SparkContext对象的时候,其实就确定了一个参数spark.default.parallelism,默认为CPU的核数.如果是本地集群,就取决于local[num]中设置的数字大小,如果是集群,默认至少有2个分区

4-通过parallelize来构建RDD,如果没有指定分区数,默认就取spark.default.parallelism参数值;如果指定了分区数,也就是numSlices参数,那么numSlices的优先级会更高一些,最终RDD的分区数取该参数的值

5-通过textFile来构建RDD

5.1首先确认defaultMinPartition参数的值,该参数的值,如果没有指定textFile的minPartition参数,那么就根据公式min(spark.default.parallelism,2);如果有指定textFile的minPartition参数,那么就取设置的值.

5.2再根据读取文件所在的文件系统的不同,来决定最终RDD的分区数:

5.2.1-本地文件系统:RDD分区数 = max(本地文件分片数,defaultMinPartition)

5.2.2-HDFS文件系统:RDD分区数 = max(文件block块的数量,defaultMinPartition)

三.RDD的相关算子

1.RDD算子的分类

整个RDD算子,共分为两大类:

Transformation(转换算子):

返回值:是一个新的RDD

特点:转换算子只是定义数据的处理规则,并不会立即执行,是lazy(惰性)的,需要由Action算子触发.

Action(动作算子):

返回值:要么没有返回值None,或者返回非RDD类型的数据

特点:动作算子都是立即执行,执行的时候,会将它上游的其他算子一同触发执行

2.RDD的转换算子

2.1单值类型算子

map算子:map(fn)

作用:主要根据传入的函数,对数据进行一对一的转换操作,传入一行,返回一行

输入: init_rdd = sc.parallelize([0,1,2,3,4,5,6,7,8,9])
需求: 数字加一后返回
代码: init_rdd.map(lambda num:num+1).collect()
结果: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

groupBy算子:groupBy(fn)

作用:根据用户传入的自定义函数,对数据进行分组操作

输入: init_rdd = sc.parallelize([0,1,2,3,4,5,6,7,8,9])
需求: 将数据分成奇数和偶数
代码: init_rdd.groupBy(lambda num:"偶数" if num%2==0 else "奇数").mapValues(list).collect()
结果: [('偶数', [0, 2, 4, 6, 8]), ('奇数', [1, 3, 5, 7, 9])]
总结: mapValues(list)将数据类型转成List列表

filter算子:filter(fn)

说明:根据用户传入的自定义函数对数据进行过滤操作,自定义函数的返回值是bool类型,True表示满足过滤条件,会将数据保留下来;False会将数据丢弃掉.

输入: init_rdd = sc.parallelize([0,1,2,3,4,5,6,7,8,9])
需求: 过滤掉数值<=3的数据
代码: init_rdd.filter(lambda num:num>3).collect()
结果: [4, 5, 6, 7, 8, 9]

flatMap算子:flatMap(fn)

说明:在map算子的基础上,加入一个压扁的操作,主要适用于一行中包含多个内容的操作,实现一转多的操作.

输入: init_rdd = sc.parallelize(['张三李四王五','赵六周日'])
需求: 将姓名一个一个的输出
代码: init_rdd.flatMap(lambda line:line.split()).collect()
结果: ['张三', '李四', '王五', '赵六', '周日']
说明: split()默认会按照空白字符对内容进行切分处理。例如：空格、制表符、回车。还是推荐大家明确指定你所需要分割的符号。
https://www.runoob.com/python3/python3-tutorial.html

2.2 双值类型算子

union(并集)和intersection(交集)

格式:rdd1.union(rdd2)

输入: rdd1 = sc.parallelize([3,3,2,6,8,0])
rdd2 = sc.parallelize([3,2,1,5,7])

并集: rdd1.union(rdd2).collect()
结果: [3, 3, 2, 6, 8, 0, 3, 2, 1, 5, 7]
说明: union取并集不会对重复出现的数据去重

对并集的结果进行去重: rdd1.union(rdd2).distinct().collect()
结果: [8, 0, 1, 5, 2, 6, 3, 7]
说明: distinct()是转换算子，用来对RDD中的元素进行去重处理

交集: rdd1.intersection(rdd2).collect()
结果: [2, 3]
说明: 交集会对结果数据进行去重处理

2.3 key-value数据类型算子

groupByKey()

作用:对键值对类型的RDD中的元素按照键key进行分组操作,只会进行分组

输入: rdd = sc.parallelize([('c01','张三'),('c02','李四'),('c02','王五'),('c01','赵六'),('c03','田七'),('c03','周八'),('c02','李九')])
需求: 对学生按照班级分组统计
代码: rdd.groupByKey().mapValues(list).collect()
结果: [('c01', ['张三', '赵六']), ('c02', ['李四', '王五', '李九']), ('c03', ['田七', '周八'])]

reduceByKey

作用:根据key进行分组,将一个组内的value数据放置到一个列表中,对这个列表基于fn进行聚合计算操作

输入: rdd = sc.parallelize([('c01','张三'),('c02','李四'),('c02','王五'),('c01','赵六'),('c03','田七'),('c03','周八'),('c02','李九')])
需求: 统计每个班级学生人数
代码: rdd.map(lambda tup:(tup[0],1)).reduceByKey(lambda agg,curr:agg+curr).collect()
结果: [('c01', 2), ('c02', 3), ('c03', 2)]

sortByKey()

作用:根据key进行排序操作,默认按照key进行升序排序,如果需要降序,设置ascending参数的值为False

输入: rdd = sc.parallelize([(10,2),(15,3),(8,4),(7,4),(2,4),(12,4)])
需求: 根据key进行排序操作，演示升序
代码: rdd.sortByKey().collect()
结果: [(2, 4), (7, 4), (8, 4), (10, 2), (12, 4), (15, 3)]

需求: 根据key进行排序操作，演示降序
代码: rdd.sortByKey(ascending=False).collect()
结果: [(15, 3), (12, 4), (10, 2), (8, 4), (7, 4), (2, 4)]

输入: rdd = sc.parallelize([('a01',2),('A01',3),('a011',2),('a03',2),('a021',2),('a04',2)])
需求: 根据key进行排序操作，演示升序
代码: rdd.sortByKey().collect()
结果: [('A01', 3), ('a01', 2), ('a011', 2), ('a021', 2), ('a03', 2), ('a04', 2)]
总结: 对字符串类型的key进行排序的时候，按照ASCII码表进行排序。大写字母排在小写字母的前面；如果前缀一样，短的排在前面，长的排在后面。https://tool.ip138.com/ascii_code/

3.RDD的动作算子

collect() 算子:

作用:收集各个分区的数据,将数据汇总到一个大的列表返回

reduce()算子:

作用:根据用户传入的自定义函数,对数据进行聚合操作,该算子是Action动作算子;而reduceByKey是Transformation转换算子

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 统计所有元素之和是多少
代码:
def mysum(agg,curr):
print(f"中间临时聚合结果{agg}，当前遍历到的元素{curr}")
return agg+curr

rdd.reduce(mysum)

rdd.reduce(lambda agg,curr:agg+curr)
结果:
中间临时聚合结果6，当前遍历到的元素7
中间临时聚合结果13，当前遍历到的元素8
中间临时聚合结果21，当前遍历到的元素9
中间临时聚合结果30，当前遍历到的元素10
中间临时聚合结果1，当前遍历到的元素2
中间临时聚合结果3，当前遍历到的元素3
中间临时聚合结果6，当前遍历到的元素4
中间临时聚合结果10，当前遍历到的元素5
中间临时聚合结果15，当前遍历到的元素40
55

说明: 初始化的时候，agg，表示中间临时聚合结果，默认取列表中的第一个元素值，curr表示当前遍历到的元素，默认取列表中的第二个元素的值。

first()算子:

作用:取RDD中的第一个元素,不会对RDD中的数据排序

输入: rdd = sc.parallelize([3,1,2,4,5,6,7,8,9,10])
需求: 获取第一个元素
代码: rdd.first()
结果: 3

take()算子

说明:取RDD中的前N元素,不会对RDD中的数据排序

输入: rdd = sc.parallelize([3,1,2,4,5,6,7,8,9,10])
需求: 获取前3个元素
代码: rdd.take(3)
结果: [3, 1, 2]
说明: 返回结果是List列表。必须要传递参数N，而且不能是负数。

top()算子:

作用:对数据集进行倒序排序操作,如果kv键值对类型,针对key进行排序,获取前N个元素.

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 获取前3个元素
代码: rdd.top(3)
结果: [10, 9, 8]

输入: rdd = sc.parallelize([('c01',5),('c02',8),('c04',1),('c03',4)])
需求: 按照班级人数降序排序，取前2个
代码: rdd.top(2,key=lambda tup:tup[1])
结果: [('c02', 8), ('c01', 5)]

需求: 按照班级人数升序排序，取前2个
代码: rdd.top(2,key=lambda tup:-tup[1])
结果: [('c04', 1), ('c03', 4)]

count()算子:

作用:统计RDD一共有多少个元素

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 获取一共有多少个元素
代码: rdd.count()
结果: 10

foreach()算子:

作用:遍历RDD的元素,对元素根据传入的函数进行自定义的处理

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])
需求: 对数据进行遍历打印
代码: rdd.foreach(lambda num:print(num))
结果:
6
7
8
9
10
1
2
3
4
5
说明:
   1- foreach()算子对自定义函数不要求有返回值，另外该算子也没有返回值
   2- 因为底层是多线程运行的，因此输出结果分区间可能是乱序
   3- 该算子，一般用来对结果数据保存到数据库或者文件中

4.RDD的重要算子

4.1基本算子

4.2分区算子

分区算子:针对整个分区数据进行处理的算子

mapPartition和foreachPartition

作用:map和foreach算子都有对应的分区算子,分区算子适用于有反复消耗资源的操作,例如:文件的打开和关闭,数据库的连接和关闭等,能够减少操作的次数

4.3 重分区算子

重分区算子:对RDD的分区重新进行分区操作的算子,也就是改变RDD分区数的算子.

repartition算子

作用:改变RDD分区数,既能够增大RDD分区数,也能够减小RDD分区数,但是都会导致Shuffle过程.

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10],3)
查看分区情况: rdd.glom().collect()
结果: [[1, 2, 3], [4, 5, 6], [7, 8, 9, 10]]

增大分区: rdd.repartition(5).glom().collect()
结果: [[], [1, 2, 3], [7, 8, 9, 10], [4, 5, 6], []]

减少分区: rdd.repartition(2).glom().collect()
结果: [[1, 2, 3, 7, 8, 9, 10], [4, 5, 6]]

coalesce算子

格式:coalesce(num,shuffle=True|False)

作用:改变RDD分区数,但是,默认只能减小RDD分区数,不能增大,减小过程中不会发生Shuffle过程,如果想增大分区,需要将参数shuffle设置为True,但是会导致Shuffle过程.

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10],3)
查看分区情况: rdd.glom().collect()
结果: [[1, 2, 3], [4, 5, 6], [7, 8, 9, 10]]

减少分区: rdd.coalesce(2).glom().collect()
结果: [[1, 2, 3], [4, 5, 6, 7, 8, 9, 10]]

增大分区: rdd.coalesce(5).glom().collect()
结果: [[1, 2, 3], [4, 5, 6], [7, 8, 9, 10]]

将参数2设置为True，再增大分区: rdd.coalesce(5,shuffle=True).glom().collect()
结果: [[], [1, 2, 3], [7, 8, 9, 10], [4, 5, 6], []]

将参数2设置为True，再减小分区: rdd.coalesce(2,shuffle=True).glom().collect()
结果: [[1, 2, 3, 7, 8, 9, 10], [4, 5, 6]]

repartition 和 coalesce总结：

1- 这两个算子都是用来改变RDD的分区数

2- repartition 既能够增大RDD分区数，也能够减小RDD分区数。但是都会导致发生Shuffle过程。

3- coalesce默认只能减小RDD分区数，不能增大，减小过程中不会发生Shuffle过程。如果想增大分区，需要将参数shuffle设置为True，但是会导致Shuffle过程。

4- repartition 底层实际上是调用了coalesce算子，并且将shuffle参数设置为了True

partitionBy算子

作用:该算子主要是用来改变key-value键值对数据类型RDD的分区数的,num表示要设置的分区数,fn参数是可选,用来让用户自定义分区规则

注意：

默认情况下，根据key进行Hash取模分区。如果对默认分区规则不满意，可以传递参数fn来自定义分区规则。但是自定义分区规则函数需要满足两个条件，条件一：分区编号的数据类型需要是int类型；条件二：传递给自定义分区函数的参数是key

输入: rdd = sc.parallelize([(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,7),(8,8),(9,9),(10,10)],5)
查看分区情况: rdd.glom().collect()
结果: [[(1, 1), (2, 2)], [(3, 3), (4, 4)], [(5, 5), (6, 6)], [(7, 7), (8, 8)], [(9, 9), (10, 10)]]

需求: 增大分区，尝试分为20个分区
代码: rdd.partitionBy(20).glom().collect()
结果: [[], [(1, 1)], [(2, 2)], [(3, 3)], [(4, 4)], [(5, 5)], [(6, 6)], [(7, 7)], [(8, 8)], [(9, 9)], [(10, 10)], [], [], [], [], [], [], [], [], []]

需求: 减少分区，尝试分为2个分区
代码: rdd.partitionBy(2).glom().collect()
结果: [[(2, 2), (4, 4), (6, 6), (8, 8), (10, 10)], [(1, 1), (3, 3), (5, 5), (7, 7), (9, 9)]]

需求: 将 key>5 放置在一个分区，剩余放置到另一个分区
代码: rdd.partitionBy(2,partitionFunc=lambda key:0 if key>5 else 1).glom().collect()
结果: [[(6, 6), (7, 7), (8, 8), (9, 9), (10, 10)], [(1, 1), (2, 2), (3, 3), (4, 4), (5, 5)]]
注意: 分区编号的数据类型需要是int类型

4.4 聚合算子

单值类型的聚合算子

reduce(fn1):根据传入函数对数据进行聚合处理

fold(defaultAgg,fn1):根据传入函数对数据进行聚合处理,同时支持给agg设置初始值

aggregate(defaultAgg,fn1,fn2): 根据传入函数对数据进行聚合处理。defaultAgg设置agg的初始值，fn1对各个分区内的数据进行聚合计算，fn2 负责将各个分区的聚合结果进行汇总聚合

输入: rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10],3)
查看分区情况: rdd.glom().collect()
结果: [[1, 2, 3], [4, 5, 6], [7, 8, 9, 10]]
需求: 求和计算, 求所有数据之和

================================reduce================================
代码:
def my_sum(agg,curr):
   return agg+curr

rdd.reduce(my_sum)
结果: 55

================================fold================================
代码:
def my_sum(agg,curr):
   return agg+curr

rdd.fold(5,my_sum)
结果: 75

================================aggregate================================
代码:
def my_sum_1(agg,curr):
   return agg+curr

def my_sum_2(agg,curr):
   return agg+curr

rdd.aggregate(5,my_sum_1,my_sum_2)
结果: 75

总结：

reduce、fold、aggregate算子都能实现聚合操作。reduce的底层是fold，fold底层是aggregate。

在工作中，如果能够通过reduce实现的，就优先选择reduce；否则选择fold，实在不行就选择aggregate

KV类型的聚合函数:reduceByKey,foldByKey,aggregateByKey

以上三个与单值是一样的,只是在单值的基础上加了分组的操作而已,针对每个分组内的数据进行聚合而已,另外的groupByKey()仅分组,不聚合统计

问题:groupByKey()+聚合操作和reduceByKey()都可以完成分组聚合统计,谁的效率更高一些?

reduceByKey(),因为底层会进行局部的聚合操作,会减小后续处理的数据量.

reduceByKey:

groupByKey:

4.5关联算子

关联函数,主要是针对kv类型的数据,根据key进行关联操作

你可能感兴趣的:(spark,大数据,分布式)

Flink Cdc TiDB详解 24k小善 flink 大数据 java
1.什么是FlinkTiDBCDC？简单说就是用Flink实时抓取TiDB数据库的数据变化（比如新增、修改、删除），并将这些变化数据以流的形式处理，用于实时分析、同步到其他系统等场景。TiDB本身是分布式数据库，而Flink是流处理引擎，两者的结合适合需要高吞吐、低延迟的大规模数据处理场景[7][8]。2.底层原理TiDB侧：通过TiCDC组件（TiDB的变更数据捕获工具）捕获数据变更，类似MyS
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
【现代后端架构演进：微服务设计与云原生】蝉叫醒了夏天架构云原生微服务
现代后端架构演进：微服务设计与云原生一、架构演进历程1.单体架构到分布式系统单体架构瓶颈典型问题：代码耦合（代码行超百万级）、扩展困难（垂直扩容成本>105>10^5>105美元/节点）、技术栈固化故障扩散：数据库连接池耗尽导致全站瘫痪SOA（面向服务架构）引入ESB（企业服务总线），服务间通信延迟增加30-50ms典型案例：电信计费系统（服务拆分粒度以模块为单位）2.微服务革命（2014-）核心
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
OpenHarmony 开源硬件学习全指南：从入门到实战琢磨先生David 开源 harmonyos
OpenHarmony开源硬件学习全指南：从入门到实战随着万物互联时代的到来，OpenHarmony作为面向全场景的开源分布式操作系统，正逐步成为智能硬件开发的重要技术底座。本文将系统性地解析OpenHarmony开源硬件的学习路径、开发工具链及行业实践方案，为开发者提供从环境搭建到项目落地的完整指引。一、构建开发环境：混合平台的智慧选择OpenHarmony采用Windows与Linux混合开发
【RabbitMQ】超详细Windows系统下RabbitMQ的安装配置 m0_74825074 面试学习路线阿里巴巴 rabbitmq windows 分布式
RabbitMQ是一个开源的消息队列中间件，广泛用于分布式系统中的异步消息传递。它支持多种消息协议，易于扩展，功能强大。本文将详细介绍如何在Windows系统下安装和配置RabbitMQ，包括所需的依赖项、安装步骤、基本配置和常见问题解决方案。目录什么是RabbitMQ？安装前的准备2.1系统要求2.2安装ErlangRabbitMQ的安装步骤3.1下载RabbitMQ3.2安装RabbitMQ配
将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
dubbo服务META-INF.dubbo文件夹作用 zhglhy dubbo java apache
META-INF.dubbo文件夹是ApacheDubbo框架中的一个重要目录，通常用于存放Dubbo的SPI（ServiceProviderInterface）扩展配置文件。Dubbo是一个高性能的JavaRPC框架，支持分布式服务治理，而SPI机制是Dubbo实现可扩展性的核心设计之一。1.SPI机制简介SPI是Java提供的一种服务发现机制，允许框架在运行时动态加载实现类。Dubbo对其进行
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
Q&A：备份产品的存储架构采用集中式和分布式的优劣？云祺vinchin 技术分享架构分布式网络运维大数据
分布式和集中式各有优劣，且这两者下面的存储类型也都不尽相同，从备份与恢复的数据层面来看，这两者存储相结合才是优解。众所周知，备份数据只存一份还只放在一个存储里是不现实的。假设把备份数据访问频率、生命周期等参数分为三个等级（热、温、冷）。很显然，以分布式存储的优点用来存放热备份数据是非常合适的，能满足大规模数据在备份与恢复时的高吞吐需求，同时也能提供并行计算的能力，提供高效的目标端数据压缩和数据重删
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
使用Spring Boot实现分布式任务调度 weixin_836869520 spring boot 分布式后端
使用SpringBoot实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！一、SpringBoot与分布式任务调度概述在分布式系统中，任务调度是一项关键的技术，它能够有效地管理和调度系统中的各种任务，确保任务能够按时执行并具有高可用性和可靠性。SpringBoot作为Java领域流行的开发框架，提供了多种实现分布式任务调度的解决方案。二、SpringB
在Spring Boot中实现分布式任务调度微赚淘客系统开发者 spring boot 分布式后端
在SpringBoot中实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！使用SpringBoot与Quartz实现分布式任务调度1.引入依赖在SpringBoot项目中，首先需要引入Quartz和相关依赖：org.springframework.bootspring-boot-starter-quartz2.配置Quartz在SpringBoot的配
基于 Redis 的分布式锁实现与优化 Blossom.118 分布式系统与高性能计算领域 redis 分布式数据库 python3.11 算法数据结构推荐算法
在分布式系统中，锁机制是保障数据一致性和并发控制的关键技术之一。Redis作为一种高性能的内存数据库，常被用于实现分布式锁。本文将详细介绍基于Redis的分布式锁的实现原理、代码示例以及优化策略，帮助读者更好地理解和应用这一技术。一、分布式锁的概念与需求在单机系统中，锁的实现相对简单，可以通过操作系统的同步机制或编程语言提供的锁机制来完成。然而，在分布式系统中，多个进程或线程可能运行在不同的机器上
在Spring Boot中集成分布式任务调度微赚淘客机器人开发者联盟@聚娃科技 spring boot 分布式后端
在SpringBoot中集成分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！1.引言分布式任务调度是现代企业应用中常见的需求，特别是在微服务架构中，不同服务可能需要定时执行任务、定时触发某些业务逻辑或者周期性地处理数据。SpringBoot提供了多种方式来实现分布式任务调度，包括使用Quartz、Spring自带的任务调度以及集成第三方调度中心等。2.使
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
深入解析 Redis 实现分布式锁的最佳实践煜bart 机器人 redis python
前言在分布式系统中，多个进程或线程可能会同时访问同一个共享资源，这就可能导致数据不一致的问题。为了保证数据的一致性，我们通常需要使用分布式锁。Redis作为高性能的内存数据库，提供了一种简单高效的方式来实现分布式锁。本文将深入探讨如何使用Redis来实现分布式锁，并介绍一些优化技巧和最佳实践。---一、为什么需要分布式锁？在单机环境下，我们可以使用synchronized、Lock等方式来控制并发
基于Spring Boot的分布式任务调度实践 Blossom.118 分布式系统与高性能计算领域 wpf spring boot java 后端分布式 spring 开发语言
在现代的分布式系统中，任务调度是一个常见的需求。无论是定时任务的执行，还是根据业务逻辑动态触发的任务，都需要一个高效、可靠的调度框架来管理。SpringBoot作为目前最流行的Java开发框架之一，提供了强大的依赖管理和快速开发的能力，结合分布式任务调度框架，可以极大地提升开发效率和系统的可维护性。本文将介绍如何基于SpringBoot实现一个分布式任务调度系统，主要涉及Elastic-Job框架
鸿蒙开发工程师简历项目撰写全攻略谢道韫689 鸿蒙随笔 harmonyos 华为
一、项目结构的黄金法则建议采用「4+1」结构：项目背景（业务价值）+技术架构（鸿蒙特性）+核心实现（技术难点）+个人贡献（量化成果）+附加价值（延伸影响）二、鸿蒙特色技术点提炼技巧鸿蒙核心技术技术维度具体实现案例量化成果示例分布式软总线自定义协议实现家电设备低功耗连接连接成功率从89%提升至97%ArkUI框架基于TS扩展实现动态UI模板引擎开发效率提升40%，代码量减少60%原子化服务实现天气服
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc