Nickxyoung

PostgreSQL中的WAL保留策略

一、背景描述

在PostgreSQL中，我们熟知对于wal日志的保留，有wal_keep_segments这个参数去配置。当主库日志刷新比较快时，我们一般会将其调整为一个比较大的值，来保证从库稳定地进行流复制。

但有时，我们会发现主库保留的日志远远大于这个参数配置，甚至会出现日志暴增，存在写满磁盘的风险。

这就涉及到了另外一个机制–复制槽，从官方文档描述来看复制槽提供了一种自动化的方法来确保主库在所有的从库收到 WAL 段之前不会移除它们。因此wal_keep_segments参数和复制槽之间肯定存在着某种关系，来确定日志保留数量。

二、原理解析

1.场景制造

以我自己制造的场景为例来探究其中的原理，
wal_keep_segments设置为16，主库创建一个复制槽standby_repl_slot给从库使用，进行流复制。

主从正常连接的情况下，停止从库；在主库进行批量dml操作，可以观察到主库保留的wal越来越多，目前已经保留179个，并还在增加中。

[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll  00000001*| wc -l
179
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll  00000001*| head -5
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000F8
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000F9
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000FA
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 0000000100000000000000FB
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 0000000100000000000000FC
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$

查看复制槽信息如下：
复制槽目前是非活跃状态

psql (11.5)
Type "help" for help.

postgres=# select * from pg_replication_slots ;
     slot_name     | plugin | slot_type | datoid | database | temporary | active | active_pid | xmin | catalog_xmin | restart_lsn | confirmed_flush_lsn
-------------------+--------+-----------+--------+----------+-----------+--------+------------+------+--------------+-------------+------------------

 standby_repl_slot |        | physical  |        |          | f         | f      |            |      |              | 0/F8000140  |
(1 row)

postgres=#

2.代码走读

wal的保留策略是由checkpointer进程来执行的，在CreateCheckPoint或者CreateRestartPoint时，会计算需要从什么位置开始保留，然后对之前的日志进行Recycle和remove。

以CreateCheckPoint为例：
在创建检查点时，KeepLogSeg函数会计算需要保留的日志段，RemoveOldXlogFiles将不需要保留的都处理掉。

void
CreateCheckPoint(int flags)
{
	bool		shutdown;
	CheckPoint	checkPoint;
	XLogRecPtr	recptr;
	XLogSegNo	_logSegNo;
	XLogCtlInsert *Insert = &XLogCtl->Insert;
	uint32		freespace;
	XLogRecPtr	PriorRedoPtr;
	XLogRecPtr	curInsert;
	XLogRecPtr	last_important_lsn;
	VirtualTransactionId *vxids;
	int			nvxids;
	/*省略部分代码*/
	recptr = XLogInsert(RM_XLOG_ID,
						shutdown ? XLOG_CHECKPOINT_SHUTDOWN :
						XLOG_CHECKPOINT_ONLINE);

	XLogFlush(recptr);
	/*省略部分代码*/
	/*
	 * Update the average distance between checkpoints if the prior checkpoint
	 * exists.
	 */
	 /* 估算两次checkpoint的偏移量 */
	if (PriorRedoPtr != InvalidXLogRecPtr)
		UpdateCheckPointDistanceEstimate(RedoRecPtr - PriorRedoPtr);

	/*
	/*
	 * Delete old log files, those no longer needed for last checkpoint to
	 * prevent the disk holding the xlog from growing full.
	 */
	XLByteToSeg(RedoRecPtr, _logSegNo, wal_segment_size);
	/*计算出需要保留的wal序列号*/
	KeepLogSeg(recptr, &_logSegNo);
	/*将序列号减一，也就是上一个wal日志，从这个日志及之前所有的都已经不需要*/
	_logSegNo--;
	/*回收或清理不需要的日志 */
	RemoveOldXlogFiles(_logSegNo, RedoRecPtr, recptr);
	
	/*省略部分代码*/
}

来看保留日志的计算过程：
通过两种策略，分别计算出需要保留的wal序列号，选择其中更小者

static void
KeepLogSeg(XLogRecPtr recptr, XLogSegNo *logSegNo)
{
	XLogSegNo	segno;
	XLogRecPtr	keep;
	/*segno是wal日志序列号，recptr是本次checkpoint的record，wal_segment_size为16MB*/
	/*XLByteToSeg计算出本次checkpoint flush的wal日志，一般是最新的wal日志*/
	XLByteToSeg(recptr, segno, wal_segment_size);
	/*这里的keep获取的是复制槽目前保存的LSN位点信息*/
	/*即 XLogCtl->replicationSlotMinLSN */
	keep = XLogGetReplicationSlotMinimumLSN();
    
    /*这里是通过策略1--wal_keep_segments，计算需要保留的wal序列号*/
	/* compute limit for wal_keep_segments first */
	if (wal_keep_segments > 0)
	{
		/* avoid underflow, don't go below 1 */
		if (segno <= wal_keep_segments)
			segno = 1;
		else
			/*需要保留的wal序列号= 当前最新wal序列号 - 16 */
			segno = segno - wal_keep_segments;
	}
    /*这里是通过策略二--复制槽，计算需要保留的wal序列号*/
	/* then check whether slots limit removal further */
	/* 在使用复制槽的情况下，才会考虑这种策略 */
	if (max_replication_slots > 0 && keep != InvalidXLogRecPtr)
	{
		XLogSegNo	slotSegNo;
        /*这里通过之前获取到的复制槽位点信息keep，计算出对应的wal序列号slotSegNo*/
		XLByteToSeg(keep, slotSegNo, wal_segment_size);

		if (slotSegNo <= 0)
			segno = 1;
		/*这里就是两种策略计算出的wal序列号进行比较，选择小值，也就是更早的wal日志*/
		else if (slotSegNo < segno)
			segno = slotSegNo;
	}
    /*当计算的wal序列号，小于本次checkpoint.redo记录时，将其赋值给logSegNo*/
	/* don't delete WAL segments newer than the calculated segment */
	if (segno < *logSegNo)
		*logSegNo = segno;
}

再来看清理日志的逻辑：

static void
RemoveOldXlogFiles(XLogSegNo segno, XLogRecPtr RedoRecPtr, XLogRecPtr endptr)
{
	DIR		   *xldir;
	struct dirent *xlde;
	char		lastoff[MAXFNAMELEN];

	/*
	 * Construct a filename of the last segment to be kept. The timeline ID
	 * doesn't matter, we ignore that in the comparison. (During recovery,
	 * ThisTimeLineID isn't set, so we can't use that.)
	 */
	/*根据wal序列号，计算wal文件名 ，这里把它描述为回收点*/
	XLogFileName(lastoff, 0, segno, wal_segment_size);

	elog(DEBUG2, "attempting to remove WAL segments older than log file %s",		 lastoff);

	xldir = AllocateDir(XLOGDIR);
	/*循环遍历pg_wal目录下的所有日志*/
	while ((xlde = ReadDir(xldir, XLOGDIR)) != NULL)
	{
		/* Ignore files that are not XLOG segments */
		if (!IsXLogFileName(xlde->d_name) &&
			!IsPartialXLogFileName(xlde->d_name))
			continue;

		/*
		 * We ignore the timeline part of the XLOG segment identifiers in
		 * deciding whether a segment is still needed.  This ensures that we
		 * won't prematurely remove a segment from a parent timeline. We could
		 * probably be a little more proactive about removing segments of
		 * non-parent timelines, but that would be a whole lot more
		 * complicated.
		 *
		 * We use the alphanumeric sorting property of the filenames to decide
		 * which ones are earlier than the lastoff segment.
		 */
		/* 用strcmp来比较，如果当前wal日志号小于或等于回收点，并且该日志已经归档（开归档的情况下）那么就可以回收或者删除 */
		if (strcmp(xlde->d_name + 8, lastoff + 8) <= 0)
		{   
			/*检查日志是否归档完成（即pg_wal/archive_status目录下是不是已经存在对应的.done文件）*/
			if (XLogArchiveCheckDone(xlde->d_name))
			{
				/* Update the last removed location in shared memory first */
				UpdateLastRemovedPtr(xlde->d_name);
				/*真正的回收/删除函数，函数里使用unlink删除wal*/
				RemoveXlogFile(xlde->d_name, RedoRecPtr, endptr);
			}
		}
	}

	FreeDir(xldir);
}

RemoveXlogFile里边进行日志回收以及清理，回收就是从不需要保留的日志中选择一部分来给未来使用（回收数量和两次checkpoint间产生wal量有关系），其余的会被清理掉。

/*
 * Recycle or remove a log file that's no longer needed.
 *
 * endptr is current (or recent) end of xlog, and RedoRecPtr is the
 * redo pointer of the last checkpoint. These are used to determine
 * whether we want to recycle rather than delete no-longer-wanted log files.
 * If RedoRecPtr is not known, pass invalid, and the function will recycle,
 * somewhat arbitrarily, 10 future segments.
 */
static void
RemoveXlogFile(const char *segname, XLogRecPtr RedoRecPtr, XLogRecPtr endptr)
{
	char		path[MAXPGPATH];
#ifdef WIN32
	char		newpath[MAXPGPATH];
#endif
	struct stat statbuf;
	XLogSegNo	endlogSegNo;
	XLogSegNo	recycleSegNo;

	/*
	 * Initialize info about where to try to recycle to.
	 */
	/* 计算当前最新wal序列号 */
	XLByteToSeg(endptr, endlogSegNo, wal_segment_size);
	/* 这里是很重要的一步，计算最大回收号recycleSegNo */
	/* 若当前为第一次checkpoint时，最大回收号为当前wal序列号+ 10，*/
	/*也就是说，回收10个日志 */
	if (RedoRecPtr == InvalidXLogRecPtr)
		recycleSegNo = endlogSegNo + 10;
	else /*当前不是第一次checkpoint，使用XLOGfileslop函数计算最大回收号*/
		recycleSegNo = XLOGfileslop(RedoRecPtr);

	snprintf(path, MAXPGPATH, XLOGDIR "/%s", segname);

	/*
	 * Before deleting the file, see if it can be recycled as a future log
	 * segment. Only recycle normal files, pg_standby for example can create
	 * symbolic links pointing to a separate archive directory.
	 */
	 /* 当前wal序列号小于最大回收号，并满足一定条件时，使用InstallXLogFileSegment函数回收日志*/
	if (endlogSegNo <= recycleSegNo &&
		lstat(path, &statbuf) == 0 && S_ISREG(statbuf.st_mode) &&
		InstallXLogFileSegment(&endlogSegNo, path,
							   true, recycleSegNo, true))
	{   /*服务器日志级别为debug2时，会提示当前正在回收wal*/
		ereport(DEBUG2,
				(errmsg("recycled write-ahead log file \"%s\"",
						segname)));
		CheckpointStats.ckpt_segs_recycled++;
		/* Needn't recheck that slot on future iterations */
		endlogSegNo++;
	}
	else /* 清理剩余的wal */
	{
		/* No need for any more future segments... */
		int			rc;

		ereport(DEBUG2,
				(errmsg("removing write-ahead log file \"%s\"",
						segname)));

#ifdef WIN32

		/*
		 * On Windows, if another process (e.g another backend) holds the file
		 * open in FILE_SHARE_DELETE mode, unlink will succeed, but the file
		 * will still show up in directory listing until the last handle is
		 * closed. To avoid confusing the lingering deleted file for a live
		 * WAL file that needs to be archived, rename it before deleting it.
		 *
		 * If another process holds the file open without FILE_SHARE_DELETE
		 * flag, rename will fail. We'll try again at the next checkpoint.
		 */
		snprintf(newpath, MAXPGPATH, "%s.deleted", path);
		if (rename(path, newpath) != 0)
		{
			ereport(LOG,
					(errcode_for_file_access(),
					 errmsg("could not rename old write-ahead log file \"%s\": %m",
							path)));
			return;
		}
		rc = durable_unlink(newpath, LOG);
#else   /*使用unlink删除wal*/
		rc = durable_unlink(path, LOG);
#endif
		if (rc != 0)
		{
			/* Message already logged by durable_unlink() */
			return;
		}
		CheckpointStats.ckpt_segs_removed++;
	}

	XLogArchiveCleanup(segname);
}

InstallXLogFileSegment函数进行回收重用，回收至recycleSegNo返回false

static bool
InstallXLogFileSegment(XLogSegNo *segno, char *tmppath,
					   bool find_free, XLogSegNo max_segno,
					   bool use_lock)
{
	char		path[MAXPGPATH];
	struct stat stat_buf;

	XLogFilePath(path, ThisTimeLineID, *segno, wal_segment_size);

	/*
	 * We want to be sure that only one process does this at a time.
	 */
	if (use_lock)
		LWLockAcquire(ControlFileLock, LW_EXCLUSIVE);

	if (!find_free)
	{
		/* Force installation: get rid of any pre-existing segment file */
		durable_unlink(path, DEBUG1);
	}
	else
	{
		/* Find a free slot to put it in */
		/*max_segno为recycleSegNo*/
		while (stat(path, &stat_buf) == 0)
		{   /*如果序列号已经到达recycleSegNo，直接返回False，在上层函数RemoveXlogFile中进入删除逻辑*/
			if ((*segno) >= max_segno)
			{
				/* Failed to find a free slot within specified range */
				if (use_lock)
					LWLockRelease(ControlFileLock);
				return false;
			}
			/*序列号+1，直到到达recycleSegNo*/
			(*segno)++;
			/*根据序列号segno，设置新文件名path（包含pg_wal路径）*/
			XLogFilePath(path, ThisTimeLineID, *segno, wal_segment_size);
		}
	}

	/*
	 * Perform the rename using link if available, paranoidly trying to avoid
	 * overwriting an existing file (there shouldn't be one).
	 */
	 /*在durable_link_or_rename中，将旧文件名替换为新文件名*/
	if (durable_link_or_rename(tmppath, path, LOG) != 0)
	{
		if (use_lock)
			LWLockRelease(ControlFileLock);
		/* durable_link_or_rename already emitted log message */
		return false;
	}

	if (use_lock)
		LWLockRelease(ControlFileLock);

	return true;
}

3.跟踪验证

以上已经初步的分析了下wal保留计算和回收清理的过程，下面我们跟踪checkpointer进程验证下。

attach checkpointer后，手动触发一次checkpoint

给两个函数设置断点

(gdb) bt
#0  0x00007f815452f0d3 in __select_nocancel () at ../sysdeps/unix/syscall-template.S:81
#1  0x000000000085fbca in pg_usleep (microsec=microsec@entry=100000) at pgsleep.c:56
#2  0x00000000006b3601 in CheckpointWriteDelay (flags=flags@entry=128, progress=progress@entry=0.79970104633781758) at checkpointer.c:718
#3  0x00000000006fd749 in BufferSync (flags=flags@entry=128) at bufmgr.c:2014
#4  0x00000000006fd826 in CheckPointBuffers (flags=flags@entry=128) at bufmgr.c:2578
#5  0x00000000004f33f1 in CheckPointGuts (checkPointRedo=5472965584, flags=flags@entry=128) at xlog.c:9149
#6  0x00000000004f99d7 in CreateCheckPoint (flags=flags@entry=128) at xlog.c:8937
#7  0x00000000006b3272 in CheckpointerMain () at checkpointer.c:491
#8  0x0000000000508715 in AuxiliaryProcessMain (argc=argc@entry=2, argv=argv@entry=0x7ffcb8ac85c0) at bootstrap.c:451
#9  0x00000000006bc7e9 in StartChildProcess (type=CheckpointerProcess) at postmaster.c:5337
#10 0x00000000006bda8a in reaper (postgres_signal_arg=<optimized out>) at postmaster.c:2867
#11 <signal handler called>
#12 0x00007f815452f0d3 in __select_nocancel () at ../sysdeps/unix/syscall-template.S:81
#13 0x000000000047a7f5 in ServerLoop () at postmaster.c:1671
#14 0x00000000006bee79 in PostmasterMain (argc=argc@entry=3, argv=argv@entry=0x1d45c50) at postmaster.c:1380
#15 0x000000000047bb91 in main (argc=3, argv=0x1d45c50) at main.c:228
(gdb) b KeepLogSeg
Breakpoint 1 at 0x4f0fa0: file xlog.c, line 9463.
(gdb) b RemoveOldXlogFiles
Breakpoint 2 at 0x4f3410: file xlog.c, line 3896.
(gdb) c
Continuing.

Breakpoint 1, KeepLogSeg (recptr=recptr@entry=5472965752, logSegNo=logSegNo@entry=0x7ffcb8ac83a8) at xlog.c:9463
9463            XLByteToSeg(recptr, segno, wal_segment_size);
(gdb) bt
#0  KeepLogSeg (recptr=recptr@entry=5472965752, logSegNo=logSegNo@entry=0x7ffcb8ac83a8) at xlog.c:9463
#1  0x00000000004f9bf9 in CreateCheckPoint (flags=flags@entry=128) at xlog.c:9046
#2  0x00000000006b3272 in CheckpointerMain () at checkpointer.c:491
#3  0x0000000000508715 in AuxiliaryProcessMain (argc=argc@entry=2, argv=argv@entry=0x7ffcb8ac85c0) at bootstrap.c:451
#4  0x00000000006bc7e9 in StartChildProcess (type=CheckpointerProcess) at postmaster.c:5337
#5  0x00000000006bda8a in reaper (postgres_signal_arg=<optimized out>) at postmaster.c:2867
#6  <signal handler called>
#7  0x00007f815452f0d3 in __select_nocancel () at ../sysdeps/unix/syscall-template.S:81
#8  0x000000000047a7f5 in ServerLoop () at postmaster.c:1671
#9  0x00000000006bee79 in PostmasterMain (argc=argc@entry=3, argv=argv@entry=0x1d45c50) at postmaster.c:1380
#10 0x000000000047bb91 in main (argc=3, argv=0x1d45c50) at main.c:228

跟踪保留wal序列号计算过程：

(gdb) list
9459    {
9460            XLogSegNo       segno;
9461            XLogRecPtr      keep;
9462
9463            XLByteToSeg(recptr, segno, wal_segment_size);
9464            keep = XLogGetReplicationSlotMinimumLSN();
9465
9466            /* compute limit for wal_keep_segments first */
9467            if (wal_keep_segments > 0)
9468            {
/*wal_keep_segments为16*/
(gdb) p wal_keep_segments
$13 = 16
(gdb) n
9463            XLByteToSeg(recptr, segno, wal_segment_size);
(gdb)/*当前最新wal序列号为326*/
(gdb) p segno
$14 = 326
9464            keep = XLogGetReplicationSlotMinimumLSN();
(gdb)
9467            if (wal_keep_segments > 0)
(gdb)
9473                            segno = segno - wal_keep_segments;
(gdb)/*根据wal_keep_segments策略计算的wal序列号为310*/
(gdb) p segno
$15 = 310
9477            if (max_replication_slots > 0 && keep != InvalidXLogRecPtr)
/*复制槽保存的位点为4160749888*/
(gdb) p keep
$16 = 4160749888
(gdb) p  XLogCtl->replicationSlotMinLSN
$17 = 4160749888
(gdb) n
9481                    XLByteToSeg(keep, slotSegNo, wal_segment_size);
/*根据复制槽策略计算的wal序列号为248*/
(gdb) p slotSegNo
$18 = 248
9483                    if (slotSegNo <= 0)
9485				else if (slotSegNo < segno)
9486					segno = slotSegNo;
/*两种策略比较，选择小值（复制槽计算更小）*/
(gdb) p segno 
$18 = 248
9490            if (segno < *logSegNo)
(gdb)
9491                    *logSegNo = segno;
(gdb)
9492    }
/*最终确定wal序列号为248*/
(gdb) p *logSegNo
$19 = 248

根据策略计算出序列号为248,这个值为十进制，转换为十六进制为F8，即对应wal文件为：0000000100000000000000F8，可以看到确实是从这个wal开始保留的

[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll  00000001*| head -5
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000F8
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000F9
-rw-------. 1 postgres postgres 16777216 Oct  8 19:06 0000000100000000000000FA
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 0000000100000000000000FB
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 0000000100000000000000FC
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$

同样也可以通过系统视图查询，确定复制槽保存点目前对应的wal为0000000100000000000000F8

pg_replication_slots 视图restart_lsn字段定义获取的值为：XLogCtl->replicationSlotMinLSN

psql (11.5)
Type "help" for help.

postgres=# select * from pg_replication_slots ;
     slot_name     | plugin | slot_type | datoid | database | temporary | active | active_pid | xmin | catalog_xmin | restart_lsn | confirmed_flush_l
sn
-------------------+--------+-----------+--------+----------+-----------+--------+------------+------+--------------+-------------+------------------
---
 standby_repl_slot |        | physical  |        |          | f         | f      |            |      |              | 0/F8000140  |
(1 row)

postgres=# select pg_walfile_name('0/F8000140');
     pg_walfile_name
--------------------------
 0000000100000000000000F8
(1 row)

postgres=#

接着来看remove过程：

/* 将序列号减一 */
9047            _logSegNo--;
(gdb)
9048            RemoveOldXlogFiles(_logSegNo, RedoRecPtr, recptr);
(gdb)
/* 可以看到wal序列号已经为247 */
Breakpoint 2, RemoveOldXlogFiles (segno=247, RedoRecPtr=5472965584, endptr=endptr@entry=5472965752) at xlog.c:3896
3896    {
(gdb) list
3891     * redo pointer of the last checkpoint. These are used to determine
3892     * whether we want to recycle rather than delete no-longer-wanted log files.
3893     */
3894    static void
3895    RemoveOldXlogFiles(XLogSegNo segno, XLogRecPtr RedoRecPtr, XLogRecPtr endptr)
3896    {
3897            DIR                *xldir;
3898            struct dirent *xlde;
3899            char            lastoff[MAXFNAMELEN];
3900
(gdb) n
3906            XLogFileName(lastoff, 0, segno, wal_segment_size);
(gdb)
3908            elog(DEBUG2, "attempting to remove WAL segments older than log file %s",
/*247对应为F7*/
(gdb) p lastoff
$30 = '0' <repeats 22 times>, "F7\000\362o\000\000\000\000\000x\324\066F\001\000\000\000\200\245WE\201\177\000\000\000\000\000\000\000\000\000\000x\324\066F\001\000\000"
(gdb)
(gdb) /* 然后就开始遍历pg_wal */
3913            while ((xlde = ReadDir(xldir, XLOGDIR)) != NULL)
(gdb)/* 如果文件名小于等于F7，那么就进入删除逻辑*/
	 /* 这里对文件名+8，是为了去除时间线信息，文件名使用数组表示*/
	 /* wal文件的前8位表示时间线，下标移动8就去除时间线信息了*/
3931                    if (strcmp(xlde->d_name + 8, lastoff + 8) <= 0)
     /*之后就是RemoveXlogFile重用/删除日志，因为现在lastoff为F7这个wal日志 */
     /*但是已经在上次checkpoint被清理了，目前pg_wal目录下的日志序列号*/
     /*都大于F7都不满足if条件，因此本次跟踪不到RemoveXlogFile函数了*/

可以看到目前最老的wal日志正是F8，说明上次或者很早之前的一次checkpoint，已经把F7及之前的wal日志重用并清理了。

篇幅问题，这里不展示wal重用和删除的跟踪过程了，在下边恢复方案中，会结合两次checkpoint，简述wal重用数量的计算过程。

4.恢复方案

我这里制造的场景是主从通过复制槽进行同步，从库异常停机。导致复制槽位点停止更新，wal保留越来越来多。

解决方案可以为，启动从库，从库追赶wal日志，很快就可以恢复了。

启动从库后，查询流复制信息：

/*刚启动时，从库在追赶wal，state为catchup*/
postgres=# select * from pg_stat_replication ;
-[ RECORD 1 ]----+------------------------------
pid              | 15615
usesysid         | 16397
usename          | repuser
application_name | walreceiver
client_addr      | 192.168.92.128
client_hostname  |
client_port      | 56990
backend_start    | 2020-10-09 10:58:16.054867+08
backend_xmin     |
state            | catchup
sent_lsn         | 1/1F800000
write_lsn        | 1/1F7C0000
flush_lsn        | 1/1F7C0000
replay_lsn       | 1/1F77FFE0
write_lag        | 00:00:27.524233
flush_lag        | 00:00:27.524233
replay_lag       | 00:00:27.524233
sync_priority    | 0
sync_state       | async
/*经过一段时间后，已经追到最新的wal日志了，state为streaming */
postgres=# select * from pg_stat_replication ;
-[ RECORD 1 ]----+------------------------------
pid              | 15615
usesysid         | 16397
usename          | repuser
application_name | walreceiver
client_addr      | 192.168.92.128
client_hostname  |
client_port      | 56990
backend_start    | 2020-10-09 10:58:16.054867+08
backend_xmin     |
state            | streaming
sent_lsn         | 1/4636D590
write_lsn        | 1/4636D590
flush_lsn        | 1/4636D590
replay_lsn       | 1/4636D590
write_lag        |
flush_lag        |
replay_lag       |
sync_priority    | 0
sync_state       | async

postgres=# select pg_walfile_name('1/4636D590');
-[ RECORD 1 ]---+-------------------------
pg_walfile_name | 000000010000000100000046

同时验证主库wal保留情况：

手动触发几次checkpoint后，可以看到wal的数量在减少

[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ psql
psql (11.5)
Type "help" for help.

postgres=# checkpoint;
CHECKPOINT
postgres=# exit
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll  00000001*| wc -l
175
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll  00000001*| wc -l
48
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]$ ll | tail -5
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000063
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000064
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000065
drwx------. 2 postgres postgres     4096 Sep 18 20:23 archive_status
-rw-rw-r--. 1 postgres postgres     1861 Oct  5 22:58 waldump.log
[postgres@postgres_primary:pg11.5:6548 /opt/postgres/postgresql-11.5/pg11debug/data/pg_wal]

但是最终保留的为个数为48个，目前主库已经停了业务，从库也在复制最新的日志，按照wal_keep_sgements和复制槽计算保留17个，那么多出来的31个应该就是重用的日志了。

目前最新的日志为000000010000000100000046，文件时间为Oct 9 14:47，而从47开始一直到65时间都是前一天的，都是被回收重用的

-rw-------. 1 postgres postgres 16777216 Oct  9 14:47 000000010000000100000046
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000047
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000048
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 000000010000000100000049
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 00000001000000010000004A
-rw-------. 1 postgres postgres 16777216 Oct  8 19:09 00000001000000010000004B

在跟踪过程中我保留了两次checkpoint信息，一起来看看，old wal重用数量是怎么确定的：

1.计算两次checkpoint的偏移量CheckPointDistanceEstimate

UpdateCheckPointDistanceEstimate(RedoRecPtr - PriorRedoPtr)函数中计算
CheckPointDistanceEstimate = 5472965584 - 5159934961
                           = 313030623 bytes

2.计算未来最大重用wal序列号recycleSegNo

XLOGfileslop(RedoRecPtr)函数中计算：
/* 根据min_wal_size参数计算minSegNo */
minSegNo = RedoRecPtr / wal_segment_size +
		ConvertToXSegs(min_wal_size_mb, wal_segment_size) - 1
         = 5472965584 / 16777216 + 80 / 16 - 1
         = 330
/* 根据max_wal_size参数计算maxSegNo */
maxSegNo = RedoRecPtr / wal_segment_size +
		ConvertToXSegs(max_wal_size_mb, wal_segment_size) - 1;
		= 5472965584 / 16777216 + 1024 / 16 - 1
		= 389
/*估算两次checkpoint间的wal量*/
distance = (1.0 + CheckPointCompletionTarget) * CheckPointDistanceEstimate;   
	/* add 10% for good measure. */
	distance *= 1.10;
		= (1.0 + 0.5 ) * 313030623  * 1.10
		= 516500527.95
/* 计算recycleSegNo */
recycleSegNo = (XLogSegNo) ceil(((double) RedoRecPtr + distance) /wal_segment_size);
			= ceil((5472965584 + 516500527.95 ) / 16777216)
			= 5989466112 / 16777216
			= 357

	if (recycleSegNo < minSegNo)
		recycleSegNo = minSegNo;
	if (recycleSegNo > maxSegNo)
		recycleSegNo = maxSegNo;
/*recycleSegNo < maxSegNo && recycleSegNo > minSegNo，因此直接返回计算值357*/
	return recycleSegNo;

经过计算，未来最大重用号recycleSegNo 为357，对应为最后一个wal 000000010000000100000065

当前最新wal 000000010000000100000046 对应为326，
357 - 326刚好为31

刚才恢复是在从库可以正常启动的情况下，那么如果从库出现异常，无法启动呢？这种情况下，如果比较紧急，主库业务量还未减小，除了紧急扩容，可以考虑将复制槽删除掉，先规避风险。

三、总结反思

通过前边的分析，我们可以将wal保留策略用简单的公式来表达：

1.计算保留数量keep1

/*根据wal_keep_segments计算 */
segno = 最新walsegNo - wal_keep_segments；
/* 根据复制槽计算，如果有多个复制槽，取其中最小值 */
slotSegNo = XLogCtl->replicationSlotMinLSN；
/*取两者间最小值*/
keep_walsegno = min {segno,slotSegNo};
/*计算keep1*/
keep1 = 最新walsegNo - keep_walsegno

2.计算回收数量keep2

/*计算recycleSegNo*/
recycleSegNo = (XLogSegNo) ceil(((double) RedoRecPtr + (RedoRecPtr - PriorRedoPtr ) * 1.5 * 1.10) /wal_segment_size)

/*计算keep2*/
keep2 = recycleSegNo - 最新walsegNo

3.pg_wal目录下总数量keep

keep = keep1 + keep2
/*当两次checkpoint间的wal不多时，keep2的值会比较小*/

当然这个keep是一个参考值，无法做到精确。

结合之前的代码走读，我们可以概括出几种主库wal日志暴增的场景：

1.wal_keep_segments被调大；
2.复制槽长时间处于非活跃状态（查询pg_replication_slots视图active字段为f）；
3.archiver进程异常（如果开启），archiver异常情况下，不会进入remove函数清理日志；
4.checkpointer进程异常，这个可能性很小

其中见到最多的就是复制槽长时间处于非活跃状态这种场景，因为除了物理复制，复制槽还常用来做逻辑订阅，很容易出现订阅端故障，导致restart_lsn不刷新。所以我们可以增加复制槽状态的告警，一但发现非活跃复制槽，及时告警，及时处理。

是不是感觉这个复制槽有点奇葩？初衷是为了保留足够的日志，让从库，或者订阅端稳定地进行复制。但是没有考虑磁盘暴增的风险？

不用担心，PostgreSQL13已经做了调整，新增参数：max_slot_wal_keep_size ，来控制复制槽保留的最大日志量，配置这个参数后不会无限增长

参数描述如下：
max_slot_wal_keep_size (integer)

Specify the maximum size of WAL files that replication slots are allowed to retain in the pg_wal directory at checkpoint time. If max_slot_wal_keep_size is -1 (the default), replication slots may retain an unlimited amount of WAL files. Otherwise, if restart_lsn of a replication slot falls behind the current LSN by more than the given size, the standby using the slot may no longer be able to continue replication due to removal of required WAL files. You can see the WAL availability of replication slots in pg_replication_slots.

代码如下：
不详细分析了，可以看到加入了max_slot_wal_keep_size_mb对应的控制逻辑，和wal_keep_size参数一起决策wal的保留数量。

static void
KeepLogSeg(XLogRecPtr recptr, XLogSegNo *logSegNo)
{
	XLogSegNo	currSegNo;
	XLogSegNo	segno;
	XLogRecPtr	keep;

	XLByteToSeg(recptr, currSegNo, wal_segment_size);
	segno = currSegNo;

	/*
	 * Calculate how many segments are kept by slots first, adjusting for
	 * max_slot_wal_keep_size.
	 */
	keep = XLogGetReplicationSlotMinimumLSN();
	if (keep != InvalidXLogRecPtr)
	{
		XLByteToSeg(keep, segno, wal_segment_size);

		/* Cap by max_slot_wal_keep_size ... */
		/* 这里新增了该参数的控制逻辑 */
		if (max_slot_wal_keep_size_mb >= 0)
		{
			uint64		slot_keep_segs;

			slot_keep_segs =
				ConvertToXSegs(max_slot_wal_keep_size_mb, wal_segment_size);

			if (currSegNo - segno > slot_keep_segs)
				segno = currSegNo - slot_keep_segs;
		}
	}

	/* but, keep at least wal_keep_size if that's set */
	if (wal_keep_size_mb > 0)
	{
		uint64		keep_segs;

		keep_segs = ConvertToXSegs(wal_keep_size_mb, wal_segment_size);
		if (currSegNo - segno < keep_segs)
		{
			/* avoid underflow, don't go below 1 */
			if (currSegNo <= keep_segs)
				segno = 1;
			else
				segno = currSegNo - keep_segs;
		}
	}

	/* don't delete WAL segments newer than the calculated segment */
	if (segno < *logSegNo)
		*logSegNo = segno;
}

你可能感兴趣的:(PostgreSQL,postgresql,运维)

[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
为什么你的服务器总被攻击？运维老兵的深度分析
作为运维人员，最头疼的莫过于服务器在毫无征兆的情况下变得异常缓慢、服务中断，甚至数据泄露。事后查看日志，常常发现一些“莫名其妙”的攻击痕迹。为什么服务器会成为攻击者的目标？这些攻击又是如何悄无声息发生的？今天，我们就从实战角度分析几种常见且容易被忽视的攻击模式，并教你如何通过日志分析初步定位问题。一、服务器被攻击的常见“莫名其妙”原因“扫楼式”探测与弱口令爆破：现象：服务器CPU、内存无明显异常，
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
PostgreSQL ERROR: out of shared memory处理方式有想法的py工程师 PostgreSQL postgresql 数据库 dba
系统允许的总锁数SELECT(SELECTsetting::intFROMpg_settingsWHEREname='max_locks_per_transaction')*(SELECTsetting::intFROMpg_settingsWHEREname='max_connections')+(SELECTsetting::intFROMpg_settingsWHEREname='max_p
Oracle EMCC 13.5 集群安装部署指南 Lucifer三思而后行 DBA 实战系列 oracle 数据库
大家好，这里是DBA学习之路，专注于提升数据库运维效率。目录前言第一阶段：OMR集群部署1.1OracleRAC环境准备1.2数据库版本验证1.3EMCC专用数据库优化第二阶段：ACFS集群文件系统构建2.1存储层配置配置multipath多路径配置UDEV设备绑定2.2ACFS文件系统创建使用ASMCA创建磁盘组创建ACFSVolume挂载点准备和文件系统创建第三阶段：OMS集群部署3.1环境准
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
【大家的项目】helyim: 纯 Rust 实现的分布式对象存储系统
helyim是使用rust重写的seaweedfs，具体架构可以参考Facebook发表的haystack和f4论文。主要设计目标为：精简文件元数据信息，去掉对象存储不需要的POSIX语义（如文件权限）小文件合并成大文件，从而减小元数据数，使其完全存在内存中，以省去获取文件元数据的磁盘IO支持地域容灾，包括IDC容灾和机架容灾架构简单，易于实现和运维支持的特性：支持使用Http的文件上传，下载，删
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
突破传统：Dell R730服务器RAID 5配置与智能监控全解析芯作者 D2：ubuntu 服务器 linux ubuntu
在现代数据中心运维中，合理的存储配置是保障业务连续性的基石。今天，我们将深入探索DellPowerEdgeR730服务器的RAID5配置技巧，并结合热备盘策略、自动化监控脚本以及性能调优方案，为您呈现一份别开生面的技术指南。一、为什么RAID5+热备盘是企业级存储的黄金组合？RAID5通过分布式奇偶校验实现数据冗余，允许单块硬盘故障时不丢失数据。其存储效率公式为：Efficiency=\frac{
重型机械识别漏检率高？陌讯算法实测降 35%
在重型机械作业场景中，传统视觉识别系统常面临三大痛点：大型设备遮挡严重导致漏检率超20%、金属表面反光使特征提取失效、多机型混合作业时模型泛化能力不足。某港口集团曾反馈，其基于开源YOLOv5部署的机械监控系统，在暴雨天气下误报率飙升至37%，直接影响作业调度效率[实测数据来源：某港口2024年Q1运维报告]。技术解析：陌讯算法的三重突破陌讯视觉算法针对重型机械识别的特殊性，采用了创新的"动态注意
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
Hana 到 PostgreSQL 数据迁移同步
简述SAPHana与PostgreSQL已成为许多企业常用的两款重要数据库，实现这两者之间高效稳定的数据传输也是许多企业的诉求之一。本文将介绍如何使用国产数据迁移同步工具CloudCanal构建一条Hana到PostgreSQL的数据同步链路。技术点表级别CDC表CloudCanal在实现Hana源端增量同步时，最初采用的是单CDC表的模式，即所有订阅表的增量数据（插入、更新、删除）通过触发器统一
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Ceph集群管理实战 wespten OpenStack vSphere 虚拟化云平台 SDN 数据库存储块存储文件存储对象存储分布式网络存储 linux 运维服务器
配置完Ceph集群后，我们即可对Ceph集群进行数据存储。在后续使用过程中，Ceph提供了常用的命令对Ceph集群进行必要的运维。常见的集群状态查看、磁盘使用率查看、添加磁盘、删除坏盘等操作。详情可参考：WelcometoCeph—CephDocumentation1、Ceph的常用命令本节给出的Ceph常用命令可以作为最基本的集群运维命令。1）查看集群状态命令。[root@installer~]
PostgreSQL - PostgreSQL 反向查询策略（使用 ORDER BY、使用游标、使用窗口函数、使用 LIMIT 与 OFFSET 组合）我命由我12345 数据库 postgresql 数据库后端 mybatis java-ee java intellij-idea
概述PostgreSQL反向查询，指的从尾开始查询，即按照与默认顺序相反的顺序查询一、使用ORDERBY反向查询所有数据SELECT*FROM【表名】ORDERBYidDESC;反向查询1条数据SELECT*FROM【表名】ORDERBYidDESCLIMIT1;二、使用游标1、具体实现BEGIN;DECLAREreverse_cursorSCROLLCURSORFORSELECT*FROM【表名
@RefreshScope 注解深入解析
1.引言随着微服务架构的日益普及，应用程序的配置管理变得越来越复杂。在传统的单体应用中，配置通常是静态的，任何配置的更改都需要重启整个应用程序才能生效。然而，在由众多独立服务组成的微服务环境中，频繁的服务重启不仅会影响系统的可用性，还会增加运维的复杂性。为了解决这一挑战，动态配置管理应运而生，它允许在运行时修改和加载配置，而无需中断服务。SpringCloud作为一套基于SpringBoot的微服
【云服务器安全相关】堡垒机、WAF、防火墙、IDS 有什么区别？ weixin_44329069 云服务器安全相关服务器安全 php
目录✅一句话总结：️1.堡垒机：对“自己人”看的最严2.WAF（Web应用防火墙）：保护你的网站不被攻击3.防火墙：基础“门卫”，管谁能进来、谁能出去4.IDS/IPS：入侵检测系统/入侵防御系统✅通俗类比：✅它们并不重复，而是分工协作！✅一句话总结：安全工具主要功能拦截对象应用层级举例堡垒机审计、管控内部人员登录服务器行为内部管理员运维通道（SSH、RDP）记录操作命令WAF防御网页攻击（如SQ
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不