「已注销」

HTML解析-第二版（C/C++）

背景：
基于某些不着边际想法，只为取得HTML页面上的所有“URL”和“文本”，其它的内容都不在关心之列。
问题：
对于“文本”搜索，如果搜索了除英文以外的语言还好说些，如果要搜索的内容是英文本，
那么就难以区分是“标记”还是“本文”了。对于“URL”的搜索，因为“标记”就是英文，
这样就绕回到“对于‘文本’搜索”。另外字母的大小写，被转义的字符，引号，尖括号，都得处理。
例如：
csdn

想要搜索“csdn”这个字符串，直接以字符串遍历的法能搜索到3个，其实呢只希望搜索到1个。
例如：
论坛
论 坛
论  坛
想要搜索“论坛”这个字符串，按语义上讲，希望在搜索时能搜到3个。
但直接以字符串遍历的法能搜到1个，原因在于加了“空格”后的字符串，
计算机不知道对于人来讲意思并没有变。

总结：
1:直接搜索特定字符串,不多了就是少了。
2:尝试过MS的COM库，功能强大且齐全，但耗费的资源也相当多。
3:耳熟能详的搜索引擎也跑过几个回合，因没有耐心翻遍所有网页只好放弃。

结论：
只能把HTML页面完整的解析完毕才能达找到想到的东西，尽管不是全部，但情况要好很多。

方法：
HTML语句结构是：aaaa 或 
等等一连串类似的语句组成，并且只有嵌套没有循环（脚本只能算上面提到的“文本”）。
分界符（这个词本人自己的称呼）使用的是“ <>""''=空格 ”，把两个分界符之间的内容看作一个链表节点，
“标记”a与“标记”/a是“父”节点与“子”节点的关系，“标记”a与“标记”href是“兄弟”节点的关系。
这样的好处是不用关心“标记”含义，就可以把整个页面解析成一个二维链表。
纵向可以遍历“标记”和“文本”，横向可以找到“文本”对应用“URL”。
当然实际情况要复杂的多，种种异常情况都要考虑。如：转意字符，脚本中的括号对称验证等等，
最糟糕是碰到错误的语法，或者根本就不是HTML页面（这个就不属性本文说明范围了）。

                                                                                                                                                               

//以上内容于 2011-12-17  18:01  添加/

1：较“HTML解析-第一版(C/C++)” 减少了内存拷贝，速度相对提高很多。

2：代码在VS2008下测试通过。#define _UNICODE #define _WIN32_WINNT 0x0600

3：解析方法：类似于构建一个map表（STL模板库里的map不利于阅读，可以参考MFC类库的CMap），最终组成一个二维的单向链表。

4：CHtmlObject 类负责解析HTML“标记”和“属性”。

//CHtmlObject.h//

#pragma once

/*****************************************************************************************************************
created: 2011/12/03
author: hmm7e ([email protected])

*****************************************************************************************************************/

class CHtmlObject
{
public:
//
static BOOL IsSpace(TCHAR tcLetter);
protected:
struct tagNode
{
LPCTSTR s_pszKey;
LPCTSTR s_pszValue;
struct tagNode * s_pstRight; //attribute of tag
struct tagNode * s_pstNext; //next tag
};
public:
CHtmlObject(void);
virtual ~CHtmlObject(void);
//
enum {CHARSET_UTF8,CHARSET_UNICODE,CHARSET_MULTIBYTE}TextCharset;
protected:
//
tagNode * InnerAllocNode();
void InnerFreeNode(tagNode * lpstNode);
void InnerLinkNextNode(tagNode * lpstNode);
void InnerLinkRightNode(tagNode * lpstTagNode,tagNode * lpstNode);
void InnerCleanupNode();
void InnerCleanupRightNode(tagNode * lpstNode);
public:
//
void AutoTakeSnapshot(PBYTE lpszString,UINT nStringLen);
void TakeSnapshot(PBYTE lpszString,UINT nStringLen,UINT nFromCharset );
void DeleteSnapshot();
//
void Parse();
private:
//
void InnerParse();
LPTSTR InnerSplitComment(tagNode * lpstNode,LPTSTR lpszTagString);
LPTSTR InnerSplitTag(tagNode * lpstNode,LPTSTR lpszTagString);
LPTSTR InnerSplitContent(tagNode * lpstNode,LPTSTR lpszTagString);
LPTSTR InnerSplitText(tagNode * lpstNode,LPTSTR lpszTagString);
LPTSTR InnerSplitScript(tagNode * lpstNode,LPTSTR lpszTagString);
LPTSTR InnerSplitStyle(tagNode * lpstNode,LPTSTR lpszTagString);

protected:
//
LPTSTR m_pszSnapshotBuffer;
UINT m_nSnapshotBufferLen;
UINT m_nSnapshotStringLen;
//
tagNode * m_pstHead;
tagNode * m_pstTail;

};

//CHtmlObject.h//

//CHtmlObject.cpp//

#pragma once

/*****************************************************************************************************************
created: 2011/12/03
author: hmm7e ([email protected])

*****************************************************************************************************************/


#include "HtmlObject.h"

//
BOOL CHtmlObject::IsSpace(TCHAR tcLetter)
{
	//以下字符在HTML标记里都算是空格。
	return (tcLetter == _T(' ') || tcLetter == _T('\r') ||tcLetter == _T('\n') ||tcLetter == _T('\t') );
}

CHtmlObject::CHtmlObject(void)
{
	m_pszSnapshotBuffer = NULL;
	m_nSnapshotBufferLen = 0;
	m_nSnapshotStringLen = 0;
	m_pstHead = NULL;
	m_pstTail = NULL;
}

CHtmlObject::~CHtmlObject(void)
{
	DeleteSnapshot();
}
//
CHtmlObject::tagNode * CHtmlObject::InnerAllocNode()
{
	CHtmlObject::tagNode * pstResult = new CHtmlObject::tagNode;
	if( pstResult )
	{
		::ZeroMemory((LPVOID)pstResult,sizeof(CHtmlObject::tagNode));
	}
	return pstResult;
}
void CHtmlObject::InnerFreeNode(CHtmlObject::tagNode * lpstNode)
{
	if( lpstNode )
		delete lpstNode;
}
void CHtmlObject::InnerLinkNextNode(tagNode * lpstNode)
{
	//链接到“尾”结点。
	//1：如果没有“头”节点，那么表示链表是“空”的。
	//2：如果已经存“头”节点，那么就链接新节点到“尾”节点，并重新记录“尾”节点指针。
	if( m_pstHead == NULL )
	{
		m_pstHead = lpstNode;
		m_pstTail = lpstNode;
	}
	else
	{
		m_pstTail->s_pstNext = lpstNode;
		m_pstTail = lpstNode;
	}


#ifdef _DEBUG

	if( lpstNode->s_pszKey )
	{
		::OutputDebugString(_T("--"));
		::OutputDebugString(lpstNode->s_pszKey);
		::OutputDebugString(_T("--\r\n"));
	}
	if( lpstNode->s_pszValue )
	{
		::OutputDebugString(_T("--"));
		::OutputDebugString(lpstNode->s_pszValue);
		::OutputDebugString(_T("--\r\n"));
	}

#endif //_DEBUG

}
void CHtmlObject::InnerLinkRightNode(tagNode * lpstTagNode,tagNode * lpstNode)
{
	//链接到“属性”的“头”节点。
	//1：把现有的“属性”链表，链接到当前新节点的下。
	//2：把当前节点做为“头”节点保存。
	lpstNode->s_pstRight = lpstTagNode->s_pstRight;
	lpstTagNode->s_pstRight = lpstNode;

#ifdef _DEBUG
	if( lpstNode->s_pszKey )
	{
		::OutputDebugString(_T("-->"));
		::OutputDebugString(lpstNode->s_pszKey);
		::OutputDebugString(_T("<--\r\n"));
	}
	if( lpstNode->s_pszValue )
	{
		::OutputDebugString(_T("-->"));
		::OutputDebugString(lpstNode->s_pszValue);
		::OutputDebugString(_T("<--\r\n"));
	}
#endif //_DEBUG
}
void CHtmlObject::InnerCleanupNode()
{
	//循环清除所有节点。如果存在“属性”节点一并清除。
	CHtmlObject::tagNode * pstPrev = NULL;
	while( m_pstHead )
	{
		pstPrev = m_pstHead;
		m_pstHead = m_pstHead->s_pstNext;
		//first
		InnerCleanupRightNode(pstPrev);
		//second
		InnerFreeNode(pstPrev);
	}
	m_pstHead = NULL;
	m_pstTail = NULL;
}
void CHtmlObject::InnerCleanupRightNode(CHtmlObject::tagNode * lpstNode)
{
	//循环清除所有“属性”节点。
	CHtmlObject::tagNode * pstHead = lpstNode->s_pstRight;
	CHtmlObject::tagNode * pstPrev = NULL;
	while( pstHead )
	{
		pstPrev = pstHead;
		pstHead = pstHead->s_pstRight;
		InnerFreeNode(pstPrev);
	}
	pstHead = NULL;
	pstPrev = NULL;
}
//
void CHtmlObject::AutoTakeSnapshot(PBYTE lpszString,UINT nStringLen)
{
	
	if( lpszString && nStringLen > 0)
	{
		//根据数据头自动判断是否需要转换数据到当前应程所使用的编码。
		if( nStringLen >= 2 )
		{
			if( lpszString[0] == 0xFF && lpszString[1] == 0xFE ) // skip 0xFF,0xFE
			{
				TakeSnapshot(lpszString+2,nStringLen-2,CHtmlObject::CHARSET_UNICODE);
			}
			else if( lpszString[0] == 0xEF && lpszString[1] == 0xBB && lpszString[2] == 0xBF )// skip 0xEF,0xBB,0xBF
			{
				TakeSnapshot(lpszString+3,nStringLen-3,CHtmlObject::CHARSET_UTF8);
			}
			else
			{
				TakeSnapshot(lpszString,nStringLen,CHtmlObject::CHARSET_MULTIBYTE);
			}
		}
		else
		{
			TakeSnapshot(lpszString,nStringLen,CHtmlObject::CHARSET_MULTIBYTE);
		}
	}
}
void CHtmlObject::TakeSnapshot(PBYTE lpszString,UINT nStringLen,UINT nFromCharset )
{
	//delete old snapshot
	DeleteSnapshot();

	if( lpszString && nStringLen > 0 )
	{

		//transform to TCHAR

		if( CHtmlHelper::CHARSET_UTF8 == nFromCharset )
		{

#ifdef _UNICODE 

			m_nSnapshotBufferLen = nStringLen;
			m_pszSnapshotBuffer = new TCHAR[m_nSnapshotBufferLen];

			::memset((LPVOID)m_pszSnapshotBuffer,0,m_nSnapshotBufferLen*sizeof(TCHAR));
			m_nSnapshotStringLen = ::MultiByteToWideChar(CP_UTF8,0,(LPCSTR)lpszString,nStringLen,m_pszSnapshotBuffer,m_nSnapshotBufferLen);
#else
			::OutputDebugString(_T("no support"));

#endif //_UNICODE

		}
		else if( CHtmlHelper::CHARSET_UNICODE == nFromCharset )
		{

#ifdef _UNICODE 

			m_nSnapshotBufferLen = nStringLen;
			m_pszSnapshotBuffer = new TCHAR[m_nSnapshotBufferLen];

			::memset((LPVOID)m_pszSnapshotBuffer,0,m_nSnapshotBufferLen*sizeof(TCHAR));
			::memcpy((LPVOID)m_pszSnapshotBuffer,lpszString,nStringLen);

#else

			m_nSnapshotBufferLen = nStringLen/2+1;
			m_pszSnapshotBuffer = new TCHAR[m_nSnapshotBufferLen];

			::memset((LPVOID)m_pszSnapshotBuffer,0,m_nSnapshotBufferLen*sizeof(TCHAR));
			m_nSnapshotStringLen = ::WideCharToMultiByte(CP_ACP,0,(LPWSTR)lpszString,nStringLen,(LPSTR)m_pszSnapshotBuffer,m_nSnapshotBufferLen,NULL,NULL);

#endif //_UNICODE

		}
		else
		{

#ifdef _UNICODE 

			m_nSnapshotBufferLen = nStringLen;
			m_pszSnapshotBuffer = new TCHAR[m_nSnapshotBufferLen];

			::memset(m_pszSnapshotBuffer,0,m_nSnapshotBufferLen*sizeof(TCHAR));
			m_nSnapshotStringLen = ::MultiByteToWideChar(CP_ACP,0,(LPCSTR)lpszString,nStringLen,m_pszSnapshotBuffer,m_nSnapshotBufferLen);
#else

			m_nSnapshotBufferLen = nStringLen;
			m_pszSnapshotBuffer = new TCHAR[m_nSnapshotBufferLen];

			::memset((LPVOID)m_pszSnapshotBuffer,0,m_nSnapshotBufferLen*sizeof(TCHAR));
			::memcpy((LPVOID)m_pszSnapshotBuffer,lpszString,nStringLen);

#endif //_UNICODE

		}
	}
}
void CHtmlObject::DeleteSnapshot()
{
	//先清除树型表。
	InnerCleanupNode();

	if( m_pszSnapshotBuffer )
		delete []m_pszSnapshotBuffer;

	m_pszSnapshotBuffer = NULL;
	m_nSnapshotBufferLen = 0;
	m_nSnapshotStringLen = 0;
}
//
void CHtmlObject::Parse()
{
#ifdef _AFX
	CString strTrace;
	strTrace.Format(_T("CHtmlObject::Parse() --begin-->(%d)\r\n"),::GetTickCount());
	::OutputDebugString(strTrace);
#endif //_AFX

	InnerParse();

#ifdef _AFX
	strTrace.Format(_T("CHtmlObject::Parse() --end-->(%d)\r\n"),::GetTickCount());
	::OutputDebugString(strTrace);
#endif //_AFX
}
//
void CHtmlObject::InnerParse()
{
	LPTSTR pszFind = m_pszSnapshotBuffer;

	//跳过所有“空格”
	while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
	{
		//下一个字符
		pszFind++;
	}
	//直到碰到'\0'就退出
	do
	{
		// 不是“\0”，并且第一个字符为“<”则置换为“\0”，否则什么也不做。
		//这么写的原因就在于InnerSplitContent()返回后 “<”可能已经被置换成“\0”。
		if( *pszFind != _T('\0') && *pszFind == _T('<') )
		{
			//把“<”置换为“\0”,做为结尾。
			*pszFind = _T('\0');
			//下一个字符。
			pszFind++;
		}

		// 不是“\0”
		if( *pszFind != _T('\0') )
		{
			//是否为注释
			if( *pszFind == _T('!') )
			{
				//申请一个点节。
				tagNode *pstNode = InnerAllocNode();
				//解析注释，返回的是注释后面的内容。
				pszFind = InnerSplitComment(pstNode,pszFind);
				//链接到“链表”。（下）
				InnerLinkNextNode(pstNode);
			}
			else
			{
				//申请一个点节。
				tagNode *pstNode = InnerAllocNode();
				//解析tag，返回的是tag后面的内容。
				pszFind = InnerSplitTag(pstNode,pszFind);
				//解析content返回的是content后面的内容。
				pszFind = InnerSplitContent(pstNode,pszFind);
				//链接到“链表”。（下）
				InnerLinkNextNode(pstNode);
			}
		}

	}while( *pszFind!= _T('\0') );
}
LPTSTR CHtmlObject::InnerSplitComment(CHtmlObject::tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;
	//指向注释开头(已经跳过“<”字符)
	lpstNode->s_pszKey = pszFind;
	//如果为 
	if( ::_tcsnicmp(pszFind+1,_T("--"),2) == 0 )
	{
		//跳过注释标记“头”，开始查找。
		pszFind += 3;
		//查找到注释结尾，并给结尾加“\0”。
		while( ::_tcsnicmp(pszFind,_T("-->"),3) != 0 )
		{
			//下一个字符
			pszFind++;
		}
		//不是“\0”
		if( *pszFind != _T('\0') )
		{
			//把“>”置换为“\0”,做为注释结尾
			*(pszFind+2) = _T('\0');
			//指向新的节点或内容。
			pszFind += 3;
		}

	}
	//否则为 
	else
	{
		//查找到注释结尾，并给结尾加“\0”。
		while( *pszFind != _T('\0') && *pszFind != _T('>') )
		{
			//下一个字符
			pszFind++;
		}
		//不能是“\0”
		if( *pszFind != _T('\0') )
		{
			//把“>”置换为“\0”,做为注释结尾。
			*pszFind = _T('\0');
			//指向新的节点或内容。
			pszFind++;
		}
	}

	//找到一个“<”
	while( *pszFind != _T('\0') && *pszFind != _T('<') )
	{
		//下一个字符
		pszFind++;
	}

	return pszFind;
}
LPTSTR CHtmlObject::InnerSplitTag(CHtmlObject::tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;

	//指向开头(已经跳过“<”字符)
	lpstNode->s_pszKey = pszFind;
	//查找tag结尾，并给结尾加“\0”。
	while( *pszFind != _T('\0') && *pszFind != _T('>') && !CHtmlObject::IsSpace(*pszFind) )
	{
		//下一个字符
		pszFind++;
	}

	//不是“\0”
	if( *pszFind != _T('\0') )
	{
		if( *pszFind == _T('>') )
		{
			//把“>”置换为“\0”,做为注释结尾。
			*pszFind = _T('\0');
			//指向新的节点或内容。
			pszFind++;
			//此tag没有属性,什么也不做了。
				
		}
		else
		{
			//把“space,\r,\n,\t ”置换为“\0”,做为注释结尾。
			*pszFind = _T('\0');
			//指向新的节点或内容。
			pszFind++;

			//如果不是结束标记，表示此tag有“属性”还需要解析“属性”。
			if( *lpstNode->s_pszKey != _T('/') )
			{
				//跳过所有“空格”,找到第一个属性。
				while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
				{
					//下一个字符
					pszFind++;
				}
				//循环分析“属性”。
				while( *pszFind != _T('\0') && *pszFind != _T('<') && *pszFind != _T('>') )
				{
					//例：
					// key="value" key=value
					//跳过空格
					while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
					{
						//下一个字符
						pszFind++;
					}

					//不是“\0”
					if( *pszFind != _T('\0') )
					{
						//申请一个点节。
						tagNode *pstAttributeNode = InnerAllocNode();
						//指向“属性”Key。
						pstAttributeNode->s_pszKey = pszFind;

						//查找key的末尾.
						while( *pszFind != _T('\0') && *pszFind != _T('=') && *pszFind != _T('>') )
						{
							//下一个字符
							pszFind++;
						}
						//不是“\0”
						if( *pszFind != _T('\0') )
						{
							if( *pszFind == _T('>') )
							{
								//把“>”置换为“\0”,做为结尾。
								*pszFind = _T('\0');
								//指向新的节点或内容。
								pszFind++;
								//链接到“链表”（右）。
								InnerLinkRightNode(lpstNode,pstAttributeNode);
								//已经碰到“>”,需要跳出。
								break;
							}
							else
							{
								//把“=”置换为“\0”,做为结尾。
								*pszFind = _T('\0');
								//指向新的节点或内容。
								pszFind++;
								
								//不是“\0”
								if( *pszFind != _T('\0') )
								{
									if( *pszFind == _T('"') )
									{
										//跳过“"”
										pszFind++;
										//指向“属性”key的Value。
										pstAttributeNode->s_pszValue = pszFind;

										//查找Value的末尾.
										while( *pszFind != _T('\0') && *pszFind != _T('\"') && *pszFind != _T('>') )
										{
											//下一个字符
											pszFind++;
										}
										//不是“\0”
										if( *pszFind != _T('\0') )
										{
											//把“",> ”置换为“\0”,做为结尾。
											*pszFind = _T('\0');
											//指向新的节点或内容。
											pszFind++;
										}
									}
									else if( *pszFind == _T('\'') )
									{
										//跳过“'”
										pszFind++;
										//指向“属性”key的Value。
										pstAttributeNode->s_pszValue = pszFind;

										//查找Value的末尾.
										while( *pszFind != _T('\0') && *pszFind != _T('\'') && *pszFind != _T('>') )
										{
											//下一个字符
											pszFind++;
										}
										//不是“\0”
										if( *pszFind != _T('\0') )
										{
											//把“", ”置换为“\0”,做为结尾。
											*pszFind = _T('\0');
											//指向新的节点或内容。
											pszFind++;
										}
									}
									else
									{
										//指向“属性”key的Value。
										pstAttributeNode->s_pszValue = pszFind;
										//查找Value的末尾.
										while( *pszFind != _T('\0') && *pszFind != _T(' ') && *pszFind != _T('>') )
										{
											//下一个字符
											pszFind++;
										}
										//不是“\0”
										if( *pszFind != _T('\0') )
										{
											//把“ ”置换为“\0”,做为结尾。
											*pszFind = _T('\0');
											//指向新的节点或内容。
											pszFind++;
										}
									}
									
								}
							}
							
						}
					
						//链接到“链表”（右）。
						InnerLinkRightNode(lpstNode,pstAttributeNode);
					}
				} 
				
				//跳过这个无用的字符。
				if( *pszFind == _T('>') )
				{
					//指向新的节点或内容。
					pszFind++;
				}
			}
		}
	}

	return pszFind;
}
LPTSTR CHtmlObject::InnerSplitContent(CHtmlObject::tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;
	
	if( ::_tcsnicmp(lpstNode->s_pszKey,_T("script"),6) == 0 )
	{
		pszFind = InnerSplitScript(lpstNode,pszFind);
	}
	else if( ::_tcsnicmp(lpstNode->s_pszKey,_T("style"),5) == 0 )
	{
		pszFind = InnerSplitStyle(lpstNode,pszFind);
	}
	else
	{
		pszFind = InnerSplitText(lpstNode,pszFind);
	}

	return pszFind;
}
LPTSTR CHtmlObject::InnerSplitText(CHtmlObject::tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;
		
	//跳过所有“空格”
	while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
	{
		//下一个字符
		pszFind++;
	}
	
	//如果 _T('<') 表示没有文本。
	if( *pszFind != _T('<') )
	{
		//指向可见文本。
		lpstNode->s_pszValue = pszFind;
		//查找文本结尾。
		while( *pszFind != _T('\0') && *pszFind != _T('<') && !CHtmlObject::IsSpace(*pszFind) )
		{
			//下一个字符
			pszFind++;
		}
		//不是“\0”
		if( *pszFind != _T('\0') )
		{
			if( *pszFind == _T('<') )
			{
				//把“<”置换为“\0”,做为结尾。
				*pszFind = _T('\0');
				//指向新的节点或内容。
				pszFind++;
			}
			else
			{
				//把“space,\r,\n,\t,”置换为“\0”,做为结尾。
				*pszFind = _T('\0');
				//指向新的节点或内容。
				pszFind++;

				//找到一个“<”
				while( *pszFind != _T('\0') && *pszFind != _T('<') )
				{
					//下一个字符
					pszFind++;
				}
			}
		}
	}

	return pszFind;
}
LPTSTR CHtmlObject::InnerSplitScript(tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;


#define  SCRIPT_MARK_MAX			1024
	UINT nMarkIndex = 0;
	TCHAR szMark[SCRIPT_MARK_MAX] = {_T('\0')}; //max 1024

	//跳过所有“空格”
	while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
	{
		//下一个字符
		pszFind++;
	}

	if( *pszFind != _T('\0') && *pszFind != _T('<') )
	{
		//指向可见文本。
		lpstNode->s_pszValue = pszFind;

		while( *pszFind != _T('\0') )
		{
			//如果字符被“'，"”包围则为字符串，这期间不计算注释。
			if( szMark[nMarkIndex] != _T('\'') && szMark[nMarkIndex] != _T('\"') )
			{
				//如果是// abc 则跳过。
				if( ::_tcsnicmp(pszFind,_T("//"),2) == 0   )
				{
					//跳过注释“头”。
					pszFind +=2;
					//查找注释“尾”。
					while( *pszFind != _T('\0') && *pszFind != _T('\n') )
					{
						pszFind++;
					}
					//跳过注释“尾”。
					if( *pszFind != _T('\0')  )
						pszFind++;

				}
				//如果是/* abc */则跳过。
				else if( ::_tcsnicmp(pszFind,_T("/*"),2) == 0   )
				{
					//跳过注释“头”。
					pszFind +=2;
					//查找注释“尾”。
					while( ::_tcsnicmp(pszFind,_T("*/"),2) != 0 )
					{
						pszFind++;
					}
					//跳过注释“尾”。
					if( *pszFind != _T('\0')  )
						pszFind +=2;
				}

			}

			if( *pszFind == _T('\\') && 
				( *(pszFind+1) == _T('\\') || 
				*(pszFind+1) == _T('(') || *(pszFind+1) == _T(')') || 
				*(pszFind+1) == _T('[') || *(pszFind+1) == _T(']') || 
				*(pszFind+1) == _T('{') || *(pszFind+1) == _T('}') || 
				*(pszFind+1) == _T('\'') || 
				*(pszFind+1) == _T('\"') ) )
			{
				//转意字符
				pszFind+=2;

			}
			else if( *pszFind == _T('{') || *pszFind == _T('(') || *pszFind == _T('[') ||  (*pszFind == _T('\'') || *pszFind == _T('\"')) )
			{
				if( szMark[nMarkIndex] != _T('\'') && szMark[nMarkIndex] != _T('\"') )
				{
					if( nMarkIndex < SCRIPT_MARK_MAX )
					{
						if( nMarkIndex == 0 && szMark[nMarkIndex] == _T('\0')  )
							szMark[nMarkIndex] = *pszFind;
						else
							szMark[++nMarkIndex] = *pszFind;
					}
				}
				else if( szMark[nMarkIndex] == *pszFind )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;

			}
			else if( *pszFind == _T('}') ) 
			{
				if( szMark[nMarkIndex] == _T('{') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T(')') )
			{
				if( szMark[nMarkIndex] == _T('(') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T(']') ) 
			{
				if( szMark[nMarkIndex] == _T('[') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T('<') && szMark[0] == _T('\0') )  //nMarkIndex == 0 &&
			{
				//把“<”置换为“\0”,做为结尾。
				*pszFind = _T('\0');
				//指向新的节点或内容。
				pszFind++;
				break;
			}
			else
			{
				pszFind++;
			}
		}
	}

	return pszFind;
}
LPTSTR CHtmlObject::InnerSplitStyle(CHtmlObject::tagNode * lpstNode,LPTSTR lpszTagString)
{
	LPTSTR pszFind = lpszTagString;

#define  STYLE_MARK_MAX			1024
	UINT nMarkIndex = 0;
	TCHAR szMark[STYLE_MARK_MAX] = {_T('\0')}; //max 1024

	//跳过所有“空格”
	while( *pszFind != _T('\0') && CHtmlObject::IsSpace(*pszFind) )
	{
		//下一个字符
		pszFind++;
	}

	if( *pszFind != _T('\0') && *pszFind != _T('<') )
	{
		//指向可见文本。
		lpstNode->s_pszValue = pszFind;

		while( *pszFind != _T('\0') )
		{
			//如果字符被“(，'，"”包围则为字符串，这期间不计算注释。
			if( szMark[nMarkIndex] != _T('(') && szMark[nMarkIndex] != _T('\'') && szMark[nMarkIndex] != _T('\"') )
			{
				//如果是/* abc */则跳过。
				if( ::_tcsnicmp(pszFind,_T("/*"),2) == 0   )
				{
					//跳过注释“头”，查找注释“尾”。
					pszFind +=2;
					while( ::_tcsnicmp(pszFind,_T("*/"),2) != 0 )
					{
						pszFind++;
					}
					//跳过注释“尾”。
					if( *pszFind != _T('\0')  )
						pszFind +=2;
				}
			}


			if( *pszFind == _T('{') || *pszFind == _T('(') || *pszFind == _T('[') ||  (*pszFind == _T('\'') || *pszFind == _T('\"')) )
			{
				if( szMark[nMarkIndex] != _T('\'') && szMark[nMarkIndex] != _T('\"') )
				{
					if( nMarkIndex < STYLE_MARK_MAX )
					{
						if( nMarkIndex == 0 && szMark[nMarkIndex] == _T('\0')  )
							szMark[nMarkIndex] = *pszFind;
						else
							szMark[++nMarkIndex] = *pszFind;
					}
				}
				else if( szMark[nMarkIndex] == *pszFind )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;

			}
			else if( *pszFind == _T('}') ) 
			{
				if( szMark[nMarkIndex] == _T('{') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T(')') )
			{
				if( szMark[nMarkIndex] == _T('(') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T(']') ) 
			{
				if( szMark[nMarkIndex] == _T('[') )
				{
					if( nMarkIndex >0  )
						szMark[nMarkIndex--] = _T('\0');
					else
						szMark[nMarkIndex] = _T('\0');
				}
				pszFind++;
			}
			else if( *pszFind == _T('<') && szMark[0] == _T('\0') )  //nMarkIndex == 0 &&
			{
				//把“<”置换为“\0”,做为结尾。
				*pszFind = _T('\0');
				//指向新的节点或内容。
				pszFind++;
				break;
			}
			else
			{
				pszFind++;
			}
		}

	}

	return pszFind;
}

//CHtmlObject.cpp//

5：CHtmlHelper做为派生类，负责读取解析后的“标记”和“属性”。这里只写了两个方法，实际应用请自行添加。

//CHtmlHelper.h//

#pragma once

/*****************************************************************************************************************
created: 2011/12/03
author: hmm7e ([email protected])

*****************************************************************************************************************/

#include "HtmlObject.h"

class CHtmlHelper:public CHtmlObject
{
public:
	CHtmlHelper(void);
	virtual ~CHtmlHelper(void);
public:
	//
	LPCTSTR GetFirstLink();
	LPCTSTR GetNextLink();
	LPCTSTR GetFirstContent();
	LPCTSTR GetNextContent();
	LPCTSTR	SearchText(LPCTSTR lpszText);
protected:
	//
	CHtmlObject::tagNode * m_pstCur;
};



//CHtmlHelper.h//

//CHtmlHelper.cpp//

#pragma once

/*****************************************************************************************************************
created: 2011/12/03
author: hmm7e ([email protected])

*****************************************************************************************************************/


#include "HtmlHelper.h"

#pragma warning(disable: 4996) 

CHtmlHelper::CHtmlHelper()
{

}
CHtmlHelper::~CHtmlHelper()
{

}
//
LPCTSTR CHtmlHelper::GetFirstLink()
{
	LPCTSTR pszResult = NULL;

	m_pstCur = m_pstHead;

	while( m_pstCur && !pszResult )
	{
		if( 0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("script"),6) &&
			0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("style"),5) )
		{
			CHtmlObject::tagNode * pstAttributeCur = m_pstCur->s_pstRight;
			while( pstAttributeCur )
			{
				if( 0 == ::_tcsnicmp(pstAttributeCur->s_pszKey,_T("href"),4) ||
					0 == ::_tcsnicmp(pstAttributeCur->s_pszKey,_T("src"),3) )
				{
					//return
					pszResult = pstAttributeCur->s_pszValue;
					break ;
				}
				else
				{
					pstAttributeCur = pstAttributeCur->s_pstRight;
				}
			}
		}
		m_pstCur = m_pstCur->s_pstNext;
	}

	return pszResult;
}
LPCTSTR CHtmlHelper::GetNextLink()
{
	LPCTSTR pszResult = NULL;

	while( m_pstCur && !pszResult )
	{
		if( 0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("script"),6) &&
			0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("style"),5) )
		{
			CHtmlObject::tagNode * pstAttributeCur = m_pstCur->s_pstRight;
			while( pstAttributeCur )
			{
				if( 0 == ::_tcsnicmp(pstAttributeCur->s_pszKey,_T("href"),4) ||
					0 == ::_tcsnicmp(pstAttributeCur->s_pszKey,_T("src"),3) )
				{
					//return
					pszResult = pstAttributeCur->s_pszValue;
					break ;
				}
				else
				{
					pstAttributeCur = pstAttributeCur->s_pstRight;
				}
			}
		}

		m_pstCur = m_pstCur->s_pstNext;
	}

	return pszResult;
}
LPCTSTR CHtmlHelper::GetFirstContent()
{
	LPCTSTR pszResult = NULL;

	m_pstCur = m_pstHead;

	while( m_pstCur && !pszResult )
	{
		if( 0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("script"),6) &&
			0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("style"),5) )
		{
			if( m_pstCur->s_pszValue )
				pszResult = m_pstCur->s_pszValue;
		}

		m_pstCur = m_pstCur->s_pstNext;
	}

	return pszResult;
}
LPCTSTR CHtmlHelper::GetNextContent()
{
	LPCTSTR pszResult = NULL;

	while( m_pstCur && !pszResult )
	{
		if( 0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("script"),6) &&
			0 != ::_tcsnicmp(m_pstCur->s_pszKey,_T("style"),5) )
		{
			if( m_pstCur->s_pszValue )
				pszResult = m_pstCur->s_pszValue;
		}

		m_pstCur = m_pstCur->s_pstNext;
	}

	return pszResult;
}
//
LPCTSTR CHtmlHelper::SearchText(LPCTSTR lpszText)
{
	LPCTSTR pszResult = NULL;

	CHtmlObject::tagNode *pstCur = m_pstHead;

	while( pstCur && !pszResult)
	{
		if( 0 != ::_tcsnicmp(pstCur->s_pszKey,_T("script"),6) &&
			0 != ::_tcsnicmp(pstCur->s_pszKey,_T("style"),5) )
		{
			if( pstCur->s_pszValue )
			{
				if( (NULL != ::StrStrI(pstCur->s_pszValue,lpszText)) )
					pszResult = pstCur->s_pszValue;
			}
		}

		pstCur = pstCur->s_pstNext;
	}

	return pszResult;
}



#pragma warning(default: 4996) 



//CHtmlHelper.cpp//

你可能感兴趣的:(html,null,delete,url,脚本,搜索引擎)

【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
使用flask快速搭建web应用 alex190824 flask 前端 python echarts
文章目录前言一、Flask是什么？二、使用步骤1.引入包2.简单的服务端应用程序3.添加用于显示折线图代码4.在templates目录下，创建用于渲染的line-simple.html页面5.完整的代码结构前端代码后端代码总结前言在数据处理分析过程中，有快速搭建数据展示的应用场景需求，此时可以使用Flask快速进行web应用环境构建。本示例演示创建web应用及显示渲染echart折线图。一、Fla
CAPL的程序结构正当少年 CAPL 开发语言
CAPL（CommunicationAccessProgrammingLanguage）是Vector公司开发的一种用于汽车网络仿真、测试和开发的脚本语言，主要用于CANoe、CANalyzer等工具中。CAPL程序的结构相对简单，通常由事件驱动的方式组织。以下是CAPL程序的基本结构：1.变量声明CAPL程序通常以变量声明开始。变量可以是全局变量或局部变量。全局变量在整个程序中可见，局部变量只在
MsSqlServer2022的jdbc的url的连接属性 kfepiza Database数据库 sql 关系型非关系型 nosql JAVA microsoft sqlserver 数据库
MsSqlServer2022的jdbc的url的连接属性官方文档LearnSQL连接设置连接属性https://learn.microsoft.com/zh-cn/sql/connect/jdbc/setting-the-connection-properties?view=sql-server-ver16下载JDBC驱动程序可以通过多种方式指定连接字符串的属性：当使用DriverManager
Web三要素：HTML之ARIA可访问性(3) 双囍菜菜前端随记前端 html 服务器 ARIA
ARIA：为Web构建数字盲道的技术革命文章目录ARIA：为Web构建数字盲道的技术革命一、屏幕背后的黑暗世界：一个被忽视的用户群体1.1触目惊心的现实案例1.2法律合规的达摩克利斯之剑二、ARIA技术体系的三重维度2.1角色（Roles）：定义元素身份常用角色分类2.2属性（Properties）：描述元素特征关键属性矩阵2.3状态（States）：反映动态变化状态同步机制三、ARIA实战：构建
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
基于k3s部署Nginx、MySQL、SpringBoot和Redis的详细教程
1.安装k3s集群1.1单节点快速部署#使用root或sudo权限执行curl-sfLhttps://get.k3s.io|sh-#验证安装sudokubectlgetnodes#输出应为Ready状态sudosystemctlstatusk3s1.2配置kubectl权限（可选）mkdir-p~/.kubesudocp/etc/rancher/k3s/k3s.yaml~/.kube/config
Python写一个脚本——30行代码——1秒实现PDF任意页码拆分穿梭的编织者 Python精选 pdf python
一、引入库importosfromPyPDF2importPdfReader,PdfWriter二、定义拆分方法defsplit_pdf(input_path,output_dir,ranges):ifnotos.path.exists(output_dir):os.makedirs(output_dir)withopen(input_path,'rb')asfile:pdf=PdfReader(
MySQL的双主互备 zhz5214 数据同步 mysql 数据库
参考：Windows下mysql双主搭建https://www.cnblogs.com/chenyixun/p/13810156.htmlMySQL的双机互备（又称为MySQL高可用）是一种数据库系统部署策略，可以实现在两台服务器之间实现高可用性和容错能力。具体而言，MySQL的双机互备将MySQL数据库部署在两台服务器上，其中一台作为主服务器（Master），另一台作为备用服务器（Slave）。
Leetcode Hot100 第40题 297.二叉树的序列化和反序列化 onlyzzr 暑期实习刷题记录 leetcode 深度优先算法
/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode(intx):val(x),left(NULL),right(NULL){}*};*/classCodec{public:intindex;//Encodesatreetoasinglestring.str
二叉树的所有路径（leetcode 257 JohnFF leetcode linux 算法
leetcode系列文章目录一、核心操作二、外层配合操作三、核心模式代码总结使用递归法一、核心操作1.判断是不是叶子节点（该节点的左右子节点都为空2.收获该路径（将储存的节点一个一个拿出来，用->连接if(cur->left==nullptr&&cur->right==nullptr){stringspath;for(inti=0;i";}spath+=to_string(path[path.si
PowerShell脚本编写君君学姐 powershell
在Windows开发环境中，PowerShell脚本编写是自动化工作流程的强大工具。PowerShell不仅提供了丰富的命令集来管理Windows系统，还支持脚本编写，允许开发者创建复杂的自动化任务来简化日常开发流程。以下将详细探讨如何使用PowerShell脚本自动化Windows开发工作流程，涵盖环境设置、依赖管理、代码编译、测试执行、部署以及持续集成/持续部署（CI/CD）等方面。一、环境设
【CMake指南】第3篇：编写可维护的构建脚本（变量与作用域管理） JuicyActiveGilbert CMake指南开发语言 c++CMake 教程
源码及CMakeLists.txt沿用第1篇或第2篇的均可，本文沿用第2篇的相关文件1.CMake变量的基础操作1.1定义与修改变量在CMakeLists.txt后面加入如下代码：#定义普通变量set(MY_VAR"HelloWorld")#修改变量值set(MY_VAR"NewValue")#列表变量（分号分隔）set(MY_LISTa.cppb.cppc.cpp)#或显式列表set(MY_LI
【MyBatis-Plus 进阶功能】开发中常用场景剖析 Yan.love mybatis 后端 java 数据库
MyBatis-Plus（MP）除了封装常见的CRUD操作，还提供了一些高级功能，进一步简化复杂场景下的开发工作。本文将逐一讲解逻辑删除、自动填充、多表关联查询的原理与使用方式，让你快速掌握这些技巧！一、逻辑删除逻辑删除是指在数据库中不直接删除记录，而是通过标记（如is_deleted字段）表示数据是否有效。1.原理与配置逻辑删除是指在数据库中不直接删除记录，而是通过标记（如is_deleted字
简单的网页链接爬虫笑颜218 爬虫 python 简单
fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础
Redisson 分布式锁全面解析：锁类型(可重入锁、公平锁、联锁、红锁、读写锁)和锁常见方法解读千层冷面 Redis 分布式
Redisson分布式锁全面解析一、Redisson分布式锁原理Redisson分布式锁基于Redis实现，核心机制如下：Lua脚本保证原子性使用Lua脚本在Redis中执行锁的获取和释放操作，确保多个Redis命令的原子性。可重入锁设计同一线程可重复获取锁，通过计数器记录重入次数，避免死锁。看门狗（Watchdog）自动续期后台线程定期检查锁状态，若锁仍被持有且未完成业务逻辑，则自动延长锁的过期
SpringBoot整合MinIO实现文件的上传下载以及获取预览URL .晚安. spring boot 后端 java web
SpringBoot整合MinIO实现文件的上传下载以及获取预览URLJDK17SpringBoot3参考https://min.io/docs/minio/linux/developers/java/API.html?ref=docs-redirect#uploadObject源码https://gitee.com/Uncommen/easy-min-io引入依赖在pom.xml中添加主要的依赖
Python学习-----项目设计1.0（设计思维和ATM环境搭建） Fitz& Python学习学习 python
目录前言：项目开发流程MVC设计模式什么是MVC设计模式？ATM项目要求ATM项目的环境搭建前言：我个人学习Python大概也有一个月了，在这一个月中我发布了许多关于Python的文章，建立了一个Python学习起步的专栏（https://blog.csdn.net/m0_73633088/category_12186491.html），在这里我非常感谢各位的一路陪伴，你们的支持是我创作的不竭动力
计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档) 山逸网络数据库 java mysql
计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档)计算机毕业设计Java河南省农村多元化养老服务管理系统设计与实现(源码+系统+mysql数据库+lw文档)本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win1
使用Redis实现分布式锁的技术详解智能编织者 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
MybatisPlus查询结果返回值为null 雾林小妖 Java开发常见BUG解决方案 java spring mybatis springboot
1、问题描述返回值为null，程序不报错，但是条数好像是正确的。我出现问题的代码如下：1、自定义类StudentMapper继承了BaseMapper接口publicinterfaceStudentMapperextendsBaseMapper{}2、使用StudentMapper中的selectList方法查询数据的时候，打印结果的时候返回值都会null，但是条数没有问题，也就是有几条数据就返回
输入URL到页面展示的核心逻辑链賢843 软件测试理论基础 python
浏览器输入url到页面展示过程（https请求过程）DNS解析域名得到服务器ip地址TCP三次握手TCP三次握手-CSDN博客客户端发送http请求服务器响应请求客户端渲染页面TCP四次挥手两个核心概念FIN包：FIN=1，表示请求终止连接（相当于说“我要挂电话了！”）。ACK包：ACK=1，表示确认收到数据（相当于说“我收到了！”）。四次挥手流程第一次挥手：客户端发送FIN=1的包给
Python的模块使用稍微认真一点 python 经验分享笔记
1.模块和包1.1.模块简而言之，在python中，一个文件（以“.py”为后缀名的文件）就叫做一个模块，每一个模块在python里都被看做是一个独立的文件。模块可以被项目中的其他模块、一些脚本甚至是交互式的解析器所使用，它可以被其他程序引用，从而使用该模块里的函数等功能，使用Python中的标准库也是采用这种方法。导入模块的三种方式：方式一：import模块名#导入整个demo模块importd
node端导出excel-用请求排队来限流国王不在家 node javascript node.js
需求有一个会执行luckySheet脚本并且导出excel的node接口，会在每天凌晨执行，但是文件过大时会内存溢出之前有用worker来实现多线程（主要是避免变量污染），但这样只能保证主线程不卡死，几个子线程合起来占用内存也很大，然后改用流的方式导出来优化占用内存过大的问题。但是exceljs插件用流的方式导出不支持导出图片，所以有图片就用流的方式导出，没图片还是用一开始的方式导出。为了继续优化
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
基于扩展方法实现C#安全集合操作工具包（含完整源码） WangMing_X C#实现各种功能工具集 c#安全集合
一、安全集合操作的价值在日常开发中，集合操作引发的NullReferenceException、IndexOutOfRangeException等异常占比高达35%。本工具包通过扩展方法实现以下核心场景的安全防护：安全索引访问防止数据绑定、列表遍历时的越界崩溃空集合防御处理避免foreach空集合导致的逻辑异常批量操作增强简化集合合并、筛选等批量操作深拷贝支持解决引用类型集合修改时的副作用问题二、
java解析el-upload上传的文件,vue+elementui 使用el-upload组件实现单个文件手动上传神经脱臼
ref='upload'style="width:100%":action="uploadUrl":on-remove="handleRemove":on-change="handleChange":data="uploadData":file-list="filelist":before-upload="handleBeforeUpload":auto-upload="false">选取文件仅支
使用Redis实现分布式锁的技术详解 my1121716951 redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
【经验总结】 PostgreSQL的COALESCE 函数用法 Xcong_Zhu 学习笔记 postgresql 数据库
COALESCE函数在PostgreSQL中是一个非常有用的函数，它不仅可以用来自动替换NULL值，还可以用于多种其他场景。COALESCE函数接受一系列的参数，并返回第一个非NULL的参数值。如果所有参数都是NULL，那么COALESCE函数将返回NULL。以下是一些COALESCE函数的常见用途：提供默认值：当你查询数据库时，如果某个字段可能包含NULL值，但你希望显示一个默认值，可以使用CO
使用Redis实现分布式锁的技术详解 QQ828929QQ redis 分布式数据库
使用Redis实现分布式锁的技术详解一、引言二、分布式锁的基本概念三、Redis实现分布式锁的原理1.SETNX命令2.SET命令的扩展参数3.Lua脚本保证原子性四、Redis实现分布式锁的步骤1.引入Redis依赖2.加锁实现3.释放锁实现4.设置锁过期时间五、代码演示1.引入依赖2.加锁与释放锁的工具类3.使用示例六、注意事项与优化1.死锁问题2.锁竞争与重试机制一、引言在分布式系统中，多个
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin