Liigo

基本的HTML文本解析器的设计和实现（C/C++源码），图文并茂

作者：庄晓立 (liigo)

日期：2011-1-19

原创链接：http://blog.csdn.net/liigo/archive/2011/01/19/6153829.aspx

转载请保持本文完整性，并注明出处：http://blog.csdn.net/liigo

关键字：HTML，解析器(Parser)，节点(Node)，标签(Tag)

这是进入2011年以来，本人(liigo)“重复发明轮子”系列博文中的最新一篇。本文主要探讨如何设计和实现一个基本的HTML文本解析器。

众所周知，HTML是结构化文档(Structured Document)，由诸多标签（

等）嵌套形成的著名的文档对象模型（DOM, Document Object Model），是显而易见的树形多层次结构。如果带着这种思路看待HTML、编写HTML解析器，无疑将导致问题复杂化。不妨从另一视角俯视HTML文本，视其为一维线状结构：诸多单一节点的顺序排列。仔细审视任何一段HTML文本，以左右尖括号（<和>）为边界，会发现HTML文本被天然地分割为：一个标签（Tag），接一段普通文字，再一个标签，再一段普通文字…… 如下图所示：

标签有两种，开始标签（如

）和结束标签（

），它们和普通文字一起，顺序排列，共同构成了HTML文本的全部。

为了再次简化编程模型，我(liigo)继续将“开始标签”“结束标签”“普通文字”三者统一抽象归纳为“节点”（HtmlNode），相应的，“节点”有三种类型，要么是开始标签，要么是结束标签，要么是普通文字。现在，HTML在我们眼里更加单纯了，它就是“节点”的线性顺序组合，是一维的“节点”数组。如下图所示：HTML文本 = 节点1 + 节点2 + 节点3 + ……

在正式编码之前，先确定好“节点”的数据结构。作为“普通文字”节点，需要记录一个文本(text)；作为“标签”节点，需要记录标签名称(tagName)、标签类型(tagType)、所有属性值(props)；另外还要有个类型(type)以便区分该节点是普通文字、开始标签还是结束标签。这其中固然有些冗余信息，比如对标签来说不需要记录文本，对普通文字来说又不需要记录标签名称、属性值等，不过无伤大雅，简洁的编程模型是最大的诱惑。用C/C++语言语法表示如下：

enum HtmlNodeType { NODE_UNKNOWN = 0, NODE_START_TAG, NODE_CLOSE_TAG, NODE_CONTENT, }; enum HtmlTagType { TAG_UNKNOWN = 0, TAG_A, TAG_DIV, TAG_FONT, TAG_IMG, TAG_P, TAG_SPAN, TAG_BR, TAG_B, TAG_I, TAG_HR, }; struct HtmlNodeProp { WCHAR* szName; WCHAR* szValue; }; #define MAX_HTML_TAG_LENGTH (15) struct HtmlNode { HtmlNodeType type; HtmlTagType tagType; WCHAR tagName[MAX_HTML_TAG_LENGTH+1]; WCHAR* text; int propCount; HtmlNodeProp* props; };

具体到编写程序代码，要比想象中容易的多。编码的核心要点是，以左右尖括号（<和>）为边界自然分割标签和普通文字。左右尖括号之间的当然是标签节点（开始标签或结束标签），左尖括号(<)之前（直到前一个右尖括号或开头）、右尖括号(>)之后（直到后一个左尖括号或结尾）的显然是普通文字节点。区分开始标签或结束标签的关键点是，看左尖括号(<)后面第一个非空白字符是否为'/'。对于开始标签，在标签名称后面，间隔至少一个空白字符，可能会有形式为“key1=value1 key2=value2 key3”的属性表，关于属性表，后文有专门的函数负责解析。此外有一点要注意，属性值一般有引号括住，引号内出现的左右尖括号应该不被视为边界分隔符。

下面就是负责把HTML文本解析为一个个节点（HtmlNode）的核心代码（不足百行，够精简吧）：

void HtmlParser::ParseHtml(const WCHAR* szHtml) { m_html = szHtml ? szHtml : L""; freeHtmlNodes(); if(szHtml == NULL || *szHtml == L'/0') return; WCHAR* p = (WCHAR*) szHtml; WCHAR* s = (WCHAR*) szHtml; HtmlNode* pNode = NULL; WCHAR c; bool bInQuotes = false; while( c = *p ) { if(c == L'/"') { bInQuotes = !bInQuotes; p++; continue; } if(bInQuotes) { p++; continue; } if(c == L'<') { if(p > s) { //Add Text Node pNode = NewHtmlNode(); pNode->type = NODE_CONTENT; pNode->text = duplicateStrUtill(s, L'<', true); } s = p + 1; } else if(c == L'>') { if(p > s) { //Add HtmlTag Node pNode = NewHtmlNode(); while(isspace(*s)) s++; pNode->type = (*s != L'/' ? NODE_START_TAG : NODE_CLOSE_TAG); if(*s == L'/') s++; copyStrUtill(pNode->tagName, MAX_HTML_TAG_LENGTH, s, L'>', true); //处理自封闭的结点, 如
, 删除tagName中可能会有的'/'字符 //自封闭的结点的type设置为NODE_START_TAG应该可以接受(否则要引入新的NODE_STARTCLOSE_TAG) int tagNamelen = wcslen(pNode->tagName); if(pNode->tagName[tagNamelen-1] == L'/') pNode->tagName[tagNamelen-1] = L'/0'; //处理结点属性 for(int i = 0; i < tagNamelen; i++) { if(pNode->tagName[i] == L' ' //第一个空格后面跟的是属性列表 || pNode->tagName[i] == L'=') //扩展支持这种格式: , 等效于 { WCHAR* props = (pNode->tagName[i] == L' ' ? s + i + 1 : s); pNode->text = duplicateStrUtill(props, L'>', true); int nodeTextLen = wcslen(pNode->text); if(pNode->text[nodeTextLen-1] == L'/') //去掉最后可能会有的'/'字符, 如这种情况: pNode->text[nodeTextLen-1] = L'/0'; pNode->tagName[i] = L'/0'; parseNodeProps(pNode); //parse props break; } } pNode->tagType = getHtmlTagTypeFromName(pNode->tagName); } s = p + 1; } p++; } if(p > s) { //Add Text Node pNode = NewHtmlNode(); pNode->type = NODE_CONTENT; pNode->text = duplicateStr(s, -1); } #ifdef _DEBUG dumpHtmlNodes(); //just for test #endif }

下面是负责解析“开始标签”属性表文本（形如“key1=value1 key2=value2 key3”）的代码，parseNodeProps()，核心思路是按空格和等号字符进行分割属性名和属性值，由于想兼容HTML4.01及以前的不标准的属性表写法（如没有=号也没有属性值），颇费周折：

//[virtual] void HtmlParser::parseNodeProps(HtmlNode* pNode) { if(pNode == NULL || pNode->propCount > 0 || pNode->text == NULL) return; WCHAR* p = pNode->text; WCHAR *ps = NULL; CMem mem; bool inQuote1 = false, inQuote2 = false; WCHAR c; while(c = *p) { if(c == L'/"') { inQuote1 = !inQuote1; } else if(c == L'/'') { inQuote2 = !inQuote2; } if((!inQuote1 && !inQuote2) && (c == L' ' || c == L'/t' || c == L'=')) { if(ps) { mem.AddPointer(duplicateStrAndUnquote(ps, p - ps)); ps = NULL; } if(c == L'=') mem.AddPointer(NULL); } else { if(ps == NULL) ps = p; } p++; } if(ps) mem.AddPointer(duplicateStrAndUnquote(ps, p - ps)); mem.AddPointer(NULL); mem.AddPointer(NULL); WCHAR** pp = (WCHAR**) mem.GetPtr(); CMem props; for(int i = 0, n = mem.GetSize() / sizeof(WCHAR*) - 2; i < n; i++) { props.AddPointer(pp[i]); //prop name if(pp[i+1] == NULL) { props.AddPointer(pp[i+2]); //prop value i += 2; } else props.AddPointer(NULL); //prop vlalue } pNode->propCount = props.GetSize() / sizeof(WCHAR*) / 2; pNode->props = (HtmlNodeProp*) props.Detach(); }

根据标签名称取标签类型的getHtmlTagTypeFromName()方法，就非常直白了，查表，逐一识别：

//[virtual] HtmlTagType HtmlParser::getHtmlTagTypeFromName(const WCHAR* szTagName) { //todo: uses hashmap struct N2T { const WCHAR* name; HtmlTagType type; }; static N2T n2tTable[] = { { L"A", TAG_A }, { L"FONT", TAG_FONT }, { L"IMG", TAG_IMG }, { L"P", TAG_P }, { L"DIV", TAG_DIV }, { L"SPAN", TAG_SPAN }, { L"BR", TAG_BR }, { L"B", TAG_B }, { L"I", TAG_I }, { L"HR", TAG_HR }, }; for(int i = 0, count = sizeof(n2tTable)/sizeof(n2tTable[0]); i < count; i++) { N2T* p = &n2tTable[i]; if(wcsicmp(p->name, szTagName) == 0) return p->type; } return TAG_UNKNOWN; }

请注意，上文负责解析属性表的parseNodeProps()函数，和负责识别标签名称的getHtmlTagTypeFromName()函数，都是虚函数（virtual method）。我(liigo)这么设计是有深意的，给使用者留下了很大的定制空间，可以自由发挥。例如，通过在子类中覆盖/覆写（override）parseNodeProps()方法，可以采用更好的解析算法，或者干脆不做任何处理以提高HTML解析效率——将来某一时间可以调用基类同名函数专门解析特定标签的属性表；例如，通过在子类中覆盖/覆写（override）getHtmlTagTypeFromName()方法，使用者可以选择识别跟多的标签名称（包括自定义标签），或者识别更少的标签名称，甚至不识别任何标签名称（以便提高解析效率）。以编写网络爬虫程序为实例，它多数情况下通常只需识别标签及其属性就足够了，没必要浪费CPU运算去识别其它标签、解析其他标签属性。

至于HTML文本解析器的用途，我目前想到的有：用于HTML格式检查或规范化，用于重新排版HTML文本，用于编写网络爬虫程序/搜索引擎，用于基于HTML模板的动态网页生成，用于HTML网页渲染前的基础解析，等等。

下面附上完整源码，仅供参考，欢迎指正。

HtmlParser.h：

#include "common.h" //HtmlParser类，用于解析HTML文本 //by liigo, @2010 enum HtmlNodeType { NODE_UNKNOWN = 0, NODE_START_TAG, NODE_CLOSE_TAG, NODE_CONTENT, NODE_SOFT_LINE, }; enum HtmlTagType { TAG_UNKNOWN = 0, TAG_A, TAG_DIV, TAG_FONT, TAG_IMG, TAG_P, TAG_SPAN, TAG_BR, TAG_B, TAG_I, TAG_HR, TAG_COLOR, TAG_BGCOLOR, //非标准HTML标签, 可以这样使用: , 等效于 }; struct HtmlNodeProp { WCHAR* szName; WCHAR* szValue; }; #define MAX_HTML_TAG_LENGTH (15) struct HtmlNode { HtmlNodeType type; HtmlTagType tagType; WCHAR tagName[MAX_HTML_TAG_LENGTH+1]; WCHAR* text; int propCount; HtmlNodeProp* props; }; class HtmlParser { friend class HTMLView; public: HtmlParser() {} public: //html void ParseHtml(const WCHAR* szHtml); const WCHAR* GetHtml() const { return m_html.GetText(); } //nodes unsigned int getHtmlNodeCount(); HtmlNode* getHtmlNodes(); //props const HtmlNodeProp* getNodeProp(const HtmlNode* pNode, const WCHAR* szPropName); const WCHAR* getNodePropStringValue(const HtmlNode* pNode, const WCHAR* szPropName, const WCHAR* szDefaultValue = NULL); int getNodePropIntValue(const HtmlNode* pNode, const WCHAR* szPropName, int defaultValue = 0); protected: //允许子类覆盖, 以便识别更多结点(提高解析质量), 或者识别更少结点(提高解析速度) virtual HtmlTagType getHtmlTagTypeFromName(const WCHAR* szTagName); public: //允许子类覆盖, 以便更好的解析节点属性, 或者干脆不解析节点属性(提高解析速度) virtual void parseNodeProps(HtmlNode* pNode); //todo: make protected, after testing private: HtmlNode* NewHtmlNode(); void freeHtmlNodes(); void dumpHtmlNodes(); private: CMem m_HtmlNodes; CMString m_html; }; //一些文本处理函数 WCHAR* duplicateStr(const WCHAR* pSrc, unsigned int nChar); void freeDuplicatedStr(WCHAR* p); unsigned int copyStr(WCHAR* pDest, unsigned int nDest, const WCHAR* pSrc, unsigned int nChar);

HtmlParser.cpp：

#include "HtmlParser.h" //HtmlParser类，用于解析HTML文本 //by liigo, @2010 const WCHAR* wcsnchr(const WCHAR* pStr, int len, WCHAR c) { const WCHAR *p = pStr; while(1) { if(*p == c) return p; p++; if((p - pStr) == len) break; } return NULL; } const WCHAR* getFirstUnquotedChar(const WCHAR* pStr, WCHAR endcahr) { WCHAR c; const WCHAR* p = pStr; bool inQuote1 = false, inQuote2 = false; //'inQuote1', "inQuote2" while(c = *p) { if(c == L'/'') { inQuote1 = !inQuote1; } else if(c == L'/"') { inQuote2 = !inQuote2; } if(!inQuote1 && !inQuote2) { if(c == endcahr) return p; } p++; } return NULL; } //nDest and nChar can by -1 unsigned int copyStr(WCHAR* pDest, unsigned int nDest, const WCHAR* pSrc, unsigned int nChar) { if(pDest == NULL || nDest == 0) return 0; if(pSrc == NULL) { pDest[0] = L'/0'; return 0; } if(nChar == (unsigned int)-1) nChar = wcslen(pSrc); if(nChar > nDest) nChar = nDest; memcpy(pDest, pSrc, nChar * sizeof(WCHAR)); pDest[nChar] = L'/0'; return nChar; } int copyStrUtill(WCHAR* pDest, unsigned int nDest, const WCHAR* pSrc, WCHAR endchar, bool ignoreEndCharInQuoted) { if(nDest == 0) return 0; pDest[0] = L'/0'; const WCHAR* pSearched = (ignoreEndCharInQuoted ? getFirstUnquotedChar(pSrc,endchar) : wcschr(pSrc, endchar)); if(pSearched <= pSrc) return 0; return copyStr(pDest, nDest, pSrc, pSearched - pSrc); } //nChar can be -1 WCHAR* duplicateStr(const WCHAR* pSrc, unsigned int nChar) { if(nChar == (unsigned int)-1) nChar = wcslen(pSrc); WCHAR* pNew = (WCHAR*) malloc( (nChar+1) * sizeof(WCHAR) ); copyStr(pNew, -1, pSrc, nChar); return pNew; } WCHAR* duplicateStrUtill(const WCHAR* pSrc, WCHAR endchar, bool ignoreEndCharInQuoted) { const WCHAR* pSearched = (ignoreEndCharInQuoted ? getFirstUnquotedChar(pSrc,endchar) : wcschr(pSrc, endchar));; if(pSearched <= pSrc) return NULL; int n = pSearched - pSrc; return duplicateStr(pSrc, n); } void freeDuplicatedStr(WCHAR* p) { if(p) free(p); } HtmlNode* HtmlParser::NewHtmlNode() { static char staticHtmlNodeTemplate[sizeof(HtmlNode)] = {0}; /* static HtmlNode staticHtmlNodeTemplate; //= {0}; staticHtmlNodeTemplate.type = NODE_UNKNOWN; staticHtmlNodeTemplate.tagName[0] = L'/0'; staticHtmlNodeTemplate.text = NULL; */ m_HtmlNodes.Append(staticHtmlNodeTemplate, sizeof(HtmlNode)); HtmlNode* pNode = (HtmlNode*) (m_HtmlNodes.GetPtr() + m_HtmlNodes.GetSize() - sizeof(HtmlNode)); return pNode; } void HtmlParser::ParseHtml(const WCHAR* szHtml) { m_html = szHtml ? szHtml : L""; freeHtmlNodes(); if(szHtml == NULL || *szHtml == L'/0') return; WCHAR* p = (WCHAR*) szHtml; WCHAR* s = (WCHAR*) szHtml; HtmlNode* pNode = NULL; WCHAR c; bool bInQuotes = false; while( c = *p ) { if(c == L'/"') { bInQuotes = !bInQuotes; p++; continue; } if(bInQuotes) { p++; continue; } if(c == L'<') { if(p > s) { //Add Text Node pNode = NewHtmlNode(); pNode->type = NODE_CONTENT; pNode->text = duplicateStrUtill(s, L'<', true); } s = p + 1; } else if(c == L'>') { if(p > s) { //Add HtmlTag Node pNode = NewHtmlNode(); while(isspace(*s)) s++; pNode->type = (*s != L'/' ? NODE_START_TAG : NODE_CLOSE_TAG); if(*s == L'/') s++; copyStrUtill(pNode->tagName, MAX_HTML_TAG_LENGTH, s, L'>', true); //处理自封闭的结点, 如
, 删除tagName中可能会有的'/'字符 //自封闭的结点的type设置为NODE_START_TAG应该可以接受(否则要引入新的NODE_STARTCLOSE_TAG) int tagNamelen = wcslen(pNode->tagName); if(pNode->tagName[tagNamelen-1] == L'/') pNode->tagName[tagNamelen-1] = L'/0'; //处理结点属性 for(int i = 0; i < tagNamelen; i++) { if(pNode->tagName[i] == L' ' //第一个空格后面跟的是属性列表 || pNode->tagName[i] == L'=') //扩展支持这种格式: , 等效于 { WCHAR* props = (pNode->tagName[i] == L' ' ? s + i + 1 : s); pNode->text = duplicateStrUtill(props, L'>', true); int nodeTextLen = wcslen(pNode->text); if(pNode->text[nodeTextLen-1] == L'/') //去掉最后可能会有的'/'字符, 如这种情况: pNode->text[nodeTextLen-1] = L'/0'; pNode->tagName[i] = L'/0'; parseNodeProps(pNode); //parse props break; } } pNode->tagType = getHtmlTagTypeFromName(pNode->tagName); } s = p + 1; } p++; } if(p > s) { //Add Text Node pNode = NewHtmlNode(); pNode->type = NODE_CONTENT; pNode->text = duplicateStr(s, -1); } #ifdef _DEBUG dumpHtmlNodes(); //just for test #endif } unsigned int HtmlParser::getHtmlNodeCount() { return (m_HtmlNodes.GetSize() / sizeof(HtmlNode)); } HtmlNode* HtmlParser::getHtmlNodes() { return (HtmlNode*) m_HtmlNodes.GetPtr(); } void HtmlParser::freeHtmlNodes() { HtmlNode* pNodes = getHtmlNodes(); for(int i = 0, count = getHtmlNodeCount(); i < count; i++) { HtmlNode* pNode = pNodes + i; if(pNode->text) freeDuplicatedStr(pNode->text); if(pNode->props) MFreeMemory(pNode->props); //see: CMem::Alloc } m_HtmlNodes.Empty(); } //[virtual] HtmlTagType HtmlParser::getHtmlTagTypeFromName(const WCHAR* szTagName) { //todo: uses hashmap struct N2T { const WCHAR* name; HtmlTagType type; }; static N2T n2tTable[] = { { L"A", TAG_A }, { L"FONT", TAG_FONT }, { L"IMG", TAG_IMG }, { L"P", TAG_P }, { L"DIV", TAG_DIV }, { L"SPAN", TAG_SPAN }, { L"BR", TAG_BR }, { L"B", TAG_B }, { L"I", TAG_I }, { L"HR", TAG_HR }, { L"COLOR", TAG_COLOR }, { L"BGCOLOR", TAG_BGCOLOR }, }; for(int i = 0, count = sizeof(n2tTable)/sizeof(n2tTable[0]); i < count; i++) { N2T* p = &n2tTable[i]; if(wcsicmp(p->name, szTagName) == 0) return p->type; } return TAG_UNKNOWN; } void skipSpaceChars(WCHAR*& p) { if(p) { while(isspace(*p)) p++; } } const WCHAR* nextUnqotedSpaceChar(const WCHAR* p) { const WCHAR* r = getFirstUnquotedChar(p, L' '); if(!r) r = getFirstUnquotedChar(p, L'/t'); return r; } const WCHAR* duplicateStrAndUnquote(const WCHAR* str, unsigned int nChar) { if( nChar > 1 && (str[0] == L'/"' && str[nChar-1] == L'/"') || (str[0] == L'/'' && str[nChar-1] == L'/'') ) { str++; nChar-=2; } return duplicateStr(str, nChar); } //[virtual] void HtmlParser::parseNodeProps(HtmlNode* pNode) { if(pNode == NULL || pNode->propCount > 0 || pNode->text == NULL) return; WCHAR* p = pNode->text; WCHAR *ps = NULL; CMem mem; bool inQuote1 = false, inQuote2 = false; WCHAR c; while(c = *p) { if(c == L'/"') { inQuote1 = !inQuote1; } else if(c == L'/'') { inQuote2 = !inQuote2; } if((!inQuote1 && !inQuote2) && (c == L' ' || c == L'/t' || c == L'=')) { if(ps) { mem.AddPointer(duplicateStrAndUnquote(ps, p - ps)); ps = NULL; } if(c == L'=') mem.AddPointer(NULL); } else { if(ps == NULL) ps = p; } p++; } if(ps) mem.AddPointer(duplicateStrAndUnquote(ps, p - ps)); mem.AddPointer(NULL); mem.AddPointer(NULL); WCHAR** pp = (WCHAR**) mem.GetPtr(); CMem props; for(int i = 0, n = mem.GetSize() / sizeof(WCHAR*) - 2; i < n; i++) { props.AddPointer(pp[i]); //prop name if(pp[i+1] == NULL) { props.AddPointer(pp[i+2]); //prop value i += 2; } else props.AddPointer(NULL); //prop vlalue } pNode->propCount = props.GetSize() / sizeof(WCHAR*) / 2; pNode->props = (HtmlNodeProp*) props.Detach(); } const HtmlNodeProp* HtmlParser::getNodeProp(const HtmlNode* pNode, const WCHAR* szPropName) { if(pNode == NULL || pNode->propCount <= 0) return NULL; for(int i = 0; i < pNode->propCount; i++) { HtmlNodeProp* prop = pNode->props + i; if(wcsicmp(prop->szName, szPropName) == 0) return prop; } return NULL; } const WCHAR* HtmlParser::getNodePropStringValue(const HtmlNode* pNode, const WCHAR* szPropName, const WCHAR* szDefaultValue /*= NULL*/) { const HtmlNodeProp* pProp = getNodeProp(pNode, szPropName); if(pProp) return pProp->szValue; else return szDefaultValue; } int HtmlParser::getNodePropIntValue(const HtmlNode* pNode, const WCHAR* szPropName, int defaultValue /*= 0*/) { const HtmlNodeProp* pProp = getNodeProp(pNode, szPropName); if(pProp && pProp->szValue) return _wtoi(pProp->szValue); else return defaultValue; } void HtmlParser::dumpHtmlNodes() { #ifdef _DEBUG HtmlNode* pNodes = getHtmlNodes(); WCHAR buffer[256]; OutputDebugString(L"/n-------- dumpHtmlNodes --------/n"); for(int i = 0, count = getHtmlNodeCount(); i < count; i++) { HtmlNode* pNode = pNodes + i; switch(pNode->type) { case NODE_CONTENT: wsprintf(buffer, L"%2d) type: NODE_CONTENT, text: %s", i, pNode->text); break; case NODE_START_TAG: wsprintf(buffer, L"%2d) type: NODE_START_TAG, tagName: %s (%d), text: %s", i, pNode->tagName, pNode->tagType, pNode->text); break; case NODE_CLOSE_TAG: wsprintf(buffer, L"%2d) type: NODE_CLOSE_TAG, tagName: %s", i, pNode->tagName); break; case NODE_UNKNOWN: default: wsprintf(buffer, L"%2d) type: NODE_UNKNOWN", i); break; } OutputDebugString(buffer); OutputDebugString(L"/n"); if(pNode->propCount > 0) { OutputDebugString(L" props: "); for(int i = 0; i < pNode->propCount; i++) { HtmlNodeProp* prop = pNode->props + i; if(prop->szValue) wsprintf(buffer, L"%s = %s", prop->szName, prop->szValue); else wsprintf(buffer, L"%s", prop->szName); OutputDebugString(buffer); if(i < pNode->propCount - 1) { OutputDebugString(L", "); } } OutputDebugString(L"/n"); } } OutputDebugString(L"-------- end of dumpHtmlNodes --------/n"); #endif } //just for test class TestHtmlParser { public: TestHtmlParser() { HANDLE CMem_GetProcessHeap(); CMem_GetProcessHeap(); HtmlParser htmlParser; HtmlNode node; node.text = L" a=1 b c=/'x y=0/' d = abc "; htmlParser.parseNodeProps(&node); htmlParser.ParseHtml(L"...

---link..."); htmlParser.ParseHtml(L"

---< a href=url >link"); htmlParser.ParseHtml(L"

/" >"); } }; TestHtmlParser testHtmlParser;

全文完，谢谢。

2011-1-22 liigo 补记：本文所提供的源代码，目前有未完善之处，如没有考虑到内嵌JavaScrip代码和HTML注释中的特殊字符（特别是尖括号）对解析器的影响，另外还可能有其他疏漏和bug，故代码仅可用于学习参考研究使用。我今后也将继续改进此HTML语法解析器。特此声明。

2012-5-5 liigo 补记：在刚刚过去的半个多月里，我又对此HTML解析器做了很多改进（并将持续改进），目前应该说是比较成熟和完善了。源代码已经放到GitHub： https://github.com/liigo/html-parser 。另外，本文嵌入的代码已经很旧了（且其中C/C++转义字符被CSDN博客系统粗暴替换），但主要的设计和实现思路依然有效。我也有计划新写一篇本文的2.0版。

logstash（自动拉取，过滤，推送日志的应用，也是elk架构中的l）长东737 elk 架构
elk是指elasticsearch，logstash，kibana三款软件搭配组成的架构logstash是一个数据采集加工处理以及传输的工具logstash类似于流水线，有三个模块，分辨是input>filter>output，input模块负责收集数据，filter负责处理数据，output负责输出数据logstash需要先保证web集群和ela集群运行正常才能搭建，运行logstash需要先
Java 9模块开发：IntelliJ IDEA实战指南 2501_90323865 hystrix java 开发语言个人开发
在Java9中，模块化是一个重要的特性，它可以帮助我们更好地组织和管理代码。而IntelliJIDEA作为一个强大的集成开发环境，为Java9模块的开发提供了全面的支持。本文将通过一个实际的项目示例，详细讲解如何在IntelliJIDEA中开发和运行Java9模块。环境准备在开始之前，确保你已经安装了以下软件：Java9：Java9是开发Java9模块的基础，可以从Oracle官网下载并安装。In
Python 自制自动连点器黑客白泽 Python程序脚本 python android 开发语言
Python自制自动连点器1.简介：‌连点器‌是一种能够模拟鼠标点击操作的计算机软件，主要用于自动化和简化重复的鼠标点击任务。它可以根据用户设定的参数，自动进行连续的鼠标点击操作。连点器的工作原理是通过模拟鼠标点击动作，将用户设定的点击位置、点击频率、点击次数等参数转化为实际的鼠标点击操作。用户只需设置好相应的参数，按下热键即可启动连点器，实现自动化操作‌。2.运行效果：3.相关源码：#-*-co
Django ORM解决Oracle表多主键的问题 zZeal django python 后端 oracle
现状以Django3.2为例DjangoORM设计为默认使用单一主键（通常是自增的id字段），这一选择主要基于以下核心原因：简化ORM设计与操作统一访问方式外键关联简化避免歧义冲突主键语义明确防止隐式依赖性能与数据库兼容索引效率优化跨数据库兼容替代方案成熟unique_together约束Oracle现状原始业务表，很多都使用多主键。使用Django映射现有Oracle数据库无法处理多主键问题。O
使用Hint优化复杂SQL案例-1 老虎刘优化 sql 性能 hint
下面这个SQL，执行时间42.4分钟:SELECTABI.APPLY_POLICY_NO,ABI.SALE_NO,ABI.STATUS,QT.NOTICE_STATUSFROMAPPLY_BASE_INFOABI,QT_WAIT_TASK_INFOQTWHEREABI.APPLY_POLICY_NO=QT.VOUCHER_NOANDABI.CREATED_DATE>=TRUNC(SYSDATE-1
C语言——第一章基础知识汇总（通俗易懂）知归2003 C语言相关知识 c语言开发语言
本文目录）第一章初始C语言1.1C语言的起源1.2选择C语言的理由1.2.1设计特性1.2.2高效性1.2.3可移植性1.2.4强大而灵活1.2.5面向程序员1.2.6缺点1.3C语言的应用范围1.4计算机能做什么1.5高级计算机语言和编译器1.6使用C语言的7个步骤（重点）1.6.1第1步：定义程序的目标1.6.2第2步：设计程序1.6.3第3步：编写代码1.6.4第4步：编译1.6.5第5步：
一文大白话讲清楚webpack进阶——8——Module Federation 16年上任的CTO webpack webpack 前端 node.js 模块联邦 Federation
文章目录一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederation2.这里讲两个基础概念3.容器应用配置4.远程应用配置5.模块使用5.ModuleFederation好在哪里6.ModuleFederation实战一文大白话讲清楚webpack进阶——8——ModuleFederation1.啥是ModuleFederationModul
Java重要面试名词整理（二十一）：SpringSecurity 正在绘制中 Java面试 java 面试开发语言
文章目录SpringSecurity篇概念用户授权（访问控制）JWTJWT续期问题SpringAuthorizationServer是什么OAuth2.0协议介绍角色OAuth2.0的运行流程授权模式详解客户端模式密码模式授权码模式简化模式token刷新模式OAuth2.1协议介绍授权码模式+PKCE扩展设备授权码模式拓展授权模式OpenIDConnect1.0协议SpringAuthorizat
力扣【1049. 最后一块石头的重量 II】Java题解（背包问题） hamster2021 leetcode java 算法
让石头分成重量相同的两堆（尽可能相同），相撞之后剩下的石头就是最小的。进一步转化成容量为重量总喝一半的背包最多可以装多少质量的石头。这样就转化成了背包问题。最后求结果时，我们所最多能装的时dp[target]，那另一半石头就是sum-dp[target]，我们所求的就是(sum-dp[target])-dp[target]，也就是sum-dp[target]*2。classSolution{pub
[Python办公]Nuitka 详细介绍与打包 Python 项目的步骤 William数据分析 python python 算法程序人生
Nuitka是一个将Python源代码编译为C/C++并生成二进制可执行文件的编译器。它不仅支持Python的所有特性，还能优化代码运行速度，并生成比解释型运行的Python更小的文件。相比于其他打包工具，如PyInstaller、cx_Freeze，Nuitka通过将Python编译为C提升性能，同时生成更高效的可执行文件。1.Nuitka的工作原理Nuitka并不像PyInstaller等工具
2920. 收集所有金币可获得的最大积分咔咔咔的 leetcode c++
2920.收集所有金币可获得的最大积分题目链接：2920.收集所有金币可获得的最大积分代码如下：//参考链接：https://leetcode.cn/problems/maximum-points-after-collecting-coins-from-all-nodes/solutions/2503152/shu-xing-dp-ji-yi-hua-sou-suo-by-endless-phzx
基于Python的Selenium详细教程总结（极简版） weixin_41663997 python selenium 开发语言
基于Python的Selenium详细教程总结一、PyCharm安装配置Selenium使用环境:Windows11,Python3.10.5,PyCharm2022.1.3,Selenium4.3.0需要技术:Python,HTML,CSS,JavaScriptSelenium安装:查看已安装的Python包:piplist安装Selenium4.3.0:pipinstallselenium==
《极致C语言》第2章 -- 从源文件到二进制文件 Fyang0906 极致C语言学习笔记 c语言 c++
《极致C语言》第2章–从源文件到二进制文件extreme-c-learning-notesch2《极致C语言》第2章--从源文件到二进制文件《极致C语言》第2章--从源文件到二进制文件1.编译过程1.1.构建C项目1.2.第1步--预处理1.3第2步--编译1.4第3步--汇编1.5第4步--链接2.预处理器3.编译器4.汇编器5.链接器1.编译过程预处理器编译器汇编器链接器C源代码通过：预处理-
基于requests库的爬虫实战京东商品信息爬取 Jerry104393 Python python 爬虫正则表达式
一，功能描述：目标：从京东商城爬取商品信息，输出商品名称和价格二、技术路线：requests-re-bs4三，程序设计结构：1.爬取网页内容：getHTMLText()2.提取信息到合适的数据结构中:parsePage()3.利用数据结构展示并输出:printGoodsList()四、体会：本次实验遇到的最大技术难题就是怎么剔除HTML标签（查看源代码发现可以用i和em两个标签精确定位），后来查看
java访问数据库视图_java 访问数据库视图金小夕 java访问数据库视图
工作多年调用视图到多次,自己写代码使用视图还是头一回,也觉得新鲜,那就开始呗,数据库系统是Oracle1我用的数据库连接客户端是Navicat,首先创建视图,其实视图就是调用表的操作,提取自己需要的数据放到视图下面,相对于java来说,可以把视图看成是特殊的表对待,这里说的特殊指的是通过hql语句调用访问数据库的时候涉及到关联表的问题.创建视图如下:然后通过myeclipse的hiberanger
oracle用hints调优,oracle性能优化之--hints 顾汐漫 oracle用hints调优
hints是oracle提供的一种机制，用来告诉优化器按照我们告诉它的方式生成执行计划。可以用hints来实现：1)使用的优化器的类型2)基于代价的优化器的优化目标，是all_rows还是first_rows。3)表的访问路径，是全表扫描，还是索引扫描，还是直接利用rowid。4)表之间的连接类型5)表之间的连接顺序6)语句的并行程度1、写HINT目的人为的改变SQL语句的执行计划2、HINT可以
实验三数据库完整性技术计算机小白的笔记数据库 database
实验三数据库完整性技术【实验目的】1、掌握完整性的概念；2、熟悉MySQL的完整性技术。3、了解MySQL的违反完整性处理措施。【实验性质】验证性实验【实验学时】2H【实验内容】写出完整、详尽的SQL语句，根据实验记录结果并总结。(空位不够请自行续页)一、定义完整性。(5分)/*创建表s、p、j、spj*/定义s表；sno主码，sname非空、city缺省值定义p表；pno主码，pname非空、c
02 SpringBoot初体验：统一响应和异常处理 theskyzero #SpringBoot初体验 spring boot java
文章目录背景目标准备工作基础知识统一响应定义统一响应`Response`使用统一响应`Response.success``ResponseBodyAdvice`测试异常处理全局异常处理`@ExceptionHandler``BizException`测试异常替代错误处理`ErrorController`01SpringBoot初体验：初始化web项目02SpringBoot初体验：统一响应和异常处
【Oracle中使用sta和hint进行性能优化】淦述昌性能优化 oracle 数据库
最近工作中遇到一个非常诡异的事情：sql直接执行快，在存过/匿名块/视图里面执行慢。查看语句的执行计划一模一样，通过对SQL的逐步分析，发现是后台实际的SQL_ID不一致导致的。本文用于对记录对于问题的分析步骤，以及用到的一些优化方式。一：优化思路：1：确定SQL卡在那个部分。将sql分解成一个个select，然后通过insertintotestselect……在直接执行和在declare匿名块中
python+selenium定位网页动态元素 + 定位非select（即input）的下拉列表 + 返回上一个函数进行保存操作心田婷 python 定位 selenium python
1、python+selenium定位网页动态元素这个折磨我快一天的小东西，磨的我都快想睡觉了网上大佬门的经验啥的都看遍了，或许是看到不够多，找了一天都没解决，然后现在终于找到了解决的办法！！！报错：selenium.common.exceptions.NoSuchElementException:Message:nosuchelement:Unabletolocateelement:{“meth
selenium定位svg元素（原来如此简单） sineiy selenium 测试工具 pytest windows
1、前言最近在实现UI自动化测试，发现有些元素定位不了，特此来记录一下，也许有不对的地方，欢迎指正。我说定位不了的元素正是svg，在网上查了一通，发现也有很多小伙伴遇到这个问题。然后试了各种方法，什么By.CLASS_NAME;By.CSS_SELECTOR等等都定位不了，后面是使用了Selenium库中的ActionChains类来模拟鼠标点击操作才把这个问题解决了。2、网页结构先来看一下网页结
TCP丢包原因、解决办法摸金青年v 计算机基础计算机网络 TCP丢包 TCP粘包 TCP拆包
TCP是基于不可靠的网络实现可靠的传输，肯定也会存在掉包的情况，如果通信中发现缺少数据或者丢包，那么，最大的可能在于程序发送的过程或者接收的过程出现问题。例如服务端要给客户端发送大量数据，Send频率很高，那么就很有可能在Send环节出现错误（1.程序处理逻辑错误，2.多线程同步问题，3.缓冲区溢出等），如果没有对Send发送失败做处理，那么客户端收到的数据比理论要收到的数据少，就会造成丢数据，丢
实验三数据库完整性 (头歌) 霸敛笔记数据库 sql oracle
实验三数据库完整性(头歌)制作不易！点个关注！给大家创造更多的价值！目录实验三数据库完整性(头歌)`制作不易！点个关注！给大家创造更多的价值！`第一关：定义s表完整性相关知识MySQL约束概述主键约束非空约束默认值约束查看表中的约束编程要求第二关：定义p表完整性相关知识MySQL检查约束（CHECK）编程要求代码如下：第3关：定义j表完整性编程要求代码如下：第4关：定义spj表完整性相关知识MyS
「译」2024 年的 5 个 JavaScript 安全最佳实践泯泷浏览器前端安全 javascript 安全开发语言
链接：https://thenewstack.io/5-javascript-security-best-practices-for-2024/作者：AlexanderT.Williams原标题：5JavaScriptSecurityBestPracticesfor2024网络安全已成为一个瞬息万变的战场，JavaScript应用程序的安全性也不例外。Web应用程序已成为黑客试图获取敏感数据和财务
-failover-abort-not-elected master mymaster问题难搞哦！！ redis redis集群
redis配置sentinel，mastershutdown后主从切换失败，提示错误-failover-abort-not-electedmastermymasterx.x.x.x6379原因是sentinel.conf缺少配置，若redis.conf中添加protected-modeyesbind0.0.0.0则sentinel.conf中添加该属性。
Python Django ORM qq_15654157 Python python
一、ORM介绍1.什么是ORM?ORM全拼Object-RelationMapping.中文意为对象-关系映射.在MVC/MVT设计模式中的Model模块中都包括ORM2.ORM优势（1）只需要面向对象编程,不需要面向数据库编写代码.对数据库的操作都转化成对类属性和方法的操作.不用编写各种数据库的sql语句.（2）实现了数据模型与数据库的解耦,屏蔽了不同数据库操作上的差异.不在关注用的是mysql
【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
计算机毕业设计JAVA房屋租赁系统mybatis 煦洋cxsj985 mybatis java 开发语言
计算机毕业设计JAVA房屋租赁系统mybatis计算机毕业设计JAVA房屋租赁系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https://pan
泷羽sec:蓝队基础之企业网络架构菜鸟小白：长岛icetea 泷羽sec红队全栈课程网络架构
声明：学习视频来自B站up主泷羽sec有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负!!!!有兴趣的小伙伴可以点击下面连接进入b站主页B站泷羽sec泷羽sec的个人空间-泷羽sec个人主页-哔哩哔哩视频————————————————企业网络架构：全面解析
JAVA面试题目整理 qq~374327792 java java
JAVA基础JAVA中的几种基本数据类型是什么，各自占用多少字节。String类能被继承吗，为什么。String，Stringbuffer，StringBuilder的区别。ArrayList和LinkedList有什么区别。讲讲类的实例化顺序，比如父类静态数据，构造函数，字段，子类静态数据，构造函数，字段，当new的时候，他们的执行顺序。用过哪些Map类，都有什么区别，HashMap是线程安全的
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

基本的HTML文本解析器的设计和实现（C/C++源码），图文并茂

你可能感兴趣的:(重复发明轮子,源代码,C/C++,liigo,Parser,html,null,buffer,网络爬虫,n2,html解析器)