一个高手的htmlparser笔记

先来大致看看HTMLParser的源代码吧：

[python] view plain copy

"""A parser for HTML and XHTML."""
# This file is based on sgmllib.py, but the API is slightly different.
# XXX There should be a way to distinguish between PCDATA (parsed
# character data -- the normal case), RCDATA (replaceable character
# data -- only char and entity references and end tags are special)
# and CDATA (character data -- only end tags are special).
import markupbase
import re
# Regular expressions used for parsing
interesting_normal = re.compile('[&<]')
interesting_cdata = re.compile(r'<(/|\Z)')
incomplete = re.compile('&[a-zA-Z#]')
entityref = re.compile('&([a-zA-Z][-.a-zA-Z0-9]*)[^a-zA-Z0-9]')
charref = re.compile('&#(?:[0-9]+|[xX][0-9a-fA-F]+)[^0-9a-fA-F]')
starttagopen = re.compile('<[a-zA-Z]')
piclose = re.compile('>')
commentclose = re.compile(r'--\s*>')
tagfind = re.compile('[a-zA-Z][-.a-zA-Z0-9:_]*')
attrfind = re.compile(
r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'
r'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@]*))?')
locatestarttagend = re.compile(r"""
<[a-zA-Z][-.a-zA-Z0-9:_]* # tag name
(?:\s+ # whitespace before attribute name
(?:[a-zA-Z_][-.:a-zA-Z0-9_]* # attribute name
(?:\s*=\s* # value indicator
(?:'[^']*' # LITA-enclosed value
|\"[^\"]*\" # LIT-enclosed value
|[^'\">\s]+ # bare value
)
)?
)
)*
\s* # trailing whitespace
""", re.VERBOSE)
endendtag = re.compile('>')
endtagfind = re.compile('</\s*([a-zA-Z][-.a-zA-Z0-9:_]*)\s*>')
class HTMLParseError(Exception):
"""Exception raised for all parse errors."""
def __init__(self, msg, position=(None, None)):
assert msg
self.msg = msg
self.lineno = position[0]
self.offset = position[1]
def __str__(self):
result = self.msg
if self.lineno is not None:
result = result + ", at line %d" % self.lineno
if self.offset is not None:
result = result + ", column %d" % (self.offset + 1)
return result
class HTMLParser(markupbase.ParserBase):
"""Find tags and other markup and call handler functions.
Usage:
p = HTMLParser()
p.feed(data)
...
p.close()
Start tags are handled by calling self.handle_starttag() or
self.handle_startendtag(); end tags by self.handle_endtag(). The
data between tags is passed from the parser to the derived class
by calling self.handle_data() with the data as argument (the data
may be split up in arbitrary chunks). Entity references are
passed by calling self.handle_entityref() with the entity
reference as the argument. Numeric character references are
passed to self.handle_charref() with the string containing the
reference as the argument.
"""
CDATA_CONTENT_ELEMENTS = ("script", "style")
def __init__(self):
"""Initialize and reset this instance."""
self.reset()
def reset(self):
"""Reset this instance. Loses all unprocessed data."""
self.rawdata = ''
self.lasttag = '???'
self.interesting = interesting_normal
markupbase.ParserBase.reset(self)
def feed(self, data):
"""Feed data to the parser.
Call this as often as you want, with as little or as much text
as you want (may include '\n').
"""
self.rawdata = self.rawdata + data
self.goahead(0)
def close(self):
"""Handle any buffered data."""
self.goahead(1)
def error(self, message):
raise HTMLParseError(message, self.getpos())
__starttag_text = None
def get_starttag_text(self):
"""Return full source of start tag: '<...>'."""
return self.__starttag_text
def set_cdata_mode(self):
self.interesting = interesting_cdata
def clear_cdata_mode(self):
self.interesting = interesting_normal
# Internal -- handle data as far as reasonable. May leave state
# and data to be processed by a subsequent call. If 'end' is
# true, force handling all data as if followed by EOF marker.
def goahead(self, end):
rawdata = self.rawdata
i = 0
n = len(rawdata)
while i < n:
match = self.interesting.search(rawdata, i) # < or &
if match:
j = match.start()
else:
j = n
if i < j: self.handle_data(rawdata[i:j])
i = self.updatepos(i, j)
if i == n: break
startswith = rawdata.startswith
if startswith('<', i):
if starttagopen.match(rawdata, i): # < + letter
k = self.parse_starttag(i)
elif startswith("</", i):
k = self.parse_endtag(i)
elif startswith("<!--", i):
k = self.parse_comment(i)
elif startswith("<?", i):
k = self.parse_pi(i)
elif startswith("<!", i):
k = self.parse_declaration(i)
elif (i + 1) < n:
self.handle_data("<")
k = i + 1
else:
break
if k < 0:
if end:
self.error("EOF in middle of construct")
break
i = self.updatepos(i, k)
elif startswith("&#", i):
match = charref.match(rawdata, i)
if match:
name = match.group()[2:-1]
self.handle_charref(name)
k = match.end()
if not startswith(';', k-1):
k = k - 1
i = self.updatepos(i, k)
continue
else:
if ";" in rawdata[i:]: #bail by consuming &#
self.handle_data(rawdata[0:2])
i = self.updatepos(i, 2)
break
elif startswith('&', i):
match = entityref.match(rawdata, i)
if match:
name = match.group(1)
self.handle_entityref(name)
k = match.end()
if not startswith(';', k-1):
k = k - 1
i = self.updatepos(i, k)
continue
match = incomplete.match(rawdata, i)
if match:
# match.group() will contain at least 2 chars
if end and match.group() == rawdata[i:]:
self.error("EOF in middle of entity or char ref")
# incomplete
break
elif (i + 1) < n:
# not the end of the buffer, and can't be confused
# with some other construct
self.handle_data("&")
i = self.updatepos(i, i + 1)
else:
break
else:
assert 0, "interesting.search() lied"
# end while
if end and i < n:
self.handle_data(rawdata[i:n])
i = self.updatepos(i, n)
self.rawdata = rawdata[i:]
# Internal -- parse processing instr, return end or -1 if not terminated
def parse_pi(self, i):
rawdata = self.rawdata
assert rawdata[i:i+2] == '<?', 'unexpected call to parse_pi()'
match = piclose.search(rawdata, i+2) # >
if not match:
return -1
j = match.start()
self.handle_pi(rawdata[i+2: j])
j = match.end()
return j
# Internal -- handle starttag, return end or -1 if not terminated
def parse_starttag(self, i):
self.__starttag_text = None
endpos = self.check_for_whole_start_tag(i)
if endpos < 0:
return endpos
rawdata = self.rawdata
self.__starttag_text = rawdata[i:endpos]
# Now parse the data between i+1 and j into a tag and attrs
attrs = []
match = tagfind.match(rawdata, i+1)
assert match, 'unexpected call to parse_starttag()'
k = match.end()
self.lasttag = tag = rawdata[i+1:k].lower()
while k < endpos:
m = attrfind.match(rawdata, k)
if not m:
break
attrname, rest, attrvalue = m.group(1, 2, 3)
if not rest:
attrvalue = None
elif attrvalue[:1] == '\'' == attrvalue[-1:] or \
attrvalue[:1] == '"' == attrvalue[-1:]:
attrvalue = attrvalue[1:-1]
attrvalue = self.unescape(attrvalue)
attrs.append((attrname.lower(), attrvalue))
k = m.end()
end = rawdata[k:endpos].strip()
if end not in (">", "/>"):
lineno, offset = self.getpos()
if "\n" in self.__starttag_text:
lineno = lineno + self.__starttag_text.count("\n")
offset = len(self.__starttag_text) \
- self.__starttag_text.rfind("\n")
else:
offset = offset + len(self.__starttag_text)
self.error("junk characters in start tag: %r"
% (rawdata[k:endpos][:20],))
if end.endswith('/>'):
# XHTML-style empty tag: <span attr="value" />
self.handle_startendtag(tag, attrs)
else:
self.handle_starttag(tag, attrs)
if tag in self.CDATA_CONTENT_ELEMENTS:
self.set_cdata_mode()
return endpos
# Internal -- check to see if we have a complete starttag; return end
# or -1 if incomplete.
def check_for_whole_start_tag(self, i):
rawdata = self.rawdata
m = locatestarttagend.match(rawdata, i)
if m:
j = m.end()
next = rawdata[j:j+1]
if next == ">":
return j + 1
if next == "/":
if rawdata.startswith("/>", j):
return j + 2
if rawdata.startswith("/", j):
# buffer boundary
return -1
# else bogus input
self.updatepos(i, j + 1)
self.error("malformed empty start tag")
if next == "":
# end of input
return -1
if next in ("abcdefghijklmnopqrstuvwxyz=/"
"ABCDEFGHIJKLMNOPQRSTUVWXYZ"):
# end of input in or before attribute value, or we have the
# '/' from a '/>' ending
return -1
self.updatepos(i, j)
self.error("malformed start tag")
raise AssertionError("we should not get here!")
# Internal -- parse endtag, return end or -1 if incomplete
def parse_endtag(self, i):
rawdata = self.rawdata
assert rawdata[i:i+2] == "</", "unexpected call to parse_endtag"
match = endendtag.search(rawdata, i+1) # >
if not match:
return -1
j = match.end()
match = endtagfind.match(rawdata, i) # </ + tag + >
if not match:
self.error("bad end tag: %r" % (rawdata[i:j],))
tag = match.group(1)
self.handle_endtag(tag.lower())
self.clear_cdata_mode()
return j
# Overridable -- finish processing of start+end tag: <tag.../>
def handle_startendtag(self, tag, attrs):
self.handle_starttag(tag, attrs)
self.handle_endtag(tag)
# Overridable -- handle start tag
def handle_starttag(self, tag, attrs):
pass
# Overridable -- handle end tag
def handle_endtag(self, tag):
pass
# Overridable -- handle character reference
def handle_charref(self, name):
pass
# Overridable -- handle entity reference
def handle_entityref(self, name):
pass
# Overridable -- handle data
def handle_data(self, data):
pass
# Overridable -- handle comment
def handle_comment(self, data):
pass
# Overridable -- handle declaration
def handle_decl(self, decl):
pass
# Overridable -- handle processing instruction
def handle_pi(self, data):
pass
def unknown_decl(self, data):
self.error("unknown declaration: %r" % (data,))
# Internal -- helper to remove special character quoting
entitydefs = None
def unescape(self, s):
if '&' not in s:
return s
def replaceEntities(s):
s = s.groups()[0]
if s[0] == "#":
s = s[1:]
if s[0] in ['x','X']:
c = int(s[1:], 16)
else:
c = int(s)
return unichr(c)
else:
# Cannot use name2codepoint directly, because HTMLParser supports apos,
# which is not part of HTML 4
import htmlentitydefs
if HTMLParser.entitydefs is None:
entitydefs = HTMLParser.entitydefs = {'apos':u"'"}
for k, v in htmlentitydefs.name2codepoint.iteritems():
entitydefs[k] = unichr(v)
try:
return self.entitydefs[s]
except KeyError:
return '&'+s+';'
return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));", replaceEntities, s)

大家可以看到，其实内部的很多的方法都是没有实现的，所以需要我们继承这个类，自己去实现一些方法。关于HTMLParser的方法，大家可以参考官方文档：

http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser （英文，笔者没有多少时间去翻译这些）

另外，给一个例子大家对照着看看，我相信这么简单的例子，大家都能看懂的。

假设我们要处理的文件在d盘根目录下，名字为hello.html,文件的内容为：

[html] view plain copy

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>Rollen Holt - cnblogs</title>
<meta name="keywords" content="Rollen Holt,rollenholt" />
<link type="text/css" rel="stylesheet" href="http://www.cnblogs.com/css/common.css"/>
<link id="MainCss" type="text/css" rel="stylesheet" href="http://www.cnblogs.com/Skins/kubrick/style.css"/>
<link type="text/css" rel="stylesheet" href="http://www.cnblogs.com/css/common2.css"/>
<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/css/shCore.css"/>
<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/css/shThemeDefault.css"/>
<link title="RSS" type="application/rss+xml" rel="alternate" href="http://www.cnblogs.com/rollenholt/rss"/>
<link title="RSD" type="application/rsd+xml" rel="EditURI" href="http://www.cnblogs.com/rollenholt/rsd.xml"/>
<link type="application/wlwmanifest+xml" rel="wlwmanifest" href="http://www.cnblogs.com/rollenholt/wlwmanifest.xml"/>
<script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript"></script>
<script src="/script/common.js" type="text/javascript"></script>
<script src="http://common.cnblogs.com/script/jquery.json-2.2.min.js" type="text/javascript"></script>
<script type="text/javascript" src="http://common.cnblogs.com/script/shCore.js"></script>
<script type="text/javascript" src="http://common.cnblogs.com/script/shLanguage.js"></script>
</head>
<body>
<a name="top"></a>
<form method="post" action="" id="Form1">
<div class="aspNetHidden">
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="" />
</div>
</form>
</body>
</html>

我们的python代码为：

[python] view plain copy

#coding=utf-8
from HTMLParser import HTMLParser
class MyParser(HTMLParser):
"""一个简单的HTMLparser的例子"""
def handle_decl(self, decl):
"""处理头文档"""
HTMLParser.handle_decl(self, decl)
print decl
def handle_starttag(self, tag, attrs):
"""处理起始标签"""
HTMLParser.handle_starttag(self, tag, attrs)
if not HTMLParser.get_starttag_text(self).endswith("/>"):
print "<",tag,">"
def handle_data(self, data):
"""处理文本元素"""
HTMLParser.handle_data(self, data)
print data,
def handle_endtag(self, tag):
"""处理结束标签"""
HTMLParser.handle_endtag(self, tag)
if not HTMLParser.get_starttag_text(self).endswith("/>"):
print "</",tag,">"
def handle_startendtag(self, tag, attrs):
"""处理自闭标签"""
HTMLParser.handle_startendtag(self, tag, attrs)
print

你可能感兴趣的:(一个高手的htmlparser笔记)

Python正则表达式（附语法详解）苏凉 Python基础语法正则表达式 python 开发语言
作者简介：苏凉（专注于网络爬虫，数据分析）博客主页：苏凉.py的博客系列专栏：Python基础语法专栏名言警句：海阔凭鱼跃，天高任鸟飞。要是觉得博主文章写的不错的话，还望大家三连支持一下呀！！！关注✨点赞收藏文章目录前言re模块匹配方法re.matchre.searchre.match和re.search的区别re.findallre.finditerre.splitre.sub(替换)re.co
整数与小数到字符型的指针存储转换方法捅十个马蜂窝 stm32 单片机
整型到字符型num的范围为-32768~32767，也可以将num更改为其它长度的整形变量，从而改变num的取值范围//num的范围为-32768~32767voidint_To_str(int16_tnum,char*str_addr){uint8_ti=0,Negative_Flag=0;if(num0){str_addr[i++]=num%10+'0';num=num/10;}}if(Neg
【每日论文】DINeMo: Learning Neural Mesh Models with no 3D Annotations WHATEVER_LEO 每日论文 3d 人工智能计算机视觉神经网络深度学习自然语言处理
下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory探索LlamaFactory，为你解读AI前沿技术文章，快速掌握最新技术动态https://www.llamafactory.cn/daily-paper/detail/?id=1793摘要层级3D/6D姿态估计是实现全面3D场景理解的
python中文正则表达式详解_python 正则表达式详解 weixin_39854923 python中文正则表达式详解
正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。首先，python中的正则表达
Spring整合MyBatis——超详细 web15085415935 面试学习路线阿里巴巴 spring mybatis java
Spring整合MyBatis——超详细一、Spring整合MyBatis的三个关键点二、整合步骤1、创建一个Maven项目2、在pom.xml文件中添加jar包的依赖2、配置MyBatis文件(1)新建一个实体类的包和User实体类(2)编写实体类(3)新建Mapper接口包和UserMapper接口(3)新建jdbc资源文件jdbc-config.properties(4)新建mybatis配
python中文正则表达式详解_python正则表达式详解 weixin_39702316 python中文正则表达式详解
正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。首先，python中的正则表达
【AI视野·今日CV 计算机视觉论文速览第299期】Mon, 29 Jan 2024 hitrjj 视觉计算机视觉 Papers 人工智能计算机视觉
AI视野·今日CS.CV计算机视觉论文速览Mon,29Jan2024Totally55papers上期速览✈更多精彩请移步主页DailyComputerVisionPapersAnnotatedHandsforGenerativeModelsAuthorsYueYang,AtithNGandhi,GregTurkGAN和扩散模型等生成模型已经展示了令人印象深刻的图像生成能力。尽管取得了这些成功，但
面向对象学习总结狐凄学习 java 开发语言 python
Python面向对象编程学习总结在Python编程学习的旅程中，深入钻研面向对象编程（OOP）是提升编程能力的关键阶段。通过四个阶段的系统学习，从基础概念的理解到复杂项目的实践，逐步掌握了OOP的核心思想和技术，为解决复杂编程问题奠定了坚实基础。一、学习历程回顾（一）基础理解（第1-2周）理论学习：在这一阶段，系统学习了面向对象编程的基本概念，包括类、对象、属性和方法的定义。深入理解类是对象的蓝图
每日c/c++题备战蓝桥杯（[蓝桥杯 2017 省 AB] 分巧克力）梁下轻语的秋缘 c语言 c++蓝桥杯学习算法
点击题目链接题目描述儿童节那天有K位小朋友到小明家做客。小明拿出了珍藏的巧克力招待小朋友们。小明一共有N块巧克力，其中第i块是Hi×Wi的方格组成的长方形。为了公平起见，小明需要从这N块巧克力中切出K块巧克力分给小朋友们。切出的巧克力需要满足：形状是正方形，边长是整数。大小相同。例如一块6×5的巧克力可以切出6块2×2的巧克力或者2块3×3的巧克力。当然小朋友们都希望得到的巧克力尽可能大，你能帮小
企业建站选择阿里云服务器配置详细教程 m0_63984008 阿里云服务器腾讯云
阿里云——阿里巴巴集团旗下公司，是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务，以及大数据、人工智能服务、精准定制基于场景的行业解决方案。专业快速备案，7x24小时售后支持，助企业无忧上云。目前无论个人站长还是企业，都将阿里云作为了上云的地域选择，那么作为企业用户应该如何选择阿里云服务器呢?购买什么配置的阿里云服务器是适合自己的呢？下面我们就来说说企业如何选择阿里
数据库--表的定义及数据的查询十八般变化 mysql mysql
1.定义基本表SQL语句使用createtable语句定义表名，createtable基本格式：createtable（[字段的约束条件]，[字段的约束条件]，....................................[表级完整性约束条件]）；这些完整性约束条件被存在系统的数据字典中，当用户操作表时数据库管理系统将自动检测操作是否违背这些约束条件。表中存在多个字段约束条件则将这些约束
Spring框架整合Mybatis框架听一曲秋风 spring mybatis java
1.基本整合方式1.1整合思路Spring框架与Mybatis框架的整合，主要是为了让Mybatis能够充分利用Spring的依赖注入（DI）和面向切面编程（AOP）特性，简化开发流程，提高代码的可维护性和扩展性。整合的主要思路是通过Spring来管理Mybatis的SqlSessionFactory以及Mapper接口，并且利用Spring提供的事务管理功能来处理数据库事务。1.2整合所需要的依
3d pose 指标和数据集 AI算法网奇数据结构与算法 3d
目录3D姿态估计、3维重建指标：数据集EHF数据集SMPL-X3D姿态估计、3维重建指标：MVE、PMVE和p-MPJPE都是用于评估3D姿态估计、三维重建等任务中预测结果与真实数据之间误差的指标。MVE(MeanVertexError)：是指模型重建过程中每个顶点的预测位置与真实位置之间的平均误差。通常用于评估三维重建的精度。PMVE(Pre-matchedVertexError)：这个指标是在
springMVC处理请求全过程 Supreme13 状态模式
目录一、SpringMVC全过程略写图二、SpringMVC处理请求源码分析2.1全过程详解图2.2执行过程：2.3源码解析三、总结全过程略写图用户发送请求，经过前端控制器Dispacherservlet（Controller的核心）将url交给处理器映射器HandlerMapping处理处理器映射器HandlerMapping处理url，返回HandlerExecutionChain（可能包含拦
C语言的初步认识山己几凯 c语言开发语言
目录一、C语言是什么二、C语言的历史三、C语言的执行过程：从代码到程序四、编译器与集成开发环境（IDE）的区别编译器选择：VisualStudio2022五、第一个C语言程序：HelloWorld1.VS项目结构与文件类型2.第一个C语言程序3.main函数的核心作用4.printf与库函数总结一、C语言是什么首先，我们要知道人与人之间交流的语言叫自然语言，例如：汉语英语日语等等。而我们与计算机交
2025年大模型学习路线：神仙级教程无私分享，助你成为AI领域高手！大模型学习路线就看这一篇就够了！大模型入门教程学习人工智能 AI大模型大模型大模型学习大模型教程程序员
大模型学习路线图第一阶段：基础知识准备在这个阶段，您需要打下坚实的数学基础和编程基础，这是学习任何机器学习和深度学习技术所必需的。1.数学基础线性代数：矩阵运算、向量空间、特征值与特征向量等。概率统计：随机变量、概率分布、贝叶斯定理等。微积分：梯度、偏导数、积分等。学习资料书籍：GilbertStrang，《线性代数及其应用》SheldonRoss，《概率论与随机过程》在线课程：KhanAcade
MySQL以及MyBatis事务配置半升酒 mysql mybatis
在数据库管理中，事务是一个至关重要的概念。无论是金融交易、库存管理还是用户数据更新，事务都确保了数据的完整性和一致性。本文将详细介绍为什么需要事务、事务的核心概念、ACID特性、MySQL事务实践以及MyBatis事务配置的最佳实践。一、事务的必要性：数据一致性的守护者考虑典型转账场景：张三（账户200元）向李四（账户200元）转账100元，同时王五向张三转账100元。这两个操作需要原子性执行：-
Java--学习笔记半升酒 java 开发语言
在Java编程中，Integer类的使用广泛，但也存在一些容易忽视的细节和陷阱。本文将深入讨论以下几个关键问题：equals()方法与==运算符的区别与联系。hashCode()方法的作用。为什么重写equals()方法时必须重写hashCode()方法。Java中的“128陷阱”。自动装箱与自动拆箱的细节。1.equals()方法与==运算符的区别与联系区别==运算符：基本数据类型：用于比较两个
Python 字符串正则表达式详解 alpha xu python 正则表达式开发语言
Python字符串正则表达式详解一、正则表达式核心语法元字符含义正确示例与说明常见错误修正.匹配任意字符（换行符除外）a.b→匹配"acb"、“a1b”不匹配换行符（需用re.S模式）^匹配字符串开头^Hello→匹配以"Hello"开头的字符串需与re.M模式配合匹配行首$匹配字符串结尾world$→匹配以"world"结尾的字符串需与re.M模式配合匹配行尾*匹配前导模式0次或多次ab*→匹配
SpringMVC 请求处理半升酒 java spring
SpringMVC请求处理深度解析：从原理到企业级应用实践一、架构演进与核心组件协同1.1从传统Servlet到前端控制器模式SpringMVC采用前端控制器架构模式，通过DispatcherServlet统一处理请求，相比传统Servlet的分散处理方式，实现了：统一入口管理组件解耦配置集中化扩展点标准化1.2核心组件协作流程（新增流程图）sequenceDiagramparticipantCl
vue在template块里使用v-for循环对象、数组及嵌套结构数据 zkkkkkkkkkkkkk vue vue.js 前端 vue
目录一、基本数据类型二、循环对象三、循环数组及嵌套结构四、其他类型循环五、总结一、基本数据类型在vue中，有对象、数组、字符串、数字等类型的结构，在模板渲染时，可以使用v-for省略大部分重复性的代码，特别是对对象和数组及对象和数组相互嵌套的结构的循环。我们需要了解遍历相关对象的key或value的写法。二、循环对象对象就是由几组key：value形式所组成的一个结构对象，对应python中的字典
架构思维：预约抢茅子架构设计小小工匠【架构思维】架构预约抢购
文章目录案例：预约抢茅子复杂度分析商品预约阶段等待抢购阶段商品抢购阶段订单支付阶段技术方案商品预约阶段一、基于Redis单节点的分布式锁方案1.核心流程2.关键设计点二、Redis单节点方案的局限性1.单点故障风险2.主从切换问题三、多节点Redis实现高可靠分布式锁（RedLock）1.RedLock核心流程2.RedLock关键设计3.RedLock的争议与改进四、不同场景下的技术选型五、补充
C++代码脚本实现STM32启动 y19875998 stm32 c++嵌入式硬件
STM32系列微控制器广泛应用于嵌入式系统开发，其启动过程对于理解系统如何从上电复位到执行用户代码至关重要。本文将详细介绍如何使用C++编写STM32的启动脚本，并以STM32F103为例进行说明。一、启动过程概述STM32微控制器的启动过程始于复位操作。当处理器复位后，它会从存储器的特定位置读取启动向量，这些向量决定了系统的初始堆栈指针和复位处理程序的地址。对于Cortex-M3和Cortex-
计算机行业：围城内外的人生百态柳依依@ 前端 python java
凌晨三点的西二旗地铁站，最后一个出站的程序员背着双肩包，手机屏保上跳动着未读的钉钉消息；深圳科兴科学园的星巴克里，两个95后开发者正在争论该选Java还是转Go语言；杭州某互联网大厂的卫生间门上，有人用马克笔写着"毕业倒计时87天"。这些魔幻现实的碎片，拼凑出计算机行业最真实的面孔。一、技术泡沫下的众生相走进任何一家创业公司的技术部，你会看到清一色的蓝光眼镜和机械键盘。前端工程师在React框架里
AI代码审计工具推荐︱AI+SAST 破解传统代码审计难题，AI助力开发效率提升 DevSecOps选型指南人工智能软件供应链安全厂商代码审计代码安全审计 AI代码安全审计
通用大模型AI凭借其高效的算法和强大的推理能力，已在多个领域展现出了卓越的上下文理解和代码生成能力。随着DeepSeek等新一代大模型技术的横空出世，其卓越的表现为软件供应链安全行业带来了前所未有的关注和机遇。近日，悬镜安全灵脉SAST（静态代码扫描工具）结合AI大模型，全新升级为：灵脉AI开发安全卫士https://sast.xmirror.cn/。通过接入DeepSeek、通义千问等通用大模型
部署kvm虚拟化平台龙龙博客 linux 服务器运维
文章目录一、搭建KVM虚拟化平台1、安装所需软件2、图形化安装KVM虚拟机3、使用命令安装KVM虚拟机二、KVM基本管理1、查看虚拟机2、虚拟机域的开关机3、导出配置（备份）4、删除虚拟机5、修改配置文件6、查看虚拟机对应的VNC端口（已安装VNC服务）7、挂起虚拟机8、开机自启三、KVM磁盘管理1、磁盘格式2、快照管理四、虚拟机域的克隆1、自动克隆（完整克隆）2、手动克隆（完整克隆）3、链接克隆
数学与多元论：数学作为多元实在的反映 AI天才研究院 ChatGPT 计算 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
封面与前言在当今信息技术飞速发展的时代，数学作为一门基础学科，已经渗透到计算机科学的各个领域。它不仅为计算机编程提供了强有力的理论支持，还为人工智能、大数据、网络安全等领域的发展提供了关键的工具和方法。因此，探讨数学与多元论之间的关系，不仅具有理论上的价值，也具有实际应用的重要性。本书旨在深入探讨数学与多元论之间的内在联系，通过系统的分析和详细的讲解，帮助读者理解数学如何作为多元实在的反映。我们不
＜resultMap＞详解兰德里的折磨550 tomcat java mybatis
详解在MyBatis的中，标签用于处理一对一的关联映射，也就是一个实体对象关联另一个实体对象的情况。下面为你详细解释标签里各个属性的含义：1.property1.property作用：该属性指定了当前实体类中用于关联另一个实体对象的属性名。在这个例子里，property="partner"意味着在当前的实体类（可能是NodeVo）中有一个名为partner的属性，它的类型是Partner类，用于存
Unity开发中KMP算法的理解和应用 unityのkiven 算法 unity
1.KMP算法简介KMP（Knuth-Morris-Pratt）算法是一种用于字符串匹配的高效算法，相比于暴力匹配，它能在O(n+m)时间复杂度下完成匹配，其中n是文本串长度，m是模式串长度。其核心思想是部分匹配表（next数组），用于在匹配失败时减少回溯，从而提升匹配效率。2.KMP算法的核心原理KMP算法主要包含两个部分：构建部分匹配表（next数组）：计算模式串自身的重复前后缀信息，减少匹配
pnpm node_modules 高效删除一碗老面i 前端 javascript 开发语言
1.使用PowershellPowerShell自带的Remove-Item命令可以高效删除nodemodulesRemove-Item-Recurse-Force.\node_modules或者Get-ChildItem.\node_modules-Recurse|Remove-Item-Force-Recurse这两个命令删除node_modules实测非常高效
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他