Vincent_czz

一个高手的 python的HTMLParser学习笔记

先来大致看看HTMLParser的源代码吧：

"""A parser for HTML and XHTML."""
 
# This file is based on sgmllib.py, but the API is slightly different.
 
# XXX There should be a way to distinguish between PCDATA (parsed
# character data -- the normal case), RCDATA (replaceable character
# data -- only char and entity references and end tags are special)
# and CDATA (character data -- only end tags are special).
 
 
import markupbase
import re
 
# Regular expressions used for parsing
 
interesting_normal = re.compile('[&<]')
interesting_cdata = re.compile(r'<(/|\Z)')
incomplete = re.compile('&[a-zA-Z#]')
 
entityref = re.compile('&([a-zA-Z][-.a-zA-Z0-9]*)[^a-zA-Z0-9]')
charref = re.compile('&#(?:[0-9]+|[xX][0-9a-fA-F]+)[^0-9a-fA-F]')
 
starttagopen = re.compile('<[a-zA-Z]')
piclose = re.compile('>')
commentclose = re.compile(r'--\s*>')
tagfind = re.compile('[a-zA-Z][-.a-zA-Z0-9:_]*')
attrfind = re.compile(
    r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'
    r'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@]*))?')
 
locatestarttagend = re.compile(r"""
  <[a-zA-Z][-.a-zA-Z0-9:_]*          # tag name
  (?:\s+                             # whitespace before attribute name
    (?:[a-zA-Z_][-.:a-zA-Z0-9_]*     # attribute name
      (?:\s*=\s*                     # value indicator
        (?:'[^']*'                   # LITA-enclosed value
          |\"[^\"]*\"                # LIT-enclosed value
          |[^'\">\s]+                # bare value
         )
       )?
     )
   )*
  \s*                                # trailing whitespace
""", re.VERBOSE)
endendtag = re.compile('>')
endtagfind = re.compile('</\s*([a-zA-Z][-.a-zA-Z0-9:_]*)\s*>')
 
 
class HTMLParseError(Exception):
    """Exception raised for all parse errors."""
 
    def __init__(self, msg, position=(None, None)):
        assert msg
        self.msg = msg
        self.lineno = position[0]
        self.offset = position[1]
 
    def __str__(self):
        result = self.msg
        if self.lineno is not None:
            result = result + ", at line %d" % self.lineno
        if self.offset is not None:
            result = result + ", column %d" % (self.offset + 1)
        return result
 
 
class HTMLParser(markupbase.ParserBase):
    """Find tags and other markup and call handler functions.
 
    Usage:
        p = HTMLParser()
        p.feed(data)
        ...
        p.close()
 
    Start tags are handled by calling self.handle_starttag() or
    self.handle_startendtag(); end tags by self.handle_endtag().  The
    data between tags is passed from the parser to the derived class
    by calling self.handle_data() with the data as argument (the data
    may be split up in arbitrary chunks).  Entity references are
    passed by calling self.handle_entityref() with the entity
    reference as the argument.  Numeric character references are
    passed to self.handle_charref() with the string containing the
    reference as the argument.
    """
 
    CDATA_CONTENT_ELEMENTS = ("script", "style")
 
 
    def __init__(self):
        """Initialize and reset this instance."""
        self.reset()
 
    def reset(self):
        """Reset this instance.  Loses all unprocessed data."""
        self.rawdata = ''
        self.lasttag = '???'
        self.interesting = interesting_normal
        markupbase.ParserBase.reset(self)
 
    def feed(self, data):
        """Feed data to the parser.
 
        Call this as often as you want, with as little or as much text
        as you want (may include '\n').
        """
        self.rawdata = self.rawdata + data
        self.goahead(0)
 
    def close(self):
        """Handle any buffered data."""
        self.goahead(1)
 
    def error(self, message):
        raise HTMLParseError(message, self.getpos())
 
    __starttag_text = None
 
    def get_starttag_text(self):
        """Return full source of start tag: '<...>'."""
        return self.__starttag_text
 
    def set_cdata_mode(self):
        self.interesting = interesting_cdata
 
    def clear_cdata_mode(self):
        self.interesting = interesting_normal
 
    # Internal -- handle data as far as reasonable.  May leave state
    # and data to be processed by a subsequent call.  If 'end' is
    # true, force handling all data as if followed by EOF marker.
    def goahead(self, end):
        rawdata = self.rawdata
        i = 0
        n = len(rawdata)
        while i < n:
            match = self.interesting.search(rawdata, i) # < or &
            if match:
                j = match.start()
            else:
                j = n
            if i < j: self.handle_data(rawdata[i:j])
            i = self.updatepos(i, j)
            if i == n: break
            startswith = rawdata.startswith
            if startswith('<', i):
                if starttagopen.match(rawdata, i): # < + letter
                    k = self.parse_starttag(i)
                elif startswith("</", i):
                    k = self.parse_endtag(i)
                elif startswith("<!--", i):
                    k = self.parse_comment(i)
                elif startswith("<?", i):
                    k = self.parse_pi(i)
                elif startswith("<!", i):
                    k = self.parse_declaration(i)
                elif (i + 1) < n:
                    self.handle_data("<")
                    k = i + 1
                else:
                    break
                if k < 0:
                    if end:
                        self.error("EOF in middle of construct")
                    break
                i = self.updatepos(i, k)
            elif startswith("&#", i):
                match = charref.match(rawdata, i)
                if match:
                    name = match.group()[2:-1]
                    self.handle_charref(name)
                    k = match.end()
                    if not startswith(';', k-1):
                        k = k - 1
                    i = self.updatepos(i, k)
                    continue
                else:
                    if ";" in rawdata[i:]: #bail by consuming &#
                        self.handle_data(rawdata[0:2])
                        i = self.updatepos(i, 2)
                    break
            elif startswith('&', i):
                match = entityref.match(rawdata, i)
                if match:
                    name = match.group(1)
                    self.handle_entityref(name)
                    k = match.end()
                    if not startswith(';', k-1):
                        k = k - 1
                    i = self.updatepos(i, k)
                    continue
                match = incomplete.match(rawdata, i)
                if match:
                    # match.group() will contain at least 2 chars
                    if end and match.group() == rawdata[i:]:
                        self.error("EOF in middle of entity or char ref")
                    # incomplete
                    break
                elif (i + 1) < n:
                    # not the end of the buffer, and can't be confused
                    # with some other construct
                    self.handle_data("&")
                    i = self.updatepos(i, i + 1)
                else:
                    break
            else:
                assert 0, "interesting.search() lied"
        # end while
        if end and i < n:
            self.handle_data(rawdata[i:n])
            i = self.updatepos(i, n)
        self.rawdata = rawdata[i:]
 
    # Internal -- parse processing instr, return end or -1 if not terminated
    def parse_pi(self, i):
        rawdata = self.rawdata
        assert rawdata[i:i+2] == '<?', 'unexpected call to parse_pi()'
        match = piclose.search(rawdata, i+2) # >
        if not match:
            return -1
        j = match.start()
        self.handle_pi(rawdata[i+2: j])
        j = match.end()
        return j
 
    # Internal -- handle starttag, return end or -1 if not terminated
    def parse_starttag(self, i):
        self.__starttag_text = None
        endpos = self.check_for_whole_start_tag(i)
        if endpos < 0:
            return endpos
        rawdata = self.rawdata
        self.__starttag_text = rawdata[i:endpos]
 
        # Now parse the data between i+1 and j into a tag and attrs
        attrs = []
        match = tagfind.match(rawdata, i+1)
        assert match, 'unexpected call to parse_starttag()'
        k = match.end()
        self.lasttag = tag = rawdata[i+1:k].lower()
 
        while k < endpos:
            m = attrfind.match(rawdata, k)
            if not m:
                break
            attrname, rest, attrvalue = m.group(1, 2, 3)
            if not rest:
                attrvalue = None
            elif attrvalue[:1] == '\'' == attrvalue[-1:] or \
                 attrvalue[:1] == '"' == attrvalue[-1:]:
                attrvalue = attrvalue[1:-1]
                attrvalue = self.unescape(attrvalue)
            attrs.append((attrname.lower(), attrvalue))
            k = m.end()
 
        end = rawdata[k:endpos].strip()
        if end not in (">", "/>"):
            lineno, offset = self.getpos()
            if "\n" in self.__starttag_text:
                lineno = lineno + self.__starttag_text.count("\n")
                offset = len(self.__starttag_text) \
                         - self.__starttag_text.rfind("\n")
            else:
                offset = offset + len(self.__starttag_text)
            self.error("junk characters in start tag: %r"
                       % (rawdata[k:endpos][:20],))
        if end.endswith('/>'):
            # XHTML-style empty tag: <span attr="value" />
            self.handle_startendtag(tag, attrs)
        else:
            self.handle_starttag(tag, attrs)
            if tag in self.CDATA_CONTENT_ELEMENTS:
                self.set_cdata_mode()
        return endpos
 
    # Internal -- check to see if we have a complete starttag; return end
    # or -1 if incomplete.
    def check_for_whole_start_tag(self, i):
        rawdata = self.rawdata
        m = locatestarttagend.match(rawdata, i)
        if m:
            j = m.end()
            next = rawdata[j:j+1]
            if next == ">":
                return j + 1
            if next == "/":
                if rawdata.startswith("/>", j):
                    return j + 2
                if rawdata.startswith("/", j):
                    # buffer boundary
                    return -1
                # else bogus input
                self.updatepos(i, j + 1)
                self.error("malformed empty start tag")
            if next == "":
                # end of input
                return -1
            if next in ("abcdefghijklmnopqrstuvwxyz=/"
                        "ABCDEFGHIJKLMNOPQRSTUVWXYZ"):
                # end of input in or before attribute value, or we have the
                # '/' from a '/>' ending
                return -1
            self.updatepos(i, j)
            self.error("malformed start tag")
        raise AssertionError("we should not get here!")
 
    # Internal -- parse endtag, return end or -1 if incomplete
    def parse_endtag(self, i):
        rawdata = self.rawdata
        assert rawdata[i:i+2] == "</", "unexpected call to parse_endtag"
        match = endendtag.search(rawdata, i+1) # >
        if not match:
            return -1
        j = match.end()
        match = endtagfind.match(rawdata, i) # </ + tag + >
        if not match:
            self.error("bad end tag: %r" % (rawdata[i:j],))
        tag = match.group(1)
        self.handle_endtag(tag.lower())
        self.clear_cdata_mode()
        return j
 
    # Overridable -- finish processing of start+end tag: <tag.../>
    def handle_startendtag(self, tag, attrs):
        self.handle_starttag(tag, attrs)
        self.handle_endtag(tag)
 
    # Overridable -- handle start tag
    def handle_starttag(self, tag, attrs):
        pass
 
    # Overridable -- handle end tag
    def handle_endtag(self, tag):
        pass
 
    # Overridable -- handle character reference
    def handle_charref(self, name):
        pass
 
    # Overridable -- handle entity reference
    def handle_entityref(self, name):
        pass
 
    # Overridable -- handle data
    def handle_data(self, data):
        pass
 
    # Overridable -- handle comment
    def handle_comment(self, data):
        pass
 
    # Overridable -- handle declaration
    def handle_decl(self, decl):
        pass
 
    # Overridable -- handle processing instruction
    def handle_pi(self, data):
        pass
 
    def unknown_decl(self, data):
        self.error("unknown declaration: %r" % (data,))
 
    # Internal -- helper to remove special character quoting
    entitydefs = None
    def unescape(self, s):
        if '&' not in s:
            return s
        def replaceEntities(s):
            s = s.groups()[0]
            if s[0] == "#":
                s = s[1:]
                if s[0] in ['x','X']:
                    c = int(s[1:], 16)
                else:
                    c = int(s)
                return unichr(c)
            else:
                # Cannot use name2codepoint directly, because HTMLParser supports apos,
                # which is not part of HTML 4
                import htmlentitydefs
                if HTMLParser.entitydefs is None:
                    entitydefs = HTMLParser.entitydefs = {'apos':u"'"}
                    for k, v in htmlentitydefs.name2codepoint.iteritems():
                        entitydefs[k] = unichr(v)
                try:
                    return self.entitydefs[s]
                except KeyError:
                    return '&'+s+';'
 
        return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));", replaceEntities, s)

大家可以看到，其实内部的很多的方法都是没有实现的，所以需要我们继承这个类，自己去实现一些方法。关于HTMLParser的方法，大家可以参考官方文档：

http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser （英文，笔者没有多少时间去翻译这些）

另外，给一个例子大家对照着看看，我相信这么简单的例子，大家都能看懂的。

假设我们要处理的文件在d盘根目录下，名字为hello.html,文件的内容为：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 
<html xmlns="http://www.w3.org/1999/xhtml">
 
	<head>
 
		<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
 
		<title>Rollen Holt - cnblogs</title>
		<meta name="keywords" content="Rollen Holt,rollenholt" />
 
		<link type="text/css" rel="stylesheet" href="http://www.cnblogs.com/css/common.css"/>
		<link id="MainCss" type="text/css" rel="stylesheet" href="http://www.cnblogs.com/Skins/kubrick/style.css"/>
		<link type="text/css" rel="stylesheet" href="http://www.cnblogs.com/css/common2.css"/>
 
		<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/css/shCore.css"/>
 
		<link type="text/css" rel="stylesheet" href="http://common.cnblogs.com/css/shThemeDefault.css"/>
 
		<link title="RSS" type="application/rss+xml" rel="alternate" href="http://www.cnblogs.com/rollenholt/rss"/>
 
		<link title="RSD" type="application/rsd+xml" rel="EditURI" href="http://www.cnblogs.com/rollenholt/rsd.xml"/>
		<link type="application/wlwmanifest+xml" rel="wlwmanifest" href="http://www.cnblogs.com/rollenholt/wlwmanifest.xml"/> 
 
		<script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript"></script>  
 
		<script src="/script/common.js" type="text/javascript"></script>
 
		<script src="http://common.cnblogs.com/script/jquery.json-2.2.min.js" type="text/javascript"></script>
 
		<script type="text/javascript" src="http://common.cnblogs.com/script/shCore.js"></script>
 
		<script type="text/javascript" src="http://common.cnblogs.com/script/shLanguage.js"></script>
 
	</head>
 
	<body>
 
		<a name="top"></a>
 
		<form method="post" action="" id="Form1">
 
			<div class="aspNetHidden">
 
				<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="" />
 
			</div>
		</form>
	</body>
</html>

我们的python代码为：

#coding=utf-8
 
from HTMLParser import HTMLParser
 
class MyParser(HTMLParser):
    """一个简单的HTMLparser的例子"""
     
    def handle_decl(self, decl):
        """处理头文档"""
        HTMLParser.handle_decl(self, decl)
        print decl
     
    def handle_starttag(self, tag, attrs):
        """处理起始标签"""
        HTMLParser.handle_starttag(self, tag, attrs)
        if not HTMLParser.get_starttag_text(self).endswith("/>"):
            print "<",tag,">"
             
    def handle_data(self, data):
        """处理文本元素"""
        HTMLParser.handle_data(self, data)
        print data,
         
    def handle_endtag(self, tag):
        """处理结束标签"""
        HTMLParser.handle_endtag(self, tag)
        if not HTMLParser.get_starttag_text(self).endswith("/>"):
            print "</",tag,">"
     
    def handle_startendtag(self, tag, attrs):
        """处理自闭标签"""
        HTMLParser.handle_startendtag(self, tag, attrs)
        print HTMLParser.get_starttag_text(self)
         
    def handle_comment(self, data):
        """处理注释"""
        HTMLParser.handle_comment(self, data)
        print data
    def close(self):
        HTMLParser.close(self)
        print "parser over"
         
 
         
demo=MyParser()
demo.feed(open("d:\\hello.html").read())
 
demo.close()

输出的结果为：

DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"

< html >

< head >

< title >
Rollen Holt - cnblogs </ title >

< script >
</ script >

</ head >

< body >

< a >
</ a >

< form >

< div >

parser over

点击打开原文链接

Python关键字参数详解 qq_39605374 python 开发语言
Python关键字参数详解在Python中，函数的参数可以分为两类：位置参数和关键字参数。本文将重点讲解Python中关键字参数的使用方法及其优势。1.什么是关键字参数？关键字参数是指在调用函数时，显式地通过“参数名=参数值”的形式进行传参。以下是一个简单的例子：defgreet(name,age):print("Hello,mynameis",name,"andIam",age,"yearsol
Python爬虫-爬取汽车之家燃油车月销量榜数据写python的鑫哥爬虫案例1000讲 python 爬虫汽车之家燃油车月销量榜单数据
前言本文是该专栏的第48篇，后面会持续分享python爬虫干货知识，记得关注。在本文中，笔者已整理18篇汽车平台相关的爬虫项目案例。对此感兴趣的同学，可以直接翻阅查看。而本文，笔者将以汽车之家平台为例子。基于Python爬虫，实现批量爬取全部“燃油车”的月销量数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文
Python 函数的关键字参数与位置参数是什么？ Python趣味知识 AI Agent首席体验官 python java 前端
1.关键字参数（KeywordArguments）详解在Python中，关键字参数是通过指定参数名称来传递的参数。这与位置参数（PositionalArguments）不同，位置参数是根据参数的位置来传递的，而关键字参数通过明确指定参数的名称进行传递。1.关键字参数的定义关键字参数是在函数调用时通过指定参数名称来传递的。其格式是：函数名(参数名=参数值)例如：defgreet(name,age):
Trae智能协作AI编程工具IDE：如何在MacBook Pro下载、安装和配置使用Trae？
Trae智能协作AI编程工具IDE：如何在MacBookPro下载、安装和配置使用Trae？一、为什么选择Trae智能协作IDE？在AI编程新时代，Trae通过以下突破性功能重新定义开发体验：双向智能增强：AI不仅提供代码补全，更能理解上下文主动建议架构优化方案自然语言编程：支持"用Python写一个带JWT验证的FastAPI用户系统"式开发实时协作画布：可视化呈现AI生成的代码逻辑，支持多模态
【总结】Pytest vs Behave，BDD 测试框架哪家强？软件测试 pytest behave
引言在测试驱动开发(TDD)和行为驱动开发(BDD)流行的今天，Pytest和Behave成为了Python生态中最常见的自动化测试框架。那么，究竟该选择哪一个？它们各自有哪些优缺点？本篇文章将为你全面解析！1.什么是Pytest？Pytest是一个强大且灵活的Python测试框架，适用于单元测试、功能测试和API测试。它支持简单的函数式测试，同时具备强大的插件机制。Pytest的核心特点：✅语法
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
意境级讲解二分查找算法、python 炫云云大数据算法和数据结构机器学习数据结构算法 python 人工智能
文章目录问题定义模版一查找一个数寻找第一个的满足条件的位置寻找最后一个的满足条件的值二分查找的问题变种把待搜索区间分成两个部分搜索插入位置模版二寻找第一个的满足条件的位置寻找最后一个的满足条件的值x的平方根方法二：牛顿迭代猜数字大小搜索旋转排序数组搜索旋转排序数组II第一个错误的版本寻找峰值寻找旋转排序数组中的最小值模板三在排序数组中查找元素的第一个和最后一个位置查找最接近且小于target的元素
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
PyCharm 2024.1最新变化望舒巴巴 pycharm
截至2024年1月，PyCharm2024.1的最新变化是：支持Python4.0：PyCharm2024.1更新了对Python4.0的支持，包括语法高亮、代码补全和调试功能等。新的代码分析工具：PyCharm2024.1引入了新的代码分析工具，可以更准确地检测代码中的错误和潜在问题，并提供相关建议。增强的调试功能：PyCharm2024.1改进了调试器，增加了更多的调试选项和功能。现在，开发人
基于Python的tkinter开发的一个工具，解析图片文件名并将数据自动化导出为Excel文件帅帅的Python GUI python基础知识 python 自动化 excel
文章目录一、开发背景与业务价值二、系统架构设计1.分层架构图解2.核心类结构3.文件解析流程三、关键技术实现详解1.高性能文件名解析引擎2.可视化数据展示3.智能Excel导出模块四、完整代码五、行业应用展望一、开发背景与业务价值在零售行业会员管理场景中，线下门店每日会产生大量客户充值凭证照片。传统人工整理方式存在三个痛点：效率低下：运营人员需要手动截图-粘贴-重命名图片文件数据孤立：财务系统无法
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
用VSCode做前端开发北子ALF 杂谈 vscode ide 编辑器
vscode写前端和记markdown还是很好用的，虽然在C++,Java和Python大型项目开发的体验不如vs,idea和pycharm自动生成html骨架打个感叹号预览网页：liveserver插件
网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇就够了白帽黑客坤哥 web安全安全网络网络安全物联网
href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"rel="stylesheet"/>href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_v
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！ weixin_316716198 技术文章推荐
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！近年来，Python的生态系统蓬勃发展，但包管理工具的效率问题却一直困扰着开发者们。漫长的安装时间、复杂的依赖管理，以及繁琐的虚拟环境操作，无不让人感到头疼。然而，就在大家以为现状难以改变时，一款名为uv的全新工具横空出世，彻底颠覆了传统的Python包管理方式，为开发者们带来了前所未有的高效体验！uv：速度与效率的完美融合uv的
python面向对象之抽象类 liangblog python基础技能抽象类 python 面向对象
抽象类概念：抽象类是一个特殊的类，它的特殊之处在于只能被继承，不能被实例化，需要借助python模块实现；抽象类是从一堆类中抽取相同的内容而来的，内容包括数据属性和函数属性。抽象类与普通类的不同之处在于：抽象类中有抽象方法，该类不能被实例化，只能被继承，且子类必须实现抽象方法python中的abc模块python中需要利用abc模块实现抽象类importabc#利用abc模块实现抽象类classs
python局部变量和全局变量例题_Python的局部和全局变量,python,局部变量 steventey
局部变量是函数内部定义的变量，只能在函数内部使用全局变量实在函数外部定义的变量(没有定义在某一个函数内)，所有函数内部都可以使用这个变量局部变量是在函数内部定义的变量，只能在函数内部使用，函数执行结束后，函数内部的局部变量，会被系统回收；不同的函数，可以定义相同的名字的局部变量，但是各用个的不会产生影响局部变量的生命周期所谓的生命周期就是从被创建到被系统回收的过程局部变量在函数被执行时才会被创建，
Python的Pytest（2）活跃家族 python pytest 开发语言
1、思考：完整项目框架里每个模块单独用一个py文件管理，注册模块-py文件，登录模块-py文件==放在用例层目录下管理，testcases多个模块、py文件里的用例，批量执行==需要收集所有模块的用例，一起执行。1、pytest智能自动收集所有用例：pytest.main():自动在这个文件所在目录下收集符合命名规则的用例=pytest.main()通常写在入口文件run.py或main.py。2
Python的路径pathlib库活跃家族 python 开发语言
1、读取文件默认只会从当前代码操作文件的目录下读取文件。找不到就会报错。解决方式：1、方式一：绝对路径是指：电脑里从根目录开始的一个完整的路径--不推荐注意事项：路径特殊符号\t一定要转义在路径前面加一个r绝对路径弊端：1）移植给其他人电脑上用，文件前面的目录不对，要手动修改。2）\/不同平台路径分隔符不一样，绝对路径不能兼容不同平台。2、相对路径：不会写死每一级的路径，相对层级管理，找文件路径借
Python的Pytest测试框架（1）活跃家族 python pytest 开发语言
1、Pytest测试框架手工执行测试：熟悉业务写用例（分模块）执行用例并记录生成本轮的测试报告自动化测试:熟悉业务写用例（手工用例转化为自动化测试用例）用代码表达用例（代码写出用例）代码收集测试用例代码执行测试用例代码生成测试报告。自动化的思路基本是跟手工测试一样的，建立在手工测试基础上的一种更高效率的进阶和升华的方式。测试框架：unittestpytest，技术栈，提供了表示测试用例，发现测试用
Selenium与MySQL数据校验自动化噔噔噔噔@ 软件测试面试题专栏软件测试基础及工具分享自动化运维 selenium 集成测试
在使用Selenium进行UI自动化测试时，如果需要连接MySQL数据库进行数据校验，可以通过以下步骤实现：1.安装必要的库首先，确保你已经安装了以下Python库：selenium：用于UI自动化。mysql-connector-python或pymysql：用于连接MySQL数据库。你可以使用以下命令安装这些库：pipinstallseleniummysql-connector-python2
对接马来西亚、印度、韩国、越南等全球金融数据示例 CryptoPP 金融 python windows
Python对接StockTV全球金融数据API的封装实现及使用教程：importrequestsimportwebsocketsimportasynciofromtypingimportDict,List,Optional,UnionfromdatetimeimportdatetimeclassStockTVClient:"""StockTV全球金融数据API客户端支持股票、外汇、期货、加密货币
python局部变量和全局变量 yqd666 python 开发语言数据库
文章目录1.局部变量和全局变量2.局部变量2.1局部变量的作用2.2局部变量的生命周期3.全局变量3.1函数不能直接修改`全局变量的引用`3.2在函数内部修改全局变量的值3.3全局变量定义的位置3.4全局变量命名的建议1.局部变量和全局变量（1）局部变量是在函数内部定义的变量，只能在函数内部使用（2）全局变量是在函数外部定义的变量（没有定义在某一个函数内），所有函数内部都可以使用这个变量（3）提示
Python 地图基础教程教程小白教程 python python Python地图 Python基础教程 Python地图教程 Python地图入门 Python绘制地图 Python地图源码
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3安装必要库二、绘制基本世界地图1.导入必要的库：2.加载世界地图数据：3.绘制地图：三、自定义地图样式1.按面积给国家着色：2.突出显示特定国家：四、添加地理信息1.显示国家名称：2.添加其他地理要素：五、保存地图前言地图在生活、科研、商业等诸多领域都有着广泛的应用，从日常出行的导航，到地理信息系统（GIS）中的数据
安装（python 版） C-haidragon mysql
安装安装sudoapt-getinstallmysql-servermysql-client然后按照提示输入管理服务启动servicemysqlstart停止servicemysqlstop重启servicemysqlrestart允许远程连接找到mysql配置文件并修改sudovi/etc/mysql/mysql.conf.d/mysqld.cnf将bind-address=127.0.0.1注
tkinter报错 tcl和tk报错 _tkinter.TclError: Can‘t find a usable init.tcl in the following directories: 大博士.J java 数据库 python
问了好几个GPT回答的都不是解决问题的，胡编乱造的目前经过尝试好几个解决方案，终于破案了win10系统使用安装python时自动将tcl和tk识别到了新创建的虚拟环境继承中win11系统则需要手动去做一些操作，才可以解决问题我这报错的问题是这样的self.tk=_tkinter.create(screenName,baseName,className,interactive,wantobjects
【MySQL】关闭外键约束检查 AutismBtkrsr mysql 数据库
插入SQL之前，可以关闭外键约束检查CREATEDATABASEIFNOTEXISTSexam;SHOWVARIABLESLIKE'collation%';SHOWVARIABLESLIKE'character%';USEexam;SETFOREIGN_KEY_CHECKS=0;SETFOREIGN_KEY_CHECKS=1;
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

一个高手的 python的HTMLParser学习笔记

你可能感兴趣的:(python,processing,character,reference,stylesheet,whitespace)