无敌哈撒给

Python基于Xpath、PyQuery、正则表达式的网页源码整理工具

文章目录

- Python基于Xpath、PyQuery、正则表达式的网页源码整理工具
- - 需求背景
  - 清理方法
  - - 使用Xpath 处理
    - PyQuery 处理
    - 正则表达式处理细节
  - 代码整合结果

Python基于Xpath、PyQuery、正则表达式的网页源码整理工具

需求背景

网络爬虫使用逐渐广泛
爬虫抓取网页会有很多网页源码影响我们对数据的使用
网上各种清理方法良莠不齐，无法真正的为我们提供便利

清理方法

使用Xpath 处理

 def xpath_clean(self, text: str, xpath_dict: dict) -> str:
     '''
     xpath 清除不必要的元素
     :param text: html_content
     :param xpath_dict: 清除目标xpath
     :return: string type html_content
     '''
     remove_by_xpath = xpath_dict if xpath_dict else dict()

     # 必然清除的项目 除非极端情况 一般这些都是要清除的
     remove_by_xpath.update({
         '_remove_2': '//iframe',
         '_remove_4': '//button',
         '_remove_5': '//form',
         '_remove_6': '//input',
         '_remove_7': '//select',
         '_remove_8': '//option',
         '_remove_9': '//textarea',
         '_remove_10': '//figure',
         '_remove_11': '//figcaption',
         '_remove_12': '//frame',
         '_remove_13': '//video',
         '_remove_14': '//script',
         '_remove_15': '//style'
     })

     parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
     selector = etree.HTML(text, parser=parser)

     # 常规删除操作，不需要的标签删除
     for xpath in remove_by_xpath.values():
         for bad in selector.xpath(xpath):
             bad_string = etree.tostring(bad, encoding='utf-8',
                                         pretty_print=True).decode()
             logger.debug(f"clean article content : {bad_string}")
             bad.getparent().remove(bad)

     skip_tip = "name()='img' or name()='tr' or " \
                "name()='th' or name()='tbody' or " \
                "name()='thead' or name()='table'"

     # 判断所有p标签，是否有内容存在，没有的直接删除
     for p in selector.xpath(f"//*[not({skip_tip})]"):
         # br标签特殊判断规则
         if p.xpath('name()') == 'br':
             br = etree.tostring(p, encoding='utf-8',
                                 pretty_print=True).decode()
             if bool(re.sub('\s|', '', br)):
                 continue
         # 跳过逻辑
         if p.xpath(f".//*[{skip_tip}]") or \
                 bool(re.sub('\s', '', p.xpath('string(.)'))):
             continue

         bad_p = etree.tostring(p, encoding='utf-8',
                                pretty_print=True).decode()
         logger.debug(f"clean p tag : {bad_p}")
         p.getparent().remove(p)

     return etree.tostring(selector, encoding='utf-8',
                           pretty_print=True).decode()

# 执行样例
text = '''
    7月27日，由中国电力科学研究院牵头，中国科学院微电子研究所、北京有色金属研究总院联合承担的国家电网公司科技项目“锂离子储能电池原位检测技术研究”顺利通过验收。项目研究成果填补了国内在储能电池领域原位检测技术基础研究方面的空白。 
    
    

    项目成果为后续的深入研究奠定了理论和实践基础，为未来实现运行过程中电池的原位检测提供了有益的探索，对保障电力储能用锂离子电池的安全运行具有重要意义。
'''
xpath_dict = {"remove_1" : "//br", "remove_2" : "//table"}
pure_text = xpath_clean(text=text, xpath_dict=xpath_dict)
print(pure_text)

默认删除iframe、button、form、input、select、option、textarea、figure、figcaption、frame、video、script、style标签，可通过配置remove_by_xpath来控制默认删除标签
通过传入删除字典参数，同样可以处理我们不需要的标签

PyQuery 处理

    def pyquery_clean(self, text, url, pq_dict) -> object:
        '''
        pyquery 做出必要的处理，
        :param text:
        :param url:
        :param pq_dict:
        :return:
        '''
        # 删除pq表达式字典
        remove_by_pq = pq_dict if pq_dict else dict()
        # 标签属性白名单
        attr_white_list = ['rowspan', 'colspan']
        # 图片链接key
        img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
        # 生成pyquery对象
        dom = pq(text)

        # 删除无用标签
        for bad_tag in remove_by_pq.values():
            for bad in dom(bad_tag):
                bad_string = pq(bad).html()
                logger.debug(f"clean article content : {bad_string}")
            dom.remove(bad_tag)

        # 标签各个属性处理
        for tag in dom('*'):
            for key, value in tag.attrib.items():
                # 跳过逻辑，保留表格的rowspan和colspan属性
                if key in attr_white_list:
                    continue
                # 处理图片链接，不完整url，补充完整后替换
                if key in img_key_list:
                    img_url = self.absolute_url(url, value)
                    pq(tag).remove_attr(key)
                    pq(tag).attr('src', img_url)
                    pq(tag).attr('alt', '')
                # img标签的alt属性保留为空
                elif key == 'alt':
                    pq(tag).attr(key, '')
                # 其余所有属性做删除操作
                else:
                    pq(tag).remove_attr(key)

        return dom.text(), dom.html()

同样，我们也可以使用pyquery删除垃圾标签，通过传入pq_dict，使我们可以轻松去除垃圾标签
pyquery可以dom操作html源码，因此可以通过配置attr_white_list ，保留我们需要的标签属性，例如：rowspan，colspan 这两种元素属性可以使我们展示的表格格式更规整
img_key_list 的配置，也是至关重要的，因为部分网页源码有展示图片链接，我们可以通过配置该参数，可以轻松提炼出img链接，同样可以使用以下方法，补充url链接：

@staticmethod
    def absolute_url(baseurl: str, url: str) -> str:
        '''
        补充url
        :param baseurl:scheme url
        :param url: target url
        :return: complete url
        '''
        target_url = url if urlsplit(url).scheme else urljoin(baseurl, url)
        return target_url
baseurl = 'https://avatar.csdnimg.cn/'
url = 'csdnimg.cn/7/9/1/1_m0_50596262_1599273869.jpg'
tar_url = absolute_url(baseurl, url)
print(url)

打印结果如下：

https://avatar.csdnimg.cn/7/9/1/1_m0_50596262_1599273869.jpg

此功能，在爬虫中应用广泛，可以通过代码智能的补充不完整的url链接，你值得拥有~~

正则表达式处理细节

# 空白行清理
text = text.replace('', '').replace('\u3000', '').replace('\t', '').replace('\xa0', '')
text = re.sub('\s{2,}', '', text)
text = re.sub('\n{2,}', '\n', text)
text = text.strip('\n').strip()

# 标签美化以及换行调整
text = re.sub('', '
', text)
text = re.sub(
	   '||||'
	   '|<[a-zA-Z]{1,10}\s?/>|'
	   '|||'
	   '|||'
	   '|',
	   '',
	   text)
text = re.sub('\n', '', text)
text = re.sub('', '', text)
text = re.sub('', '
', text)
text = text.replace('
', '
\n').replace('
', '
\n')

从此，妈妈再也不担心我的代码会混乱不堪了~~~~

代码整合结果

#!/usr/bin/env python
# -*-coding:utf-8-*-
'''
author: szhan
date：2020-09-14
summery: 清理html_conent以及获取纯净数据格式
'''
import re
from lxml import etree
from loguru import logger
from pyquery import PyQuery as pq
from urllib.parse import urlsplit, urljoin


class CleanArticle:

    def __init__(
            self,
            text: str,
            url: str = '',
            xpath_dict: dict = None,
            pq_dict: dict = None
    ):
        self.text = text
        self.url = url
        self.xpath_dict = xpath_dict or dict()
        self.pq_dict = pq_dict or dict()

    @staticmethod
    def absolute_url(baseurl: str, url: str) -> str:
        '''
        补充url
        :param baseurl:scheme url
        :param url: target url
        :return: complete url
        '''
        target_url = url if urlsplit(url).scheme else urljoin(baseurl, url)
        return target_url

    @staticmethod
    def clean_blank(text):
        '''
        空白处理
        :param text:
        :return:
        '''
        text = text.replace('', '').replace('\u3000', '').replace('\t', '').replace('\xa0', '')
        text = re.sub('\s{2,}', '', text)
        text = re.sub('\n{2,}', '\n', text)
        text = text.strip('\n').strip()
        return text

    def run(self):
        '''
        :return:处理后的content, html_content
        '''
        if (not bool(self.text)) or (not isinstance(self.text, str)):
            raise ValueError('html_content has a bad type value')
        # 首先，使用xpath去除空格，以及注释，iframe, button, form, script, style, video等标签
        text = self.xpath_clean(self.text, self.xpath_dict)

        # 第二步，使用pyquery处理具体细节方面
        str1, str2 = self.pyquery_clean(text, self.url, self.pq_dict)

        # 最终的正则处理
        content, html_content = self.regular_clean(str1, str2)

        return content, html_content

    def xpath_clean(self, text: str, xpath_dict: dict) -> str:
        '''
        xpath 清除不必要的元素
        :param text: html_content
        :param xpath_dict: 清除目标xpath
        :return: string type html_content
        '''
        remove_by_xpath = xpath_dict if xpath_dict else dict()

        # 必然清除的项目 除非极端情况 一般这些都是要清除的
        remove_by_xpath.update({
            '_remove_2': '//iframe',
            '_remove_4': '//button',
            '_remove_5': '//form',
            '_remove_6': '//input',
            '_remove_7': '//select',
            '_remove_8': '//option',
            '_remove_9': '//textarea',
            '_remove_10': '//figure',
            '_remove_11': '//figcaption',
            '_remove_12': '//frame',
            '_remove_13': '//video',
            '_remove_14': '//script',
            '_remove_15': '//style'
        })

        parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
        selector = etree.HTML(text, parser=parser)

        # 常规删除操作，不需要的标签删除
        for xpath in remove_by_xpath.values():
            for bad in selector.xpath(xpath):
                bad_string = etree.tostring(bad, encoding='utf-8',
                                            pretty_print=True).decode()
                logger.debug(f"clean article content : {bad_string}")
                bad.getparent().remove(bad)

        skip_tip = "name()='img' or name()='tr' or " \
                   "name()='th' or name()='tbody' or " \
                   "name()='thead' or name()='table'"

        # 判断所有p标签，是否有内容存在，没有的直接删除
        for p in selector.xpath(f"//*[not({skip_tip})]"):
            # br标签特殊判断规则
            if p.xpath('name()') == 'br':
                br = etree.tostring(p, encoding='utf-8',
                                    pretty_print=True).decode()
                if bool(re.sub('\s|', '', br)):
                    continue
            # 跳过逻辑
            if p.xpath(f".//*[{skip_tip}]") or \
                    bool(re.sub('\s', '', p.xpath('string(.)'))):
                continue

            bad_p = etree.tostring(p, encoding='utf-8',
                                   pretty_print=True).decode()
            logger.debug(f"clean p tag : {bad_p}")
            p.getparent().remove(p)

        return etree.tostring(selector, encoding='utf-8',
                              pretty_print=True).decode()

    def pyquery_clean(self, text, url, pq_dict) -> object:
        '''
        pyquery 做出必要的处理，
        :param text:
        :param url:
        :param pq_dict:
        :return:
        '''
        # 删除pq表达式字典
        remove_by_pq = pq_dict if pq_dict else dict()
        # 标签属性白名单
        attr_white_list = ['rowspan', 'colspan']
        # 图片链接key
        img_key_list = ['src', 'data-echo', 'data-src', 'data-original']
        # 生成pyquery对象
        dom = pq(text)

        # 删除无用标签
        for bad_tag in remove_by_pq.values():
            for bad in dom(bad_tag):
                bad_string = pq(bad).html()
                logger.debug(f"clean article content : {bad_string}")
            dom.remove(bad_tag)

        # 标签各个属性处理
        for tag in dom('*'):
            for key, value in tag.attrib.items():
                # 跳过逻辑，保留表格的rowspan和colspan属性
                if key in attr_white_list:
                    continue
                # 处理图片链接，不完整url，补充完整后替换
                if key in img_key_list:
                    img_url = self.absolute_url(url, value)
                    pq(tag).remove_attr(key)
                    pq(tag).attr('src', img_url)
                    pq(tag).attr('alt', '')
                # img标签的alt属性保留为空
                elif key == 'alt':
                    pq(tag).attr(key, '')
                # 其余所有属性做删除操作
                else:
                    pq(tag).remove_attr(key)

        return dom.text(), dom.html()

    def regular_clean(self, str1: str, str2: str):
        '''
        正则表达式处理数据格式
        :param str1: content
        :param str2: html_content
        :return: 返回处理后的结果
        '''

        def new_line(text):
            text = re.sub('', '
', text)
            text = re.sub(
                '||||'
                '|<[a-zA-Z]{1,10}\s?/>|'
                '|||'
                '|||'
                '|',
                '',
                text)
            text = re.sub('\n', '', text)
            text = re.sub('', '', text)
            text = re.sub('', '
', text)
            text = text.replace('
', '
\n').replace('
', '
\n')
            return text

        str1, str2 = self.clean_blank(str1), self.clean_blank(str2)  # TODO 处理空白行问题

        # TODO  html_content处理 1，删除多余的无法使用的标签以及影响数据展示的标签  2，换行符问题处理以及更换

        str2 = new_line(text=str2)

        return str1, str2


if __name__ == '__main__':
    with open('html_content.html', 'r', encoding='utf-8') as f:
        lines = f.readlines()
        html = ''
        for line in lines:
            html += line
    ca = CleanArticle(text=html)
    _, html_content = ca.run()
    print(html_content)

看了这么久，给博主点个赞呗，如有不同意见可留言交流，谢谢！！！
如果对爬虫感兴趣，欢迎关注博主，大量干货，等你来拿！！！

你可能感兴趣的:(精华,爬虫干货,python,xpath,正则表达式)

华为OD机试E卷 - 最大值（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++华为OD机试E卷 C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定一组整数（非负），重排顺序后输出一个最大的整数。示例1输入：[10,9]输出：910说明:输出结果可能非常大，所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数示例1输入109输出910说明解题思路题目要求是：给定一组
Python 入门路线（2025 极简无废话版）墨鱼爆蛋 Python python 开发语言编程
大家好，梳理一个Python从入门到精通路线大家都挺忙的，突出一个无废话注：时间仅供参考第一阶段：基础入门(0-3个月)1.Python基础语法开发环境搭建(Python安装、IDE选择)变量和数据类型运算符和表达式控制流(if/else、循环)函数定义与调用基本输入输出2.数据结构基础列表(List)和元组(Tuple)字典(Dict)和集合(Set)字符串处理文件操作3.错误处理try/exc
用Python写了一个好玩的桌面宠物游戏脚本，简单又好玩墨鱼爆蛋 Python Python游戏 python 开发语言游戏桌面宠物
今天，我们来分享一个宠物桌面小程序，全程都是通过PyQT来制作的，对于PythonGUI感兴趣的朋友，千万不要错过哦！我们先来看看最终的效果，对于一个小小的娱乐项目来说，还是不错啦！好了，废话不多说，我直接上干货，本项目使用PYQT5作为编码框架，如果你对于该框架不是特别熟悉的话，建议先去简单学习一下~源码和素材图片在文末领取！素材图片项目源码展示importsysimportosimportra
Python 上下文管理器：优雅地管理资源墨鱼爆蛋 python 开发语言数据库
一、什么是上下文管理器上下文管理器是一个可以在with语句中使用的对象，它定义了__enter__和__exit__方法，它定义了在进入和退出特定代码块时需要执行的操作，确保资源在使用完毕后能够被正确地释放或清理。二、如何实现上下文管理器Python的上下文管理器通常通过两种方式实现：一种是使用类，另一种是使用生成器。1.使用类实现上下文管理器要实现一个自定义的上下文管理器类，你需要在类中定义两个
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
【Python百日进阶-Web开发-Feffery】Day604 - 趣味dash_04：Excel转Pdf文件岳涛@泰山医院 Dash python excel 前端 dash
文章目录一、环境准备1.1初始化基础`Python+Dash`环境1.2本例中使用的第三方包二、本项目B站视频讲解三、页面效果四、项目源码一、环境准备1.1初始化基础Python+Dash环境CSDN文档参见：https://blog.csdn.net/yuetaope/article/details/129795264Bilibili视频参见：https://www.bilibili.com/v
Python进阶--Python操作excel 小昀小杭 python excel 数据库
一、xlsxwirter三方库优点：写的快功能多缺点：只能写问题：内容并不是直接写入文件中只有在关闭的时候才会写入文件实例：#创建excel文件wb=xlsxwriter.Workbook("cars.xlsx")#在该文件下创建sheetws=self.wb.get_worksheet_by_name("Car")orself.wb.add_worksheet("Car")ws.write(ro
python进阶-10.pandas基本数据类型（1） wang旭炎 python numpy 索引
importpandasaspdimportnumpyasnpfrompandasimportSeries,DataFrame文章目录1,Series自定义索引读取SeriesSereis.loc['自定义的索引']||Sereis.iloc[0-n的数字]xxx.loc['yy']=new修改和增加读取多个值,会得到一个新对象通过字典数据得到Series2.DataFrame2.1把numpy的
tensorflow-迁移学习使用Resnet残差网络实现猫狗分类问题浮夸 tensorflow python
遇到的bug都放在之前的文章里了importosimportpandasaspdimportwarningsimporttensorflowastffromtensorflow.pythonimportkerasfromkeras.preprocessing.imageimportImageDataGeneratorimportkeras.optimizersasopfromtensorflow.
selenium框架你们的好朋友大强测试开发 python 功能测试 selenium
selenium（仅作为个人笔记，如有雷同，请联系删除。。）1、Selenium的特点：开源、免费，多浏览器支持，多平台支持，多语言支持，对Web页面有良好的支持，API简单，灵活(用开发语言驱动)，支持分布式测试用例执行。2、Windows下的测试环境搭建：安装Python；安装setuptools与pip（注：Python3不支持setuptools，但已经集成了pip）安装Selenium：
python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影 carafqy
看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，找不到很好的影片，于是有个想法，何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时，撸了这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。爬虫的入口从分页的列表开始，比如美剧的列表第一页地址这样：http://www.ygdy8.net/html/gndy/oumei/list_7_1.html，
【python进阶】txt excel pickle opencv操作demo 闪闪发亮的小星星 AI算法工程师打怪 python excel opencv
文章目录1.txt读写读综合案例日志文件读写2.excel读写读取csv读取xlsx3.matplotlib案例折线图多个折现图散点图柱状图饼状图4opencv案例加载与展示图片缩放图片旋转图片保存图片读取摄像头视频保存opencv综合案例5pickle案例1.txt读写读file.read()file.readlines()file.readline()##使用'read'方法读取文件的所有内容
python爬取公众号历史文章_微信公众号爬虫--历史文章冷风吹心冷风吹心 python爬取公众号历史文章
今天搞了一个微信公众号历史文章爬虫的demo，亲测可行，记录一下！(不喜勿喷)缺点：1.不是很智能2.兼容性不是很好，但是能应付正常情况啦使用mysql+request数据库部分直接建表ddl吧：CREATETABLE`wechat_content`(`id`int(11)NOTNULLAUTO_INCREMENT,`wechat_name`varchar(255)DEFAULTNULLCOMME
python-django 安装与基本配置默执_ django 后端开发 python django 后端
安装pipinstallDjango==3.2.4查看版本python-mdjango--version创建项目django-adminstartproject项目名称cd项目名称创建数据库pythonmanage.pymigrate创建超级用户用户名邮箱pythonmanage.pycreatesuperuser--username=用户名--email=邮箱自己设置密码必要设置：#设置中文：s
selenium通过cookie实现自动登录 Zds丶小顺顺 python 开发语言
原理很简单，首先手动完成登录后，把cookies保存到本地，下次再把cookies注入到浏览器里面，就自动实现了登录最近在学习写python的自动化脚本,但是发现测试工具打开之后的网页是没有用户自己打开浏览器时记录的cookie,简单来说也就是打开的网站不会自己登录,所以想要简单的实现下如何用cookie来登录总的来说分两步目录第一步，把cookies保存到本地第二步，把保存到本地的cookies
python 统计相同像素值个数 AI算法网奇 python基础 opencv 计算机视觉 python
目录python统计相同像素值个数最大值附近的值python统计相同像素值个数importcv2importnumpyasnpimporttimefromcollectionsimportCounter#读取图像image=cv2.imread('mask16.jpg')#将图像转换为灰度图像gray_image=cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)area
Python Selenium使用cookie实现自动登录WB haerxiluo python 爬虫 python selenium 爬虫
文章目录前言一、预登陆获取cookie1)cookie处理2)预登陆二、登录测试前言模拟登录WB是实现WB网页爬虫的第一步，现在的WB网页版有个sinavisitsystem，只有登录过后才能获取更多内容。本文使用selenium通过预登陆保存cookie到本地，之后重复登录只需要提取本地cookie即可免去每次扫码或者输密码登录。一、预登陆获取cookie1)cookie处理先简单引入两个函数实
爬取优美图库壁纸-python -chu_kuang- python mysql 数据库
爬取216页分块区所有图片，爬的内容有点抽象。说实在的这网站壁纸挺檫边的.....importrequestsfrombs4importBeautifulSoupimportos#创建目录directory='pictures'url=''ifnotos.path.exists(directory):os.makedirs(directory)foriinrange(216):ifi==0:url
python+Selenium自动化之免登录(cookie及token) 觅远 python selenium 自动化
目录cookie免登录通过接口获取cookie启用浏览器绕过登录添加token使用登录可以减去每次登录的重复操作，直接操作系统登录后的菜单页面，也可以减少安全验证登录，如图像验证登录的操作。注意：cookie和token都有有效期。cookie免登录直接从开发者工具中获取cookie进行添加，下图为网页中多个站点的cookie，挑选需要的进行添加即可。fromseleniumimportwebdr
归并排序(Python) 编程可可西里 python 开发语言算法排序算法
1.算法步骤首先考虑一个问题:两个有序列表如何合并成一个列表A=[1,3,5,6,7,12]B=[6.7.9.11]1.构建一个result=[]2.当A非空且B非空：比较A[0]和B[0]result添加较小的那个元素，并从原始数组弹出3.如果A非空,把A添加到result末尾4.如果B非空,把B添加到result末尾1.先把数组分成两部分2.每部分递归处理变成有序3.将两个有序列表合并起来2.
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
⭐️Python烟花代码 Python老吕 python烟花代码 Python烟花代码动态免费 Python烟花代码高级 Python烟花代码动态高级烟花代码编程Python满屏 Python海龟绘图画烟花用Python写一个烟花代码
python烟花代码Python烟花代码matplotlib实现烟花代码pygame实现烟花代码一pygame实现烟花代码二Python烟花代码在Python中，我们可以通过各种库来模拟烟花的动画效果。虽然Python本身并不是为图形动画设计的语言，但我们可以利用像matplotlib或pygame这样的库来创建一些有趣的可视化效果。matplotlib实现烟花代码首先，确保你已经安装了matpl
python实战（十五）——中文手写体数字图像CNN分类 CM莫问 python实战深度学习 python cnn 人工智能深度学习算法图像分类手写体识别
一、任务背景本次python实战，我们使用来自Kaggle的数据集《ChineseMNIST》进行CNN分类建模，不同于经典的MNIST数据集，我们这次使用的数据集是汉字手写体数字。除了常规的汉字“零”到“九”之外还多了“十”、“百”、“千”、“万”、“亿”，共15种汉字数字。二、python建模1、数据读取首先，读取jpg数据文件，可以看到总共有15000张图像数据。importpandasas
设计模式Python版单例模式小王子1024 设计模式Python版设计模式 python 单例模式
文章目录前言一、单例模式二、单例模式实现方式三、单例模式示例四、单例模式在Django框架的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模
python 列表推导式别样红。 python
列表推导式每一个for按照一定的规则循环后，返回一个变量。1.基本用法list1=[x*2forxinrange(10)]print(list1)#[0,2,4,6,8,10,12,14,16,18]2.增加if增加if则只有通过if判断的数据，才会输出list1=[x*2forxinrange(10)ifx%2==0]print(list1)#[0,4,8,12,16]3.多个for会按照矩阵的
python with open screaming Python IO
Youdon'treallyhavetocloseit-Pythonwilldoitautomaticallyeitherduringgarbagecollectionoratprogramexit.Butas@delnannoted,it'sbetterpracticetoexplicitlycloseitforvariousreasons.So,whatyoucandotokeepitshor
《Python基础》之对文件的基础操作湫ccc python 开发语言
目录介绍了解编码一、文件的读写操作（open()-close()）步骤1、写操作open()方式1：以字节的方式覆盖写数据到文件中wb模式方式2：以字节的方式追加写数据到文件中ab模式方式3：以字符的方式以指定的编码覆盖写入w模式方式4：以字符的方式以指定的编码覆盖写入a模式2、读取操作open()方式1：以字节的形式读取文件数据方式2：以字符的形式读取文件数据二、文件的读写操作（withopen
Python笔记1.2（open、logging、os、shutil、glob、decode、encode、pickle、tqdm） qq742234984 python 笔记数据库
Python笔记1.1（datetime、argparse、sys、overwrite、eval、json、os、zfill、endswith、traceback、深浅拷贝）Python笔记2（函数参数、面向对象、装饰器、高级函数、捕获异常、dir）Python笔记1.214、withopen()asfile和open()参数详解15、logging日志的等级logging.basicConfig
python LTP 安装 failed building wheel for pyltp Waldenz NLP Python LTP python ltp wheel failed building wheel
LTP（LanguageTechnologyPlatform）语言技术平台。LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。主页GitHubpyltpwin10pip直接安装pyltp时的各种报错，Faildbuildingwheelforpyltp或者Runningsetup.pybdist_wheelforpyltp...error
用Python生成新春烟花效果：实现与解析一休哥助手 pygame python 开发语言
引言新春佳节到来之际，烟花的璀璨绽放象征着喜庆和热闹。如果能通过代码在屏幕上生成烟花效果，既能增加节日的趣味，也能加深对编程的理解。本篇博客将详细介绍如何使用Python生成新春烟花效果，包括实现原理、代码解析以及常见问题的解决方案，帮助读者在实践中体验编程的乐趣。一、烟花效果的基本原理烟花效果的实现需要模拟以下几个关键过程：烟花发射：模拟烟花从底部发射到空中的过程。爆炸中心：烟花到达顶点后形成爆
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他