EnergyXue

Python爬虫之正则 & BeautifulSoup4解析HTML

前言
编码演变历史
- 1 Charset Character Encoding
- 2 ASCII字符集与编码
- 3 中文字符集与编码
- 4 大一统的Unicode
- 5 UTF-8编码
- 6 Python中的编码
正则表达式
BeautifulSoup4库的使用
相关文章阅读

1.前言

事务管理类app的项目，需要后台导入某工学生的个人课表，选择用python抓取并解析HTML的方式
如果习惯了实战一遍、优先解决问题，再去学习技术细节，那本文应该对你有所帮助，因为我就是这样干的
本篇文章记录 解析HTML 获取课程内容的部分，知识点包括：
- 编码演变的历史
- 正则表达式
- BeautifulSoup4库的使用
登录系统并抓取HTML页面参见： python爬虫之urllib登录抓取HTML页面
GitHub下载地址：Python源码与解析的HTML文件

2.编码演变历史

为了弄清下面几个问题，需要对编码演变的历史做必要的介绍，更详细介绍可以在本文的参考资料中查看

为什么UTF-8格式的代码，跨平台复制粘贴，有时会出现中文注释乱码，甚至没有中文代码也无法正常运行，在转成GB2312或者Unicode就搞定
做正则匹配时，错误的编码格式会导致中文匹配失败
BeautifulSoup的构造函数应选择哪种编码

2.1 Charset & Character Encoding

字符（Character）：是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等
字符集（Charset）：是多个字符的集合，每个字符集包含字符个数不同，常见字符集有ASCII，GB2312，BIG5，Unicoede，UTF-8等
字符编码（Character Encoding）：为了让计算机能够识别和存储字符集所使用的法则，使字符集和数字系统建立对应关系
下面按发展史简要介绍几种主要字符集及其编码

2.2 ASCII字符集与编码

ASCII字符集：包括控制字符（回车，换行等），可显示字符（英文字符，阿拉伯数字等）
ASCII编码：将ASCII字符集转换为计算机可存储计算的数的规则，
特点：这是较早出现、现今最通用的单字节编码，即8 bits表示一个字符.举例，查ASCII码对照表知，a的ASCII码值为97（十进制），二进制表示为01100001（占用一字节）
缺点：显然ASCII能显示的字符仅限于英语，扩展后的ASCII也只解决了部分西欧语言的显示，Macbook就放弃了ASCII而采用后面提到的Unicode

2.3 中文字符集与编码

中国用上了计算机之后，当然要为中文做一套计算机编码规则，采用多字节编码，即每个字符由1个、2个或4个字节变长编码表示
GB2312：中国国家标准简体中文字符集，GB2312简体中文编码表，GBK包含GB2312，GB18030包含GBK，增加了一些罕见汉字
BIG5：繁体中文集

2.4 大一统的Unicode

各个国家的文字都有一套自己的编码，乱成一锅粥是多么可怕的一件事情。因此Unicode字符集与编码就应运而生
Unicode是基于通用字符集UCS（Universal Character Set）发展而来，是计算机可以显示世界上数十种文字

2.5 UTF-8编码

UTF-8是针对Unicode的变长字符编码，注意UTF-8不是字符集，是一种编码
优点：变长编码可以提高了编码效率。通俗的说，传输相同文字内容时，UTF-8编码比Unicode原先的编码方式（等长编码）使用较少的码字

2.6 Python中的编码

在python2.7中，有unicode类型

str_unicode = u'测试' #显示定义unicode类型变量
str_gb = str_unicode.encode('gb2312') #将unicode对象以gb2312编码
str_utf = str_unicode.encode('utf-8') #将unicode对象以utf-8编码 
str_origin = str_gb.decode('gb2312') #将gb2312编码的字符串解码获取unicode

在python3中，取消了unicode类型，取而代之的是：使用unicode字符的字符串类型str。编码前是字符串类型str，编码后是字节流类类型bytes。

str_unicode = '测试' #字符串类型变量，使用unicode字符
str_gb = str_unicode.encode('gb2312') #将字符串类型对象以gb2312编码为bytes类型对象
str_origin = str_gb.decode('gb2312') #将gb2312编码的字符串解码，获取字符串类型对象

3.正则表达式

此处只说明本项目中用到的几个正则匹配规则，更多正则知识参见python正则表达式对照表，当字典查就行

#匹配连续的多个中文字符，这是unicode编码的中文范围
ur"[\u4e00-\u9fa5]+"
#在py2.7下，可如下形式调用，被正则内容必须为unicode编码，否则应decode
re.match(ur"[\u4e00-\u9fa5]+",u"搞笑le")
re.match(ur"[\u4e00-\u9fa5]+",str_utf.decode('utf-8'))

#匹配课表中两种表示上课时间的方式，#吐槽一下我工的课表真不统一，unicode编码
#第1种：周一第3,4节{第8-16周}
#第2种：第8-14周|2节/周
ur"第\d+-\d+周\|\d节\/周|周[一二三四五六日]第[,\d]+节{第[-\d]+周[\|单双周]*}"

r">第\d+节" #匹配第n节，utf-8编码

# [] 用来指定一个字符集 [abc] 表示 abc其中任意一个字符符合都可以
# - 表示范围 
# \d 匹配一个数字字符。等价于[0-9]
# + 表示将其前面的字符重复1或者多次
# {} 可以表示范围

4.BeautifulSoup4库的使用

Beautiful Soup4 官方文档，安装、使用、对象类型、遍历文档树一应俱全。相信我，快速浏览一下 当字典用 就行了
下面按本项目parserCourse.py中，对bs4语句的使用顺序做介绍，用过一遍知道 使用流程，就知道该怎么查了
建议在前言的GitHub源码链接中下载parserCourse.py和待解析的html文件，如果对你有帮助，就请给个star吧

from bs4 import BeautifulSoup #记得pip install beautifulsoup4

#第一步：创建beautifulsoup对象
#构造第1个参数是待解析的内容，第2参数指定使用python标准库解析器
#文档会被转成unicode编码
htmlPage = open("./formatCourse.html")
soup = BeautifulSoup(htmlPage, "html.parser")

#第二步：定位，找到id为Table1的table标签，就是这份html中包含课程内容的部分
#find函数返回'bs4.element.Tag'对象，bs4有4种对象（往下看先）
#此处返回了
标签内的所有内容
tagTable = soup.find('table', id='Table1')

#第三步：按标签分割课表，并以list输出
tbodyContents = tagTable.tbody.contents
# 1）element.Tag的用法,获取标签下的标签及其内容
tabTable.tbody # 依然返回element.Tag对象# 2）遍历文档树的知识点：.contents属性将Tag的子节点以列表的方式输出
tagTable.tbody.contents # 将的内容（子节点）以list输出# 3）过滤：list中有一些换行符需要过滤掉，只保留Tag类型的元素，即由构成的元素
tbodyContents = filter(lambda x: type(x) == element.Tag, tbodyContents)

#第四步：构造好匹配课程名、上课时间、教师姓名、教室的正则表达式后#按照每个进行遍历，前两个元素是无用的略过for lessonN in xrange(2, len(tbodyContents)):
#类似第三步分割过滤出之后，遍历每行正则出课程信息
trContent = filter(lambda x: type(x) == element.Tag,tbodyContents[lessonN].contents)
trContent[rowN].text #表示取tr标签中的字符#剩下的部分是遍历并正则匹配出课程信息，看注释就能看懂，不赘述。#注意：正则匹配时，不确定字符串是什么编码，最好显示的转换一下5.相关文章阅读
 
   python正则表达式对照表 
 python爬虫之urllib登录抓取HTML页面 
  
参考：
 
   吴秦：字符集和字符编码 
 Beautiful Soup4 官方文档 
  
如果对你有所帮助，就请点个赞吧 (^-^)

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(Python,python,html解析,编码)
        
            
                
                    基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
                        

                        金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
                    
                    吴恩达 机器学习cs229-学习笔记-更新中
                        是娜个二叉树！
机器学习学习笔记
                        吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
                    
                    Python标准模块--importlib
                        

                        作者：zhbzz2007出处：http://www.cnblogs.com/zhbzz2007欢迎转载，也请保留这段声明。谢谢！1模块简介Python提供了importlib包作为标准库的一部分。目的就是提供Python中import语句的实现（以及__import__函数）。另外，importlib允许程序员创建他们自定义的对象，可用于引入过程（也称为importer）。什么是imp？另外有一个
                    
                    Python模块的动态加载机制
                        weixin_30632089
运维python
                        Python在运行环境初始化中，就将sysmodule加载到了内存中，实际上，Python是将一大批的module加载到了内存中。但是为了使local名字空间能够达到最干净的效果，Python并没有将这些符号暴露在当前的local名字空间中，而是需要用户显式的通过import机制通知Python：需要将这个符号引入到local名字空间中。这些预先被加载进内存的module存放在sys.module
                    
                    python学习打卡：DAY 18 推断聚类后簇的类型
                        西西西仓鼠
python训练营python学习聚类
                        @浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
                    
                    基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成
                        YOLO实战营
深度学习YOLOui人工智能目标检测计算机视觉
                        1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
                    
                    python 协程进阶
                        cliffordl
asyncpythonpython开发语言
                        python协程实现python协程进阶python生成器的作用协程在多个模型流式输出中的使用实例文章目录1.协程基础1.1.协程名词解释1.2.基本工作流程1.3.async协程执行1.3.1.协程顺序执行（asyncio.run）1.3.2.协程顺序执行（await）1.3.3.协程同步执行（asyncio.create_task）2.可等待对象（Awaitables）2.1.Coroutin
                    
                    python 基于 httpx 的流式请求
                        

                        文章目录1.环境介绍2.同步客户端2.1.面向过程2.1.1.流式输出2.1.2.非流式输出2.2.面向对象3.异步客户端3.1.面向过程3.2.面向对象3.3.Attemptedtocallasynciteratoronanasyncstream.参考：https://www.jb51.net/article/262636.htm次要参考：https://blog.csdn.net/gitblo
                    
                    Python实现动态加载模块的方法
                        后端架构魔法构筑者
Python
                        在Python中，动态加载模块是一种常见的技术，它允许我们在运行时根据需要加载和使用模块，而不是在程序启动时就将所有模块都导入。这种方式可以提高程序的灵活性和性能。下面我将详细介绍几种实现动态加载模块的方法，并提供相应的源代码示例。使用importlib模块importlib是Python的一个内置模块，它提供了一些函数来实现动态加载模块。下面是一个简单的示例：importimportlibdef
                    
                    从零开始：搭建你的人工智能开发环境
                        人工智能教程
人工智能YOLO机器学习transformer线性回归动态规划排序算法
                        前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
                    
                    Python打卡Day11 常见的调参方式
                        

                        核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
                    
                    Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现
                        Python爬虫项目
python爬虫开发语言区块链json
                        一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
                    
                    autodl云计算平台 使用ollama 部署lightrag 加入streamlit界面
                        42fourtytoo
云计算深度学习pytorch学习
                        1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
                    
                    YOLO V8+Python训练手写数字识别
                        yuanpan
YOLOpython开发语言
                        以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
                    
                    python学智能算法（二十七）|SVM-拉格朗日函数求解上
                        西猫雷婶
机器学习人工智能python学习笔记支持向量机python机器学习算法人工智能
                        【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
                    
                    Python importlib 动态加载
                        cliffordl
pythonpython数据库开发语言
                        文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
                    
                    Python爬虫实战：研究Korean库相关技术
                        ylfhpy
爬虫项目实战python爬虫easyuikorean
                        一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
                    
                    Python爬虫实战：研究Genius库相关技术
                        ylfhpy
爬虫项目实战python爬虫开发语言genius
                        1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
                    
                    【Python】通过注释插桩替换代码实现开源自动化
                        ChrisEighteen18
pythonpython
                        需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
                    
                    python量化实战_Python与量化投资 从基础到实战.pdf
                        weixin_39841709
python量化实战
                        作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
                    
                    【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形
                        景天科技苑
grafanaprometheusprometheus可视化grafana自定义图形手撕grafana自定义监控图形
                        ✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
                    
                    Python量化实战：基于索提诺比率的价值投资策略回测
                        量化价值投资入门到精通
python网络开发语言ai
                        Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
                    
                    Python+Allpairspy实战：高效正交法测试用例设计全攻略
                        聪明的一休哥哥
测试开发技术大全python测试用例自动化测试
                        引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
                    
                    Python 应用无监督学习（一）
                        绝不原创的飞龙
默认分类默认分类
                        原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
                    
                    Python包高级开发技术：性能优化与系统集成
                        软考和人工智能学堂
Python开发经验深度学习强化学习python性能优化开发语言
                        引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
                    
                    2、Python 测试全攻略：自动化与驱动开发
                        辣条鉴定师
Python测试自动化测试测试驱动开发
                        Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
                    
                    华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）
                        算法大师
最新华为OD机试真题华为OD机试真题(Java/JS/Py/C)华为odjavapythonjavascriptc++
                        最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
                    
                    SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析
                        fanxbl957
Webspringboot单元测试后端
                        博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
                    
                    Python.03
                        唯怡委员
python
                        1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
                    
                    Python.01
                        唯怡委员
python
                        Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
                    
                                强大的销售团队背后 竟然是大数据分析的身影
                                    蓝儿唯美
数据分析
                                    Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。 
大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 
Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析 
                                
                                Haproxy+Keepalived高可用双机单活
                                    bylijinnan
负载均衡keepalivedhaproxy高可用
                                    我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 
1.正常情况下，只有master启动MyApp并提供服务 
2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 
 
F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过 
 
 
服务器资源 
 
10.7
                                
                                eclipse编辑器中文乱码问题解决
                                    0624chenhong
eclipse乱码
                                    使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码 格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 
本文以Eclipse 3.3（英文）为例加以说明： 
1. 设置Workspace的编码格式： 
Windows-&g
                                
                                基础篇--resources资源
                                    不懂事的小屁孩
android
                                    最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 
 
String.xml    字符串资源   涉及国际化问题  

http://www.2cto.com/kf/201302/190394.html   
 
string-array
                                
                                接上篇补上window平台自动上传证书文件的批处理问卷
                                    酷的飞上天空
window
                                      
@echo off
: host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致  ou=公司名称, o=公司名称
set host=localhost      
set ou=localhost        
set o=localhost         
set password=123456
set validity=3650

set salias=s
                                
                                企业物联网大潮涌动：如何做好准备？
                                    蓝儿唯美
企业
                                    物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。 
尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 
Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
                                
                                spring学习——数据库（mybatis持久化框架配置）
                                    a-john
mybatis
                                    Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 
mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 
1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
                                
                                Java静态代理、动态代理实例
                                    aijuans
Java静态代理
                                      
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。 
按照代理类的创建时期，可以分为：静态代理和动态代理。 
所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。 
所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。 
  
一、静态代理类实例： 
1、Serivce.ja
                                
                                Struts1与Struts2的12点区别
                                    asia007
Struts1与Struts2
                                    1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
                                
                                初学者要多看看帮助文档 不要用js来写Jquery的代码
                                    百合不是茶
jqueryjs
                                    解析json数据的时候需要将解析的数据写到文本框中,  出现了用js来写Jquery代码的问题; 
  
1, JQuery的赋值  有问题 
   代码如下: data.username 表示的是:  网易 
  
         $("#use
                                
                                经理怎么和员工搞好关系和信任
                                    bijian1013
团队项目管理管理
                                            产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
                                
                                如何为rich:tree不同类型节点设置右键菜单
                                    sunjing
contextMenutreeRichfaces
                                    组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}"
    selectionChangeListener=&qu
                                
                                【Redis二】Redis2.8.17搭建主从复制环境
                                    bit1129
redis
                                    开始使用Redis2.8.17 
Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。   Ubuntu上安装Red
                                
                                JSONObject转换JSON--将Date转换为指定格式
                                    白糖_
JSONObject
                                    项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： 
  
{"nanos":0,"time":-27076233600000,
                                
                                JavaScript语言精粹读书笔记
                                    braveCS
JavaScript
                                    【经典用法】： 
  
//①定义新方法

Function .prototype.method=function(name, func){

              this.prototype[name]=func;

              return this;

}

 

//②给Object增加一个create方法，这个方法创建一个使用原对
                                
                                编程之美-找符合条件的整数 用字符串来表示大整数避免溢出
                                    bylijinnan
编程之美
                                    

import java.util.LinkedList;

public class FindInteger {

	/**
	 *  编程之美 找符合条件的整数 用字符串来表示大整数避免溢出
	 *  题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0
	 *  
	 *  假设当前正在搜索由0，1组成的K位十进制数
                                
                                读书笔记
                                    chengxuyuancsdn
读书笔记
                                    1、Struts访问资源 
2、把静态参数传递给一个动作 
3、<result>type属性 
4、s:iterator、s:if c:forEach 
5、StringBuilder和StringBuffer 
6、spring配置拦截器 
 
1、访问资源 
(1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
                                
                                [通讯与电力]光网城市建设的一些问题
                                    comsci
问题
                                     
      信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系 
 
      我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........ 
 
    
                                
                                oracle 空间RESUMABLE
                                    daizj
oracle空间不足RESUMABLE错误挂起
                                    空间RESUMABLE操作  转 
 
 
 
Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。 
 
这一篇简单介绍空间RESUMABLE的例子。 
 
 
 
第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
                                
                                重构第一次写的线程池
                                    dieslrae
线程池 python
                                    最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 
 
1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 
 

#!/usr/bin/env python
# -*- coding:utf8 -*-


                                
                                C语言学习六指针
                                    dcj3sjt126com
c
                                    初识指针，简单示例程序： 
/*
	指针就是地址，地址就是指针
	地址就是内存单元的编号
	指针变量是存放地址的变量
	指针和指针变量是两个不同的概念
	但是要注意： 通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样
*/
# include <stdio.h>

int main(void)
{
	int * p;	// p是变量的名字， int * 
                                
                                yii2 beforeSave afterSave beforeDelete
                                    dcj3sjt126com
delete
                                    public function afterSave($insert, $changedAttributes)
{
    parent::afterSave($insert, $changedAttributes);
    if($insert) {
        //这里是新增数据
    } else {
        //这里是更新数据
    }  
} 
 
                                
                                timertask
                                    shuizhaosi888
timertask
                                    java.util.Timer timer = new java.util.Timer(true); 
// true 说明这个timer以daemon方式运行（优先级低， 
// 程序结束timer也自动结束），注意，javax.swing 
// 包中也有一个Timer类，如果import中用到swing包， 
// 要注意名字的冲突。 

TimerTask task = new
                                
                                Spring Security（13）——session管理
                                    234390216
sessionSpring Security攻击保护超时
                                    session管理 
目录 
  
1.1     检测session超时 
1.2     concurrency-control 
1.3     session 固定攻击保护 
  
      
                                
                                公司项目NODEJS实践0.3[ mongo / session ...]
                                    逐行分析JS源代码
mongodbsessionnodejs
                                        
http://www.upopen.cn 
  
一、前言 
        书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
                                
                                pojo.vo.po.domain区别
                                    LiaoJuncai
javaVOPOJOjavabeandomain
                                    　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。 
　　 
　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
                                
                                Windows Error Code
                                    OhMyCC
windows
                                    0 操作成功完成. 
1 功能错误. 
2 系统找不到指定的文件. 
3 系统找不到指定的路径. 
4 系统无法打开文件. 
5 拒绝访问. 
6 句柄无效. 
7 存储控制块被损坏. 
8 存储空间不足, 无法处理此命令. 
9 存储控制块地址无效. 
10 环境错误. 
11 试图加载格式错误的程序. 
12 访问码无效. 
13 数据无效. 
14 存储器不足, 无法完成此操作. 
15 系
                                
                                在storm集群环境下发布Topology
                                    roadrunners
集群stormtopologyspoutbolt
                                    storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 
  
1、打包 
打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 
<plugin>
	<groupId>org.apache.maven.
                                
                                为什么不允许代码里出现“魔数”
                                    tomcat_oracle
java
                                    　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。   　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。   　　很多开发者在这个检查方面都有问题，这可以从结果
                                
                                zoj 3511 Cake Robbery(线段树)
                                    阿尔萨斯
线段树
                                     题目链接：zoj 3511 Cake Robbery 
 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。 
 解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 
#include <cstdio>
#include <cstring>
#include <vector&
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.