阿优乐扬

正则表达式爬取网页数据学习笔记

1、爬取title标签的内容

采用的正则表达式为'(.*?)'，(.*?)就代表我们爬取的内容，以爬取百度首页title为例；

爬取百度标题代码如下：

# -*- coding: utf-8 -*- 
import re
import urllib

url = "http://www.baidu.com"
content = urllib.urlopen(url).read()
title = re.findall(r'(.*?)',content)
print title[0]

爬取结果：

注意：上面输出的汉字出现乱码的情况，现对输出的解析方式做出更改

源码如下：

# -*- coding: utf-8 -*- 
import re
import urllib

url = "http://www.baidu.com"
content = urllib.urlopen(url).read()
title = re.findall(r'(.*?)',content)
for t in title:
    print unicode(t,'utf-8')#进行转码

更改后输出结果如下：

2、爬取超链接标签间的内容

HTML中超链接的基本结构为：

<a href="网页链接">a>

HTML中超链接的完整结构为：

(1)获取完整的超链接：

# -*- coding: utf-8 -*-
import re
import urllib

url = "http://www.baidu.com/"
content = urllib.urlopen(url).read()

#获取完整的超链接
res = r""
urls = re.findall(res, content)
for i in urls:
    print unicode(i,'utf-8')

注意：

res = r""

所使用的正则表达式，符号间不能有空格符，建议在开发中，把使用的正则表达式单独列出来，方便查看与后续的更改。
运行结果：

(2)获取超链接里面的内容

# -*- coding: utf-8 -*-
import re
import urllib

url = "http://www.baidu.com/"
content = urllib.urlopen(url).read()

#获取超链接里面的内容
res = r'(.*?)'
urls = re.findall(res, content,re.S|re.M)
for t in urls:
    print unicode(t,'utf-8')

re.M(re.MULTILINE)：允许多行模式
re.S(re.DOTALL)：支持点任意匹配模式
运行结果：

3、爬取HTML表格（tr标签和td标签）间的内容

网页中常用的布局包括table布局或div布局，其中table表格布局中常见的标签包括tr、th和td，表格行为tr（table row），表格数据为td（table data），表格表头th（table heading）。那么如何抓取这些标签之间的内容呢？大多数的网页表格的数据都是通过JS加载的，如贵州财经大学的招生网信息，我们先不对JS加载的数据进行就了解，先来学习一下爬取纯HTML的表格的内容。

预设HTML源码如下：


<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>贵州财经大学2018年理科各省分数线title>
head>
<body>
    <table border="1">
            <thead>
                <tr><th>最高分th><th>平均分th><th>最低分th><th>省控线th><th>录取批次th>tr>
            thead>
                <tbody>
                    <tr>
                        <td>532td><td>455td><td>379td><td>379td><td class="w210">本科二批td>
                    tr>
                    <tr>
                        <td>556td><td>523td><td>491td><td>484td><td class="w210">本科一批td>
                    tr>
                tbody>
    table>   
body>
html>

运行结果：

（1）截取部分源代码
在我们只需要网页中的一部分代码来进行分析时，我们可以取特定的部分进行爬取，提高分析的效率

# -*- coding: utf-8 -*-
import re
import urllib
url = "file:///G:/gufe.html" #本地预存的网页
content = urllib.urlopen(url).read()
star = content.find(r'')#爬取网页的起点，标签包含在其中
end =content.find(r'')#爬取网页的终点，标签不包含在其中print content[star:end]注意：star的内容标签在其中，end的内容标签不在其中输出
 运行输出结果：
 
 注意：如果输出的中文出现乱码现象，请把print content[star:end]改为对应的编码方式输出，如utf-8：
print unicode(content[star:end],'utf-8')
（2）获取tr，th，td间的内容
# -*- coding: utf-8 -*-
import re
import urllib
url = "file:///G:/gufe.html" #本地预存的网页
content = urllib.urlopen(url).read()
star = content.find(r'
  

 
   
   
   
  
') #爬取网页的起点，标签包含在其中
end =content.find(r'') #爬取网页的终点，标签不包含在其中
result = unicode(content[star:end],'utf-8')

#获取间的内容
res = r'(.*?)'
texts = re.findall(res,result,re.M|re.S)
for r in texts:
    print u'间的内容:',r

#获取间的内容
for r in texts:
    res_th = r''
    text_th = re.findall(res_th,result,re.M|re.S)
    for t in text_th:
        print u'间的内容:',t
print '================================================================================='    

#横排输出间的内容
res_th1 = r''
text_th1 = re.findall(res_th1,result,re.M|re.S)
for th1 in text_th1:
    print u'间的内容:',th1[0],th1[1],th1[2],th1[3],th1[4]

#获取间的内容       
res_td = r''
text_td = re.findall(res_td,result,re.M|re.S)
for d in text_td:
    print u'间的内容:',d[0],d[1],d[2],d[3],d[4]
运行结果：
 
 心得：
 1）为了避免我们获取的源码冗余，先进行片段截取。
 2）对于我们所需要的正则表达式，可以先把我们需要的内容片段复制过来，用（.*?）直接进行替换，避免正则表达式代码出错。
 3）多标签内的内容，需要循环输出
（3）字符串处理及替换
# -*- coding: utf-8 -*-
import re
 
content = '''

'''
#表格内容处理前
res = r''    
texts = re.findall(res, content, re.S|re.M|re.I)
print ("===========表格内容处理前============")
for m in texts:
    print (m[0],m[1])

#表格内容处理后
print ("===========表格内容处理后============")
for m in texts:
    value0 = m[0].replace('
', '').replace(' ', '') #把出现的
和 替换成空
    value1 = m[1].replace('
', '').replace(' ', '')
    if '' in  value1:
        m_value = re.findall(r'(.*?)', value1, re.S|re.M)#用正则表达式匹配中的值
        print (value0, m_value[0])
    else:
        print (value0, value1)
运行结果：
 
4、爬取标签中的参数
4.1、爬取超链接标签的URL
# -*- coding: utf-8 -*-
import re
 
content = '''
新闻
hao123
地图
视频
'''
 
res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res, content, re.I|re.S|re.M)
for url in urls:
    print url
运行结果：
 
 4.2、爬取图片超链接标签的URL
 
 以获取百度logo的URL链接地址为例，图片的HTML链接地址基本结构为：
 （1）包含域名
<img src="域名/文件夹/图片名称.图片格式" alt="图片的描述">
（2）不包含域名
<img src="/文件夹/图片名称.图片格式" alt="图片的描述">
百度的logo链接包含域名，不需要我们对域名和路径进行拼接，便于直接获取URL链接地址
 获取链接源码如下：
import re
content = ''''''
urls = re.findall('src="(.*?)"', content, re.I|re.S|re.M)
print urls
运行结果：
 
 4.3获取URL中的参数
 通过split（’/’）来截取字符,采用字符“/”分割字符串，获取临近的字符
# -*- coding: utf-8 -*-
import re

#提取图片链接
content = ''''''
urls = re.findall('src="(.*?)"', content, re.I|re.S|re.M)
url = urls[0]
print u"图片链接：",url

#通过split截取字符
name = url.split('/')[-1]
print u'输出图片名字：',name

name1 = url.split('/')[-2]
print u'输出图片文件夹：',name1
心得： url.split(’/’)[-1] 表示以“/”分割，[-1]为倒数第一个字符串，[-2]为倒数第二个字符串
 运行结果如下：
 

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(Python学习,正则表达式,爬取网页,学习笔记)
        
            
                
                    【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数
                        广龙宇
一起学Rust#Rust设计模式rust设计模式开发语言
                        提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
                    
                    Python教程：一文了解使用Python处理XPath
                        旦莫
Python进阶python开发语言
                        目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
                    
                    四章-32-点要素的聚合
                        彩云飘过

                        本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
                    
                    DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理
                        STU学生网页设计
网页设计期末网页作业html静态网页html5期末大作业网页设计web大作业
                        ️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
                    
                    关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript
                        二挡起步
web前端期末大作业javascripthtmlcss旅游风景
                        ⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
                    
                    HTML网页设计制作大作业（div+css） 云南我的家乡旅游景点 带文字滚动
                        二挡起步
web前端期末大作业web设计网页规划与设计htmlcssjavascriptdreamweaver前端
                        Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
                    
                    webpack图片等资源的处理
                        dmengmeng

                        需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
                    
                    node.js学习
                        小猿L
node.jsnode.js学习vim
                        node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
                    
                    我在大学遇到的兼职坑2
                        竹音小居

                        不要存在侥幸，天上不会掉馅饼上一次我讲述了我在某宝刷单遇到的坑，今天我就来讲讲比某宝刷单更坑的兼职，不，这应该不是兼职了，是被骗。我因为在某宝刷单交了会费，最后连本金都没有挣回来，就想找一个不用交本金的刷单平台，然后我就上网搜了一下“有没有不用交钱的兼职”，没成想还真有，我打开网页链接，看人家上面写的文案，确实很心动，不用交钱，加一下客服的qq就可以接单，而且网页上还有很多别人挣钱的截图，佣金非常
                    
                    语文主题教学学习笔记之87
                        东哥杂谈

                        “语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
                    
                    Java爬虫框架（一）--架构设计
                        狼图腾-狼之传说
java框架java任务html解析器存储电子商务
                        一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
                    
                    Java：爬虫框架
                        dingcho
Javajava爬虫
                        一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
                    
                    利用python实现图片格式之间的相互转换
                        难得北窗高卧
python开发语言
                        一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
                    
                    笋丁网页自动回复机器人V3.0.0免授权版源码
                        希希分享
软希网58soho_cn源码资源笋丁网页自动回复机器人
                        笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
                    
                    计算机网络八股总结
                        Petrichorzncu
八股总结计算机网络笔记
                        这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
                    
                    《转介绍方法论》学习笔记
                        小可乐的妈妈

                        一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
                    
                    JAVA学习笔记之23种设计模式学习
                        victorfreedom
Java技术设计模式androidjava常用设计模式
                        博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
                    
                    最简单将静态网页挂载到服务器上(不用nginx)
                        全能全知者
服务器nginx运维前端html笔记
                        最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
                    
                    抱怨很廉价，别做空想家
                        Fang2023

                        今天在整理浏览器收藏夹的时候，看到一个很多年前保存的一个网页，上面是一支央视公益广告的视频，《我创故我在》。思绪一下子回到了好几年前。还记得第一次无意中在电视上看到这支广告，喜悦之情溢于言表。抱怨很廉价，别做空想家，这句歌词尤其喜欢。听着歌曲，仿佛那时候的潮气蓬勃、意气风发，又回来了，即使此时感到疲惫。【公益】央视公益广告歌曲《我创故我在》_腾讯视频
                    
                    python爬取微信小程序数据,python爬取小程序数据
                        2301_81900439
前端
                        大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
                    
                    新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类
                        WPG大大通
其他笔记汽车BMS经验分享新能源电池
                        一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
                    
                    python实现规则引擎_规则引擎python
                        weixin_39601511
python实现规则引擎
                        广告关闭回望2020，你在技术之路上，有什么收获和成长么？对于未来，你有什么期待么？云+社区年度征文，各种定制好礼等你！我正在用python编写日志收集分析应用程序，我需要编写一个“规则引擎”来匹配和处理日志消息。它需要具有以下特点：正则表达式匹配消息本身消息严重性优先级的算术比较布尔运算符我设想一个例子规则可能是这样的：(message~program:messageandseverity>=h
                    
                    Regular Expression 正则表达式
                        Aimyon_36
DataDevelopment正则表达式redis数据库
                        RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
                    
                    《HTML 与 CSS—— 响应式设计》
                        陈在天box
htmlcss前端
                        一、引言在当今数字化时代，人们使用各种不同的设备访问互联网，包括智能手机、平板电脑、笔记本电脑和台式机等。为了确保网站在不同设备上都能提供良好的用户体验，响应式设计成为了网页开发的关键。HTML和CSS作为网页开发的基础技术，在实现响应式设计方面发挥着重要作用。本文将深入探讨HTML与CSS中的响应式设计原理、方法和最佳实践。二、响应式设计的概念与重要性（一）概念响应式设计是一种网页设计方法，旨在
                    
                    html+css网页设计 旅游网站首页1个页面
                        html+css+js网页设计
htmlcss旅游
                        html+css网页设计旅游网站首页1个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode、Sublime、Webstorm、Text、Notepad++等任意html编辑软件进行运行及修改编辑等操作）。获取源码1，访问该网站https://download.csdn.net/download/qq_42431718/897527112，点击
                    
                    如何在电商平台上使用API接口数据优化商品价格
                        weixin_43841111
api数据挖掘人工智能pythonjava大数据前端爬虫
                        利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
                    
                    吴恩达深度学习笔记(30)-正则化的解释
                        极客Array

                        正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
                    
                    JavaScript中秋快乐！
                        Q_w7742
javascript开发语言ecmascript
                        我们来实现一个简单的祝福网页~主要的难度在于使用canvas绘图当点击canvas时候，跳出“中秋节快乐”字样，需要注册鼠标单击事件和计时器。首先定义主要函数：初始化当点击canvas之后转到onCanvasClick函数，绘图生成灯笼。functiononCanvasClick(){//事件处理函数context.clearRect(0,0,canvas1.width,canvas1.heigh
                    
                    Nginx从入门到实践(三)
                        听你讲故事啊

                        动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
                    
                    个人学习笔记7-6：动手学深度学习pytorch版-李沐
                        浪子L
深度学习深度学习笔记计算机视觉python人工智能神经网络pytorch
                        #人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
                    
                                辗转相处求最大公约数
                                    沐刃青蛟
C++漏洞
                                    无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！ 
  
为此，总结一下以方便日后忘了好查找。 
  
1.输入要比较的两个数a,b 
  
忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 
  
3.辗转相除（用循环不停的取余，如a%b,直至b=0） 
  
4.最后的a为两数的最大公约数 
&
                                
                                F5负载均衡会话保持技术及原理技术白皮书
                                    bijian1013
F5负载均衡
                                    一.什么是会话保持？        在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
                                
                                Object.equals方法：重载还是覆盖
                                    Cwind
javagenericsoverrideoverload
                                    本文译自StackOverflow上对此问题的讨论。 
原问题链接 
  
在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： 
“不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” 
pu
                                
                                初始线程
                                    15700786134

                                          暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。 
  
  
       既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： 
public class ShapeFr
                                
                                Linux的tcpdump
                                    被触发
tcpdump
                                    用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支 持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 
 
实用命令实例 
默认启动 
tcpdump 
普通情况下，直
                                
                                安卓程序listview优化后还是卡顿
                                    肆无忌惮_
ListView
                                    最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 
&nb
                                
                                扩展easyUI tab控件，添加加载遮罩效果
                                    知了ing
jquery
                                    (function () {  
    $.extend($.fn.tabs.methods, {  
        //显示遮罩  
        loading: function (jq, msg) {  
            return jq.each(function () {  
                var panel = $(this).tabs(&
                                
                                gradle上传jar到nexus
                                    矮蛋蛋
gradle
                                    原文地址： 
https://docs.gradle.org/current/userguide/maven_plugin.html 
configurations { 
    deployerJars 
} 
 
dependencies { 
    deployerJars "org.apache.maven.wagon
                                
                                千万条数据外网导入数据库的解决方案。
                                    alleni123
sqlmysql
                                    从某网上爬了数千万的数据，存在文本中。 
然后要导入mysql数据库。 
 
悲剧的是数据库和我存数据的服务器不在一个内网里面。。 
 
 
ping了一下， 19ms的延迟。 
 
于是下面的代码是没用的。 
 

ps = con.prepareStatement(sql);
	ps.setString(1, info.getYear())............;
			ps.exec
                                
                                JAVA IO InputStreamReader和OutputStreamReader
                                    百合不是茶
JAVA.io操作 字符流
                                    这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励 我会更加的去学 加油！： 
JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流 
  
字节流和字符的难点：a,怎么将读到的数据
                                
                                MO、MT解读
                                    bijian1013
GSM
                                    MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息； 
上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
                                
                                五个JavaScript基础问题
                                    bijian1013
JavaScriptcallapplythisHoisting
                                    下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。 
问题1：Scope作用范围 
考虑下面的代码：  
(function() {
   var a = b = 5;
})();
console.log(b); 
什么会被打印在控制台上？  
回答： 
        上面的代码会打印 5。 
&nbs
                                
                                【Thrift二】Thrift Hello World
                                    bit1129
Hello world
                                    本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 
  
1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 
        <dependency>
        
                                
                                【Avro一】Avro入门
                                    bit1129
入门
                                    本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 
  1. 添加Maven依赖 
  
<?xml version="1.0" encoding="UTF-8"?>
<proj
                                
                                安装nginx+ngx_lua支持WAF防护功能
                                    ronin47

                                    需要的软件:LuaJIT-2.0.0.tar.gz                   nginx-1.4.4.tar.gz          &nb
                                
                                java-5.查找最小的K个元素-使用最大堆
                                    bylijinnan
java
                                    
import java.util.Arrays;
import java.util.Random;


public class MinKElement {

	/**
	 * 5.最小的K个元素
	 * I would like to use MaxHeap.
	 * using QuickSort is also OK
	 */
	public static void
                                
                                TCP的TIME-WAIT
                                    bylijinnan
socket
                                    原文连接： 
http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 
 
以下为对原文的阅读笔记 
 
说明： 
主动关闭的一方称为local end，被动关闭的一方称为remote end 
本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 
 
1、TIME_WA
                                
                                jquery ajax 序列化表单
                                    coder_xpf
Jquery ajax 序列化
                                      
 checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 
  
<input type="checkbox" name="favor" id="favor" checked="checked"/>
$("#favor&quo
                                
                                Apache集群乱码和最高并发控制
                                    cuisuqiang
apachetomcat并发集群乱码
                                    都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。 
最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： 
<Connector maxThreads="300" port="8019" prot
                                
                                websocket
                                    dalan_123
websocket
                                    一、低延迟的客户端-服务器 和 服务器-客户端的连接 
很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。 
  通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
                                
                                菜鸟分析网络执法官
                                    dcj3sjt126com
网络
                                      
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. 
OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 
前面我们看到了.在以太网上传输的都是具有以太网头的数据包. 
                                
                                Android相对布局属性全集
                                    dcj3sjt126com
android
                                    RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 
// 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
                                
                                Tomcat内存设置详解
                                    eksliang
jvmtomcattomcat内存设置
                                    Java内存溢出详解 
  
一、常见的Java内存溢出有以下三种： 
  
1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。 
可以利用JVM提
                                
                                Java6 JVM参数选项
                                    greatwqs
javaHotSpotjvmjvm参数JVM Options
                                    Java 6 JVM参数选项大全（中文版）  
  
作者：Ken Wu 
Email: [email protected] 
转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！ 
  
本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
                                
                                weblogic创建JMC
                                    i5land
weblogicjms
                                    进入 weblogic控制太 
1.创建持久化存储 
 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 
 
2.创建JMS服务器 
 --Services--Messaging--JMS Servers--new--name随便起--Pers
                                
                                基于 DHT 网络的磁力链接和BT种子的搜索引擎架构
                                    justjavac
DHT
                                    上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。 
系统包括几个独立的部分： 
 
  使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；  
  使用 PHP CI 框架开发的简易网站；  
  搜索引擎目前直接使用的 MySQL，将来可以考虑使
                                
                                sql添加、删除表中的列
                                    macroli
sql
                                    添加没有默认值：alter table Test add BazaarType char(1) 
有默认值的添加列：alter table Test add BazaarType char(1) default(0) 
删除没有默认值的列：alter table Test drop COLUMN BazaarType 
删除有默认值的列：先删除约束（默认值）alter table Test DRO
                                
                                PHP中二维数组的排序方法
                                    abc123456789cba
排序二维数组PHP
                                    <?php/*** @package     BugFree* @version     $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level 
                                
                                hive优化之------控制hive任务中的map数和reduce数
                                    superlxw1234
hivehive优化
                                    一、    控制hive任务中的map数:  1.    通常情况下，作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 
                                
                                Spring Boot 1.2.4 发布
                                    wiselyman
spring boot
                                    Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。 
  
这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 
  
Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

        
    
(.*?) (.*?) (.*?) (.*?) (.*?) (.*?) (.*?) (.*?) (.*?) (.*?) (.*?)  
   
   
  
杨 友 良好

杨金虎 及 格
杨绍伟 优秀
(.*?) (.*?)

	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)	(.*?)
杨友	良好
杨金虎	及格
杨绍伟	优秀
(.*?)	(.*?)