程序员小十一

爬虫原理详解及requests抓包工具用法介绍

文章目录

一、什么是爬虫？
二、爬虫的分类
三、网址的构成
四、爬虫的基本步骤
五、动态页面和静态页面
六、伪装请求头
七、requests库介绍
- 1. 概念：
- 2. 安装方式（使用镜像源）：
- 3. 基本使用：
- 4. response对象对应的方法：

一、什么是爬虫？

通俗讲：爬虫就是解放人的双手，去互联网获取数据，保存数据到本地或者数据库，保存格式如常见的txt、excel、csv、pdf、zip、jpg、mp3、mp4等等。

本质：爬虫本质是模拟浏览器，向服务器发送网络请求，接受服务器放回的数据，保存数据。

二、爬虫的分类

通用爬虫：比如百度、Google、搜狗等搜索引擎。
聚焦爬虫：根据指定的目标网址，获取精准的价值数据，并保存数据。

三、网址的构成

爬虫既然是模拟浏览器对网址发起请求，那先给大家介绍一下网址的构成。

以该网址为例：https://www.baidu.com/s?ie=UTF-8&wd=python

协议部分：https为协议部分，全称为超文本传输安全协议，与之对应的还有http协议。两者区别是http是明文传输、https是密文传输，后者安全性更高。
域名部分：域名又称为主机名，通过域名就可以找到对应的这台服务器或者主机。域名本质是IP地址，比如访问www.baidu.com，其实访问的是某个IP地址。只是IP地址是一串数字，不便记忆，所以通过特殊的方式将IP地址转换为域名。
路径部分：我们访问某个服务器的信息，比如百度的服务器，其实就是拿到服务器上面某个文件夹里面的数据。类似于我们电脑一样，服务器上面也有众多文件夹，每个文件夹里面还有下级目录，一层嵌套一层，这就称为路径部分。路径在网址中是以“/”分隔开的，以上述网址为例：路径就是/s。如果有多级目录，就是多个/分隔。
参数部分：参数就是我们访问网站的时候传递的关键字，比如我们要访问百度服务器中图片里面的风景图片，那请求的时候就要带上参数。参数和路径之间用“?”隔开，如果传递多个参数，每个参数之间用“&”地址符连接。如上网址中，ie=UTF-8和wd=python就是传递的两个参数，中间用“&”连接。

四、爬虫的基本步骤

准备网址：https://www.baidu.com/s?ie=UTF-8&wd=python。
请求网址：获取网站数据。
解析数据：解析价值数据。
保存数据：数据保存。

五、动态页面和静态页面

做爬虫项目时，首先要做的就是查看当前网站是静态页面还是动态页面，因为静态页面的数据是在当前页面的源码里面，而动态页面数据不在当前源码，一般是在另外的JS文件中存放。那如何区分网页是动态还是静态页面呢？

打开浏览器。
访问网址。
网页空白处右键点击，查看页面源代码。
在网页源代码中搜索网页所展示的部分，如果源码中都有，则为静态页面，否则是动态页面。

六、伪装请求头

多数网站对于爬虫技术是有限制的，并不希望爬虫去访问他的数据，一则是爬虫访问速率太快，容易造成网站负载超荷；二是爬虫并不是真实用户，对于网站经营数据的分析和决策会造成干扰；因而网站会出台各种手段限制爬虫，而如果要使用爬虫技术，则就要突破这些限制，也就是反爬。常用反爬措施有：

浏览器标识：我们访问任何网站，一般都是通过电脑或者手机，使用浏览器来访问，这样对方服务器就可以看到我们的设备型号以及浏览器型号，比如通过Windows系统的电脑上的谷歌浏览器去访问某服务器，对方就可以检测到我们的设备操作系统类型及浏览器版本类型等参数，确定了是真实浏览器发送的请求才会给到数据。而爬虫直接访问的话，对方会检测到，所以我们要将自己伪装成浏览器发起请求，也就是将用户代理（user-agent）的值改为浏览器型号。
反爬字段：上面我们说过，爬虫是模拟浏览器直接请求网址的，也就是给到他指定的网址，就可以对该网址发起请求。比如我们访问淘宝之后搜索某商品，然后点开其中一个商品，需要抓取这个商品相关的信息。那就将该商品页面网址复制下来，然后用爬虫请求。但是这样是拿不到数据的，很简单，因为正常人去看到这个商品页面，肯定是首先打开淘宝，搜索商品之后，继而点击该商品才可以看到。而爬虫直接就访问了该网址，很明显是反常的。所以网站有专门的反爬字段来检测，这个字段是referer，也就是来源的意思，访问的网址页面是来源于哪里，比如该商品页面是来源于淘宝，那就一定要携带referer字段，值为淘宝网址。如果不携带该字段，则拿不到数据。
cookies：cookies就是用户登录后，服务器返回给用户的标识信息，在一定时间内，用户再次访问该网站，不需要登录就可以看到登录后的数据。比如我们访问淘宝，要查看购物车中商品信息，则需要输入用户名和密码登录，登录后则可看到购物车数据。登录之后，一段时间内不要再次登录，也可以随时看到购物车信息，因为我们之后的每次访问都是携带了第一次登录后，服务器返回给我们的cookies身份标识，故而不用每次都输入用户名密码登录。做爬虫项目时，我们也会经常遇到需要登录的网站，登录一次之后拿到cookies值，将该cookies保存下来，之后每次访问时候携带上即可。

注意：任何爬虫项目都不得对网站运营造成影响，否则等同于服务器攻击。所以在写爬虫项目时，一定要对爬虫抓取频率和抓取数量加以限制。

七、requests库介绍

1. 概念：

requests是非常强大的爬虫请求库，可以解决日常90%的爬虫需求

2. 安装方式（使用镜像源）：

pip install requests -i https://mirrors.aliyun.com/pypi/simple/

3. 基本使用：

导包：import requests
使用：response = requests.get(url, 反爬请求头)
注意：请求拿到的response是一个对象，不是网站原始数据，response对象有众多属性和方法。

代码示例如下图所示：

4. response对象对应的方法：

获取网页源代码，有两种方法：A、text B、content.decode()
代码示例如下图所示：

获取二进制数据【音乐、视频、图片】：response.content
代码示例如下图所示：

获取响应状态码【基本不用】：response.status_code，状态码是200表示请求成功
代码示例如下图所示：

获取json数据【常用】：response.json()，网站数据很多都是json数据，拿到数据需要将json转化为字典
获取请求头headers：response.request.headers，可以查看我们发送给网站的请求头信息
代码示例如下图所示：
获取响应头headers：response.headers，可以看到网站返回的响应头信息
代码示例如下图所示：

你可能感兴趣的:(Python,爬虫,网址URL,requests库)

提交保存，要做重复请求拦截，避免出现重复保存的问题 niceLiuSir 幂等性
**问题：**前端ajax提交数据的时候，当频繁点击的时候，或者两个账号以相同数据创建的时候，会出现问题。**处理办法：**前端拦截，防止重复提交数据，在上一次请求返回结果之后才允许提交第二次；后端和数据库也同意做拦截判断。**1.前端拦截：**结合layer.confirm可以屏蔽掉重复点击确认按钮产生重复请求的情况。//创建征地补差价协议functioncreateDisparityContr
知识库 | 合约的进阶玩法比特梨子
班主任因公需要出差一段时间，这消息一出，同学们四下交头接耳，叽叽喳喳的问什么时候回来，暗自心里都乐开了花。班长接管一个星期后，这种和谐稳定的氛围，在大家知道楼下2班团支部书记给班长送了爱心早餐之后，一下子炸开了锅。这之后的两个星期，班长乐滋滋的和可爱的书记互通往来，同学们躁动的心也失去了束缚，八卦、吹牛、看视频、听音乐，做什么的都有。三个星期后的月考和班主任如约而至，看着直线下降的成绩，老班的怒眉
k8s-pod 实战七（PreStop 和 PostStart 详细分析）清风 001 K8S-Pod实战 rpc 网络协议网络 k8s kubernetes 容器云原生
PreStop和PostStart详细分析PreStopHookPreStopHook是在容器终止之前执行的操作。它通常用于执行一些清理任务或完成某些操作，以确保容器能够平稳关闭。例如，在数据库应用中，你可能希望在容器终止之前完成所有正在进行的事务。PostStartHookPostStartHook是在容器启动之后立即执行的操作。它通常用于在容器启动后执行一些初始化任务。例如，你可能希望在容器启
详解if __name__ == ‘__main__‘ (看这一篇就够了) 清风 001 python学习付费专栏 python
在Python程序中，if__name__=='__main__':这一行代码是一个常用的入口点。让我简单解释一下：1.if__name__=='__main__'含义和作用。每个Python模块（一个以.py结尾的文件）都有一个__name__属性；当该模块被运行时，__name__的值会被Python解释器设置为'__main__'。当其他模块导入该模块时，该模块的__name__值就不会是'
Python的起源与发展历程：从创意火花到全球热门编程语言码界领航 ai编程
目录创意的火花名字的由来圣诞节的礼物社区的力量今天的PythonPython的起源可以追溯到1989年，当时荷兰计算机科学家GuidovanRossum（吉多·范罗苏姆）在阿姆斯特丹的荷兰国家数学和计算机科学研究所（CWI）工作。Python的起源和发展与GuidovanRossum的个人背景和动机紧密相连。创意的火花据说，GuidovanRossum在开发Python之前，已经对编程有了相当深入
GESP 2024年3月C++ 1级至8级 dllglvzhenfeng 小学生C++编程入门小学生C++趣味编程洛谷 c++开发语言 GESP CSP-J 程序员的数学信息学竞赛中的数学 NOIP
GESP编程能力等级认证标准一级至八级（大纲）GESP编程能力等级认证标准一级至八级（大纲）-CCF-GESP编程能力等级认证GESP真题解析真题解析-CCF-GESP编程能力等级认证GESPC++/Python/图形化编程认证样题GESPC++/Python/图形化编程认证样题-CCF-GESP编程能力等级认证考点编译环境说明及软件下载考点编译环境说明及软件下载-CCF-GESP编程能力等级认证
3.4.2 爬取豆瓣影评实战欧阳枫落 Python 教学 python 爬虫
课程目标爬取豆瓣影评实战课程内容编码实现爬虫部分importrequests#导入requests库，用于发送HTTP请求fromfake_useragentimportUserAgent#导入UserAgent库，用于生成随机的User-Agentimportbs4#导入BeautifulSoup库，用于解析HTML内容fromtqdmimporttqdm#导入tqdm库，用于显示进度条impo
论低代码平台在业务系统中的多种应用形态快乐非自愿低代码
引言随着信息技术的飞速发展，企业对于业务系统的灵活性和快速部署能力提出了更高的要求。传统的软件开发方式往往耗时长、成本高，难以适应快速变化的市场需求。低代码平台的出现，为解决这一问题提供了新的思路。低代码平台通过提供可视化的开发环境和丰富的组件库，使得业务人员和开发人员能够快速构建业务系统，极大地缩短了开发周期，降低了开发成本。本文将探讨低代码平台在业务系统中的多种应用形态。低代码平台概述低代码平
写作小白，快速走上高手之路(下) 幸福脱单导师克婷
新手写作入门难免有些技巧不足，写作七课快速帮我们入门，刻意联系走上高手之路。上一篇文章我们一起学习了写作七课的前三课我们一起来复习一下。第一课积累写作素材库，见感思行知识卡片。第二课写作框架逻辑清晰地文章，两个方法。是口语化写作和三段式写作。第三课想要文章抓人需要好标题，我们一起学习了故事性标题和产品性标题。第四课是快速排版1、排版核心秘诀：多换行勤分段留给读者呼吸感逢重点必加粗字里行间真情露放插
使用EasyExcel进行单元格合并 DevNinja python 开发语言 Java
在Java中，我们可以使用EasyExcel库来处理Excel文件。EasyExcel是一款功能强大且易于使用的Java库，可以帮助我们读取、写入和操作Excel文件。在本文中，我们将介绍如何使用EasyExcel来合并单元格。首先，我们需要添加EasyExcel库的依赖。你可以下载最新版本的EasyExcelJAR文件，并将其添加到你的Java项目中。接下来，我们将展示如何使用EasyExcel
【Python-办公自动化】批量跨表信息查询指定值花花 Show Python Python-办公自动化 python
欢迎来到"花花ShowPython"，一名热爱编程和分享知识的技术博主。在这里，我将与您一同探索Python的奥秘，分享编程技巧、项目实践和学习心得。无论您是编程新手还是资深开发者，都能在这里找到有价值的信息和灵感。自我介绍：我热衷于将复杂的技术概念以简单易懂的方式呈现给大家，让每个人都能享受到编程的乐趣。我相信，通过不断的学习和实践，我们都能够成为更好的开发者。关注提示：如果您喜欢我的内容，别忘
第二期“中博热搜榜”发布 10个“月度十大榜单”出炉艺术时间ArtTime
榜单发布博物馆头条讯：第二期“中国博物馆热搜榜”10个榜单今日正式发布，我们选取国家文物局公布的1000家已备案博物馆作为博物馆热搜样本库，按照展览、公众、传播、品牌四个方面的维度，设置原创指数、学术指数、参观指数、互动指数、热搜指数、发布指数等共计20项指数作为评价依据。今日发布的全国性榜单共4个，分别为“十大热搜博物馆”“十大热搜展览”“十大热搜自然类博物馆”“十大热搜革命类博物馆（纪念馆）”
【选型】数据库 Mysql MariaDB 存储引擎选择我是Superman丶数据库架构心得数据库 mysql mariadb
【选型】数据库MysqlMariaDB存储引擎选择MariaDB新增十多个存储引擎，比较有特色的有：（1）Aria：适用于快速读取快速写入场景，替代为人诟病的MyISAM，支持事务，支持崩溃恢复；（2）TokuDB：适用于大数据量写入场景，支持事务，支持高压缩比，减少存储空间；（3）Spider：适用于水平分片场景，支持数据分片，将数据分布在多个服务器上；（5）DynamicComumns：支持动
窥一斑而知全豹薛晓刚数据库
说几个DTCC大会的插曲由于经济形势的不好，我看参展商少了一点。可能不少都是为了生计而挣扎。2023年1月明叔主持的栏目有一期特别节目《数据库诸神之战》，请来了OB、TiDB、TDSQL和TDEngine的掌门人来讨论数据库的未来，那时候结论是3年后国内健康运营的数据库公司不超过30家。目前已经快过去2年了。现在日子的确越来越难过了。现实可能和预测差不多。从出版社少到图书劵少每次大会都有各家出版社
第T10周：数据增强 OreoCC 深度学习人工智能 tensorflow2
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**第10周：数据增强难度：夯实基础⭐⭐语言：Python3、TensorFlow2要求：学会在代码中使用数据增强手段来提高acc请探索更多的数据增强手段并记录在本教程中，你将学会如何进行数据增强，并通过数据增强用少量数据达到非常非常棒的识别准确率。我将展示两种数据增强方式，以及如何自定义数据增强方式并将其放到
Redis缓存穿透/雪崩/击穿凌晨去看海缓存 redis java
目录一缓存穿透1.什么是缓存穿透2.解决方法①在请求api接口时对数据进行非法校验②在redis中对没有的数据作个标记③布隆过滤器二缓存雪崩1.什么是缓存雪崩2.解决方法三缓存击穿1.什么是缓存击穿2.解决方法一缓存穿透1.什么是缓存穿透我们使用redis请求数据的时候，正常流程是先去redis缓存中查找，如果查到了数据，那么就直接返回，不需要再去查数据库，如果没有查到，就需要去查询数据库。所以缓
【Redis】什么是Redis缓存雪崩、穿透、击穿？（一篇文章就够了） Mxin5 Redis 缓存 redis 数据库
目录什么是Redis?Redis的正常存储流程？什么是Redis缓存雪崩？缓存雪崩缓存预热缓存失效时间的随机性什么是Redis缓存穿透？缓存穿透缓存空对象BloomFilter（布隆过滤器）什么是Redis缓存击穿？缓存击穿互斥锁逻辑过期时间什么是Redis?Redis：是一种高性能开源的基于内存的，采用键值对存储的非关系型数据库，不保证数据的ACID特性【事务一旦提交，都不会进行回滚】采用键值对
后端学习笔记：Python基础 Tai_Monster 通工-数据结构与算法C 学习笔记 python
后端学习笔记：Python基础数据类型：Python中主要有以下几种常用的基本数据类型：String字符串类型，用单引号或者双引号引用Number数字类型，包括浮点数，整数，长整数和复数List列表项，类似于数组Dictionary字典，一个可变数据类型，加强版的Map，存储键值对类型Tuple元组，相当于一个不可变的列表项访问列表（元组）和字符串：Python的列表访问和字符串访问很相似，均可以
Linux 使用 docker 安装 MinIO 分布式对象存储系统 liupeng_blog docker docker linux 分布式
文章目录个人知识库MinIO简介环境要求一.新建文件目录1.1.新建docker-compose.yml1.2.编写docker-compose.yml二.文件赋权限三.启动容器3.1.启动并下载镜像3.2.停止并删除容器四.访问五.DockerHub官网更多知识平台个人知识库云网站：http://www.liupeng.cloud语雀：https://www.yuque.com/liupeng_
【ERPNext】Frappe、Bench、Bench CLI、 ERPNext、Desk 烟话6 python
文章目录Frappe：Bench：BenchCLI：ERPNext：Desk:Frappe：提示：就是一个开源的Web应用程序框架Frappe是一个开源的Web应用程序框架，用于构建数据驱动的应用。它的核心特点包括：MVC架构：Frappe基于模型-视图-控制器（MVC）架构，使代码结构清晰，便于维护和扩展。集成数据库：Frappe使用MariaDB/MySQL作为后端数据库，并提供ORM（对象关
Flutter之ListView 嵌套不同的Item 涂文远 Flutter flutter android
效果实现代码如下home_page.dartimport'dart:convert';import'dart:ffi';import'package:flutter/material.dart';import'package:flutterwncq/constants/constants.dart'showAppUrls;import'package:flutterwncq/models/inde
(转载)程序员文史综合题目一(附答案) weixin_34258782 php 人工智能 python
一、单选题1，以下谁是二进制思想的最早提出者？a，伏羲；b，姬昌；c，莱布尼茨；d，柏拉图。2，以下哪个概念和公孙龙的《指物论》中的“指”字含义相近？a，变量；b，数组；c，对象；d，指针。3，蔺相如，司马相如；魏无忌，长孙无忌。下列哪一组对应关系与此类似？a，PHP，Python；b，JSP，servlet；c，java，javascript；d，C，C++。4，秦始皇吞并六国采用了以下哪种算法
python拆分word文档_python-docx处理word文档 weixin_39587164 python拆分word文档
前言更多内容，请访问我的个人博客。前言全网找了一番，用python创建和更新word(.docx)文档，还是python-docx包比较好用。依赖Python2.6,2.7,3.3,or3.4lxml>=2.3.2安装模块由于python-docx已经提交给PyPI仓库，所以可以使用pip安装，如下：pipinstallpython-docx如果同时安装了python2和python3那么pip可
使用 Python 批量修改或替换 PDF 中的文字 nuclear2011 Python PDF python 查找和替换PDF中的文字 PDF查找和替换使用正则表达式替换PDF的文字修改PDF中的文字编辑PDF中的文字 PDF文本替换
目录使用工具Python在PDF中替换特定文字的所有实例Python在PDF中替换特定文字的第一个实例Python在PDF中使用正则表达式替换特定文字其他替换条件设置在处理PDF文档时，我们有时会遇到需要更新文档中文字内容的情况。比如公司发布了新的政策或产品信息，需要对PDF手册或宣传文档中的相关内容进行修改;又或者是财务报表、合同协议等重要文件，随着业务变化需要定期更新数据和细节。手动打开PDF
使用Python轻松批量读取Word文档及各种Word元素的文字内容 nuclear2011 Python Word 开发语言 python
目录引言安装PythonWord库使用Python批量读取Word文档的文字内容使用Python读取Word文档特定节的文字内容使用Python读取Word文档特定段落的文字内容使用Python读取Word文档特定页面的文字内容使用Python读取Word文档特定行的文字内容使用Python读取Word文档特定表格的文字内容使用Python读取Word文档页眉和页脚的文字内容引言在现代办公环境中，
Java语言的9个特质，你知道几个？小宇java
Java作为长期编程语言排行榜首位的开发语言，20多年过去了，学习者仍然络绎不绝，本文小编总结了Java的白皮书为我们提出了Java语言的9个关键特质，测测你知道几个吧！(1)Easy：Java的语法比C++的相对简单,另一个方面就是Java能使软件在很小的机器上运行,基础解释其和类库的支持的大小约为40kb,增加基本的标准库和线程支持的内存需要增加125kb。(2)分布式：Java带有很强大的T
Python 利用模板生成Word文档的三种方法 nuclear2011 python word
目录引言方法一、替换模板中的占位符文本生成Word文档方法二、替换模板中的书签生成Word文档方法三、替换模板中的合并域生成Word文档引言模板是预先设计好格式和布局的文档，它包含了特定的样式、格式和元素，为我们创建新文档提供了一个便捷的起点。使用模板创建Word文档的好处在于我们无需从头开始设计文档的外观和结构，而是可以选择一个适合的模板，并根据需要修改其内容。这样做不仅可以节省大量时间和精力，
Word处理控件Aspose.Words功能演示：在 Python 中将 Word 文档拆分为多个文件慧都小妮子 word python 开发语言 aspose.words Word 文档拆分为多个文件
在某些情况下，您需要通过将大型Word文档分解为较小的文档来拆分它们。您可以按页、节或列拆分Word文档。在本文中，您将学习如何使用Python将Word文档拆分为多个文件。分步指南和代码示例将演示如何以编程方式按节、页面或页面范围拆分Word文档。Aspose.Wordsfor.Python最新下载（qun：761297826）https://www.evget.com/product/4310
python-docx 拆分docx文档：按分节符拆分文档布啦啦李 python-docx使用教程 xml python-docx 拆分docx 拆分word xml docx
本文目录前言一、处理过程简述二、实现方式三、通过xml进行拆分1、完整代码【方式一】2、代码逻辑讲解3、实现效果图前言本文主要处理的需求是，将一个docx文档，按节（section）分割成多个docx文档，分割后的文档保留原来文档的字体格式、页眉、页脚、水印等。一、处理过程简述解压原始.docx文件：首先，你需要将原始的.docx文件解压缩，以便可以访问其内部的XML文件。这通常可以通过任何标准的
LangChain + ChatGLM-6B / ChatGLM2-6B 新手踩坑指南！海鸟智能 langchain ai
LangChain-ChatGLM-6B基本简介：1、项目资源来源链接：基于本地知识库的ChatGLM问答https://github.com/imClumsyPanda/langchain-ChatGLM2、项目原理：加载文件➝读取文本➝文本分割➝文本向量化➝问句向量化➝在文本向量中匹配出与问句向量最相似的topk个➝匹配出的文本作为上下文和问题一起添加到prompt中➝提交给LLM生成回答。3
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他