return_min

第一周笔记系列

一、爬虫的定义：程序或者脚本—》

自动的爬取万维网的数据的程序或者脚本。

二、爬虫可以解决的问题：

（1）解决冷启动问题。（2）搜索引擎的根基。—通用爬虫。（3）帮助机器学习建立知识图谱。（4）制作各种比价软件。

四、搜索引擎

1、什么是搜索引擎：搜索引擎通过特定算法，从互联网上获取网页信息，将其保存到本地，为用户提供检索服务的一种程序。

2、搜索引擎的组成：搜索引擎主要是是由通用爬虫组成的。（1）通用爬虫：将互联网上的网页信息【整体】爬取下来的爬虫程序。
（2）搜索引擎的工作步骤：
1、抓取网页
2、数据存储
3、预处理
提取文字
中文分词
消除噪音
4、设置网站排名（访问量），为用户提供检索服务。

	（3）为什么搜索引擎可以爬取所有的网页？
	---搜索引擎的通用爬虫是如何来爬取所有网页的。
		一个网页就是一个url，这个问题其实在问，【url的获取来源】。

url的获取来源：

1、新网站会主动提交网址给搜索引擎。
2、网页中的一些外链，这些url全部都会加入到通用爬虫的爬取队列。
3、搜索引擎和dns解析服务商合作，如果有新网站注册，搜索引擎就可拿到网址

。

3、通用爬虫的缺陷：

（1）通用爬虫是爬取整个网页，但是网页中90%的内容基本是没用。（2）不能满足不同行业，不同人员的不同需求。
（3）只能获取文字，不能获取音频，视频，文档等信息。（4）只能通过关键字查询，无法通过语义查询。
4、聚焦爬虫：在实施网页抓取的过程中，【会对内容进行筛选】，尽量保证只抓取与【需求相关】的信息的爬虫程序。

五、robots协议：

定义：网络爬虫排除标准作用：告诉搜索引擎那些可以爬那些不能爬。

六、http协议

1、什么是http协议：

是一种规范——————>约束发布和接受html的规范。

2、http和https。

http：超文本传输协议。 https:安全版的http协议。—ssl— 对称加密—密钥
非对称—私钥+公钥数字签证—

3、https：443

http：80
Upgrade-Insecure-Requests: 1：可以将http升级成https请求。

4、http的特点：

（1）应用层协议。（2）无连接：http每次发送请求和响应的过程都是独立。在http
1.0以后，有请求头：connection：keep-alive：客户端和服务建立长连接。
（3）无状态：http协议不记录状态。 cookie和session做到请求状态的记录。 cookie是在客户端保存，session是在服务器保存。

5、url：统一资源定位符。

（1）主要作用：用来定位互联网上的任意资源的位置。

（2）为什么url可以定位任意资源？

  组成：https://www.baidu.com/index.html?username=123&password=abc#top
  		scheme：协议---https
  		netloc:网络地址：ip:port---www.baidu.com
  			通过ip定位电脑，通过port定位应用。
  			192.168.92.10:
  				代理ip：ip：port
  		path：资源路径。---index.html
  		query：请求参数：---？后面的内容username=123&password=abc
  		fragment：锚点----top
  	 			原因：url包含netloc可以定位电脑，path定位资源，这样就可以找到任意在互联网上的信息。

（3）特殊符号：

？：后面就是请求参数 &:连接请求参数 #:锚点----如果url中有锚点，在爬虫程序中尽量去除。

6、 http的工作过程：

（1）地址解析：将url的所有组成部分分别解析出来。（2）封装http请求数据包。
将第一步解析出来的信息进行装包。—http数据包。（3）封装tcp数据包，通过三次握手建立tcp。
（4）客户端发送请求（5）服务发送响应（6）关闭tcp连接。

7、当我们在浏览器输入一个url，浏览器加载出这个页面，中间做了哪些事？

（1）客户端解析url，封装数据包，建立连接，发送请求。（2）服务器返回url对应资源文件给客户端，比如：index.html。
（3）客户端检查index.html是否有静态资源（引用外部文件），比如js，css，图片。有的话再分别发送请求，来获取这些静态资源。
（4）客户端获取所有静态资源，通过html语法，完全将index.html页面显示出来。

8、 http的请求方法：

get请求：get（获取）–>获取服务器的指定资源—>涉及到筛选一些信息—>请求参数：主要拼接在url中。—>不安全（别人可以通过url获取信息）—>请求参数的大小受限。
post请求：post（邮递）—>向服务器传递数据—>请求数据是放在请求实体中的—>安全—>大小不受限。

9、客户端请求

（1）组成：请求行、请求头、空行、请求数据（实体）
请求头：请求方法；host地址，http协议版本。（2）请求头：
user-agent：客户端标识。
accept：允许传入的文件类型。
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3
Referer：标识产生请求的网页来自于哪个网页。
防盗链
cookie：cookie信息。—现在很多网站，必须封装cookie才给数据。 post请求重要的请求头：
content-type:post请求的数据类型
content-length:post请求数据的长度。
post请求重要的请求头：
content-type:post请求的数据类型
content-length:post请求数据的长度。

ajax请求必须封装的头：
x-requested-with:xmlhttprequest

10、服务器响应：

  （1）组成：状态行、响应头、空行、响应正文。

  （2）响应头： 			Content-Type：text/html;charset=UTF-8
   		（3）状态码（面试常考）： 			1XX:表示服务器成功接收部分请求，还需要发剩余请求才能处理整个过程。（处理了一半） 			2XX:表示服务器成功接收请求并处理完整个过程。（成功）
  		200成功 			3XX:为了完成请求，客户端需要进一步细化请求。
  		302：重定向
  		304：使用缓存资源 			4XX：客户端请求错误。（url写错了）
  		404:服务器无法找到请求内容。
  		403:服务器拒绝访问，权限不够。 			5XX:服务器错误。
  		502：服务器错误
  		500：请求未完成，服务器遇到不可知问题。

requests模块的安装

pip install requests

第二讲 requests模块

1，使用步骤： 1，导包 import requests 2，确定基础url base_url =
‘https://www.baidu.com’ 3，发送请求，获取响应 response =
requests.get(base_url) 4，处理响应内容

2、requests.get()—get请求方法参数详解

（1）requests.get( url=请求url， headers = 请求头字典， params = 请求参数字典。
timeourt = 超时时长 )----response对象（2）response对象的属性：
服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文
（1）响应正文：
字符串格式：response.text
bytes类型：response.content （2）状态码：response.status_code （3）响应头，response.headers(字典)
response.headers[‘cookie’] （4）响应正文的编码：response.encoding
response.text获取到的字符串类型的响应正文，其实是通过下面的步骤获取的：
response.text = response.content.decode(response.encoding)
（5）乱码问题的解决方法：产生的原因：编码和解码的编码格式不一致造成的
str.encode(‘编码’)—将字符串按指定编码解码成bytes类型
byes.decode(‘编码’)–将bytes类型按指定编码编码成字符串。 a、response.content.decode(‘页面正确的编码格式’)
b、找到正确的编码，设置到response.encoding中
response.encoding = 正确的编码
response.text—>正确的内容。（3）get请求项目总结： a、没有请求参数的情况下，只需要url和headers字典。 b、get请求是有请求参数。
在chrome浏览器中，下面找query_string_params,将里面的参数封装到params字典中。 c、分页主要是查看每页中，请求参数页码字段的变化，找到变化规律，用for循环就可以做到分页。

3、post请求：

requests.post( url=请求url, headers = 请求头字典， data=请求数据字典
timeout=超时时长 )—respnse对象 post请求一般返回数据都是json数据。解析json数据的方法：
（1）respnse.json()—>json字符串所对应的python的list或者dict （2）用json模块。
json.loads(json_str)—>json_data(python的list或者dict）
json.dumps(json_data)–>json_str post请求能否成功，关键看请求参数。如何查找是哪个请求参数在影响数据获取？–>通过对比,找到变化的参数。
变化参数如何找到参数的生成方式，就是解决这个ajax请求数据获取的途径。寻找的办法有以下几种：（1）写死在页面
（2）写在js中（3）请求参数是在之前的一条ajax请求的数据里面提取获取好的。 salt sign：md5方法 ts
时间戳 e:翻译的内容

4、代理使用方法。（重点***）

（1）代理基本原理：
代理形象的说，他是网络信息中转站。实际上就是在本机和服务器之间架了一座桥。（2）代理的作用：
a、突破自身ip访问现实，可以访问一些平时访问不到网站
b、访问一些单位或者团体的资源。
c、提高访问速度、代理的服务器主要作用就是中转，所以一般代理服务里面都是用内存来进行数据存储的。
d、隐藏ip。（3）代理的分类：
1，按照协议进行划分：
FTP代理服务器---->21,2121 HTTP代理服务器—>80,8080 SSL/TLS代理：主要用于访问加密网站。端口：443 telnet代理：主要用telnet远程控制，端口一般为23
2，按照匿名程度划分：
高度匿名代理：数据包会原封不动转化，在服务段看来，就好像一个普通用户在访问，做到完全隐藏ip。
普通匿名代理：数据包会做一些改动，服务器有可能找到原ip。
透明代理：不但改动数据，还会告诉服务，是谁访问的。
间谍代理：指组织或者个人用于记录用户传输数据，然后进行研究，监控等目的的代理。（4）在requests模块中如何设置代理？
proxies = {
‘代理服务器的类型’：‘代理ip’
}
response = requests.get(proxies =proxies)
代理服务器的类型：http,https,ftp
代理ip:https://ip:port

day3 第二讲

一、cookie和session
1，什么是cookie？
     cookie是指网站为了鉴别用户身份，进行会话跟踪而存储在客户端本地的数据。
2、什么是session？
	 本来的含义是指有始有终的一系列动作，而在web中，session对象用来服务器存储特定用户会话所需要的属性及信息。
3、cookie和session产生的原因：
     cookie和session他们不属于http协议范围，忧郁http协议是无状态，但实际情况，我们有需要保持一些信息，作为下次请求的条件，所有就产生了cookie和session。
4、cookie的原理：
     由服务器产生，当浏览器第一次发送请求到服务器，服务器返回数据，同时生成一个cookie返回客户端，客户端将这个cookie保存下来。
	 当浏览器再次访问，浏览器就会自动带上cookie信息，这样服务器就能通过cookie判断是哪个用户在操作。
	 
	 cookie的缺陷：
	    1，不安全----保存在客户端
		2，cookie本身最大支持4096（4kb）---存储大小受限。
5，session的工作原理。
    正是因为cookie的缺陷，所以产生了另外一种保持状态的方法--session。
	服务器存储session，基于http协议的无状态特征，服务器就不知道这个访问是谁。为了解决这个问题，cookie就起到了桥的作用。cookie在使用的过程中，将一个叫做session的字段放到cookie中，将来服务器可以通过这个id字段来查找到地上那个用户的session。
	
	session的生命周期，当用户第一次登陆时创建（生命开始），到session有限期结束（30min）。
6，当我们浏览器关闭，session是否就失效了？
     否，当第一次登录后（生命开始），生命周期决定的
7，cookie组成：
    name：cookie名称，一旦创建，不可更改。
	value：该cookie的值
	domain：这cookie可以访问网站域名。
	maxage：cookie的失效时间。负数是永不失效。
	path：这个使用路径
	http字段：cookie的httponly，若此属性为true，则只有http头中会带此cookie。
	secrue：该cookie是否仅被使用安全传输协议。
	size：cookie的大小。
	
8，会话cookie和持久cookie。
 	持久化：将内存中的数据存储到硬盘（文件中，数据）上的过程。
	序列化：将对象保存到硬盘上
	
	会话cookie：保存在内存中cookie，浏览器关闭，cookie失效。
	持久cookie：保存在硬盘上的cookei。
9、用requests实现登陆：
	（1）只需要将【登陆后的】cookie字段封装在请求头中。
	（2）使用requests的session对象登陆
		session对象可以记录登陆状态。
		使用步骤：
		#session：记录登陆状态
		se = requests.Session()
		data = {
			'email':'13016031459',
			'password':'12345678',
		}
		#此时se对象就保存了登陆信息
		se.post(base_url,data = data,headers = headers)
		index_url = 'http://www.renren.com/971682585/profile'
		#用se对象来进行个人首页的访问，就可以了
		response = se.get(index_url,headers=headers)
		if '鸣人' in response.text:
			print('登陆成功！')
		else:
			print('登陆失败！')

第三讲正则表达式

一、数据的分类

1，结构化数据
特点：数据以行为为单位，每一个数据表示一个实体，每一行数据的属性都是一样的。
举例：关系型数据库中的表就是结构化数据。

处理方法：sql

2，半结构化数据
特点：结构化数据的另一种型式。它并不符合关系型数据的特点，不能用关系型模型来描述，但是这种数据包含相关标记有用来分割语义元素以及字段进行分层的描述，因此也被称为自描述结构。
举例：xml、html、json
处理方法：正则，xpath，jsonpath，css选择器

3，非结构化数据：
特点：没有固定结构的数据，
举例：文档、图片、音频、视频。
处理方法：常常用二进制形式来做整体保存。

二、json数据

1、json是什么语言的内容？
  json是js语言中用【字符串格式】来保存对象和数组的一种数据结构。 		json数据本质上是字符串。
2，js中数组和对象：
1，js的数组：var array = [‘aaa’,‘bbb’,‘cc’]–和python列表对应 2，js的对象：var obj =[name:‘zhangsan’,age:10)–和python字典对应
name = obj.name

3，json数据的解析方法：
json模块： 1，json.loads(json_str)—python的list或者dict 2，json.dumps(python的list或者dict）—>json_str

	-------

对json文件的操作：
3，json.loads(fp)—>从json文件中读出json数据，返回一个python的list或者dict
4，json.dump(python的list或者dict,fp—>python的list或者dict保存到fp所对应的文件中。

4，json的意义：
json作为数据格式进行传输，具有较高的效率 json不像xml那样具有严格的闭合标签，所以json作为数据传输的时候，它的数据有效占比（有效数据和总数据的比）比xml高很多。
在相同流量下，json比xml作为数据传输，传输的数据更多。

三、正则表达式

1，元子符
（1）匹配边界：
^----行首
$----行尾
（2）重复次数
?----0次或1次
*---->=0
±—>=1
{n,}–>=n
{n,m}–>=n,<=m
{n}----n次
（3）各种字符的表示
[]—匹配括号中一个字符，单字符
[abc]–匹配a或者b或者c
[a-z0-9A-Z]
\d–数字
\w–数字字母下划线
\s–空白字符：换行符，制表符，空格
\b–单词边界
.–除换行符以外的任意字符
2，re模块的使用。
python中re模块是用来做正则处理的。
（1）re模块的使用步骤：
1,导包
2,将正则表达式编译成一个patten对象
3,用pattern对象来使用相应的方法来匹配内容。
import re
pattern = re.compile(
r’正则表达式’,
‘匹配模式’,

 )r表示元子符。

（2）pattern对象的方法：
1，match方法：默认从头开始，只匹配一次，返回一个match对象。
patten.match(
start，匹配开始的位置–缺省，start = 0
end，匹配结束的位置–缺省，end = -1
)–match对象

  match对象的属性：
    match.group()--获取匹配内容
	match.span()--匹配的范围
	match.start()--开始位置
	match.end()--结束位置
	  这些方法都可以带一个参数0，但是不能写1，1来表示分组。
	   match.group(0)--获取匹配内容。
	   match.span(0)--匹配的范围
	   match.start(0)--开始位置
	   match.end(0)--结束位置
	   match.groups()---将所有分组的内容，按程序放到一个元组中返回
	 2、search方法：从任意位置开始匹配，只匹配一次，返回一个match对象
	pattern.search(
		'匹配的目标字符串'，
		start,匹配开始的位置--缺省，start = 0
		end，匹配结束的位置--缺省,end = -1
	)--->match对象

3、findall方法：全文匹配，匹配多次，将每次匹配到的结果放到list中返回。
	pattern.findall(
		'匹配的目标字符串'，
		start,匹配开始的位置--缺省，start = 0
		end，匹配结束的位置--缺省,end = -1
	)--->list	

4、finditer方法：全文匹配，匹配多次，返回一个迭代器。
  pattern.finditer(
    '匹配的目标字符串'
	start，匹配开始的位置--缺省，start =0
	end，匹配结束的位置--缺省，end = -1
  )-->list
  
5、split：切分，按照正则所表示内容进行切分字符串，返回切分后的每个子串
  pattern.split(
    ’匹配的目标字符串‘，
	'要切分字数，默认是全部份'
  )---list
6、sub方法：用指定字符串，替换正则表达式所匹配到到内容。
  pattern.sub(
    rep1,#替换成什么
	content，替换什么
	count,替换次数，默认是替换所有
  )--->替换后的字符串

rep1替换内容可以是函数：

函数要求：
1，函数必须有参数：参数就是正则匹配目标字符串所得到到每个match对象。
2，这个函数必须要有返回值，返回值必须是字符串，这个字符串将来作为替换的内容。

7，分组

  分组在正则表达式中使用（）来表示的，一个括号一个分组
			分组的作用：
			 （1）筛选特定内容
			 （2）可以在同一个表达式中应用前面的分组：\引用第一分组
			 （3）findall配合分组
			 
			   	import re

				content = '正则表达式
'
				p = re.compile(r'<(html)><(h1)>(.*)')
				# print(p.search(content).group())
				print(p.findall(content))#[('html', 'h1', '正则表达式')]

8，贪婪和非贪婪模式

（1）贪婪和非贪婪的区别在于匹配内容的多少。（2）贪婪使用*来控制匹配次数的。正则默认是贪婪。（3）非贪婪使用？来控制的。
（4）在表示数量控制元字符后面加一个？，此时就表示这个数量控制符取最小值，也就是非贪婪。
  9，匹配模式
      re.S ----.可以匹配换行符 			re.I----忽略大小写。 		10、万能匹配表达式：.*?(尽可能少匹配任意内容)配合re.s

第四讲 xpath

一、什么是xml？

1，定义：可扩展标记性语言 2，特点：xml的是具有自描述结构的半结构化数据。
3，作用：xml主要设计宗旨是用来传输数据的。他可以作为配置文件。

1，什么是xml？？定义：可扩展标记性语言特点：xml自描述结构–>半结构化数据
作用：设计宗旨传输数据–>可作为配置文件

二、xml和html的区别： 1，语法要求不同；xml的语法要求更严格。
（1）html不区分大小写的，xml区分。（2）html有时可以省却尾标签。xml不能省略标签，严格按嵌套首位结构。（3）只有xml中有自闭标签（无内容的标签，只有属性。）
（4）在html中属性名可以不带属性值，xml必须带属性值。（5）xml中属性必须用引号括起来，html中可以不加引号。

二、xml和html的区别： 1，语法要求不同---->xml严格
html–>不区分大小写–>有时省却尾标签–>不带属性值–>属性可不加引号
xml–>区分大小写–>不能省却标签—>有自闭标签(无内容标签,只属性)–>必须带属性值–>属性必须引号
  2，作用不同：
 html主要设计用来显示数据以及更好的显示数据。 	 xml主要设计宗旨是用来传输数据。
3，标记不同：xml没有固定标记， html的标记都是固定的，不能自定义。

简括 2，作用不同：
html -->设计宗旨–>显示数据更好显示数据 xml–>设计宗旨–>传输数据 3,标记不同：
xml–>无固定标记 html–>标记固定无自定义

三、xpath
1，什么是xpath？
xpath是一种筛选html或者xml页面元素的【语法】。 2，xml和html的一些名词：
元素、标签、属性、内容 3，xml的两种解析方法：
dom–>把xml文档变成dom树，便于成型数据（树）–>处理xml文档–>文档大时–>出现问1 耗内存–>问2 解析速度会非常慢
sax–>当文档大时，dom无效率用–>当满足事件驱动器，解析器才会解析。内存中加载的xml文档不会太大

简括1,什么是xpath？ xpath–>筛选页面元素的语法 2,xml|html名词—>元素、标签、属性、内容
3,xml和html的解析方法：
dom–>把xml文档变成dom树–>便于成型数据（树）–>处理xml文档–>文档大时–>出现问1耗内存–>问2解析速度会非常慢
sax–>当文档大时，dom无效率用–>满足事件驱动器–>解析器才会解析–>内存中加载的xml文档不会太大

4，xpath语法：（1）选取节点：
nodename–>选取此标签及其所有字标签。 /–>从根节点开始选取。 //–>从任意节点开始，不考虑他们的位置
//book–不管book位置,在xml中取出所有的book标签。 .–当前节点开始找 …–从父节点 @–选取属性 text()–选取内容

（2）谓语：起限定作用，限定它前面的内容
[]写在谁后面，就限定谁，一般用于限定元素或标签。//book[@class=‘abc’] 常见的谓语：
[@class]–选取class
[@class=‘abc’]–选取class属性为abc的节点
[contains(@href,‘baidu’)]–选取href属性包含baidu的标签
    [1]--选取第一个
    [last()]--选取最后一个
    [last()-1]--选取倒数第二
    [position()>2]--跳过前两个。
（3）通配符
–匹配任意节点 @–匹配任意属性
（4）选取若干路径
| 两个都要

5、lxml模块----python处理xml和html的模块。
（1）解析字符创类型xml。
from lxml import etree

	text='''
		html页面内容
	'''
	tree = etree.HTML(text)---返回值就是一个element对象
	#element对象有xpath方法，可以通过xpath表达式来筛选内容。
	#选取class属性为item-1的li下面的a标签的内容
	a_contents = tree.xpath('//li[@class="item-1"]/a/text()')
		
	将element对象变成字符串的方法
	# html_str = etree.tostring(tree,pretty_print=True).decode('utf-8')
	# print(type(html_str))
	
	#elment对象xpath放来筛选，返回值都是一个list。
	#xpath表达式最后一个是一个元素（标签），list中都是elment元素
	#xpath表达式最后一个是属性，list都是属性字符串
	#xpath表达式最后一个是内容，list都是内容字符串

（2）解析xml或者html文件：
			from lxml import etree
			#parse方法是按照xml的方式来解析，如果语法出问题，就会报错。
			html = etree.parse('demo.html')
			# print(html)#_ElementTree
			li_texts = html.xpath('//li/a/text()')
			print(li_texts)

1、path环境变量的作用：
为了让cmd找到各种命令exe工具，配path就找exe所在目录配置就可以了。
C:\Anaconda3\Scripts—找pip.exe
C:\Anaconda3----python.exe
2.修改完path，要重启cmd

where python 
path

pip install redis
pip install aiohttp
pip install asyncio

第五讲：动态html

一、反爬策略： 1、请求头： —user-agent —referer —cookie

2、访问频率限制。 —代理池 —再用户访问高峰期进行爬取，冲散日志。12-13 7-10
—设置等待时长。time.sleep(3)

3、ajax异步请求，用接口获取数据。

4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数。）

5、页面内容是js代码。 selenium+phantomjs的组合进行页面内容的获取。

二、html页面的技术 1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
2、jqery:js的库，方便js开发。 3、ajax:web的异步请求技术同步请求，异步请求。

三、selenium和phantomjs

1、什么是selenium？
selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

2、phantomjs：他其实就是一个内置无界面浏览器引擎。–无界面可以提高程序运行速度。
因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

3.安装selenium和phantomjs？ selenium安装：pip install selenium==2.48.0 phantomjs安装：百度phantomjs镜像—>下载一个Windows版本的————>phantomjs-2.1.1-windows.zip
  	 			可视化的chrome浏览器插件：---chromedriver安装： 			下载：百度：chromedriver镜像
  		（1）保证chrome是正版。
  		（2）查看自己chrome的版本号：73.0.3683.86
  		（3）找一个和自己版本号最接近的版本下载。
  		
  		将下载好的exe文件复制到：C:\Anaconda3\Scripts 	 	文档：selenuim常用方法总结.note

链接：http://note.youdao.com/noteshare?id=0142a95cf23fadbaea95809ccb5674b2&sub=02896A50836E4995997A821419D9A063

你可能感兴趣的:(爬虫)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
Click Event Simulation：无需浏览器触发动态数据加载亿牛云爬虫专家 python 代理IP 爬虫代理浏览器动态数据 Click Event 模拟点击 python 爬虫代理代理IP
一、明确目标与前置知识目标使用Python模拟点击事件，直接发送HTTP请求采集拼多多上商品价格和优惠信息。采用爬虫代理（代理IP）的技术，设置好Cookie和User-Agent，以防止被目标网站屏蔽。利用多线程技术加速数据采集，提高效率。前置知识基本的Python编程知识HTTP协议与请求头、Cookie的概念多线程编程基础（如线程、队列的使用）代理IP的使用原理二、按步骤拆解操作1.环境准备
【Python爬虫实战】从多类型网页数据到结构化JSON数据的高效提取策略易辰君 python爬虫 python 爬虫开发语言
个人主页：https://blog.csdn.net/2401_86688088?type=blog系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、数据类型及其对应的提取策略（一）文本数据（二）数值数据（三）链接（四）图像数据（五）表格数据（六）JSON数据（七）动态数据（八）元数据（九）总结二、结构化数据提
正向代理、反向代理龙卷风hu~ 日常开发学习总结代理模式正向代理反向代理
区别正向代理：代表客户端（如浏览器、爬虫）发送请求。需要在客户端主动配置代理地址。反向代理：代表服务端（如Web服务器）接收请求。客户端无感知，请求直接发到反向代理。正向代理应用场景正向代理常被用于：隐藏客户端身份：保护客户端真实IP或网络信息。也可以用来解决跨域问题。绕过访问限制：突破IP封锁、地域限制等（如访问某些地区的API）。集中管控与审计：企业可通过代理监控和过滤员工的网络请求。例子：企
《Python实战进阶》No20: 网络爬虫开发：Scrapy框架详解带娃的IT创业者 Python实战进阶 python 爬虫 scrapy
No20:网络爬虫开发：Scrapy框架详解摘要本文深入解析Scrapy核心架构，通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术，结合政府数据爬取与动态API逆向工程实战案例，构建企业级爬虫系统。提供完整代码与运行结果，包含法律合规设计与反爬对抗方案。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中
python代码文件方式_关于.py文件的详细介绍 weixin_39923806 python代码文件方式
这篇文章主要给大家介绍了在Python中.py文件打包成exe可执行文件的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。前言最近做了几个简单的爬虫python程序，于是就想做个窗口看看效果。首先是，窗口的话，以前没怎么接触过，就先考虑用Qt制作简单的ui。这里用前面sinanews的爬虫脚本为例，制作一个获取当天sina头条新闻的窗口。生成py文件后，运
python爬取房源数据_python爬取安居客二手房网站数据（转） weixin_39897758 python爬取房源数据
之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，还是小打小闹哈哈，现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，作为即将毕业的学生狗惹不起啊惹不起还是正文吧！！！由上可以看到网页一条条的房源信息，点击进去后就会发现：房源的
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
【python爬虫】免费爬取网易云音乐完整教程（附带源码）景天科技苑爬虫副业实战零基础进阶教学 python 爬虫开发语言 js逆向
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~所属专栏：爬虫实战，零基础、进阶教学景天的主页：景天科技苑文章目录网易云逆向网易云逆向https://music.163.com/下载云音乐胡广生等，可以选择自己喜欢的歌曲首先，我们可以先根据抓包找到的m4a文件，下载试试在这个请求
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
可狱可囚的爬虫系列课程 19：静态页面和动态页面之分 HerrFu@灵思智行科技爬虫 python 爬虫
在爬虫开发中，静态页面和动态页面的核心区别在于数据的生成和加载方式，理解两者的差异直接影响爬虫技术选型和数据抓取策略；掌握静态/动态页面的区别，可显著提升爬虫效率和成功率。一、静态页面（StaticPage）静态页面的内容（1）在服务器预先生成，以.html文件形式存储，用户每次访问时返回相同的HTML代码。（2）数据直接嵌入在HTML中（如文本、表格、链接等）。（3）纯HTML+CSS，无复杂交
2024年Python最新Pytorch--3，面试高分实战 m0_60666452 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
Selenium 库的爬虫实现叱咤少帅（少帅） Python从入门到高手 selenium
Selenium是什么？Selenium是一个用于自动化Web应用程序测试的工具。它提供了一个用于测试网站的框架，可以模拟用户在浏览器中的操作，如点击链接、填写表单、提交数据等。Selenium可以在多种浏览器和操作系统上运行，并且支持多种编程语言，如Python、Java、JavaScript等。通过编写测试脚本，开发人员可以使用Selenium来自动化执行各种Web应用程序的测试，以确保它们在
电商业务数据测试用例参考 SuperCreators 大数据测试大数据 hive 数据仓库
1.数据采集层测试用例编号测试目标测试场景预期结果TC-001验证用户行为日志采集完整性模拟用户浏览、点击、加购行为KafkaTopic中日志记录数与模拟量一致TC-002验证无效数据过滤规则发送爬虫请求（高频IP）清洗后数据中无该IP的日志记录2.数据处理层测试用例编号测试目标测试场景预期结果TC-003验证用户兴趣标签计算逻辑用户连续浏览3次“运动鞋”类目用户画像中“运动鞋”兴趣权重≥0.8T
SpringBoot与Sentinel整合，解决异常爬虫请求问题奔向理想的星辰大海 Java研发实用技巧云原生 spring boot sentinel 爬虫
Sentinel是阿里巴巴开源的一款面向分布式服务架构的轻量级高可用流量控制组件，主要用于流量控制、熔断降级和系统负载保护。虽然Sentinel主要用于微服务场景下的流量管理和故障隔离，但也可以通过一些策略和配置来辅助防御DDoS攻击和异常爬虫请求。DDoS攻击DDoS（DistributedDenialofService）是一种恶意攻击手段，攻击者通过控制大量计算机设备（如僵尸网络），向目标服务
Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python多进程，多线程和异步实例汤米先生 Python学习多线程 python 多进程
文章目录前言一、多进程1.进程间通信使用Queue队列2.多进程中的通信【一个往Queue里写，一个从Queue里读】3.进程池中的通信【只需要就上述的Queue()转换成Manager().Queue()】4.多进程拷贝文件【多个文件的拷贝】二、多线程1.加入互斥锁2.不加入互斥锁3.在屏幕上连续打印10次ABC4.死锁的产生5.针对死锁的处理方法6.生产者消费者模型【常用】—>比如爬虫：爬取数
Python爬虫实战——如何自动爬取百度搜索结果页面 Python爬虫项目 2025年爬虫实战项目 python 爬虫百度开发语言信息可视化
1.引言随着互联网技术的飞速发展，信息的获取变得越来越方便。百度作为中国最主要的搜索引擎之一，每天都会处理大量的搜索请求。对于研究人员和开发者来说，爬取百度的搜索结果可以帮助他们获取大量的网络数据，用于分析和研究。然而，百度的反爬虫措施使得这一过程变得复杂，如何绕过这些限制并高效地抓取搜索结果，是很多开发者面临的问题。本文将详细介绍如何编写Python爬虫，自动抓取百度搜索结果页面中的所有内容，包
【爬虫工具】小红书评论高级采集软件 python死忠3016 小红书爬取软件爬虫
用python开发的爬虫采集工具【爬小红书搜索评论软件】，支持根据关键词采集评论。思路：笔记关键词->笔记链接->评论·软件界面：·完整文章、详细了解：https://mp.weixin.qq.com/s/C_TuChFwh8Vw76hTGX679Q好用的软件一起分享！
使用Python爬取小红书笔记与评论（仅供学习交流）_python爬取小红书关键词所有笔记评论(1) 2401_83817171 程序员 python 笔记学习
2.分析加密入口3.使用JS注入4.爬虫工程化【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限
初学者瞎写的一个爬虫小程序一大块腹肌呀爬虫小程序 python
学习python三个月，渐渐的的也开始了爬虫之旅，根据某本书的指导，开始想写一个通用的爬虫小程序，希望有大神能指点一下。importdatetimeimporttimefromseleniumimportwebdriverimportreclassMyCommonSpider:def__init__(self):pass使用了selenium进行模拟鼠键操作，目标是爬取51job上的职位信息def
Python学生信息管理系统：详细教程 Python_trys python 数据库开发语言管理系统 Python教程 Python基础编程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取】引言学生信息管理系统是学校和教育机构中常用的工具，用于管理学生的基本信息、成绩、课程等。本文将详细介绍如何使用Python编写一个简单的学生信息管理系统。我们将从需求分析、系统设计、代码实现到最终测试，一步步带你完成这个项目。需求分析在开始编写代码之前，我们需要明确系统的功能需求。一个基本的学生信息管理系统应具备以下功能：添加学生信息：
第七课：Python反爬攻防战：Headers/IP代理与验证码 deming_su python tcp/ip 开发语言 ocr proxy模式 beautifulsoup
在爬虫开发过程中，反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制，并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码，帮助读者更好地理解和应用这些技术。一、常见反爬机制解析1.1基于Headers的反爬许多网站通过检查请求头（Headers）中的User-Agent字段来判断请求是否来自爬虫。
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &