今天要来电代码吗

爬虫

初识爬虫：

利用requests模块来编写第一个简易爬虫：

import requests
#要爬取的网页的链接
url = 'https://www.sogou.com'
#response来接受得到的网页的内容
response = requests.get(url = url)
#将内容转换成文本
page_text = response.text
#永久储存
with open('D:\test.html', 'w', encoding = 'utf-8') as f:
        f.write(page_text)
print(fileName, "爬取完毕")

上述是第一个简单的爬虫，现在我们在爬取另外一个网页。下一个网页是爬取我女神林允儿的网页。

但有两个问题：

出现了乱码
提示要输入验证码

这里其实就涉及到了反爬虫措施UA

import requests
#爬取搜索了关键字的网页
url = 'https://www.sogou.com/web?query=林允儿'
#response来接受得到的网页的内容
response = requests.get(url = url)
#这里就解决了乱码问题，发现乱码，第一反应影响到编码错了
response.encoding = 'utf-8'
#将内容转换成文本
page_text = response.text
#永久储存
with open('D:\test.html', 'w', encoding = 'utf-8') as f:
        f.write(page_text)
print(fileName, "爬取完毕")

解决了乱码问题，接下来就是反爬。

-网站后台会检验请求对应的User-Agent

什么是User-Agent？

是请求载体的身份标识

什么是请求载体？

浏览器：浏览器的身份标识是统一固定的，可以在抓包工具中看

爬虫程序：身份表示各不相同

解决UA反爬方法：

伪装一下User-Agent即可！

下面是获取UA的方法：

import requests
#爬取搜索了关键字的网页
url = 'https://www.sogou.com/web'
#输入要爬取的关键字
keyWord = input('输入要爬取的关键字：')
#可以在字符串参数中看到参数为query,后面的就是关键字
paramas = {
    'query' = keyWord
}
#用字典来伪装头部UA，把copy来的UA赋值到字典中
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.46'
}
#response来接受得到的网页的内容
response = requests.get(url = url, params = params, headers = headers)
#这里就解决了乱码问题，发现乱码，第一反应应想到编码方式错了
response.encoding = 'utf-8'
#将内容转换成文本字符串
page_text = response.text
#永久储存
'''
其实还可以写一个fileName来动态化储存数据
fileName = 'D:\' + keyWord + '.html'
with open(fileName, 'w', encoding = 'utf-8') as f:
        f.write(page_text)
'''
with open('D:\test.html', 'w', encoding = 'utf-8') as f:
        f.write(page_text)
print(fileName, "爬取完毕")

怎么来获取动态加载的数据？

因为动态加载数据，所有网页中的信息会由其他包来进行请求，所有我们在URL所在的数据包中是看不到我们要查找的信息的。

如何确定是否是动态加载数据呢？

在捕获的URL数据包中查找是否由页面上的内容。

下面我们用豆瓣动作电影排行榜来进行学习

URL = 豆瓣电影分类排行榜 - 动作片 (douban.com)

我们查找后发现没有蝙蝠侠的信息，说明这是动态加载的数据或加密的数据。

如何获取动态加载的数据呢？

我们随便点击①哪里的一个，都可以。然后按CTRL + F，然后就在全局搜索Search那输入信息，按下回车就找到了。

找到之后我们在去JSON解析器上解析。

解析器链接：JSON在线解析及格式化验证 - JSON.cn

解析后就可以看到里面的信息。

接下来我们可以开始爬取了。

import requests

#在我们刚才找到的数据包中查看URL，把问号后面的都删掉，因为都是参数
url = 'https://movie.douban.com/j/chart/top_list'

#伪装UA
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}

#获取参数
params = {
    'type' : '5',
    'interval_id' : '100:90',
    'action' : '' ,
    'start' : '0',  #通过修改这些数据，我们发现 start 代表从第几部开始
    'limit' : '20',  # limit 代表获取多少部电影
}

#查看请求方式，发现是get,其实这个应该在参数之前弄，如果是post,则前面params改成data
response = requests.get(url = url, params = params, headers = headers )

#.json()将获取的字符串形式的json数据序列化成字典或列表
page_text = response.json()

#循环遍历获取的信息，电影名称 + 评分，这些信息可以在刚刚解析的数据中查看，看它在哪一部分
for movie in page_text:
    name = movie['title']
    score = movie['score']
    print(name, score)

好b（￣▽￣）d　，解决了动态加载数据的问题（后面还有动态加载+加密）（大家一定要自己尝试写，没思路的时候看看我的注释，爬虫就是多试，经验多的人试的少，经验少的人试的多，所以多尝试这样才能以后犯更少的错误），我们再来看看怎么分页爬取数据。

分页爬取

我们这次爬取KFC餐店查询，URL = 肯德基餐厅信息查询 (kfc.com.cn)

这次会涉及到另一个知识点ajax，即用户获取信息时，不需要重载整个网页，只需要更新部分。

我们发现查询北京地区的信息后，url并没有改变，说明就是查询北京时发起的是一个ajax请求。

分析：

请求的URL
请求方式
请求携带参数
响应数据

响应数据就在response那，可自行查看，然后去json在线解析器上解析

import requests

#在我们刚才找到的数据包中查看URL，这里不用删除？后面的内容，因为我们发现参数里没有op，所以这个就要带上
#这也是要注意的一个地方，自己也可以试一试，实践出真知，也记得更牢固
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

#伪装UA
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}
#我们发现分页就是pageIndex那改变了，所以那里改成动态参数就行了
for page in range(1,10):
    
#获取参数,我们发现请求方式是post，所以这里得改
    data = {
        'cname' : '', 
        'pid' : '', 
        'keyword' : '北京',
        'pageIndex' : str(page), #这里得注意呀，page是个整数常量
        'pageSize' : '10'
    }

#！！！（这个是要注意的）查看请求方式，发现是post，post的参数表单是 data
    response = requests.post(url = url, data = data, headers = headers )

#.json()将获取的字符串形式的json数据序列化成字典或列表
    page_text = response.json()

#循环遍历获取的信息，店名 + 地址
    for dic in page_text['Table1']:
        storeName = dic['storeName']
        addre = dic['addressDetail']
        print(storeName, addre)

接下来我们可以爬一下药监总局，大家可以自己尝试一下，爬取首页的每个公司的详细信息，这是一个很好的例子，希望大家动手试试。

URL = 化妆品生产许可信息管理系统服务平台 (nmpa.gov.cn)

这是首页的公司大略信息：

我们要爬取的是点击公司进去之后的信息：

尝试一下，爬取首页的每个公司的详细信息，这是一个很好的例子，希望大家动手试试。

这些用我们刚才学到的方法足够爬取。
代码如下：

import requests

url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

#UA伪装
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}
# post请求
data = {
    'on' : 'true',
    'page' : '1',
    'pageSize' : '15',
    'productName' : '',
    'conditionType' : '1',
    'applyname' : '',
    'applysn' : ''
}

#获取网页信息
response = requests.post(url = url, data = data, headers = headers)

#序列化成字典或列表
page_text = response.json()

for company in page_text['list']:
    Id = company['ID']
    url_1 = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    data = {
        'id' : Id
    }
    response = requests.post(url = url_1, data = data, headers = headers)
    message = response.json()
    #for message in company_text_1:
    epsName = message['epsName']
    productSn = message['productSn']
    certStr = message['certStr']
    epsAddress = message['epsAddress']
    epsProductAddress = message['epsProductAddress']
    businessLicenseNumber = message['businessLicenseNumber']
    legalPerson = message['legalPerson']
    businessPerson = message['businessPerson']
    qualityPerson = message['qualityPerson']
    qfManagerName = message['qfManagerName']
    xkName = message['xkName']
    rcManagerDepartName = message['rcManagerDepartName']
    rcManagerUser = message['rcManagerUser']
    xkDate = message['xkDate']
    xkDateStr = message['xkDateStr']
    print('企业名称：', epsName)
    print('许可证编号：', productSn)
    print('企业住所：', certStr)
    print('生产地址：', epsAddress)
    print('社会信用代码：', businessLicenseNumber)
    print('法定代表人：', legalPerson)
    print('企业负责人：', businessPerson)
    print('质量负责人：', qualityPerson)
    print('发证机关：', qfManagerName)
    print('签发人：', xkName)
    print('日常监督管理机构：', rcManagerDepartName)
    print('日常监督管理人员：', rcManagerUser)
    print('有效日期：', xkDate)
    print('发证日期：', xkDateStr)
    print('状态：正常')
    print('投诉举报电话：12331')

爬虫之正则表达式 + bs4基础

正则表达式应该都听说过，就是匹配文本内容的，大家可以看看用法python正则表达式_wzy1414的博客-CSDN博客

我们直接试一下吧，爬取校花网的图片，试了一下，不是动态加载的数据。

我们要爬取图片呢，肯定得知道图片的URL，我们检查元素，查询后发现，所有的图片链接都在li标签里面，所以我们只需要利用正则表达式获取li中img的src就行了

<li style="position: absolute; left: 0px; top: 0px;"> 
    <a href="/tuku/1216.html" title="袁冰妍长发披肩笑容温柔 对手机整理刘海随时保持精致">
        <img src="/d/file/p/2021/03-04/9e951567b427eade48156bd289effa42.jpg" alt="袁冰妍长发披肩笑容温柔 对手机整理刘海随时保持精致">
        <p>袁冰妍长发披肩笑容温柔 对手机整理刘海随时保持精致p>
    a>
li>

先来写一下正则表达式

ex = '<img src="(.*?)".*?>#获取的是（）里面的内容

现在来编写代码

import requests
import re
import os
#利用os来进行文件的创建
dirName = 'ImgLibs'
if not os.path.exists(dirName):
    os.mkdir(dirName)
    
url = 'http://www.521609.com/tuku/shz/'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}
response = requests.get(url = url, headers = headers)

page_text = response.text

ex = ''#获取的是（）里面的内容

img_src_list = re.findall(ex,page_text,re.S)

for src in img_src_list:
    #我们发现我们获取的只是/d/file....这些，还不是完整的url
    #我们可以复制图片链接，发现前面还有个前缀
    #http://www.521609.com/d/file/p/2021/03-04/e79eb980349244d21f005a4bfb592e3d.jpg
    src = 'http://www.521609.com' + src
    #下面那个url = src如果写成了url = url还是会获得图片，但是打开时会说似乎不支持此格式，别问我怎么知道的，一定要注意细节。
    response = requests.get(url = src, headers = headers)
    #储存照片，得先转换成二进制数据
    img_data = response.content #content返回的是二进制的数据
    #这个是给每一个图片创建名字
    img_name = dirName + '/' + src.split('/')[-1]
    #要以‘wb’方式写入数据，‘wb’是写入二进制数据
    with open(img_name, 'wb') as f:
        f.write(img_data)

数据解析的作用：

用来实现聚焦爬虫

网页中显示的数据都储存再哪

储存在 html 标签或标签的属性中

数据解析的通用原理是什么？

1.指定标签的定位

2.取出标签中储存的数据或标签属性中储存的数据

bs4基础

bs4解析原理：

实例化一个BeautifulSoup对象，然后把带解析的网页数据源码加载到该对象中
调用BeautifulSoup对象中的方法或属性进行标签的定位和数据的提取

BeautifulSoup(fp,'lxml')：用来将本地储存的html文档中的数据进行解析
BeautifulSoup(page_text,'lxml')：用来将从网页上获取的数据源码解析解析

form bs4 import Beautiful
#这里可以用自己电脑上的html文档
fp = open(fileName, 'r')
soup = BeautifulSoup(fp, 'lxml')

soup.tagName #打印第一个tagName标签（注意是第一个，后面的打印不了）
soup.find('tagName', attrName = 'value') #例如soup.find('div', class_ = 'menu'),因为class是关键字所以要加个_,soup.find('div', id = 'name')
soup.findAll和find类似，只不过findAll返回的是列表，即所有满足条件的标签，find只返回一个
soup.select('选择器'):
    类选择器  . + 类  如：.menu
    id选择器  # + id  如 #menu
    层级选择器
    	> 表示一级
        空格 表示多级

现在来用bs4实战一下：爬取三国演义：《三国演义》全集在线阅读_史书典籍_诗词名句网 (shicimingju.com)

思路是先爬取首页的所有文章的链接，然后再爬取每个链接中的信息

import requests
from bs4 import BeautifulSoup

#首页链接
main_url = 'https://www.shicimingju.com/book/sanguoyanyi.html'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}

response = requests.get(url = main_url, headers = headers)
#一开始没有改编码结果错了，所以以后若是遇到乱码问题先试试改一下编码
response.encoding = 'utf-8'
page_text = response.text

#实例化一个BeautifulSoup对象
soup = BeautifulSoup(page_text, 'lxml')

#我们发现文本的链接都在类为.book-mulu > ul > li > a 的herf里面

url_list = soup.select('.book-mulu > ul > li > a')

#储存在一个文件里
fp = open('D:\sanguoyanyi.txt', 'w', encoding = 'utf-8')

for a in url_list:
    #文章的标题
    title = a.string
    #取出 a 标签里的 herf 属性，还得加上前缀才是完整的 url
    url = 'https://www.shicimingju.com' + a['href']
    response = requests.get(url = url, headers = headers)
    response.encoding = 'utf-8'
    page_text_detail = response.text
    #重新实例化一个对象
    soup = BeautifulSoup(page_text_detail, 'lxml')
    div_tag = soup.find('div', class_ = 'chapter_content')
    content = div_tag.text
    fp.write(title + ':' + content + '\n')
    print(title, '爬取完毕')
fp.close()

xpath解析

环境安装：pip install lxml

解析原理：html是以树状的形式进行展示

实例化一个etree的对象，且将带解析的页面源码数据加载到该对象中
调用etree对象的xpath方法结合着不同表达式实现标签的定位与数据提取

实例化一个etree对象

-etree.parse(‘fileName’)：将本地html文档加载到该对象中
-etree.HTML(page_text)：网站获取的页面数据加载到该对象中

from lxml import etree
-标签定位
tree = etree.parse('fileName')
tree.xpath('/html/head/meta') #定位到meta
tree.xpath('/html//meta')  	 #定位到meta
tree.xpath('//meta') 		#定位到meta
-最左侧的 /：如果xpath表达式最左侧是以/开头，则表示xpath表达式一定要从更标签开始，即html标签 (一般不用)
-非最左侧 /：表示一个层级
-非最左侧 //：表示多个层级
-最左侧 //：xpath表达式可以从任意位置进行标签定位
-属性定位：tagName[@attrName = 'vaule']
	#如定位class为song的div下面的所有的p
    tree.xpath('//div[@class = "song"]/p')
-索引定位：tag/[index]：索引是从1开始
	#如定位class为song的div下面的第一个p
    tree.xpath('//div[@class = "song"]/p[1]')
#模糊匹配：
	-//div[contains(@class,"ng")]     class中含有ng的div
    -//div[starts-with(@class,"ta")]  class属性中以ta开头的div
-取文本
	-/text()：直系文本内容
    tree.xpath('//div[@class = "song"]/p[1]/text()')
    -//text()：所有的文本内容
    tree.xpath('//div[@class = "song"]/p[1]//text()')
-取属性
	-/@attrName
    tree.xpath('//a[@id = "feng"]/@href') 取出id为feng的a标签里的href属性

现在我们来爬取一个网站：4K美女壁纸_高清4K美女图片_彼岸图网 (netbian.com)（小姐姐图片无所谓，主要是网站好趴doge）

这个网站不是动态加载数据，所以可以直接再elements中查看元素来进行属性的定位

import requests
from lxml import etree
import os

#创建储存的文件夹
dirName = 'GirlsLib'
if not os.path.exists(dirName):
    os.mkdir(dirName)
#我们发现页面的url大体相同，所以就用format来进行补充
url = 'https://pic.netbian.com/4kmeinv/index_%d.html'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36 Edg/90.0.818.49'
}

for page in range(1,6):
    #首页没有数字
    if page == 1:
        new_url = 'https://pic.netbian.com/4kmeinv/index.html'
    else:
        new_url = format(url) % page
    response = requests.get(url = new_url, headers = headers)
    #试了下utf-8，发现不行，那么就换一个，编码就这几个，不行就换
    response.encoding = 'gbk'
    page_text = response.text
    #创建一个etree对象
    tree = etree.HTML(page_text)
    #获取图片对应的li标签
    li_list = tree.xpath('//div[@class = "slist"]/ul/li')
    #下面是进行局部数据的提取，提取局部数据时，就不能用 // ，得用 ./ （这个要注意）
    for li in li_list:
        #注意xpath表达式返回的总是列表，所以即使只有一个元素也得带上下表[0]
        title = li.xpath('./a/img/@alt')[0] + '.jpg'	#图片名称
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        #图片要用二进制来写入
        img_data = requests.get(url = img_src, headers = headers).content
        imgPath = dirName + '/' + title
        with open(imgPath,'wb') as f:
            f.write(img_data)
        print(title, '保存成功!!!')

如何让xpath具有通性？

使用管道赋 | ，在xpath()中使用就行，例如 xpath(’//div/ul’ | ‘//table/td’)

下面继续来爬取网站练练手

丝袜美女图片 -丝袜美女图片大全 (chinaz.com)

这个涉及到一个反爬机制——图片懒加载，大家可以先自己试一下。

可以看到第一张图片是src，而后面的图片是src2，但是img标签中只会对src链接发出请求，所以src2是一个伪属性，只有当图片被显示在浏览器的可观察范围内，伪属性才会变成真正的属性。所以当你向下滑看到图片时，它的src2就变成了src。

所以我们爬取时就不能写@src，而是写@src2

import requests
from lxml import etree

#创建储存的文件夹
dirName = 'GirlsLib'

url = 'https://sc.chinaz.com/tupian/siwameinvtupian_%d.html'

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'
}

for page in range(1,7):
    if page == 1:
        new_url = 'https://sc.chinaz.com/tupian/siwameinvtupian.html'
    else:
        new_url = format(url) % page
    response = requests.get(url = new_url, headers = headers)
    response.encoding = 'utf-8'
    page_text = response.text
    #实例化一个etree对象
    tree = etree.HTML(page_text)
    img_list = tree.xpath('//div[@id = "container"]//a/img')
    
    for img in img_list:
        title = img.xpath('./@alt')[0] + '.jpg'
        #注意这个伪属性
        img_url = 'https:' + img.xpath('./@src2')[0]
        img_data = requests.get(url = img_url, headers = headers).content
        imgPath = dirName + '/' + title
        with open(imgPath, 'wb') as f:
            f.write(img_data)
        print(title, '保存完毕！！！')

前面学过的反扒机制：

robots协议（防君子不防小人的协议）
UA伪装
动态加载数据捕获
图片懒加载

接下来我们继续学习其他的反爬机制

cookie

cookie是储存在用户本地终端的数据

web中cookie的典型应用：

免密登录

cookie和爬虫之间的关联：

有时候对一张页面进行请求时，如果请求过程中不携带cookie的话，那么我们是无法请求到正确的页面数据。因此cookie是爬虫中一个典型且常见的反爬机制。

cookie处理方式：

方式一：手动处理

将抓包工具中的cookie粘贴在headers中
弊端：cookie过期了就没用了

方式二：自动处理

基于Session对象实现自动处理
如何获取一个Session对象：requests. Session()返回一个session对象
session对象的作用：

该对象可以和requests一样发送get和post请求。如果请求过程中产生了cookie，那么cookie将会存储在session对象中，这就意味着下次请求时将会携带着cookie
在爬虫中使用session的时候，session对象至少被调用两次：

一次是为了将cookie存储在session对象中，另一次是为了携带着cookie发送请求

import requests
from lxml import etree

#创建一个Session对象
session = requests.Session()

#第一次调用session对象，获取最新的cookie
main_url = 'https://xueqiu.com/'
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'
}
session.get(url = main_url, headers = headers)

#后续请求时就会带上cookie
url = 'https://xueqiu.com/statuses/hot/listV2.json?since_id=-1&max_id=199609&size=15'
page_text = session.get(url = url, headers = headers).json()
print(page_text)

IP代理

IP代理就在自己的IP因为高频的爬取网页而被封了之后，使用其他的代理服务器进行访问网页，从而再次爬取网页。

我试了一个网站，爬崩了它也没封我的IP，所以这个以后再演示

验证码识别登录

这里推荐超级鹰（因为它可以识别12306的验证码），其实也可以用百度云AI来识别，但还有点难度，以后再说。

我们来爬取古诗文网站登录古诗文网 (gushiwen.cn)，因为账号密码都是固定的，所以我们只需要注意验证码就行。

使用超级鹰：

创建一个账号
没有积分的话充值1块，尝试阶段1块够了
然后下载开发文档,选择python版，里面给你包装好了一个类，但还要自己改一下
还要创建一个软件ID

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()
#这里是自己把上面一部分修改了一下
def transformImgCode(ImgPath, ImgType):
    #这里填自己的
    chaojiying = Chaojiying_Client('用户名', '密码', '软件ID')	
    im = open(ImgPath, 'rb').read()	
    #识别出的验证码在字典里，所以我们只需要提取出pic_str就行
    return chaojiying.PostPic(im, ImgType)['pic_str']

我们在登录页面打开检查，查看networks，然后进行登录，这时我们会捕获到一个login包

import requests
from hashlib import md5
from lxml import etree

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()
#这里是自己把上面一部分修改了一下
def transformImgCode(ImgPath, ImgType):
    #这里填自己的
    chaojiying = Chaojiying_Client('1414521825', '123456789', '916220')	
    im = open(ImgPath, 'rb').read()	
    #识别出的验证码在字典里，所以我们只需要提取出pic_str就行
    return chaojiying.PostPic(im, ImgType)['pic_str']

#首先获取验证码的图片并识别出验证码
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'
}
main_url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'

page_text = requests.get(url = main_url, headers = headers).text

tree = etree.HTML(page_text)
img_url = 'https://so.gushiwen.cn' + tree.xpath('//img[@id = "imgCode"]/@src')[0]
img_data = requests.get(url = img_url, headers = headers).content
with open('./code.jpg', 'wb') as f:
    f.write(img_data)
#选择要识别的类型，可以在这看：http://www.chaojiying.com/price.html
code_text = transformImgCode('./code.jpg', 1902)
print(code_text)
#进行模拟登录
#我们捕获的那个login包
login_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'

#我们发现是post请求，且带有参数
data = {
    '__VIEWSTATE' : 'zHpMW8T3VcEjT9Dnv3ZrOpiqWMCUwnN7VBUNR1LRddGgAWsZGXg2vZ094PlG1MrjPLL9vrV8kiOj/5uELk3caOdVE4cZcTwCsb6vv8S/Wnle2DwyHeqsCS8yT6o=',
    '__VIEWSTATEGENERATOR' : 'C93BE1AE',
    'from' : 'http://so.gushiwen.cn/user/collect.aspx',
    'email' : '17375815229',
    'pwd' : '123456789',
    'code' : code_text,
    'denglu' : '登录'
}
page_text_login = requests.post(url = login_url, headers = headers, data = data).text
with open('./gushiwen.html', 'w', encoding = 'utf-8') as f:
    f.write(page_text_login)

但这串代码还是无法成功登录并提取信息

我们可以看到验证码并没有识别错误，那么我们可以试一试是不是cookie或者那两个意义不明的参数的问题

先试一试cookie把，前面讲过使用session对象即可

import requests
from hashlib import md5
from lxml import etree

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()
#这里是自己把上面一部分修改了一下
def transformImgCode(ImgPath, ImgType):
    #这里填自己的
    chaojiying = Chaojiying_Client('用户名', '密码', '软件ID')	
    im = open(ImgPath, 'rb').read()	
    #识别出的验证码在字典里，所以我们只需要提取出pic_str就行
    return chaojiying.PostPic(im, ImgType)['pic_str']

#首先获取验证码的图片并识别出验证码
#创建session对象
session = requests.Session()
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.51'
}
main_url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
#因为不知道cookie是在哪获得的，所以我们都试一下
page_text = session.get(url = main_url, headers = headers).text

tree = etree.HTML(page_text)
img_url = 'https://so.gushiwen.cn' + tree.xpath('//img[@id = "imgCode"]/@src')[0]
#也有可能是在访问验证码图片的时候获取cookie，所以这里也用session
img_data = session.get(url = img_url, headers = headers).content
with open('./code.jpg', 'wb') as f:
    f.write(img_data)
#选择要识别的类型，可以在这看：http://www.chaojiying.com/price.html
code_text = transformImgCode('./code.jpg', 1902)
print(code_text)
#进行模拟登录
#我们捕获的那个login包
login_url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'

#我们发现是post请求，且带有参数
data = {
    '__VIEWSTATE' : 'zHpMW8T3VcEjT9Dnv3ZrOpiqWMCUwnN7VBUNR1LRddGgAWsZGXg2vZ094PlG1MrjPLL9vrV8kiOj/5uELk3caOdVE4cZcTwCsb6vv8S/Wnle2DwyHeqsCS8yT6o=',
    '__VIEWSTATEGENERATOR' : 'C93BE1AE',
    'from' : 'http://so.gushiwen.cn/user/collect.aspx',
    #这里填自己的
    'email' : '用户名',
    'pwd' : '密码',
    'code' : code_text,
    'denglu' : '登录'
}
page_text_login = session.post(url = login_url, headers = headers, data = data).text
with open('./gushiwen.html', 'w', encoding = 'utf-8') as f:
    f.write(page_text_login)

加了cookie后成功了，说明是没加cookie的问题

那么后面那两个参数是干嘛的呢？

我也不知道，但我猜测可能是以后网站升级后用来进行反爬的一种措施，但也有解决办法。

一般情况下，这些动态的参数数据可以在前台查看到，即elements中

还可以在动态加载数据中使用全局搜索来进行查找

你可能感兴趣的:(爬虫,python,python,爬虫,ajax,post)

194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
springcloud feign调用get请求变成了post请求解决只想要搞钱 spring cloud java spring
1.feign调用get请求，feignService定义的get请求的参数是一个对象，如下图，调用另一个服务时，提示405，变成了post请求@GetMapping("/trainContact/queryContactForCurrentUser")Result>queryContactForCurrentUser(TrainContactPageDTOpageDTO);2.解决，对象前加一个
feign调用get请求的接口时，出现“Request method ‘POST‘ not supported“ 皮皮小澜孩 java 开发语言 feign
上面是错误的写法下面是正确的写法其实就是在feign接口的参数中加了个@SpringQueryMap注解@SpringQueryMap是微服务之间调用，使用openfeign通过GET请求方式来处理通过实体类来传参情况的注解。注意：被@SpringQueryMap注解的对象只能有一个如果需要传递多个对象，可以使用map传参，并且多个对象中不能出现相同的属性名，否则会覆盖
Feign解决Get请求自动转化成POST的问题 Java程序源 Java Get请求自动转化成POST Feign 不支持请求方法“POST”get请求报错不支持post 微信事件推送
记一次无厘头报错：Requestmethod‘POST’notsupported看起来很简单呐，就是不支持post请求嘛！!场景：对接研究三方接口（微信推送），三方接口请求方式是GET方式，之前参数接收也是顺利完美的，但是研究个性消息推送的时候出现了问题，设置了推广二维码，用户扫码的关注后，收不到推送消息，系统直接报“Requestmethod‘POST’notsupported”错误，所以问题点
微服务: Feign调用GET请求找不到请求体实体类 pingzhuyan #SpringCloud微服务 #异常总结分类 java SpringCloud feign Get 实体类
目录彩蛋:里面传递了token使用过滤器可以实现自动传递token无需传递,下一篇介绍1.方法一:尽可能使用post请求把GET改成POST,把方法上参数实体类加上@RequstBodY,这是最快速得方案2.方式二:依然使用get请求需要使用feign新加的请求参数->@SpringQueryMap注解2.1添加的位置:2.2写一个配置类注入feignBuilder方法(重点)2.3源码剖析Bea
Feign服务调用，Get、Post请求
目录GET请求POST请求GET请求Feign客户端@FeignClient("lik-dr-product")publicinterfaceProductFeign{/***从请求路径获取值，需要使用@PathVariable注解*/@GetMapping("/product/findById/{id}")ProductfindById(@PathVariable("id")Longid);/*
FastAPI如何玩转安全防护，让黑客望而却步？
url:/posts/c1314c623211c9269f36053179a53d5c/title:FastAPI如何玩转安全防护，让黑客望而却步？date:2025-07-04T18:28:43+08:00lastmod:2025-07-04T18:28:43+08:00author:cmdragonsummary:FastAPI通过内置的OAuth2和JWT支持，提供了开箱即用的安全解决方案，
HarmonyOS开发知识：ArkTS动静态卡片调用规范总结
卡片事件能力针对动态卡片，ArkTS卡片中提供了postCardAction接口用于卡片内部和提供方应用间的交互，当前支持router、message和call三种类型的事件，仅在卡片中可以调用。针对静态卡片，ArkTS卡片提供了FormLink用于卡片内部和提供方应用间的交互。动态卡片事件能力说明动态卡片事件的主要使用场景如下：router事件：可以使用router事件跳转到指定UIAbilit
apache-dolphinscheduler-3.2.0调度器简介和集群部署详细安装文档
1、为什么选用apache-dolphinscheduler轻松管理复杂的任务工程支持跨项目和跨工作流程的任务依赖支持Kill、暂停和恢复操作任务支持以租户、Worker分组组和环境中隔离运行每个任务都可以修改输出参数，并将其传递给后续任务在一分钟内创建你的工作流程通过拖拉拽的工作流创建方式提高效率支持Python、Yaml和OpenApi的方式生成工作流支持将一个工作流作为另一个工作流的子流程执
2025年的前后端一体化CMS框架优选方案 skywalk8163 多媒体 web cms
以下是结合技术生态、开发效率和商业落地验证，整理的2025年前后端一体化CMS框架优选方案：一、‌主流成熟框架组合‌1.‌React+Node.js(Express/Next.js)‌‌前端‌：React生态成熟，配合Redux状态管理，适合复杂后台界面开发‌78。‌后端‌：Express轻量灵活，Next.js支持SSR优化SEO，无缝对接MongoDB/PostgreSQL‌810。‌案例‌：
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」 blues_C Python爬虫实战 python 爬虫 scrapy
Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使
python 会议室预约系统解决方案_会议预约管理系统解决方案 weixin_39963853 python 会议室预约系统解决方案
随着时代快速发展，各大会议中心都有密集的会议安排，同时企业也会有大大小小的会议安排。会议室没有管理，会造成会议室被争抢、重要会议被非重要会议挤占、会议室信息不能及时发布、会议室设备开会时不满足会议要求、会议室设备没有提前调试以及设备因没有及时检修造成故障、会中设备出现故障且没有应急预案等等问题。这些问题往往频繁发生，使人们平时习以为常，用时抱怨连连。如果任由问题发生、日积月累，则会产生严重影响，轻
python 会议室预约系统解决方案_智能会议预约系统解决方案 weixin_39914868 python 会议室预约系统解决方案
随着时代的发展，科技的进步，效率在工作中成为了评价工作能力的一项标准。人的工作效率，机器的工作效率等等，我们都是逐步在提高。达到高效的工作状态离不开智能的解决方案，在此我将分享上海铭港公司做的智能办公空间—会议预约系统的案例。上海铭港做的此项会议预约系统案例的解决方案围绕的主题中心即是：效率提到会议室，可能令大家的头疼的事情随之而来。特别是公司的行政部门人员。哪间会议室是在空闲状态？哪间会议室有人
python 会议室预约系统解决方案_会议室预约管理系统方案书.pdf
会议预约管理系统系统方案目录一、系统概述31.1什么是会议预约管理31.2会议管理趋势4二、系统功能52.1功能特点52.2系统优势62.3系统界面7三、系统部署103.1安装示意图103.2安装实景图11四、会议显示12五、应用行业135.1教育行业135.2法律行业135.3医疗保健135.4企业13一、系统概述为符合现代信息化的考虑，在办公楼的底楼进出大厅设置一套多媒体信息显示公告系统，用于
python 会议室预约系统解决方案_会议预约系统_智能会议预约管理系统_轻松实现会议管理解决方案... weixin_39779032 python 会议室预约系统解决方案
随着社会的发展，会议预约管理系统在近年来呈现高速发展，但是各种等级层次不齐。现代办公会议室是组织的公共资源，会议室及其附属的设备构成召开会议的基础环境。广州朗歌公司以提高会议效率为焦点，以会议全过程管理为理念，开发了会议预定管理系统产品。会议室预约管理系统的目标是为会议的准备提供便捷的服务，实时动态的将会议室预定信息，传递到每个会议室门口、大厅及楼梯口等公共通道的显示屏上，实现会议信息发布引导功能
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
python项目使用poetry管理依赖项 zQIANYUN python开发 python 开发语言
1.poetry管理依赖项Poetry是Python项目中用于依赖管理和项目打包的工具。相比传统的pip和requirements.txt，Poetry提供了更加现代和集成的解决方案。优点：Poetry能够自动处理依赖关系冲突，帮助开发者避免版本不兼容问题。在安装新的依赖时，它会检查现有依赖，并更新pyproject.toml文件和生成锁定的poetry.lock文件，以确保项目使用的依赖版本在团
Seaborn 教程 froginwe11 开发语言
Seaborn教程引言Seaborn是一个强大的Python数据可视化库，它建立在Matplotlib的基础上，专门用于统计图形的绘制。Seaborn提供了一系列的绘图功能，使得统计数据的可视化变得更加简单和直观。本文将为您提供一个全面的Seaborn教程，帮助您快速掌握其基本用法和高级技巧。安装与导入在开始之前，请确保您的Python环境中已经安装了Seaborn和Matplotlib。您可以使
python中的logger包的详细使用教程 SunkingYang #python入门之日志使用 python 日志 logger 使用方法说明
文章目录功能说明一、Logger的创建与基础配置二、Handler的配置与使用三、Formatter自定义日志格式四、记录不同级别的日志五、高级配置与最佳实践六、常见问题与调试使用方法一、基础配置与快速使用二、自定义Logger对象三、高级用法四、最佳实践与注意事项五、实际应用场景示例Python的logging模块是标准库中用于记录日志的核心工具，通过灵活配置可实现多级别、多目标、多格式的日志管
10分钟掌握Python缓存
项目背景代码检查项目，需要存储每一步检查的中间结果，最终把结果汇总并写入文件中在中间结果的存储中可以使用context进行上下文的传递，但是整体对代码改动比较大，违背了开闭原则也可以利用缓存存储，处理完成之后再统一读缓存并写入文件在权衡了不同方案后，我决定采用缓存来存储中间结果。接下来，我将探讨Python中可用缓存组件。python缓存分类决定选择缓存，那么python中都有哪些类型的缓存呢?1
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
pip设置国内源：阿里云、腾讯云、清华大学源 [email protected] Python pip python
更换Python的pip源（尤其是默认源访问速度较慢时）是一个常见需求，可以显著提升安装Python包的速度。以下是如何为pip设置国内源的步骤，以阿里云、腾讯云、清华大学源为例：1.备份原有源配置（可选但推荐）在进行任何更改之前，备份现有的pip配置文件是一个好习惯。这样，如果遇到问题，你可以轻松恢复到初始状态。Bash1mkdir~/.pip_backup2cp~/.pip/pip.conf~
前端如何借助 Postman 进行接口性能调优前端视界前端艺匠馆前端 postman lua ai
前端如何借助Postman进行接口性能调优关键词：前端开发、Postman、接口性能调优、API测试、性能分析摘要：本文围绕前端开发中借助Postman进行接口性能调优展开。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念，如接口性能的相关概念及其联系，并给出了对应的文本示意图和Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例进行
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
PostgreSQL连接池监控与优化：pg_stat_activity详解及连接阻塞排查指南
1.引言PostgreSQL是一款功能强大的开源关系型数据库，广泛应用于各类企业级应用。在高并发场景下，数据库连接池的管理和监控至关重要。如果连接池使用不当，可能会导致连接泄漏、阻塞甚至数据库崩溃。本文将详细介绍如何使用pg_stat_activity监控PostgreSQL连接状态，并针对连接卡住、阻塞等问题提供解决方案。2.使用pg_stat_activity监控连接状态pg_stat_act
PostgreSQL 的 WAL 与 Oracle 的 Redo Log 的全方面对比喝醉酒的小白 DBA PG postgresql oracle 数据库
目录标题一、共同点（相同点）二、不同点三、在复制与高可用中的角色四、具体技术细节差异五、性能影响与优化点六、使用示例PostgreSQLWAL使用示例OracleRedo使用示例⚫总结对比表PostgreSQL的WAL（Write-AheadLogging）和Oracle的RedoLog是两个数据库系统在保证数据持久性与事务一致性方面的关键机制。尽管它们的核心思想类似，都是“先写日志，再写数据”，
postgresql|数据库|只读用户的创建和删除（备忘）
CREATEUSERread_onlyWITHPASSWORD'密码'--连接到xxx数据库\cxxx--授予对xxx数据库的只读权限GRANTCONNECTONDATABASExxxTOread_only;GRANTUSAGEONSCHEMApublicTOread_only;GRANTSELECTONALLTABLESINSCHEMApublicTOread_only;GRANTEXECUTE
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring