一不小心写起了代码

爬虫实战3：模拟登陆知乎并爬取任意帖子数据

刚学爬虫时，看到一篇文章硬核破解知乎登陆，心潮澎湃，真男人！符合我的胃口！哼哧哼哧的立刻安排！

（半个小时过后）

似乎我是弱智？很多看不懂？（百度乱搜中…）恩还有种简单的？selenium+xpath模拟登陆？简单但效率低？难道要靠用这种低效率方式来爬取数据，这是向网站妥协！不，我常威就算没技术也绝对不要这样委屈求全！（十分钟过后）挨，怎么他喵这么香？

经过一番曲折的故事（中间花了半个月拿了几个小项目练练手），终于进入激动人心的实战，马上就可以 ~~爬取知乎姑娘的美照~~ 学到新知识了！本文行文结构如下：

1. 做好准备了吗

2. selenium+xpath模拟登陆知乎获取cookies

3. request+re+json+jsonpath 爬取知乎指定问题下所有回答数据（照片）

4. 进行面对对象重新构造

5. 总结

0、做好准备了吗

selenium 安装配置教程

selenium及相应环境驱动配置安装，请查看：

selenium及驱动器安装配置教程详解
什么是selenium

不知道大家有没有用过按键精灵的API，用这套API我们就可以进行点击、输入等一系列模拟真实用户操作。selenium和其类似，只不过它可直接作用于浏览器，模拟打开、进行点击，输入等操作。用它可以很方便避开反爬机制，拿到我们要的界面源码进而获取数据，但是缺点速度太慢。

了解更多：

Python爬虫利器五之Selenium的用法

Python 爬虫基础Selenium库的使用
什么是xpath

前面我们介绍过正则表达式和相应re模块，在网页上定位元素，获取数据re模块当然也可以做到但是过于繁琐。

XPath 是一门在 XML 文档中查找信息的语言,用来在网页XML 文档中对元素和属性进行遍历，语法简单方便。

安装及了解更多：

Python爬虫利器三之Xpath语法与lxml库的用法

json与jsonpath

json（JavaScript Object Notation）是一种轻量级的数据交换格式，具有数据格式简单，读写方便易懂等优点，相对于XML来说，更加的轻量级，更方便解析，因此许多开发者都遵循json格式来进行数据的传输和交换。比如我们后面获取到的cookie和利用知乎API获取的回答信息都是json格式。

jsonpath之于json 便如xptah之于XML，是专门用来解析json数据格式的模块，语法简洁比直接调用re模块正则解析方便。

安装及了解更多：

JSON入门教程

json解析神器 jsonpath的使用

一、模拟登陆知乎

正如前言，模拟登陆知乎，有两种思路：

request硬核破解：

知乎对Form Date数据进行了加密，要抓包分析同时对JavaScript有一定了解才能尝试分析出来。
可参阅：模拟登陆知乎
selenium模拟登陆：

模拟真实打开浏览器登陆，拿到cookies，再用request爬取数据，难度较低，可操作性强。

这里我们采用第二种方式。

1.1 开始模拟登陆1：QQ模拟登陆

模拟登陆有多种方式，使用知乎登陆界面提供的QQ号登陆可以避免验证码，进而获取cookies。另外一种便是使用手机号登陆，需要验证码，将在1.2 详细讲述。

引入模块

from selenium import webdriver  
from base64 import b64decode   # 解码验证码b64编码，QQ登陆不用
import time  # 用于暂停，防止被检测
import json  # 保存json格式cookies，便于读取
import os    # 主要用于创建文件夹等操作

打开浏览器
```
# 1.打开浏览器
browser = webdriver.Chrome()
browser.get('http://www.zhihu.com')
```
执行这段代码，便会看到程序自动打开Chrome浏览器，进入到知乎登陆界面。

找到QQ登陆按钮

# 2.找到QQ登陆按钮
# 先找到登陆按钮
bt_opt_login = browser.find_element_by_xpath('//div[@class="SignContainer-switch"]/span')
bt_opt_login .click()
# 再选择社交账号方式登陆
bt_opt_social = browser.find_element_by_xpath('//span[@class="Login-socialLogin"]/button')
bt_opt_social.click()
time.sleep(1)  # 等等QQ登陆图标加载一下
# 最后点击QQ图标登陆
bt_opt_QQ = browser.find_element_by_xpath('//span[@class="Login-socialButtonGroup"]/button[3]')
bt_opt_QQ.click()
time.sleep(1)  # 等待下加载完毕

注意，最后一步选择QQ图标登陆按钮时，大家可以看到，其在一对标签所中：

如果大家直接xpath定位到g标签中：

//svg[@class="Icon Login-socialIcon Icon--qq"]/g

是不能定位成功的，定位svg元素要用xpath的name()函数，且自svg以下都要用：*[name()='svg element']这种形式

//span[@class="Login-socialButtonGroup"]/button[3]/*[name()='svg']/*[name()='g']

也可以像上面，更简洁的直接定位到button[3]按钮标签即可(第三个是QQ登陆按钮)。

切换到内置QQ登陆窗口登陆

点击QQ图标选择登陆后，便会弹出一个内嵌QQ登陆子网页。自然而然，我们要切换窗口:
```
# 3.操作刚打开的QQ登陆界面
# 切换到qq登陆界面句柄
allhandles = browser.window_handles
zhihuHandle = browser.current_window_handle
qqHandle = allhandles[1]  
# qq登陆内嵌页面要切换表单
browser.switch_to.frame("ptlogin_iframe")
```
browser.window_handles 获取当前所有窗口句柄，第一个是知乎窗口，第二个自然是QQ登陆窗口。但是要提醒大家的是，QQ登陆是内嵌QQ登陆子网页，还需要切换表单frame，切换表单需要知道表单名，那么问题来了，如何找到当前QQ登陆子网页表单名？

F12>>分析网页元素，ctrl+shift+f 打开搜索框，输入frame搜索，可以找到frame_name = ptlogin_iframe，复制进行切换表单。

接下来，就是模拟输入账号密码点击登陆了，距离成功登陆只差一点点啦！接下来的代码也清晰易懂，主要就是定位元素，这里xpath定位不太方便，直接查找id会更方便点。
```
# 选择输入密码登陆
bt_opt_inputAP = browser.find_element_by_xpath('//div[@id="bottom_qlogin"]')
bt_opt_inputAP.click()
# 开始模拟输入账号密码登陆
text_qq_account = browser.find_element_by_id("u")
text_qq_password = browser.find_element_by_id("p")
bt_qq_login = browser.find_element_by_id("login_button")
text_qq_account.send_keys("380141***")  # 输入你的QQ账号
text_qq_password.send_keys("riguangyu******")  # 输入你的QQ密码
bt_qq_login.click()
time.sleep(3)
```
最后大家不要忘了，切回知乎主窗口，表单不用切换。
```
# 切回知乎窗口，表单不用
browser.switch_to.window(zhihuHandle)
```
保存cookie

终于进入到知乎首页了，距离~~爬取好看的姑娘美照~~,啊不对更进一步学习更近了，哈哈~大家不要忘了我们辛苦模拟登陆就是为了拿到cookie，迫不及待来看看怎么保存cookie吧。

zhihu_cookies = browser.get_cookies()

hh，获取cookie还是还简单的，返回的zhihu_cookies是一个字典类型。但是现在问题来了，如果我们直接将它写入txt文档，读取的时候是string类型，不再是字典，这样就很不方便读取里面数据了，总不然正则分析吧？

这个时候json就闪亮登场了，我们用json.dumps将cookie转为json格式写入txt，读取的时候再用json.load方法读取，返回的就又是字典类型了。进一步了解，参照前： JSON入门教程

4.selenium保存cookie保存
zhihu_cookies = browser.get_cookies()
json_cookies = json.dumps(zhihu_cookies)
with open("C:\\Users\\86151\\Desktop\\json_cookies.txt", "w") as f:
    f.write(json_cookies)

让我们看看txt里都写入了啥:

嗷嗷，就是一个列表嘛，里面每一项又是字典。记住这个形式，方便后面我们理解读取cookie。

1.2 开始模拟登陆2：手机号模拟登陆

前面虽然已经详细记录QQ模拟过程，但是我还是想记录下手机号登陆过程，因为这种登陆方式，必不可免的遇到处理验证码。如何处理验证码是学爬虫绕不过的坎，要撞的南墙。这里我将重点记录处理知乎验证的过程。如果迫不及待想看美羊羊洗澡，哦不小姐姐美照的同学可以略过这节。

基本操作

前面登陆过程和QQ登陆大同小异，这里直接给出代码供大家参考。

from selenium import webdriver  
from base64 import b64decode   # 解码验证码b64编码，QQ登陆不用
import time  # 用于暂停，防止被检测
import json  # 保存json格式cookies，便于读取
import os    # 主要用于创建文件夹等操作


count = 0
while 1:
    # 1.打开浏览器
    # browser = webdriver.Chrome(chrome_options=chromeOptions)
    browser = webdriver.Chrome()
    browser.get('http://www.zhihu.com')
    
    # 2.输入账号密码
    # 1.点击登陆
    bt_opt_login = browser.find_element_by_xpath('//div[@class="SignContainer-switch"]/span')
    bt_opt_login .click()
    time.sleep(1)
    # 2.输入账号密码
    # elem_account = browser.find_element_by_name("username")
    # elem_pwd = browser.find_element_by_name("password")
    text_account = browser.find_element_by_xpath('//input[@name="username"]')
    text__pwd = browser.find_element_by_xpath('//input[@name="password"]')
    text_account.send_keys("1517948****")
    text__pwd.send_keys("riguangyu******")

    # 3.模拟点击登陆
    bt_login = browser.find_element_by_xpath('//button[@type="submit"]')
    bt_login.click()

我们输入完手机号&密码点击登陆，本小节重点验证码boss便出现了，欲知我如何和验证码斗智斗勇大战三百回合且听下步分解。

处理验证码

知乎的验证码有两种，一种是还算人性化英文验证码：

一种便是毫无人性的中文验证码，要求我们点击图中倒立的中文字符：

中文验证码是比较难以处理的，我对它的处理方式就是：不处理~hh，简单来说，判断出现中文验证码就刷新界面，直至出现英文验证码开始输入验证码登陆。

那么问题又来了（废宅就是问题多hh），如何判断出现中文字符？首先，直接定位中文验证码元素，如何定位不成功报错，说明出现的是英文验证码。捕获异常进行处理英文验证码即可。

# 4.处理验证码登陆
# 4.1 获取英文验证码图片
time.sleep(1)  # 等待一会儿验证码图片还没加载
# noinspection PyBroadException
try:
    img_captcha = browser.find_element_by_class_name("Captcha-chineseImg")  # 定位到图片元素| "Captcha-englishImg"
    count += 1
    print("中文字符暂时不能处理，第{0}次重试...\n".format(count))
    browser.close()
    time.sleep(1)
    continue
except Exception as e:
    img_captcha = browser.find_element_by_class_name("Captcha-englishImg")
    img64_src = img_captcha.get_attribute("src")  # 获取验证码b64编码
    img64_src = img64_src.replace("data:image/jpg;base64,", "")  # 删除前面标识
    img64_src = img64_src.replace("%0A", "\n")  # get_attribute会把\n替换成%OA,要替换回来
    img_date = b64decode(img64_src)

大家可能会对验证码b64编码处理，这段代码有所疑问。

验证码是服务器自动生成的，不是给URL地址，而是一串b64编码字符，我们对它进行解码处理。可以看到下面这张图片，验证码b64编码见下：
特别注意get_attribute这个方法会把\n替换成%OA,要替换回来

处理好验证码，我们可以把它保存在本地，然后打开，这样我们只要手工输入验证码就可以登录了。

# 4.2 保存图片
img_path = captcha_savePath + "\\captcha.png"
with open(img_path, "wb") as f:  # 将验证码图片以二进制流写入保存
    f.write(img_date)
# 4.3 打开图片
os.system(img_path)
captcha = input("已捕捉到英文验证码，请在打开的图片识别输入：")
time.sleep(2)
# 4.4 输入验证码登陆
elem_captcha_input = browser.find_element_by_xpath('//input[@name="captcha"]')
elem_captcha_input.send_keys(captcha)
# 4.5 登陆
bt_login1 = browser.find_element_by_xpath('//button[@type="submit"]')
bt_login1.click()
time.sleep(2)

验证码处理完毕便可以登录到知乎首页了，同1.1接下来保存cookie即可。

保存cookie

# 5.保存cookie
zhihu_cookies = browser.get_cookies()
json_cookies = json.dumps(zhihu_cookies)
with open("C:\\Users\\86151\\Desktop\\json_cookies.txt", "w") as f:
    f.write(json_cookies)

二、爬取知乎数据

拿到cookie后我们又要掏出我们的老伙计------requests来爬取数据了。只要在requests请求时带上cookie参数，我们便可以相当于输入账号密码验证过身份直接登陆知乎了。

我们表面随便（预谋已久）拿知乎某著名相亲贴爬取下面回答姑娘的照片来试试手：你的择偶标准是怎样的

分析网站请求

我们可以看到，知乎回答只有往下滑动才能加载出更多。而知乎URL一直没有变化，想直接简单观察构造URL是行不通了。

难道就这么放弃吗？我们爬虫，哦不，程序员绝不轻易认输！F12 分析网页元素，点击XHR窥屏网站请求（XHR类型即通过XMLHttpRequest方法发送的请求，知乎要请求加载回答）。然后，我们开始滑动，往下加载回答，看看都有什么请求。

报告！发现可疑分子！收到~~让我们看看到底是何方神圣：

这个answer开头请求显然是非常可疑的，点进去窥视一下，发现有一大串的URL，复制过来我们把它粘贴过来打开浏览器访问（这里复制到firefox打开会自动转成json格式便于查看）：

果不其然，这里就是请求的回答信息，服务器返回json格式。后来查阅了一下，没想到是知乎开放的API，我常威是靠某乎施舍…各位看官老爷，咋这就赶紧麻溜开始吧。上上张图片已经分析出下面这一大串URL规律：

limt: 限制一次请求回答数，经过测试可以改为20，即一次请求20条回答。

offset：偏移量，前面已有回答数。

其余无变化。

明白了知乎是怎么请求了，接下来只要构造request请求，会jsonpath对知乎API返回的json数据进行处理，就可以愉快的爬下我们想要的数据了（你明白的）。

读取cookie构造request请求

正如前cookie所说的格式，是一个列表，每一项是字典。每一个字典里有很多键值对，我们只需每个字典都有的键name&value对应的值（其余的键值不用，这两个就够了），构造成一个新的 name值：value值对应的新cookie字典。

# 5.读取cookies
cookies_dic = {}
with open("C:\\Users\\86151\\Desktop\\json_cookies.txt", "r") as f:
    cookies = json.load(f)
    # 在保存的cookies文档中，一个列表，每一项都是字典，字典又自然有多个键值对。只有每一个字典键值name，value对应的数据需要记住
    for cookie in cookies:
        cookies_dic[cookie['name']] = cookie['value']

然后再传入headers伪装浏览器，循环构造URL请求进行请求即可。

# 6.分析知乎帖子，正则匹配获取每篇答案的作者/赞同数/图片等信息
desktop_path = "C:\\Users\\86151\\Desktop"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
answer_url = "https://www.zhihu.com/api/v4/questions/275359100/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%2Cis_recognized%2Cpaid_info%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics&limit=20&offset={0}&platform=desktop&sort_by=default"
# 爬十次，每次爬20篇回答，共200篇
for i in range(10):
    dest_url = answer_url.format(i*20)
    response = requests.get(dest_url, headers=headers, cookies=cookies_dic)

接下来，我们便开始用jsonpath解析获取的数据

jsonpath解析数据

首先当然是用json.load加载读取到的数据，接着便是简单运用jsonpath对json数据进行解析：

    # 爬取的是json格式，要读取分析用json.loads载入
    json_date = json.loads(response.text)
    # 保存这20篇回答:作者 & 回答内容
    authors = jsonpath.jsonpath(json_date, '$..author.name')
    contents = jsonpath.jsonpath(json_date, '$..content')

那么问题还是他喵又来了，回答里包含照片的URL地址信息，如何获得呢？jsonpath 和xpath肯定是不行的，什么你已经想到了？没错就是正则表达式（主要还是我睿智分析）！

首先我们点开任意一个回答，看看照片深藏在哪个金屋中：

令人窒息的是，同一张照片URL既可能出现在

# 循环在指定root_path创建以作者名命名的文件夹，里面放有相应回答照片
    for j in range(20):  # 下载20页，每页20篇回答 
        # 创建以作者名命名的文件夹
        author_path = desktop_path+"\\知乎照片\\"+authors[j]
        if not os.path.exists(author_path):
            os.makedirs(author_path)
        # 用re正则解析对应的回答内容里面的图片
        img_pattern = re.compile('data-original="(.*?)"')
        img_urls = re.findall(img_pattern, contents[j])  # 相邻两个重复
        new_img_urls = []
        index = 0
        # 去除url相邻重复
        for item in img_urls:
            if index % 2 == 0:
                new_img_urls.append(item)
            index += 1

然后便是保存照片：

        # 判断是否有图片
        if len(new_img_urls) == 0:
            print("无照片")
            continue
        # 下载图片
        count = 0
        for url in new_img_urls:
            img_path = author_path + "\\" + str(count) + ".jpg"
            response_img = requests.get(url)
            with open(img_path, "wb") as f:
                f.write(response_img.content)  # 注意要用response_img.content
            count += 1
        print("第{0}篇回答照片下载完毕".format(i*20+j+1))
    time.sleep(5)

要注意的是，要用response_img.content（二进制格式）写入照片而不是response_img.text（字符串）。

到这里，我们等待下载完毕便可以啦！接下来，就是激动人心查看战果时间~

查看下载结果

这里我们发现了一点小瑕疵，有些图片下载失败，经过排查URL请求是正确的，单独下载也能成功，某些不可描述因素？后续如果解决，会进行更新~

至此，知乎爬虫便基本制作成功了，接下来就是进行面对对象的重构，以及此次项目总结一些善后工作了。

三、面对对象重构

from selenium import webdriver
from base64 import b64decode
import requests
import re
import time
import json
import jsonpath
import os


class zhihuSpider:

    def __init__(self):
        # 初始化headers、登陆界面url、
        self.loginURL = "http://www.zhihu.com"
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}

    def zhihu_qq_login(self, account, password):
        """
        :param account: 账号
        :param password: 密码
        :return: 尝试qq登陆，返回只含有键值name，value对应字典cookie
        """
        # 1.打开浏览器
        browser = webdriver.Chrome()
        browser.get(self.loginURL)

        # 2.查找登陆元素
        # 点击登陆
        # 因为'登陆'在一对登陆标签中，但是没有元素属性不好精确定位，采用XPATH语法
        bt_opt_login = browser.find_element_by_xpath('//div[@class="SignContainer-switch"]/span')
        bt_opt_login.click()
        # 选择QQ号登陆
        bt_opt_social = browser.find_element_by_xpath('//span[@class="Login-socialLogin"]/button')
        bt_opt_social.click()
        time.sleep(1)  # 等等QQ登陆图标加载一下
        bt_opt_QQ = browser.find_element_by_xpath('//span[@class="Login-socialButtonGroup"]/button[3]')
        bt_opt_QQ.click()

        # 3.操作刚打开的QQ登陆窗口
        time.sleep(1)  # 等待下加载完毕
        # 切换到qq登陆窗口
        allhandles = browser.window_handles
        zhihuHandle = browser.current_window_handle
        qqHandle = allhandles[1]
        browser.switch_to.window(qqHandle)
        # 同时qq登陆内嵌页面要切换表单:ctrl+shift+f搜索：frame，找到frame name = ptlogin_iframe
        browser.switch_to.frame("ptlogin_iframe")
        # 选择输入密码登陆
        bt_opt_inputAP = browser.find_element_by_xpath('//div[@id="bottom_qlogin"]')
        bt_opt_inputAP.click()
        # 开始模拟输入账号密码登陆
        text_qq_account = browser.find_element_by_id("u")
        text_qq_password = browser.find_element_by_id("p")
        bt_qq_login = browser.find_element_by_id("login_button")
        text_qq_account.send_keys(account)
        text_qq_password.send_keys(password)
        bt_qq_login.click()
        time.sleep(3)
        # 切回知乎窗口，表单不用
        browser.switch_to.window(zhihuHandle)
        # 4.返回含指定键值的cookie字典
        # zhihucookie是列表含有多项，每项都是字典类型;这里不用txt保存，故无需解析成json数据
        zhihu_cookies = browser.get_cookies()
        cookies_dic = {}  # 只保存键值name，value对应的数据
        for cookie in zhihu_cookies:
            cookies_dic[cookie['name']] = cookie['value']
        browser.close()
        return cookies_dic

    def zhihu_phoneNum_login(self, account, password, captcha_savePath):
        """
        循环模拟登陆知乎，直至出现的是英文验证码，输入验证码登陆
        :param account: 账号
        :param password: 密码
        :return: 尝试手机号登陆，返回只含有键值name，value对应字典cookie
        """
        count = 0
        while 1:
            # 1.打开浏览器
            browser = webdriver.Chrome()
            browser.get('http://www.zhihu.com')
            # 2.查找登陆元素
            # 1.点击登陆
            bt_opt_login = browser.find_element_by_xpath('//div[@class="SignContainer-switch"]/span')
            bt_opt_login.click()

            # 2.输入账号密码
            time.sleep(1)
            # elem_account = browser.find_element_by_name("username")
            # elem_pwd = browser.find_element_by_name("password")
            text_account = browser.find_element_by_xpath('//input[@name="username"]')
            text__pwd = browser.find_element_by_xpath('//input[@name="password"]')
            text_account.send_keys(account)
            text__pwd.send_keys(password)

            # 3.模拟点击登陆
            bt_login = browser.find_element_by_xpath('//button[@type="submit"]')
            bt_login.click()

            # 4.处理验证码登陆
            # 1.获取验证码图片
            time.sleep(1)  # 等待一会儿验证码图片还没加载
            # noinspection PyBroadException
            try:
                # 定位到中文验证码，刷新浏览器重新登陆。
                img_captcha = browser.find_element_by_class_name("Captcha-chineseImg") 
                print("中文字符暂时不能处理，第{0}次重试...\n".format(count + 1))
                browser.refresh()
                time.sleep(1)
                continue
            except Exception as e:
                # 定位中文验证码出错，则说明定位到英文验证码，开始识别人工输入
                # 验证码是服务器生成b64编码，直接进行解码写入保存即可，不用下载
                # 定位到验证码元素
                img_captcha = browser.find_element_by_class_name("Captcha-englishImg")
                # 获取元素内的验证码b64编码
                img64_src = img_captcha.get_attribute("src")
                # 对编码进行一些处理可解码
                img64_src = img64_src.replace("data:image/jpg;base64,", "")  # 删除前面标识
                img64_src = img64_src.replace("%0A", "\n")  # get_attribute会把\n替换成%OA,要替换回来
                img_date = b64decode(img64_src)
                # 2.保存图片
                img_path = captcha_savePath + "\\captcha.png"
                with open(img_path, "wb") as f:  # 将验证码图片以二进制流写入保存
                    f.write(img_date)
                # 3.打开图片
                os.system(img_path)
                captcha = input("已捕捉到英文验证码，请在打开的图片识别输入：")
                time.sleep(2)
                # 4. 输入验证码登陆
                elem_captcha_input = browser.find_element_by_xpath('//input[@name="captcha"]')
                elem_captcha_input.send_keys(captcha)
                # 5.登陆
                bt_login1 = browser.find_element_by_xpath('//button[@type="submit"]')
                bt_login1.click()
                time.sleep(2)

            # 5.已经成功登陆，返回含指定键值的cookie字典
                # zhihucookie是列表含有多项，每项都是字典类型;这里不用txt保存，故无需解析成json数据
                print("成功登陆！即将开始下载...")
                zhihu_cookies = browser.get_cookies()
                cookies_dic = {}  # 只保存键值name，value对应的数据
                for cookie in zhihu_cookies:
                    cookies_dic[cookie['name']] = cookie['value']
                browser.close()
                return cookies_dic

    def download(self, cookies_dic, answer_url, img_savepath, pages, limit=20):
        """
        下载知乎指定任意问题下图片
        :param cookies_dic: 知乎cookie
        :param answer_url: 知乎问题url
        :param img_savepath: 知乎问题下图片保存路径
        :param pages: 下载多少页
        :param limit: 一页默认限定20篇回答
        :return:
        """
        # 爬十页，每页爬20篇回答，共200篇
        for p in range(pages):
            dest_url = answer_url.format(limit, p * limit)
            response = requests.get(dest_url, headers=self.headers, cookies=cookies_dic)
            # 爬取的是json格式，要读取分析用json.loads载入
            json_date = json.loads(response.text)
            # 保存这20篇回答:作者、答案中图片
            authors = jsonpath.jsonpath(json_date, '$..author.name')
            contents = jsonpath.jsonpath(json_date, '$..content')
            # 循环在指定root_path创建以作者名命名的文件夹，里面放有相应回答照片
            for l in range(limit):
                # 创建以作者名命名的文件夹
                author_path = img_savepath + "\\知乎照片1\\" + authors[l]
                if not os.path.exists(author_path):
                    os.makedirs(author_path)
                # 用re正则解析对应的回答内容里面的图片
                img_pattern = re.compile('data-original="(.*?)"')
                img_urls = re.findall(img_pattern, contents[l])  # 相邻两个重复
                new_img_urls = []
                index = 0
                # url相邻重复，去除
                for url in img_urls:
                    if index % 2 == 0:
                        new_img_urls.append(url)
                    index += 1
                # 判断是否有图片
                if len(new_img_urls) == 0:
                    print("无照片")
                    continue
                # 下载图片
                count = 0
                for url in new_img_urls:
                    img_path = author_path + "\\" + str(count) + ".jpg"
                    response_img = requests.get(url)
                    with open(img_path, "wb") as f:
                        f.write(response_img.content)  
                    count += 1
                print("第{0}篇回答照片下载完毕".format(p * limit + l + 1))
            time.sleep(5)  # 等待5s，开始下载下一页
        print("下载完毕！")


if __name__ == '__main__':
    answer_url = "https://www.zhihu.com/api/v4/questions/275359100/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%2Cis_recognized%2Cpaid_info%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics&limit={0}&offset={1}&platform=desktop&sort_by=default"
    desktop_path = "C:\\Users\\86151\\Desktop"
    spider = zhihuSpider()
    # cookies_dir = spider.zhihu_qq_login("380141****", "riguangyu*****")
    cookies_dir = spider.zhihu_phoneNum_login("1517948****", "riguangyu***", desktop_path)
    spider.download(cookies_dir, answer_url, desktop_path, 10)

四、总结

呼呼，终于完成了！最开始接触爬虫，便想着爬取知乎小姐姐照片，成功的那一刻还是挺有成就感的。下一篇博文便是记录破解bilibili滑块验证码了，你滑任你滑，我爬我的虫~

下次再见啦！对了，俺也不是要求太多，这么详细的知乎爬虫记录，各位看官老爷不点个关注/喜欢嘛？谢谢您的鼓励~

你可能感兴趣的:(爬虫)

python反爬虫处理--处理动态内容加载（Selenium库）范哥来了 python 爬虫开发语言
使用Selenium处理动态加载的内容Selenium是一个强大的工具，可以用来模拟真实用户与网页进行交互。这对于处理那些通过JavaScript动态加载内容的网站特别有用。下面我将介绍如何安装Selenium库以及如何使用它来抓取动态加载的内容。1.安装Selenium库首先，您需要确保已经安装了Selenium库。您可以使用pip来安装Selenium：pipinstallselenium此外
Python与数据可视化案例：电影评分可视化 master_chenchengg python python 办公效率 python开发 IT
Python与数据可视化案例：电影评分可视化电影评分数据的魅力：为什么可视化很重要数据收集：如何获取电影评分数据使用API接口网络爬虫技术数据清洗与预处理：让数据变得干净整洁可视化实战：用Matplotlib和Seaborn绘制电影评分图表电影评分数据的魅力：为什么可视化很重要对于电影爱好者而言，电影评分不仅仅是数字那么简单，它承载着无数影迷的期待与梦想。想象一下，当你站在电影院门口，面对琳琅满目
使用PHP爬虫获取1688商品分类：实战案例指南数据小爬虫@ php 爬虫开发语言
在电商领域，商品分类信息是商家进行市场调研、选品分析和竞争情报收集的重要基础。1688作为国内领先的B2B电商平台，提供了丰富且详细的商品分类数据。通过PHP爬虫技术，我们可以高效地获取这些分类信息，为商业决策提供有力支持。一、为什么选择PHP爬虫？PHP是一种广泛使用的服务器端脚本语言，特别适合用于Web开发和网络爬虫。它具有强大的网络请求和HTML解析能力，能够轻松实现从网页中提取数据的功能。
如何确保爬虫遵守1688的使用协议 Jason-河山爬虫
在使用爬虫技术调用1688开放平台的API接口时，确保爬虫遵守平台的使用协议至关重要。这不仅有助于避免法律风险，还能确保数据获取行为的合规性和道德性。以下是确保爬虫遵守1688使用协议的具体方法和注意事项：一、遵守法律法规合法使用数据：确保爬取的数据仅用于合法目的，不得用于任何违法违规的活动。尊重隐私和商业机密：在处理返回的数据时，注意保护用户隐私和商业机密，避免泄露敏感信息。二、合理控制调用频率
利用PHP爬虫根据关键词获取17网（17zwd）商品列表：实战指南 Jason-河山 php 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用PHP爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。一、环境准备（一）PHP开发环境确保你的服务器上安装了PHP环境，并且启用了cURL扩展，用于发送HTTP请求。（二）安装所需库安装GuzzleHttp库，用于发送HTTP请求。可以通过
利用Python爬虫精准获取淘宝商品详情的深度解析 Jason-河山 API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是在电子商务领域。淘宝作为中国最大的电商平台之一，拥有海量的商品数据，对于研究市场趋势、分析消费者行为等具有重要意义。本文将详细介绍如何使用Python编写爬虫程序，精准获取淘宝商品详情信息。环境准备在开始之前，我们需要准备以下环境和工具：Python环境：确保你的计算机上安装了Python。IDE：推荐使用PyCharm或VSCode。网络请求库：我们将使用
如何规避反爬虫机制 Jason-河山爬虫
在面对网站的反爬虫机制时，尤其是像eBay这样有严格反爬措施的平台，你可以采取以下几种策略来应对：1.伪装请求头（User-Agent）许多网站会通过检查HTTP请求头中的User-Agent字段来判断请求是否来自浏览器。默认情况下，爬虫发送的请求头可能包含明显的标识（如“Python”或“PHP”），这很容易被识别为爬虫行为。解决方法：设置一个常见的浏览器User-Agent值来伪装爬虫请求。可
JavaScript逆向爬虫教程-------基础篇之JavaScript混淆原理 zru_9602 热门话题 javascript 爬虫开发语言
目录一、常量的混淆原理1.1对象属性的两种访问方式1.2十六进制字符串1.3Unicode字符串1.4字符串的ASCII码混淆1.5字符串常量加密1.6数值常量加密二、增加JS逆向者的工作量2.1数组混淆2.2数组乱序2.3花指令2.4jsfuck三、代码执行流程的防护原理3.1流程平坦化3.2逗号表达式混淆四、其他代码防护方案4.1eval加密4.2内存爆破4.3检测代码是否格式化一、常量的混淆
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
使用 Python 构建货币汇率数据抓取与分析系统：实时监控外汇平台的汇率波动 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫大数据信息可视化
1.引言1.1汇率波动与外汇市场汇率是指一种货币与另一种货币之间的交换比例，通常用于国际贸易、金融市场以及跨境支付等领域。汇率波动是外汇市场的常见现象，受多种因素影响，包括国家的经济政策、国际贸易形势、政治事件以及市场预期等。对于个人投资者、金融机构以及跨国企业来说，及时掌握货币汇率的变动趋势，可以帮助做出更加合理的决策。1.2本文目标本文的目标是通过Python爬虫技术，抓取不同外汇平台的汇率数
闲鱼爬虫闲鱼爬取批量搬运上架淘宝软件，闲鱼.上架淘宝辅助软件批量改价/改库存/改标题，批量采集店铺店铺，全店宝贝采集，批量采集店铺高销量自动加水印向往自由123 爬虫算法 python github 区块链
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档原理是安卓逆向，通过Hock技术，获取某.鱼店铺所有宝贝信息。前段时间自己做了一个爬取某鱼店铺的软件，输入淘口令，输出整个店铺的宝贝，支持定制化过滤，比如已经卖出的会过滤掉价格低的过滤掉等待。同时支持对某鱼图片自定义水印，最终可以导出为csv表格格式上传到某宝平台。文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据
Java爬取淘宝商品详情高级版接口的完整指南 Jelena15779585792 淘宝API Java java 开发语言
在电商数据分析和市场研究中，获取淘宝商品的详细信息是一项重要任务。淘宝开放平台提供了taobao.item.get和taobao.item.get_pro等高级接口，允许开发者通过商品ID（num_iid）获取商品的标题、价格、图片、描述、SKU等详细信息。本文将详细介绍如何使用Java技术实现一个高效、稳定的爬虫程序，从接口调用、数据解析到存储，帮助你快速获取淘宝商品详情。一、环境搭建与依赖配置
python-Scrapy爬虫框架介绍（整个数据的流程） onesalatree Scrapy框架爬虫 python 软件框架爬虫 scrapy
python-Scrapy爬虫框架介绍随着在家的线上教育的进行，课程的深入学习，所要学习的内容和作业也在不断的增多，所以没有过多的自己的时间去学习新的爬虫知识，但疫情逐渐的在好转，我也很是期待开学的那一天，毕竟线上教育的效果没有在学校的更为显著，主要是老师们录课很辛苦今天我想和兄弟们分享一下Scrapy爬虫的原理，也是自己最近刚学习的，有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的
微博热点信息爬虫 Akihiris 爬虫
最近看到一个项目挺有意思的，难度也不高，贴出来分享一下。一、爬取地址观察网址，我们发现当查询某个话题时，微博网址后面会带参数q，后面那个refer参数可以忽略。因此，我们想要爬取某个话题的时候只需要修改q即可。https://s.weibo.com/weibo?q=%E9%BB%91%E7%A5%9E%E8%AF%9D%E6%82%9F%E7%A9%BA&Refer=topic_weibo二、模拟
网页自动化测试和爬虫：Selenium库入门与进阶萧鼎 python基础到进阶教程爬虫 selenium 测试工具
网页自动化测试和爬虫：Selenium库入门与进阶在现代Web开发和数据分析中，自动化测试和数据采集成为了开发流程中的重要部分。Python的Selenium库是一种强大的工具，不仅用于网页自动化测试，也在网页爬虫中得到了广泛的应用。本文将带你从Selenium的基础用法入手，逐步深入到进阶技巧，帮助你轻松应对网页自动化任务。一、Selenium简介与安装Selenium是一个浏览器自动化工具，可
记一次ScopeSentry搭建 |||_||| 学习测试工具安全
介绍ScopeSentry是一款具有资产测绘、子域名枚举、信息泄露检测、漏洞扫描、目录扫描、子域名接管、爬虫、页面监控功能的工具，通过构建多个节点，自由选择节点运行扫描任务。当出现新漏洞时可以快速排查关注资产是否存在相关组件。目前功能插件系统跳过CDN子域名枚举子域名接管检测端口扫描资产识别目录扫描漏洞扫描敏感信息泄露检测URL提取爬虫页面监控自定义WEB指纹POC导入资产分组多节点扫描webho
主流爬虫框架scrapy的架构及原理迷鹿鹿鹿鹿鹿爬虫 scrapy 架构
一、Scrapy架构概览Scrapy是一个基于Twisted异步网络框架构建的高效爬虫框架，其核心架构采用事件驱动模型，支持高并发、可扩展的网页抓取。以下是其核心组件及数据流示意图：+-------------------------------------------------+|ScrapyEngine|控制数据流+--------+------------------+----------
Python爬虫丨批量下载必应4K壁纸凌小添 Python爬虫项目 python 爬虫开发语言
1.项目背景经常用电脑的朋友应该会发现，电脑锁屏页面是微软必应每天更新的精美壁纸，偶尔还能看到一些十分惊艳的壁纸，于是我去寻找如何下载他们，我在GitHub上闲逛时，还真发现一个自动归档这些壁纸的仓库。该项目由GitHub用户niumoo维护，项目地址：niumoo/bing-wallpaper。该项目每天自动归档必应首页美图！但当我点开README.md时，发现仓库仅保存图片Markdown索引
初学者如何用 Python 写第一个爬虫？陆鳐LuLu python 爬虫开发语言
编写第一个Python爬虫并不难，以下是一个简单的步骤指南，帮助从零开始。1.安装必要的库首先，你需要安装requests和BeautifulSoup这两个库。requests用于发送HTTP请求，BeautifulSoup用于解析HTML内容。pipinstallrequestsbeautifulsoup42.导入库在你的Python脚本中导入所需的库。importrequestsfrombs4
使用Lua和lua-resty-http-simple库的爬虫程序爬取图片 q56731523 lua http 爬虫
使用Lua和lua-resty-http-simple库编写爬虫程序来下载图片是一个很实用的任务。lua-resty-http-simple是一个用于HTTP请求的简单库，可以帮助我们轻松地发送GET请求并处理响应。下面是一个完整的示例程序，展示如何使用lua-resty-http-simple库来下载图片。1.安装lua-resty-http-simple库你可以通过luarocks安装lua-
【2025年22期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深A股历史成交分布数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言股票api 股票数据股票数据接口
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（期末重点题目）一口酪 python scrapy
第一章网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据爬虫是手动请求万维网网站且提取网页数据的程序。（×）爬虫爬取的是网站后台的数据。（×）通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。（√）简答题：简述通用爬虫和聚焦爬虫。1.通用爬虫又称全网爬虫，主要用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦网络爬
利用Java爬虫根据关键词获取17网（17zwd）商品列表：实战指南小爬虫程序猿 java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用Java爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境（推荐使用JDK1.8及以上版本）。（二）安装所需依赖使用Maven管理项目依赖，主要包括以下库：Jsoup：用于
第三十天：Scrapy 框架-分布式穿梭的编织者 Python爬虫训练营 scrapy 分布式爬虫
文章目录一、介绍scrapy-redis框架二、分布式原理三、分布式爬虫的实现四、scrapy-redis框架的安装五、部署scrapy-redis六、给爬虫增加配置信息七、运行程序八、数据导入到mongodb中九、数据导入到MySQL中十、setting文件配置一、介绍scrapy-redis框架scrapy-redis一个三方的基于redis的分布式爬虫框架，配合scrapy使用，让爬虫具有了
Python 第三方库 selenium kevinstarry Python 标准库第三方库 python selenium 爬虫
Python第三方库selenium初识seleniumselenium原本设计出来的目的是用作自动化测试，但是对于我而言，它是爬虫大杀器。绝大多数的网站，目前就我看到的，基本上没有对selenium做对应反扒策略的。注意：是基本上，我的确遇到过selenium失效的情况。为什么selenium是爬虫大杀器？selenium的原理就是模拟浏览器，与其他的爬虫不同的是，selenium是真的使用浏览
selenium库工作原理大多_C selenium microsoft 测试工具
详细介绍selenium及其相关模块你的代码使用了selenium进行CSDN文章的自动发布。为了更深入理解，下面将详细介绍selenium及其相关模块的作用。1.selenium库selenium是一个用于Web自动化测试的Python库，支持与各种浏览器（如Chrome、Firefox）交互，主要用于自动化测试、爬虫等任务。安装Selenium如果你的环境尚未安装selenium，可以使用以下
使用python Selenium实现智慧树界面化自动刷网课 chromehandless实现智慧树无界面化自动刷网课我所向往的美好 python selenium chrome
最近看到隔壁室友在学习python，再加上那句“爬虫学得好，监狱进的早”，于是有了一个大胆的想法，刷网课。我是通过使用selenium驱动真实的浏览器来实现1.自动点击播放2.自动切换到流畅画质（省流量）3.自动1.5倍速4.自动静音4.自动检查当前播放时间，结束后调到下一集由于是驱动真实的浏览器来实现一系列操作，所以理论上不会有封号危险（祝你好运）#_*_codeingutf-8_*_#@TIM
pycharm2018 qq_35581867 安装指南
因公司的需求，需要做一个爬取最近上映的电影、列车号、航班号、机场、车站等信息，所以需要我做一个爬虫项目，当然java也可以做爬虫，但是还是没有python这样方便，所以也开始学习Python啦！！！欲善其事，必先利其器。这里我为大家提供了三种激活方式：授权服务器激活：适合小白，一步到位，但服务器容易被封激活码激活：适合小白，Windows、Mac、Linux都适用且无其他副作用，推荐~破解补丁激活
github搜索项目关键词小猿L github
in:name爬虫//搜索名字中带有"爬虫"的in:readme爬虫//搜索readme中带有"爬虫"的in:description爬虫//搜索描述中带有"爬虫"的stars:>1000//搜索stars>1000的forks:>1000//搜索forks>1000的pushed:>2019-09-01//搜索最近更新于2019年9月1日之后的language:Python//搜索Python的项
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found