MordevonSt

Python爬虫—爬取京东商品信息（自动登录，换关键词，换页）

前言
一、需要的Python库安装
- 1.设置默认pip默认安装路径
- 2.下载浏览器驱动（以chrome为例）
二、使用步骤（代码以函数为单位分开展示）
- 1.引入库
- 2.设置关键词和浏览器设置
- 3.定义获取密码函数
- 4.定义获取图片信息，返回最佳匹配位置函数
- 5.定义滑动函数
- 6.定义实现登录函数
- 7.定义文件保存函数
- 8.定义爬取函数
- 9.定义首次运行函数
- 10.定义继续运行函数
- 11.定义主函数
三、代码整体展示
总结

前言

最近需要些简单的商品数据信息，听说淘宝反爬虫反的厉害，自己Python学习花的时间少，人菜的抠脚，就打起了京东的注意

~~这gif去重后晃得我眼痛~~

一、需要的Python库安装

1.设置默认pip默认安装路径

安装前注意pip默认安装目录设置
查看位置为python目录下的Lib\site.py文件
设置参数(因为需要转义写成r‘Path和单反斜的形式’ 或 ‘Path和双反斜的形式’)
USER_SITE=r‘D:\Python\Lib\site-packages’
USER_BASE =r‘D:\Python\Scripts’

↑site.py文件示意↑

如果你不想设置保存位置参数
①手动跳转到你的python安装目录下再使用pip命令安装（不然要么在c盘给你安装整个python，要么迫害你的c盘剩余容量）
②使用pip命令时使用 --target=Path 参数指定安装目录

↑pip安装示意图↑

2.下载浏览器驱动（以chrome为例）

打开谷歌浏览器访问下面的地址，查看谷歌浏览器版本
chrome://version/

↑查看chrome版本示意图↑
驱动下载链接
链接: 谷歌浏览器驱动下载.
下载相应版本的驱动（或者最接近的版本）

将终端放在chrome目录下（放其他地方注意改环境变量就行）

↑chrome目录↑

↑Win10设置驱动环境变量↑

二、使用步骤（代码以函数为单位分开展示）

1.引入库

代码如下：

import time
from urllib import request
import cv2
from selenium import webdriver
# from random import random
import pyautogui
from numpy import random
from lxml import etree

2.设置关键词和浏览器设置

代码如下：

#设置搜索关键词（根据需要修改）
keyword=['显卡','cpu','主板','内存','硬盘','散热器','机箱','外设','显示器','整机','笔记本电脑','平板','手机']

#对浏览器驱动进行设置
option=webdriver.ChromeOptions()
# option.add_argument('headless') #隐藏浏览器窗口（因为登录滑块需要使用鼠标，只能改为最小化）
option.add_argument("disable-blink-features=AutomationControlled") #去掉chrome的webdriver痕迹
browser = webdriver.Chrome(options=option)

驱动设置为不隐藏窗口；去除webdriver信息。

3.定义获取密码函数

代码如下：

#获取密码函数
def getLoginText():
    f=open('D:\\PyCode\\txt\\JDLogin.txt', 'r', encoding='utf-8')
    temp = f.readlines()
    doc=[]
    #去除元素中的换行转义
    for t in temp:
        t=t.strip('\n')
        doc.append(t)
    return doc

文件第一行是用户名，第二行是密码（没有任何前后缀。
直接在登录代码中明文定义账号密码不太好，容易泄露

4.定义获取图片信息，返回最佳匹配位置函数

代码如下：

#获取图片信息，返回最佳匹配位置
def findPic(target="img1.jpg", template="img2.png"):
    # 读取图片
    target_rgb = cv2.imread(target)
    # 图片灰度化
    target_gray = cv2.cvtColor(target_rgb, cv2.COLOR_BGR2GRAY)
    # 读取模块图片
    template_rgb = cv2.imread(template, 0)
    # 匹配模块位置
    res = cv2.matchTemplate(target_gray, template_rgb, cv2.TM_CCOEFF_NORMED)
    # 获取最佳匹配位置
    value = cv2.minMaxLoc(res)
    # 返回最佳X坐标
    return value[2][0]

5.定义滑动函数

代码如下：

#验证码滑动
def LoginSlide():
    #获取滑块图像
    target = browser.find_element_by_xpath('//div[@class="JDJRV-bigimg"]/img')
    template = browser.find_element_by_xpath('//div[@class="JDJRV-smallimg"]/img')
    # 获取模块的url路径
    src1 = target.get_attribute("src")
    src2 = template.get_attribute("src")
    # 下载图片（参数二可以用 filename=‘想存放的目录位置+文件名’ 设置图片保存位置，只设置文件名默认保存在和代码统一目录下）
    request.urlretrieve(src1,"img1.jpg")
    request.urlretrieve(src2,"img2.png")
    x = findPic()
    w1 = cv2.imread('img1.jpg').shape[1]
    w2 = target.size['width']
    x = x / w1 * w2
    # 按钮坐标（可以打开浏览器自己量一下，这里是1080p下大概坐标）
    offset_x,offset_y = 1169,484
    # pyautogui库操作鼠标指针
    pyautogui.moveTo(offset_x,offset_y,duration=0.1 + random.uniform(0,0.1 + random.randint(1,100) / 100))
    pyautogui.mouseDown()
    offset_y += random.randint(9,19)
    pyautogui.moveTo(offset_x + int(x * random.randint(15,25) / 20),offset_y,duration=0.28)
    offset_y += random.randint(-9,0)
    pyautogui.moveTo(offset_x + int(x * random.randint(17,23) / 20),offset_y,
                     duration=random.randint(20,31) / 100)
    offset_y += random.randint(0,8)
    pyautogui.moveTo(offset_x + int(x * random.randint(19,21) / 20),offset_y,
                     duration=random.randint(20,40) / 100)
    offset_y += random.randint(-3,3)
    pyautogui.moveTo(x + offset_x + random.randint(-3,3),offset_y,duration=0.5 + random.randint(-10,10) / 100)
    offset_y += random.randint(-2,2)
    pyautogui.moveTo(x + offset_x + random.randint(-2,2),offset_y,duration=0.5 + random.randint(-3,3) / 100)
    pyautogui.mouseUp()
    time.sleep(random.randint(2,5))

6.定义实现登录函数

代码如下：

#实现登录
def startLogin():
    time.sleep(random.randint(2,5))
    browser.maximize_window()
    #点击账户登录
    login=browser.find_element_by_xpath('//div[@class="login-tab login-tab-r"]/a')
    login.click()
    time.sleep(1)
    #获取账号和密码
    doc=getLoginText()
    user=browser.find_element_by_id('loginname')
    user.send_keys(doc[0])
    upass=browser.find_element_by_id('nloginpwd')
    upass.send_keys(doc[1])
    time.sleep(2)
    #点击登录
    # loginSubmit=browser.find_element_by_xpath('//div[@class="login-btn"]/a')
    loginSubmit=browser.find_element_by_id('loginsubmit')
    time.sleep(1)
    loginSubmit.click()
    time.sleep(random.randint(2,5))
    #调用滑动函数
    LoginSlide()
    #获取当前url并进行判断是否为登录网页
    nowurl=browser.current_url
    print('现在是Login界面？：'+str(str(nowurl).startswith('https://passport.jd.com/')))
    if(str(nowurl).startswith('https://passport.jd.com/uc/login')):
        #若滑块失败，则再调用滑动函数
        LoginSlide()
    browser.minimize_window()
    time.sleep(random.randint(2,5))

7.定义文件保存函数

代码如下：

#将爬取内容保存到文件函数
def save(content):
    with open('C:\\Users\\Administrator\\Desktop\\goods.txt', 'a', encoding='utf-8')as f:
        f.writelines(content)

8.定义爬取函数

代码如下：

#定义信息爬取函数
#keyindex是当前keyword的下标
#index是当前搜索结果的页数
def paser_index(keyindex,index):
    time.sleep(random.randint(5,10))
    #若跳转到了登录界面，重新登录，并从上次断点继续爬取
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        return continueRun(index,keyindex)
    #跳转到页面最下面，使页面完全加载60条
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(random.randint(5,10))
    #获取htmletree
    selector = etree.HTML(browser.page_source)
    #定位到商品list
    items = selector.xpath('//div[@class="gl-i-wrap"]')
    #获取当前页数
    index= selector.xpath('//div[@id="J_topPage"]/span/b/text()')
    index_max= selector.xpath('//div[@id="J_topPage"]/span/i/text()')
    #循环将每个商品处理后写入文件
    for item in items:
        price= '/'.join('%s' %id for id in item.xpath('./div[@class="p-price"]/strong/i/text()') )
        title= ''.join('%s' %id for id in item.xpath('./div[@class="p-name p-name-type-2"]/a/em/text()') )
        desc= '/'.join('%s' %id for id in item.xpath('./div[@class="p-name p-name-type-2"]/a/i/text()') )
        comment= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-commit"]//a/text()') )
        shop= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-shop"]/span/a/text()') )
        shop_tag= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-icons"]/i/text()') )
        info = [title,price,desc,comment,shop,shop_tag]
        print(info)
        save('\n'+','.join('%s' %x for x in info))
    #打印当前参数
    print('index:'+str(index)+' index_max:'+str(index_max)+' keyindex:'+str(keyindex)+' keyword:'+str(keyword[keyindex])+' keyword_len:'+str(len(keyword)-1))
    #若当前页码不是最大值，则随机等待后点击下一页
    if(int(index[0])<int(index_max[0])):
        #进行翻页操作，index+1
        time.sleep(random.randint(2,5))
        temp=int(index[0])*2+1
        #执行翻页的js脚本
        browser.execute_script("SEARCH.page("+str(temp)+", true);")

9.定义首次运行函数

代码如下：

#定义首次运行函数，用于首次执行(从keyword[0]第一页开始)
def fristRun(urls):
    browser.get(urls)
    #判定需不需要登录
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        print('正在登录账号……')
        startLogin()
    print('正式开始执行爬虫')
    for i in range(0,len(keyword)):
        #搜索关键词
        key=browser.find_element_by_id('key')
        key.clear()
        key.send_keys(keyword[i])
        #执行搜索的js脚本
        browser.execute_script("search('key');return false;")
        time.sleep(random.randint(2,5))
        #获取页面最大值
        index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
        print("当前页面最大值为："+str(index_max))
        for j in range(1,int(index_max)+1):
            paser_index(i,j)
    browser.quit()

10.定义继续运行函数

代码如下：

#定义继续运行函数，用于程序意外停止后继续上次进度运行
def continueRun(urls,keyindex,index):
    browser.get(urls)
    #判定需不需要登录
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        print('正在登录账号……')
        startLogin()
    print('正式开始执行爬虫')
    #搜索上次的关键词
    key=browser.find_element_by_id('key')
    key.clear()
    key.send_keys(keyword[keyindex])
    #执行搜索的js脚本
    browser.execute_script("search('key');return false;")
    time.sleep(random.randint(2,5))
    #跳转到指定页面
    temp=int(index*2-1)
    browser.execute_script("SEARCH.page("+str(temp)+", true);")
    time.sleep(random.randint(2,5))
    #获取页面最大值
    index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
    print("当前页面最大值为："+str(index_max))
    #先将上次搜索词的剩余页面爬取
    for k in range(index,int(index_max)+1):
        paser_index(keyindex,k)
    #再从上次搜索词的后面循环爬取
    for i in range(keyindex+1,len(keyword)):
        #搜索关键词
        key=browser.find_element_by_id('key')
        key.clear()
        key.send_keys(keyword[i])
        #执行搜索的js脚本
        browser.execute_script("search('key');return false;")
        time.sleep(random.randint(2,5))
        #获取页面最大值
        index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
        print("当前页面最大值为："+str(index_max))
        #循环爬取页面
        for j in range(1,int(index_max)+1):
            paser_index(i,j)
    browser.quit()

11.定义主函数

代码如下：

if __name__ == '__main__':
    print('-----------开始-----------')

    #定义要打开的网页url
    urls='https://passport.jd.com/uc/login' #京东登录界面
    # urls='https://www.jd.com/' #京东首页

    # fristRun(urls) #首次运行使用这个，将下面的两句注释掉

    #程序意外中断后，想继续运行时，使用这两句，将上面的fristRun()注释掉
    continueRun(urls,4,11) #根据中断前控制台输出的参数，设置参数（keyindex，index）

    print('-----------结束-----------')

三、代码整体展示

完整代码如下：

import time
from urllib import request
import cv2
from selenium import webdriver
# from random import random
import pyautogui
from numpy import random
from lxml import etree
#版本特性：在5.0基础上，将各种点击方法该为直接执行按钮的onclick属性调用的js脚本

#设置搜索关键词（根据需要修改）
keyword=['显卡','cpu','主板','内存','硬盘','散热器','机箱','外设','显示器','整机','笔记本电脑','平板','手机']

#对浏览器驱动进行设置
option=webdriver.ChromeOptions()
# option.add_argument('headless') #隐藏浏览器窗口（因为登录滑块需要使用鼠标，只能改为最小化）
option.add_argument("disable-blink-features=AutomationControlled") #去掉chrome的webdriver痕迹
browser = webdriver.Chrome(options=option)

#获取密码函数
def getLoginText():
    f=open('D:\\PyCode\\txt\\JDLogin.txt', 'r', encoding='utf-8')
    temp = f.readlines()
    doc=[]
    #去除元素中的换行转义
    for t in temp:
        t=t.strip('\n')
        doc.append(t)
    return doc

#获取图片信息，返回最佳匹配位置
def findPic(target="img1.jpg", template="img2.png"):
    # 读取图片
    target_rgb = cv2.imread(target)
    # 图片灰度化
    target_gray = cv2.cvtColor(target_rgb, cv2.COLOR_BGR2GRAY)
    # 读取模块图片
    template_rgb = cv2.imread(template, 0)
    # 匹配模块位置
    res = cv2.matchTemplate(target_gray, template_rgb, cv2.TM_CCOEFF_NORMED)
    # 获取最佳匹配位置
    value = cv2.minMaxLoc(res)
    # 返回最佳X坐标
    return value[2][0]

#验证码滑动
def LoginSlide():
    #获取滑块图像
    target = browser.find_element_by_xpath('//div[@class="JDJRV-bigimg"]/img')
    template = browser.find_element_by_xpath('//div[@class="JDJRV-smallimg"]/img')
    # 获取模块的url路径
    src1 = target.get_attribute("src")
    src2 = template.get_attribute("src")
    # 下载图片（参数二可以用 filename=‘想存放的目录位置+文件名’ 设置图片保存位置，只设置文件名默认保存在和代码统一目录下）
    request.urlretrieve(src1,"img1.jpg")
    request.urlretrieve(src2,"img2.png")
    x = findPic()
    w1 = cv2.imread('img1.jpg').shape[1]
    w2 = target.size['width']
    x = x / w1 * w2
    # 按钮坐标（可以打开浏览器自己量一下，这里是1080p下大概坐标）
    offset_x,offset_y = 1169,484
    # pyautogui库操作鼠标指针
    pyautogui.moveTo(offset_x,offset_y,duration=0.1 + random.uniform(0,0.1 + random.randint(1,100) / 100))
    pyautogui.mouseDown()
    offset_y += random.randint(9,19)
    pyautogui.moveTo(offset_x + int(x * random.randint(15,25) / 20),offset_y,duration=0.28)
    offset_y += random.randint(-9,0)
    pyautogui.moveTo(offset_x + int(x * random.randint(17,23) / 20),offset_y,
                     duration=random.randint(20,31) / 100)
    offset_y += random.randint(0,8)
    pyautogui.moveTo(offset_x + int(x * random.randint(19,21) / 20),offset_y,
                     duration=random.randint(20,40) / 100)
    offset_y += random.randint(-3,3)
    pyautogui.moveTo(x + offset_x + random.randint(-3,3),offset_y,duration=0.5 + random.randint(-10,10) / 100)
    offset_y += random.randint(-2,2)
    pyautogui.moveTo(x + offset_x + random.randint(-2,2),offset_y,duration=0.5 + random.randint(-3,3) / 100)
    pyautogui.mouseUp()
    time.sleep(random.randint(2,5))

#实现登录
def startLogin():
    time.sleep(random.randint(2,5))
    browser.maximize_window()
    #点击账户登录
    login=browser.find_element_by_xpath('//div[@class="login-tab login-tab-r"]/a')
    login.click()
    time.sleep(1)
    #获取账号和密码
    doc=getLoginText()
    user=browser.find_element_by_id('loginname')
    user.send_keys(doc[0])
    upass=browser.find_element_by_id('nloginpwd')
    upass.send_keys(doc[1])
    time.sleep(2)
    #点击登录
    # loginSubmit=browser.find_element_by_xpath('//div[@class="login-btn"]/a')
    loginSubmit=browser.find_element_by_id('loginsubmit')
    time.sleep(1)
    loginSubmit.click()
    time.sleep(random.randint(2,5))
    #调用滑动函数
    LoginSlide()
    #获取当前url并进行判断是否为登录网页
    nowurl=browser.current_url
    print('现在是Login界面？：'+str(str(nowurl).startswith('https://passport.jd.com/')))
    if(str(nowurl).startswith('https://passport.jd.com/uc/login')):
        #若滑块失败，则再调用滑动函数
        LoginSlide()
    browser.minimize_window()
    time.sleep(random.randint(2,5))

#将爬取内容保存到文件函数
def save(content):
    with open('C:\\Users\\Administrator\\Desktop\\goods.txt', 'a', encoding='utf-8')as f:
        f.writelines(content)

#定义信息爬取函数
#keyindex是当前keyword的下标
#index是当前搜索结果的页数
def paser_index(keyindex,index):
    time.sleep(random.randint(5,10))
    #若跳转到了登录界面，重新登录，并从上次断点继续爬取
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        return continueRun(index,keyindex)
    #跳转到页面最下面，使页面完全加载60条
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(random.randint(5,10))
    #获取htmletree
    selector = etree.HTML(browser.page_source)
    #定位到商品list
    items = selector.xpath('//div[@class="gl-i-wrap"]')
    #获取当前页数
    index= selector.xpath('//div[@id="J_topPage"]/span/b/text()')
    index_max= selector.xpath('//div[@id="J_topPage"]/span/i/text()')
    #循环将每个商品处理后写入文件
    for item in items:
        price= '/'.join('%s' %id for id in item.xpath('./div[@class="p-price"]/strong/i/text()') )
        title= ''.join('%s' %id for id in item.xpath('./div[@class="p-name p-name-type-2"]/a/em/text()') )
        desc= '/'.join('%s' %id for id in item.xpath('./div[@class="p-name p-name-type-2"]/a/i/text()') )
        comment= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-commit"]//a/text()') )
        shop= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-shop"]/span/a/text()') )
        shop_tag= '/'.join('%s' %id for id in item.xpath('.//div[@class="p-icons"]/i/text()') )
        info = [title,price,desc,comment,shop,shop_tag]
        print(info)
        save('\n'+','.join('%s' %x for x in info))
    #打印当前参数
    print('index:'+str(index)+' index_max:'+str(index_max)+' keyindex:'+str(keyindex)+' keyword:'+str(keyword[keyindex])+' keyword_len:'+str(len(keyword)-1))
    #若当前页码不是最大值，则随机等待后点击下一页
    if(int(index[0])<int(index_max[0])):
        #进行翻页操作，index+1
        time.sleep(random.randint(2,5))
        temp=int(index[0])*2+1
        #执行翻页的js脚本
        browser.execute_script("SEARCH.page("+str(temp)+", true);")

#定义首次运行函数，用于首次执行(从keyword[0]第一页开始)
def fristRun(urls):
    browser.get(urls)
    #判定需不需要登录
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        print('正在登录账号……')
        startLogin()
    print('正式开始执行爬虫')
    for i in range(0,len(keyword)):
        #搜索关键词
        key=browser.find_element_by_id('key')
        key.clear()
        key.send_keys(keyword[i])
        #执行搜索的js脚本
        browser.execute_script("search('key');return false;")
        time.sleep(random.randint(2,5))
        #获取页面最大值
        index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
        print("当前页面最大值为："+str(index_max))
        for j in range(1,int(index_max)+1):
            paser_index(i,j)
    browser.quit()

#定义继续运行函数，用于程序意外停止后继续上次进度运行
def continueRun(urls,keyindex,index):
    browser.get(urls)
    #判定需不需要登录
    nowurl=browser.current_url
    if(str(nowurl).startswith('https://passport.jd.com/')):
        print('正在登录账号……')
        startLogin()
    print('正式开始执行爬虫')
    #搜索上次的关键词
    key=browser.find_element_by_id('key')
    key.clear()
    key.send_keys(keyword[keyindex])
    #执行搜索的js脚本
    browser.execute_script("search('key');return false;")
    time.sleep(random.randint(2,5))
    #跳转到指定页面
    temp=int(index*2-1)
    browser.execute_script("SEARCH.page("+str(temp)+", true);")
    time.sleep(random.randint(2,5))
    #获取页面最大值
    index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
    print("当前页面最大值为："+str(index_max))
    #先将上次搜索词的剩余页面爬取
    for k in range(index,int(index_max)+1):
        paser_index(keyindex,k)
    #再从上次搜索词的后面循环爬取
    for i in range(keyindex+1,len(keyword)):
        #搜索关键词
        key=browser.find_element_by_id('key')
        key.clear()
        key.send_keys(keyword[i])
        #执行搜索的js脚本
        browser.execute_script("search('key');return false;")
        time.sleep(random.randint(2,5))
        #获取页面最大值
        index_max=browser.find_element_by_xpath('//div[@id="J_topPage"]/span/i').text
        print("当前页面最大值为："+str(index_max))
        #循环爬取页面
        for j in range(1,int(index_max)+1):
            paser_index(i,j)
    browser.quit()

if __name__ == '__main__':
    print('-----------开始-----------')

    #定义要打开的网页url
    urls='https://passport.jd.com/uc/login' #京东登录界面
    # urls='https://www.jd.com/' #京东首页

    # fristRun(urls) #首次运行使用这个，将下面的两句注释掉

    #程序意外中断后，想继续运行时，使用这两句，将上面的fristRun()注释掉
    continueRun(urls,4,11) #根据中断前控制台输出的参数，设置参数（keyindex，index）
    
    print('-----------结束-----------')

总结

参考了不少爬虫代码修修改改好几天才搞好（菜的抠脚，刚开始用递归写，结果老爆栈）
主要以selenium库为核心的玩具级爬虫
京东商品会显示不少重复的商品，鉴于爬取量不大，可以使用set()对文本去重，简单的清洗重要参数为空的行后食用

目前未解决的问题：
①登录模块，有一定概率点不到登录按钮，导致运行失败（不管是通过xpath还是id都有概率点了不跳出滑动验证……）；
②单线程爬取太慢，平均一个关键词要30分钟才爬完（可以再调低些等待时间，目前中间极少需要重新登录）
a.强制等待函数积累间隔时间长
b.程序太快了会被强制退出登录（即便是这样的慢速，时间长了也会被强制退出登录）
c.单位时间内请求过多登录时需要短信验证码，或扫描登录
③有些商品信息获取不到，例如title中带有京东国际标签的产品，无法获取title,price,desc,comment（原因不明）
④不能全程隐藏窗口执行，登录需要最大化，并且鼠标与被控制浏览器之间不能有遮挡物（被强制登出后会突然最大化开始登录，幸好请求速度慢频率低）
⑤~~偶尔会卡在当前关键词的最大页，一直循环好久，不自动换关键词或换关键词失败（原因不明）~~ 改搜索点击为执行js搜索函数，解决此问题
⑥占用c盘缓存空间，win10会把浏览过的网页或其他记录保存在C:\Users\Administrator\AppData\Local\Temp\目录下，所以要定期清理缓存……

【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
20个简单的python代码练习 qq_恰同学少年 python 开发语言
下面整理了20个简单的python代码练习，供大家学习交流使用，轻易上手，复制下来就能用！！！废话不多说，直奔主题1.输入一个不超过5位的正整数，输出其逆数。例如输入12345，输出应为54321。a=input('请输入一个不超过5位的正整数：')print('其逆数为：',a[::-1])注：该代码使用了列表的切片和反转操作，首先将这个数的每个位上的数字存储到一个列表中，然后通过列表的反转来得
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
通过 Ollama 本地部署 DeepSeek-r1:1.5b 模型后，用 Python 调用推理并生成基于 pytest + PO 设计模式的 Playwright 自动化测试文件 Python测试之道测试提效 python python pytest 设计模式
以下是完整的实现步骤和代码示例，详细说明了如何通过Python调用本地部署的DeepSeek-r1:1.5b模型，将功能测试用例转换为适合pytest和PageObject（PO）设计模式的Playwright自动化测试脚本。一、前提条件DeepSeek模型本地部署通过Ollama部署DeepSeek-r1:1.5b模型。Ollama提供的本地推理服务默认可通过HTTPAPI访问，地址通常为：ht
【UI自动化】Selenium库中使用By类元素定位方法搞不来测试的摄影狮软件测试 python selenium 自动化
使用By类，首先需要在Python中导入该模块：fromselenium.webdriver.common.byimportBy1.通过元素的ID属性来定位driver.find_element(By.ID,'kw')如下图，我们需要定位百度的输入框。首先选中定位工具，然后选中输入框。我们可以看到该元素id的值为："kw"2.通过元素的NAME属性来定位driver.find_element(By
DeepSeek + Cline：编程如何加速引擎 meisongqing 人工智能
DeepSeek与Cline的结合为编程工作流提供了显著的加速能力，这种组合通过AI辅助规划、代码生成与优化、实时调试等功能，大幅提升开发效率。以下是具体实现方式及技术要点：一、智能规划与代码生成问题分析与规划（Plan模式）DeepSeek-R1模型擅长处理复杂逻辑推理，开发者可在Cline的Plan模式下用自然语言描述需求（如“用Python实现数据清洗并计算平均值”）。DeepSeek会根据
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

Python爬虫—爬取京东商品信息（自动登录，换关键词，换页）

目录

前言

一、需要的Python库安装

1.设置默认pip默认安装路径

2.下载浏览器驱动（以chrome为例）

二、使用步骤（代码以函数为单位分开展示）

1.引入库

2.设置关键词和浏览器设置

3.定义获取密码函数

4.定义获取图片信息，返回最佳匹配位置函数

5.定义滑动函数

6.定义实现登录函数

7.定义文件保存函数

8.定义爬取函数

9.定义首次运行函数

10.定义继续运行函数

11.定义主函数

三、代码整体展示

总结

你可能感兴趣的:(Python爬虫,python,selenium,爬虫)