Hooray11

python_selenium&零基础爬虫学习案例_知网文献信息

案例最终效果说明：

去做这个案例的话是因为看到那个博主的分享，最后通过努力，我基本实现了进行主题、关键词、更新时间的三个筛选条件去获取数据，并且遍历数据将其导出到一个CSV文件中，代码是很简单的，没有太多的逻辑去判断，但是作为一个小白来说，如果刚刚学完selenium的朋友们可以做这个案例，那这个案例的话我就是用selenium的基本知识去完成的。同时所用到的python的基本知识也是比较简单的。

1.网页分析

2.selenium元素定位&实现

2.1找【高级检索】

2.2找【输入框】

2.3找【检索】

2.4汇总一

2.5附加筛选条件

2.6汇总二

3.数据解析

3.1网页分析

3.2储存数据

3.3第一次尝试（23-01-08）

3.4第二次尝试（23-01-09）

3.5第三次尝试（最终版）（23-01-09）

4.总结

4.1第一次总结（23-01-08）

4.2第二次总结（23-01-09）

4.3第三次总结（23-01-09）

学习笔记，根据这篇文章学习的，讲的很细致。

Python爬虫实战(5) | 爬取知网文献信息（已优化代码） - 知乎 (zhihu.com)

这个博主是利用selenium来爬取的，关于selenium的学习可以参考之前的笔记。

python_selenium_安装&基础学习-CSDN博客

1.网页分析

目标网站：中国知网官网中国知网 (cnki.net)

需求分析：高级检索——>输入查询信息——>点击检索

2.selenium元素定位&实现

先把要用到的包准备好，创建浏览器对象去访问网站，这里就直接展示代码了。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 尝试传参
path = 'chromedriver.exe'
s = Service(path)
browser = webdriver.Chrome(service=s)
url = 'https://www.cnki.net/'
browser.get(url)

2.1找【高级检索】

这里可以直接复制到完整的xpath，就不用我们自己去寻找了了。

# 找高级检索
highSearch = browser.find_element(by='xpath',value='//*[@id="highSearch"]')
print(highSearch)

2.2找【输入框】

注意：找输入框的时候我遇到了困难，因为点击高级检索之后，url变了，所以用之前的url对象不行，然后仔细看了那个作者发现，他的url直接就是高级检索的页面，所以这里我就也全部改了。

所以从这里开始，后面是新的，前面的是有问题的。

input = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[1]/div[2]/input')

2.3找【检索】

2.4汇总一

那截止到现在的话，我总共是写了这么多的代码。

那基本实现的就是在主题输入框内输入【教育信息化】，然后点击检索这样的功能。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 尝试传参
path = 'chromedriver.exe'
s = Service(path)
browser = webdriver.Chrome(service=s)
url = 'https://kns.cnki.net/kns8s/AdvSearch'
browser.get(url)

import time
time.sleep(2)

#找输入框
input = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[1]/div[2]/input')
print(input)
time.sleep(2)
# 输入查询内容
input.send_keys('教育信息化')
time.sleep(2)
# 找检索
search = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[3]/input')
time.sleep(2)
# 点击检索
search.click()
time.sleep(2)

2.5附加筛选条件

有时候做文献综述的时候，会要求有主题、关键词、篇文摘等要求，有时候要求的是近十年的文章，这种应该怎么办。

首先对于图中主题、关键词、文献来源这种看起来像下拉选择框的，通过仔细分析源码才发现其实不是下拉选择，而是对其他的选线进行了隐藏，只要点击其所在的盒子就可以出现选项。

然后我就发现了一个特别有意思的现象。下面的两种情况，第一种的检索是可以点击的，也就是我们可以看到这个检索按钮，第二种情况，检索按钮被遮挡了，那后面运行点击检索按钮的时候就会报错，但是其实元素定位是没有问题的，就是运行click有问题。

最后具体原因我也不知道，总之后面换成了运行javaScript的代码时没问题的。

到现在的话就是增加了可以更改选项多条件检索的。

现在就来到了时间的板块，关于这个发表时间的日历选择方法，我不知道怎么解决。如果后面解决了就来更新吧。

那我只能尝试解决这个，这一个它是由多种选择的.

那这个的基本原理跟之前的一样，看似是一个下拉选择框其实也是隐藏的一个盒子。

然后就基本附加了一些筛选条件进行检索。

2.6汇总二

纯属小白写的代码哈哈哈哈。


from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains

# 尝试传参
path = 'chromedriver.exe'
s = Service(path)
browser = webdriver.Chrome(service=s)
url = 'https://kns.cnki.net/kns8s/AdvSearch'
browser.get(url)

import time
time.sleep(2)

#找输入框
input1 = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[1]/div[2]/input')
time.sleep(2)
# 输入查询内容
input1.send_keys('教育信息化')
time.sleep(2)
# 更改选项——关键词
select = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[2]/div[2]/div[1]/div[1]')
select.click()
time.sleep(2)
key_word = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/div[1]/div[2]/ul/li[3]')
key_word.click()
time.sleep(2)
# 输入查询内容
input2 = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/input')
input2.send_keys('人工智能')
time.sleep(2)

# 更改时间
time_change = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/div')
time_change.click()
time.sleep(2)

select_time = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li[5]')
select_time.click()
time.sleep(2)
# 找检索
search = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[3]/input')
time.sleep(2)
# 点击检索
# search.click() #这个方法没用
browser.execute_script("arguments[0].click();", search) #这个方法有用
# webdriver.ActionChains(browser).move_to_element(search).perform()  #这个方法没用
time.sleep(2)

3.数据解析

3.1网页分析

对于一篇文章的xpath我们可以发现：

题名：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[2]

作者：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[3]

来源：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[4]

可以发现一些规律，td[2]到td[6]都是这篇文献的信息。

但是我们无法获得这篇文献的关键字以及摘要等信息，就需要点进去才可以看到。

对于一整页的每一篇文章我们可以发现：

第一条：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]

第二条：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[2]

第三条：/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[3]

那么tr[1]到tr[20]对应的就是每一条信息，这对于我们后面分析xpath路径有关。

 title_list = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, "fz14")))

上面的代码时从原作者那里复制过来的，根据上下文的意思应该就是需要知道每一页有多少条数据，但是我看了好久才知道他这个写的奥妙，一开始我在想怎么去获取表单数据然后将其储存为列表，但是搜了好久都没找到方法，然后我就根据这个博主的代码去结合网页源码看，结果发现其实这个博主就是很简化了这个问题，只要能获取表单数据的条数就可以了。

那这个作者就是根据题名来找到所有类属性为fz14的数据，就可以知道他的表单数据的长度了。

那么现在就是要根据之前所找到的规律去写xpath路径了，同时通过解析得到我们想要的数据。然后再多次的尝试下我终于成功拿到了数据。

3.2储存数据

我是将其存在一个CSV文件里。

简单学习了一下CSV的存储，大家也可以参考这个博主的文章。

python - csv 文件读取、处理、写入_csv_writer = csv.writer(f)-CSDN博客

那截止到现在的话，我总共时实现了一个页面的存储，现在的话就是尝试将所有页面进行存储，所以就需要将他们封装成函数方法进行调用，希望我可以成功吧。

3.3第一次尝试（23-01-08）

那今天的尝试，没有实现翻页后继续存储，之后我在看看是咋回事，那现在的话就是我知道最后检索出来的结果是49条数据，总共3页，然后我自己设置了函数方法的调用次数，之后再思考怎么解决这个问题。

当然我写的代码由许多的不足，性能也比较差，也不太稳定，我得再研究研究别人的。今天就到这里吧！

附上我目前的代码。


from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
import csv
import time

flag = 0

# CSV文件的创建与初始化
header = ['name', 'author ','source', 'dates']
with open('CNKI.csv', 'w', encoding='UTF8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(header)

def open_page():
    # 尝试传参
    path = 'chromedriver.exe'
    s = Service(path)
    browser = webdriver.Chrome(service=s)
    url = 'https://kns.cnki.net/kns8s/AdvSearch'
    browser.get(url)
    time.sleep(2)

    #找输入框
    input1 = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[1]/div[2]/input')
    time.sleep(2)
    # 输入查询内容
    input1.send_keys('教育信息化')
    time.sleep(2)
    # 更改选项——关键词
    select = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[2]/div[2]/div[1]/div[1]')
    select.click()
    time.sleep(2)
    key_word = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/div[1]/div[2]/ul/li[3]')
    key_word.click()
    time.sleep(2)
    # 输入查询内容
    input2 = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/input')
    input2.send_keys('人工智能')
    time.sleep(2)

    # 更改时间
    time_change = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/div')
    time_change.click()
    time.sleep(2)

    select_time = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li[5]')
    select_time.click()
    time.sleep(2)
    # 找检索
    search = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[3]/input')
    time.sleep(2)
    # 点击检索
    # search.click() #这个方法没用
    browser.execute_script("arguments[0].click();", search) #这个方法有用
    # webdriver.ActionChains(browser).move_to_element(search).perform()  #这个方法没用
    time.sleep(2)

    return browser

# name = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[2]').text
# print(name)

def analyz(browser):
    global flag
    # 获取每一页的数据长度
    table_list = browser.find_elements(by=By.CLASS_NAME,value='fz14')

    # 循环遍历数据
    for term in range(1,len(table_list)+1):
        # 定义xpath语句
        name_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[2]'
        author_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[3]'
        source_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[4]'
        date_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[5]'

        # 获取文本信息
        name = browser.find_element(by='xpath',value=name_xpath).text
        author = browser.find_element(by='xpath',value=author_xpath).text
        source = browser.find_element(by='xpath',value=source_xpath).text
        dates = browser.find_element(by='xpath',value=date_xpath).text

        print(name,author,source,dates)

        # 写入CSV文件
        data = [name, author,source,dates]

        with open('CNKI.csv', 'a', encoding='UTF8', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(data)

        # if term == len(table_list):
        #     flag = 1


def change_page():
    global flag
    # 滑倒底部
    js = 'window.scrollTo(0,document.body.scrollHeight)'
    browser.execute_script(js)
    time.sleep(2)
    # 获取下一页的按钮
    next = browser.find_element(by='xpath', value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[2]/a')
    # 点击下一页
    next.click()
    time.sleep(2)


if __name__ == "__main__":
    browser = open_page()
    analyz(browser)
    change_page()
    analyz(browser)
    change_page()
    analyz(browser)

3.4第二次尝试（23-01-09）

那这一次的尝试是基于之前的代码做了一些修改。

那这一次的话，我在open_page这个函数方法中去获取检索结果的总共条目以及总共的页数，这两个数据非常重要。

获取总共的结果数目很简单可以直接通过xpath解析可以获得，那总共由多少页，我是通过元素的信息去获取的，因为我发现data-pagenum这个属性刚好就是页数，所以可以直接运用get_attribute方法去获得数据，但是这里需要注意的是，所获取的page_num一定要转成Int,我当时就是没有转成int导致无法从递归中跳出来，真的是搞了好久才发现。

那我就是递归调用analyze这个函数方法，然后设置好递归出口就可以了，递归出口就是统计页数然后当页数等于page_num的时候就跳出来，就可以基本实现功能了。

附上代码


from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
import csv
import time

count = 0

# CSV文件的创建与初始化
header = ['name', 'author ','source', 'dates']
with open('CNKI.csv', 'w', encoding='UTF8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(header)

def open_page():
    # 尝试传参
    path = 'chromedriver.exe'
    s = Service(path)
    browser = webdriver.Chrome(service=s)
    url = 'https://kns.cnki.net/kns8s/AdvSearch'
    browser.get(url)
    time.sleep(2)

    #找输入框
    input1 = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[1]/div[2]/input')
    time.sleep(2)
    # 输入查询内容
    input1.send_keys('教育信息化')
    time.sleep(2)
    # 更改选项——关键词
    select = browser.find_element(by='xpath',value='//*[@id="gradetxt"]/dd[2]/div[2]/div[1]/div[1]')
    select.click()
    time.sleep(2)
    key_word = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/div[1]/div[2]/ul/li[3]')
    key_word.click()
    time.sleep(2)
    # 输入查询内容
    input2 = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/input')
    input2.send_keys('人工智能')
    time.sleep(2)

    # 更改时间
    time_change = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/div')
    time_change.click()
    time.sleep(2)

    select_time = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li[5]')
    select_time.click()
    time.sleep(2)
    # 找检索
    search = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[3]/input')
    time.sleep(2)
    # 点击检索
    # search.click() #这个方法没用
    browser.execute_script("arguments[0].click();", search) #这个方法有用
    # webdriver.ActionChains(browser).move_to_element(search).perform()  #这个方法没用
    time.sleep(2)

    # 获得检索出来的所有条目个数
    res_num = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[1]/div/div[1]/span[1]/em').text
    # 去除千分位的逗号
    res_num = int(res_num.replace(",",""))
    # 获取结果页数
    page_num = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[1]/div/div[1]/span[2]')
    page_num = page_num.get_attribute('data-pagenum')
    # 打印结果
    print((f"共找到 {res_num} 条结果,共 {page_num} 页。"))

    return browser , page_num

# name = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[2]').text
# print(name)

def analyz(browser,page_num):
    global count
    # 获取每一页的数据长度
    table_list = browser.find_elements(by=By.CLASS_NAME,value='fz14')

    # 循环遍历数据
    for term in range(1,len(table_list)+1):
        # 定义xpath语句
        name_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[2]'
        author_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[3]'
        source_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[4]'
        date_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[5]'

        # 获取文本信息
        name = browser.find_element(by='xpath',value=name_xpath).text
        author = browser.find_element(by='xpath',value=author_xpath).text
        source = browser.find_element(by='xpath',value=source_xpath).text
        dates = browser.find_element(by='xpath',value=date_xpath).text

        print(name,author,source,dates)

        # 写入CSV文件
        data = [name, author,source,dates]

        with open('CNKI.csv', 'a', encoding='UTF8', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(data)

        if term == len(table_list):
            count += 1
            print(f"第{count}页已经捕捉完毕")
            if count == page_num:
                print("全部捕捉完毕")
                break
            change_page()
            time.sleep(2)
            analyz(browser,page_num)
            time.sleep(2)




def change_page():
    global flag
    # 滑倒底部
    js = 'window.scrollTo(0,document.body.scrollHeight)'
    browser.execute_script(js)
    time.sleep(2)
    # 获取下一页的按钮
    next = browser.find_element(by='xpath', value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[2]/a')
    # 点击下一页
    next.click()
    time.sleep(2)


if __name__ == "__main__":
    tuple1 = open_page()
    browser = tuple1[0]
    page_num = int(tuple1[1])
    print(page_num)
    analyz(browser,page_num)

    browser.quit()

3.5第三次尝试（最终版）（23-01-09）

这一次我改变了一点点的结构，然后怎么优化代码目前只是说让打开网页的时候不去加载图片来提高效率吧。然后其次就是遇到了一些没有考虑到的情况去修改检查，避免报错吧。总之，这个案例的话大致就是完成了，虽然可能不能真正用来去处理爬取真正有用的数据，但是对selenium的学习以及实际的应用中有了更加深刻的认识，算是巩固自己刚刚学习的知识吧。

附上代码：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import csv
import time

count = 0

# CSV文件的创建与初始化
header = ['name', 'author ', 'source', 'dates']
with open('CNKI.csv', 'w', encoding='UTF8', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(header)

# 打开网页获取数据
def open_page(theme,key_words):
    # 尝试传参
    path = 'chromedriver.exe'
    # 设置不加载图片
    browser_option = webdriver.ChromeOptions()
    browser_option.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
    # 创建对象
    s = Service(path)
    browser = webdriver.Chrome(service=s,options=browser_option)

    url = 'https://kns.cnki.net/kns8s/AdvSearch'
    browser.get(url)
    time.sleep(2)

    # 找输入框
    input1 = browser.find_element(by='xpath', value='//*[@id="gradetxt"]/dd[1]/div[2]/input')
    time.sleep(2)
    # 输入查询内容
    input1.send_keys(f'{theme}')
    time.sleep(2)
    # 更改选项——关键词
    select = browser.find_element(by='xpath', value='//*[@id="gradetxt"]/dd[2]/div[2]/div[1]/div[1]')
    select.click()
    time.sleep(2)
    key_word = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/div[1]/div[2]/ul/li[3]')
    key_word.click()
    time.sleep(2)
    # 输入查询内容
    input2 = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/dl/dd[2]/div[2]/input')
    input2.send_keys(f'{key_words}')
    time.sleep(2)

    # 更改时间
    time_change = browser.find_element(by='xpath', value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/div')
    time_change.click()
    time.sleep(2)

    select_time = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li[5]')
    select_time.click()
    time.sleep(2)
    # 找检索
    search = browser.find_element(by='xpath',value='/html/body/div[2]/div[1]/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[3]/input')
    time.sleep(2)
    # 点击检索
    # search.click() #这个方法没用
    browser.execute_script("arguments[0].click();", search)  # 这个方法有用
    # webdriver.ActionChains(browser).move_to_element(search).perform()  #这个方法没用
    time.sleep(2)
    # 考虑到结果的页数没有或者条目为0的情况
    try:
        # 获得检索出来的所有条目个数
        res_num = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[1]/div/div[1]/span[1]/em').text
        # 去除千分位的逗号
        res_num = int(res_num.replace(",", ""))
    except:
        res_num = 0
    try:
        # 获取结果页数
        page_num = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[1]/div/div[1]/span[2]')
        page_num = page_num.get_attribute('data-pagenum')
    except:
        page_num = 1
    # 打印结果
    print((f"共找到 {res_num} 条结果,共 {page_num} 页。"))

    return browser, page_num


# name = browser.find_element(by='xpath',value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[1]/td[2]').text
# print(name)

# 数据解析并导出
def analyz(browser, page_num):
    global count
    # 获取每一页的数据长度
    table_list = browser.find_elements(by=By.CLASS_NAME, value='fz14')

    # 循环遍历数据
    for term in range(1, len(table_list) + 1):
        # 定义xpath语句
        name_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[2]'
        author_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[3]'
        source_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[4]'
        date_xpath = f'/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[1]/div/div/table/tbody/tr[{term}]/td[5]'

        # 获取文本信息
        name = browser.find_element(by='xpath', value=name_xpath).text
        author = browser.find_element(by='xpath', value=author_xpath).text
        source = browser.find_element(by='xpath', value=source_xpath).text
        dates = browser.find_element(by='xpath', value=date_xpath).text

        print(name, author, source, dates)

        # 写入CSV文件
        data = [name, author, source, dates]

        with open('CNKI.csv', 'a', encoding='UTF8', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(data)
        # 递归捕捉每一页的数据
        if term == len(table_list):
            count += 1
            print(f"第{count}页已经捕捉完毕")
            if count == page_num:
                print("全部捕捉完毕")
                break
            change_page()
            time.sleep(2)
            analyz(browser, page_num)
            time.sleep(2)

# 切换页面点击下一页
def change_page():
    global flag
    # 滑倒底部
    js = 'window.scrollTo(0,document.body.scrollHeight)'
    browser.execute_script(js)
    time.sleep(2)
    # 获取下一页的按钮
    next = browser.find_element(by='xpath', value='/html/body/div[2]/div[2]/div[2]/div[2]/div/div[2]/div/div[2]/a')
    # 点击下一页
    next.click()
    time.sleep(2)


if __name__ == "__main__":
    # 设置查找的主题和关键词
    theme = '人工智能'
    key_words = '教育'

    tuple1 = open_page(theme,key_words)
    browser = tuple1[0]
    page_num = int(tuple1[1])
    analyz(browser, page_num)

    browser.quit()

4.总结

4.1第一次总结（23-01-08）

那这是我初学selenium第一次做的实际案例，体验感还是很不错的。虽然中间的过程也很艰辛，就是在不断地去思考下一步怎么做，虽然是根据别的博主的案例来学习的，但是我也尽量的以自己现在的一个学习状况来完成这些代码，所以跟原博主的还是由很大的差别，感觉别人写得很高级，然而我的水平还没到，我只能用自己现在所学来解决这个问题。

当然我觉得案例学习的方法很好，不仅引导自己主动去思考新学的知识，主动查阅资料，自己调试代码，去思考，还可以让自己去接触一些在日常生活中无法系统去学习到的知识。

给自己加油吧哈哈哈哈哈哈哈！

4.2第二次总结（23-01-09）

那这一次的修改其实很简单，昨天晚上的时候就一直在思考怎么去根据页数来调用，然后就增加了两个变量，在打开网页进行检索的时候就尽可能地去观察有用地信息，当然如果利用信息条目数量去判断地话也是可以的。

那现在的话我在尝试去优化代码的性能，因为现在加载的就是比较慢。并且递归调用函数方法这个算法绝对也是不咋行的。还是要去学习学习其他的哈哈哈哈哈。

4.3第三次总结（23-01-09）

那关于这一个案例就已经差不多结束了，目前可能比较适合跟我一样刚刚学完selenium来练手的案例吧，做到去真正的实际运用，可能后面只能简单的对这些数据进行一些统计。

总之基本的功能是可以实现的。但是关于页面的跳转可能还需要继续学习，比如去点击没一排你文章到里面去获得他的关键词和摘要啊。后面可以根据这个再进行改进。

在这里记录一个大佬的分享；selenium 谷歌火狐浏览器设置参数_java火狐修改window.navigator.webdriver-CSDN博客

你可能感兴趣的:(python自学,python,学习,开发语言,selenium,爬虫,信息可视化)

Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【UDS诊断（ClearDiagnosticInformation_0x84服务）测试用例CAPL代码全解析⑦】车端域控测试工程师测试用例汽车经验分享 CANoe 学习
ISO14229-1:2023UDS诊断【ClearDiagnosticInformation_0x84服务】_TestCase07作者：车端域控测试工程师更新日期：2025年03月11日关键词：UDS诊断协议、清除诊断信息服务、ClearDiagnosticInformation_0x84服务、ISO14229-1:2023TC84-007测试用例用例ID测试场景验证要点参考条款预期结果TC84
关于uni-app发布手机APP上架各应用商城，隐私政策书写方案说明 Otaku love travel uni-app 应用发布政策说明 uni-app 应用发布隐私政策
uni-app应用隐私政策书写与上架方案说明一、前言随着移动互联网监管日趋严格，隐私政策已成为APP上架应用商城的核心合规文件。隐私政策不仅体现开发者对用户数据的尊重，更是满足《个人信息保护法》《网络安全法》《数据安全法》等法规的法律义务。核心目标：清晰告知用户数据收集与使用规则，建立用户信任。适用对象：所有通过uni-app开发并计划上架主流应用商城（如苹果AppStore、华为应用市场、小米应
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
web前端期末大作业：婚纱网页主题网站设计——唯一旅拍婚纱公司网站HTML+CSS+JavaScript IT-司马青衫前端课程设计 html
‍静态网站的编写主要是用HTMLDⅣV+CSSJS等来完成页面的排版设计‍，一般的网页作业需要融入以下知识点：div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉导航栏、鼠标划过效果等知识点，学生网页作业源码，制作水平和原创度都适合学习或交作业用，记得点赞。精彩专栏推荐【作者主页——获取更多优质源码】【web前端期末大作业——毕设项目精品实战案例(1
API身份验证使用JWT的.NET实现雨夜思绪~静谧思考 .net
API身份验证使用JWT的.NET实现在现代的应用程序开发中，API身份验证是一项至关重要的任务。JWT（JSONWebToken）是一种常用的身份验证机制，它使用JSON格式表示身份验证信息，并使用签名进行验证。在.NET平台上，我们可以使用一些库来实现JWT身份验证。本文将介绍如何使用.NET来进行API身份验证并使用JWT作为身份验证机制。引入依赖项首先，我们需要在我们的项目中引入相关的依赖
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
【Go语言圣经1.1】 Pyroyster golang 开发语言后端
目标学习Go的编译方式、包的组织方式以及工具链的统一调用方式概念与定义packageGo语言通过包来组织代码。包类似于其它语言的库librarries或模块modules，每个包通常对应一个目录，目录中的所有.go文件都属于同一个包。特殊的main包:当代码使用packagemain声明时，表示这是一个可独立执行的程序而非一个库。程序的执行入口就是main函数import通过import语句，编译
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
JWT在.NET8 Webapi中的使用 Evan.Pei .net
JWT身份验证在现代Web应用中广泛使用，主要用于安全地传输用户身份信息.1.身份验证(用户登录后，服务器生成一个JWT并返回给客户端。客户端在后续请求中携带该JWT，服务器通过验证JWT来确认用户身份)2.授权(JWT中可以包含用户的角色或权限信息（如role:“admin”）。服务器根据JWT中的信息决定用户是否有权访问特定资源)3.信息交换(JWT可以包含一些非敏感的用户信息（如用户ID、用
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Flutter中使用NetworkImage加载网络图片缓存问题学习实践云水-禅心 flutter 缓存
Flutter中默认的NetworkImage会有缓存机制，如果图片的url不变化，但是url的图片已经发生变化，NetworkImage不会下载新的图片deepseek是这么解决问题的，但是在鸿蒙上禁用缓存无效在Flutter中，NetworkImage默认会使用缓存机制来优化性能。如果你想禁用缓存，可以通过以下几种方式实现：1.使用NetworkImage的headers参数你可以通过设置he
什么是XSS 藤原千花的败北 web漏洞 xss 前端 web安全网络安全
文章目录前言1.前端知识2.什么是XSS3.漏洞挖掘4.参考前言之前对XSS的理解就是停留在弹窗，认为XSS这种漏洞真的是漏洞吗？安全学习了蛮久了，也应该对XSS有更进一步的认识了。1.前端知识现代浏览器是一个高度复杂的软件系统，由多个核心组件协同工作，旨在高效、安全地呈现网页内容并执行交互逻辑。对一般用户来讲，其主要功能就是向服务器发出请求，在窗口中展示用户所选择的网络资源。这里所说的资源一般是
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
CSS入门指南：从零开始学习网页开发——（一）简介 GIS小白吃 css 学习前端
一、什么是CSS？CSS（CascadingStyleSheets，层叠样式表）是一种用于描述网页的外观和布局的样式表语言。它通过定义网页元素的样式（如颜色、字体、边距等）来与HTML内容分离，提升了网页的可维护性和设计的灵活性。CSS的核心目的是增强网页的表现力。早期的网页仅使用HTML来进行内容的展示，但由于HTML只能描述内容的结构，页面设计和内容变得难以管理。于是，CSS作为一种辅助技术应
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
异地收款被拦截？一文读懂聚合二维码风控解决方案畅联支付大数据支付经验分享笔记
随着移动支付的普及，许多商家使用聚合二维码实现多平台收款。但近期不少用户反馈"人在外地扫自家二维码付款却被风控拦截"，这不仅影响经营效率，还可能引发资金冻结风险。今天我们就来解析这个问题的成因和应对策略。一、为什么会触发风控？1.地理位置异常：支付系统发现收款设备与常用地址存在跨省变动（如北京商家突然在上海收款）2.交易行为突变：短期内出现远超日常交易量的资金流动3.信息不匹配：营业执照注册地与收
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
50 种不同编程语言的“Hello World”，你知多少？逗逗逗逗666 编程 hello world 编程语言
当我们学习一门编程语言时，都是从“Hello,World!”开始。所有程序员在其职业生涯中，都至少接触过一个经典的“Hello,World!”程序。通常程序员会使用多种编程语言，多的甚至实现了十几种。还有一种称为TTHW（Timeto“Hello,World!”）的方法，来衡量程序员创建一个新的“Hello,World!”程序的时间。你可以用多少种不同的语言编写一个“Hello,World!”程序
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，