grey_orange

python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要

作业描述

基于requests爬虫模块库，把所有学术期刊的简介信息爬取下来
导航页网址： https://navi.cnki.net/knavi/Journal.html

要求：

爬取所有学术期刊的简介信息
每一个具体期刊页面中，从网页上抽取的保存的内容包括所有概要描述元素

如：
URL，期刊名称，期刊数据库（上方所有红色图标后的文字描述）
基本信息：主办单位，出版周期，。。。。。。。
出版信息：专辑名称，。。。。。。
评价信息：复合影响因子，综合影响因子。。。。。

示例如下：

将这些元素存储在文件中（举例：csv，xlsx等文件）

因为这是python数据分析课的附加作业，所以想拿到分，历时好几天，解决了好多好多好多问题，终于按照老师要求爬出来了。
先上效果图：

之前爬虫纯小白的我，了解并尝试了requests→scrapy→selenium→selenium+requests→requests，最后发现这种作业级别的确实只用requests就够了。
无数次处在崩溃边缘，无数次觉得自己差一点就能成功……

刚开始因为什么都不懂，查到了这篇文章https://codingdict.com/blog/509。然后感觉自己似乎有点懂了，就很天真的打算用webdriver模拟点击八千多页来爬取每一页的详情概要，具体的代码写出来之后才发现每次爬几百页一两千页就会出现很奇怪的问题，而下一次到这里的时候并不会出现问题，就感觉其实是模拟点击不太合适，页数少一点或许还可以凑合，不过代码还是可以参考的。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time
import multiprocessing
import random
import csv
import pandas as pd
# 设置谷歌驱动器的环境
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') #浏览器在后台运行
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-gpu') #禁用gpu
chrome_options.add_argument('--disable-dev-shm-usage')
# browser = webdriver.Chrome(chrome_options=chrome_options)
# 设置chrome不加载图片，提高速度
chrome_options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
# 创建一个谷歌驱动器
browser = webdriver.Chrome(executable_path = r'C:\Program Files\Google\Chrome\Application\chromedriver', options = chrome_options)
browser.maximize_window()
url = 'https://navi.cnki.net/knavi/Journal.html'


def start_spider(start_page, end_page):
    try:
        curr_page = start_page
        data_list = []
        browser.get(url)
        time.sleep(2)
        WebDriverWait(browser, 100).until(
            EC.presence_of_all_elements_located(
                (By.LINK_TEXT, '学术期刊')
            )
        )
        browser.find_element_by_link_text('学术期刊').click()
        # 显示等待页码数量加载完成
        WebDriverWait(browser, 100).until(
            EC.presence_of_all_elements_located(
                (By.ID, 'lblPageCount')
            )
        )
        #     pages = int(browser.find_elements_by_id('lblPageCount')[0].text)
        #     print(pages)
        for i in range(start_page):
            WebDriverWait(browser, 100).until(
                EC.presence_of_all_elements_located(
                    (By.LINK_TEXT, '下一页')
                )
            )
            time.sleep(2)
            browser.find_element_by_link_text('下一页').click()
            curr_page += 1

        for i in range(start_page, end_page):
            # 显示等待所有期刊加载完成
            WebDriverWait(browser, 100).until(
                EC.presence_of_all_elements_located(
                    (By.CLASS_NAME, 'lazy')
                )
            )
            divs_count = len(browser.find_elements_by_class_name('lazy'))

            start_time = time.time()
            for i in range(divs_count):
                #             time.sleep(2)
                #             link = browser.find_elements_by_xpath('//a[contains(@href,"/KNavi")]')[i].get_attribute("href")
                #             js = 'window.open("%s");' % link
                # 每次访问链接的时候适当延迟
                time.sleep(random.uniform(1, 2))
                #             browser.execute_script(js)
                browser.find_elements_by_class_name('lazy')[i].click()
                # 切换句柄
                browser.switch_to.window(browser.window_handles[1])
                WebDriverWait(browser, 100).until(
                    EC.presence_of_all_elements_located(
                        (By.ID, 'J_sumBtn-stretch')
                    )
                )
                browser.find_element_by_id('J_sumBtn-stretch').click()

                data_dict = {}
                data_dict['URL'] = browser.current_url
                data_dict['期刊名称'] = browser.find_element_by_class_name('titbox').text
                data_dict['期刊数据库'] = browser.find_element_by_class_name('journalType').text
                try:
                    data_dict['曾用刊名'] = browser.find_element_by_xpath("//p[contains(text(),'曾用刊名')]").text.split('：')[
                        -1]
                except:
                    data_dict['曾用刊名'] = ''
                try:
                    data_dict['主办单位'] = browser.find_element_by_xpath("//p[contains(text(),'主办单位')]").text.split('：')[
                        -1]
                except:
                    data_dict['主办单位'] = ''
                try:
                    data_dict['出版周期'] = browser.find_element_by_xpath("//p[contains(text(),'出版周期')]").text.split('：')[
                        -1]
                except:
                    data_dict['出版周期'] = ''
                try:
                    data_dict['ISSN'] = browser.find_element_by_xpath("//p[contains(text(),'ISSN')]").text.split('：')[
                        -1]
                except:
                    data_dict['ISSN'] = ''
                try:
                    data_dict['CN'] = browser.find_element_by_xpath("//p[contains(text(),'CN')]").text.split('：')[-1]
                except:
                    data_dict['CN'] = ''
                try:
                    data_dict['出版地'] = browser.find_element_by_xpath("//p[contains(text(),'出版地')]").text.split('：')[-1]
                except:
                    data_dict['出版地'] = ''
                try:
                    data_dict['语种'] = browser.find_element_by_xpath("//p[contains(text(),'语种')]").text.split('：')[-1]
                except:
                    data_dict['语种'] = ''
                try:
                    data_dict['开本'] = browser.find_element_by_xpath("//p[contains(text(),'开本')]").text.split('：')[-1]
                except:
                    data_dict['开本'] = ''
                try:
                    data_dict['邮发代号'] = browser.find_element_by_xpath("//p[contains(text(),'邮发代号')]").text.split('：')[
                        -1]
                except:
                    data_dict['邮发代号'] = ''
                try:
                    data_dict['创刊时间'] = browser.find_element_by_xpath("//p[contains(text(),'创刊时间')]").text.split('：')[
                        -1]
                except:
                    data_dict['创刊时间'] = ''
                try:
                    data_dict['专辑名称'] = browser.find_element_by_xpath("//p[contains(text(),'专辑名称')]").text.split('：')[
                        -1]
                except:
                    data_dict['专辑名称'] = ''
                try:
                    data_dict['专题名称'] = browser.find_element_by_xpath("//p[contains(text(),'专题名称')]").text.split('：')[
                        -1]
                except:
                    data_dict['专题名称'] = ''
                try:
                    data_dict['出版文献量'] = browser.find_element_by_xpath("//p[contains(text(),'出版文献量')]").text.split('：')[
                        -1]
                except:
                    data_dict['出版文献量'] = ''
                try:
                    data_dict['总下载次数'] = browser.find_element_by_xpath("//p[contains(text(),'总下载次数')]").text.split('：')[
                        -1]
                except:
                    data_dict['总下载次数'] = ''
                try:
                    data_dict['总被引次数'] = browser.find_element_by_xpath("//p[contains(text(),'总被引次数')]").text.split('：')[
                        -1]
                except:
                    data_dict['总被引次数'] = ''
                try:
                    data_dict['(2020)复合影响因子'] = \
                    browser.find_element_by_xpath("//p[contains(text(),'(2020)复合影响因子')]").text.split('：')[-1]
                except:
                    data_dict['(2020)复合影响因子'] = ''
                try:
                    data_dict['(2020)综合影响因子'] = \
                    browser.find_element_by_xpath("//p[contains(text(),'(2020)综合影响因子')]").text.split('：')[-1]
                except:
                    data_dict['(2020)综合影响因子'] = ''

                #                 print(data_dict)
                data_list.append(data_dict)
                browser.close()
                browser.switch_to.window(browser.window_handles[0])
                time.sleep(1)

            end_time = time.time()
            end = time.asctime()
            curr_page = int(browser.find_elements_by_id('txtPageGoToBottom')[0].text)
            print('在' + end + '爬完第%d页' % curr_page)
            print('已花' + str(end_time - start_time) + '秒爬完第%d页' % curr_page)
            WebDriverWait(browser, 100).until(
                EC.presence_of_all_elements_located(
                    (By.LINK_TEXT, '下一页')
                )
            )
            time.sleep(1)
            browser.find_element_by_link_text('下一页').click()
    except Exception as e:
        print(e)
        pass
    browser.quit()
    return curr_page, data_list


def main():
    # 开始爬虫
    start_page = 0
    end_page = start_page + 10
    csv_name = 'C:\学习资料\大二下\python数据分析\爬虫\cnki_data' + str(start_page) + '-' + str(end_page) + '.csv'
    xls_name = 'C:\学习资料\大二下\python数据分析\爬虫\cnki_data' + str(start_page) + '-' + str(end_page) + '.xls'

    curr_page, data_list = start_spider(start_page, end_page)
    # 将数据写入csv文件
    with open(csv_name, 'w', encoding='utf-8', newline='') as f:
        title = data_list[0].keys()
        writer = csv.DictWriter(f, title)
        writer.writeheader()
        writer.writerows(data_list)
    print('csv文件写入完成')

    df = pd.read_csv(csv_name)
    df = df.to_excel(xls_name)
    print('excel文件写入完成')
    df = pd.read_excel(xls_name)
    print(df.shape[0] / 21)


if __name__ == '__main__':
    main()

上面这份代码，其实要写的话遇到的问题也很多很多，比如说如何设置不要太快模拟点击而被服务器识别，爬取的数据不存在所以用了很多白痴的try catch模块，等等问题。

因为作业要求里，老师提到可以用url，但是我又发现，在导航页，和后面四百多个学术期刊的导航页的url都是一样的，所以不知道这种情况用requests.get该怎么弄。但后面在无意间跟同学交流的过程中，听到同学根本没有用到selenium，而是只用了requests库，我自己琢磨了下，打算用webdriver模拟点击406页爬下8516条url，然后用requests.get方法对八千多条url进行访问。

from selenium import webdriver
import requests
from lxml import etree
import time
import csv
import pandas as pd
# 设置谷歌驱动器的环境
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-dev-shm-usage')
# browser = webdriver.Chrome(chrome_options=chrome_options)
# 设置chrome不加载图片，提高速度
chrome_options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
# 创建一个谷歌驱动器
browser = webdriver.Chrome(executable_path = r'C:\Program Files\Google\Chrome\Application\chromedriver', options = chrome_options)
url = 'https://navi.cnki.net/knavi/Journal.html'

def get_urls(total_page_num):
    urls = []
    browser.get(url)
    time.sleep(2)
    WebDriverWait(browser, 100).until(
        EC.presence_of_all_elements_located(
            (By.LINK_TEXT, '学术期刊')
        )
    )
    browser.find_element_by_link_text('学术期刊').click()
    
    time.sleep(2)
    for i in range(total_page_num):
        time.sleep(2)
        divs = browser.find_elements_by_xpath('//a[contains(@href,"/KNavi")]')
        for j in divs:
            urls.append(j.get_attribute("href"))
        time.sleep(2)
        browser.find_element_by_link_text('下一页').click()
    
    print('已爬完%d页所有url' % total_page_num)
    browser.quit()
    return urls

urls = get_urls(406)
print('共爬到%d本期刊的url' % (len(urls)))
file = pd.DataFrame(data = urls)
file.to_csv(r'C:\学习资料\大二下\python数据分析\爬虫\urls.csv')
print('urls文件写入完成')

已爬完406页所有url
共爬到8516本期刊的url
urls文件写入完成

def get_details(urls, headers):
    try:
        data_list = []
        count = 0
        for url in urls:
            html = requests.get(url=url, headers=headers).text  # 发起请求
            root = etree.HTML(html)
            data_dict = {}
            data_dict['URL'] = url
            data_dict['期刊名称'] = root.xpath("//h3[@class='titbox']")[0].text.split('\r\n            ')[1]
            data_dict['期刊数据库'] = " ".join(root.xpath("//p[@class='journalType']/span/text()"))
            data_dict['曾用刊名'] = root.xpath("//p[contains(text(),'曾用刊名')]//text()")[1] if len(root.xpath("//p[contains(text(),'曾用刊名')]//text()"))==2 else ''
            data_dict['主办单位'] = root.xpath("//p[contains(text(),'主办单位')]//text()")[1] if len(root.xpath("//p[contains(text(),'主办单位')]//text()"))==2 else ''
            data_dict['出版周期'] = root.xpath("//p[contains(text(),'出版周期')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版周期')]//text()"))==2 else ''
            data_dict['ISSN'] = root.xpath("//p[contains(text(),'ISSN')]//text()")[1] if len(root.xpath("//p[contains(text(),'ISSN')]//text()"))==2 else ''
            data_dict['CN'] = root.xpath("//p[contains(text(),'CN')]//text()")[1] if len(root.xpath("//p[contains(text(),'CN')]//text()"))==2 else ''
            data_dict['出版地'] = root.xpath("//p[contains(text(),'出版地')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版地')]//text()"))==2 else ''
            data_dict['语种'] = root.xpath("//p[contains(text(),'语种')]//text()")[1] if len(root.xpath("//p[contains(text(),'语种')]//text()"))==2 else ''
            data_dict['开本'] = root.xpath("//p[contains(text(),'开本')]//text()")[1] if len(root.xpath("//p[contains(text(),'开本')]//text()"))==2 else ''
            data_dict['邮发代号'] = root.xpath("//p[contains(text(),'邮发代号')]//text()")[1] if len(root.xpath("//p[contains(text(),'邮发代号')]//text()"))==2 else ''
            data_dict['创刊时间'] = root.xpath("//p[contains(text(),'创刊时间')]//text()")[1] if len(root.xpath("//p[contains(text(),'创刊时间')]//text()"))==2 else ''
            data_dict['专辑名称'] = root.xpath("//p[contains(text(),'专辑名称')]//text()")[1] if len(root.xpath("//p[contains(text(),'专辑名称')]//text()"))==2 else ''
            data_dict['专题名称'] = root.xpath("//p[contains(text(),'专题名称')]//text()")[1] if len(root.xpath("//p[contains(text(),'专题名称')]//text()"))==2 else ''
            data_dict['出版文献量'] = root.xpath("//p[contains(text(),'出版文献量')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版文献量')]//text()"))==2 else ''
            data_dict['总下载次数'] = root.xpath("//p[contains(text(),'总下载次数')]//text()")[1] if len(root.xpath("//p[contains(text(),'总下载次数')]//text()"))==2 else ''
            data_dict['总被引次数'] = root.xpath("//p[contains(text(),'总被引次数')]//text()")[1] if len(root.xpath("//p[contains(text(),'总被引次数')]//text()"))==2 else ''
            data_dict['(2020)复合影响因子'] = root.xpath("//p[contains(text(),'(2020)复合影响因子')]//text()")[1] if len(root.xpath("//p[contains(text(),'(2020)复合影响因子')]//text()"))==2 else ''
            data_dict['(2020)综合影响因子'] = root.xpath("//p[contains(text(),'(2020)综合影响因子')]//text()")[1] if len(root.xpath("//p[contains(text(),'(2020)综合影响因子')]//text()"))==2 else ''

            data_list.append(data_dict)
            count += 1
           # print('已爬完第%d本期刊的所有概要' % count)
    except Exception as e:
        print(e)
        pass
            
    return data_list

f = open(r'C:\学习资料\大二下\python数据分析\爬虫\urls.csv')
next(f)
reader = csv.reader(f)
urls = []
for url in reader:
    urls.append(url[1])
f.close()
print('已成功读取%d条url' % (len(urls)))

headers = {'User-Agent': ''}
# 开始爬取每个页面具体信息
data_list = get_details(urls, headers)

csv_name = 'C:\学习资料\大二下\python数据分析\爬虫\cnki_data.csv'
xls_name = 'C:\学习资料\大二下\python数据分析\爬虫\cnki_data.xls'

# 将数据写入csv文件
with open(csv_name, 'w', encoding='utf-8', newline='') as f:
    title = data_list[0].keys()
    writer = csv.DictWriter(f, title)
    writer.writeheader()
    writer.writerows(data_list)
print('csv文件写入完成')

df = pd.read_csv(csv_name)
df = df.to_excel(xls_name)
print('excel文件写入完成')

csv文件写入完成
excel文件写入完成

这个运行出来的结果其实是可以的，前面爬url那块大概半个小时，后面用requests.get(url)八千多个页面爬取+解析大概两个小时不到，可把我高兴的，之前纯用webdriver再不出错的情况下，我算过了，要十几个小时。本来以为能交作业了，但是自己漏解析了期刊的英文名称和影响因子下面的其他评价信息。

后来有个同学找我聊这个作业，我们探讨了发现，其实前面爬取url也并不需要用到webdriver，只需要用到requests.post(url, header, data)这个函数就行，更快了。

def save_urls(page_nums, urls_path):
    urls = []
    for page in range(page_nums):
        data = {
            'SearchStateJson': '{"StateID":"","Platfrom":"","QueryTime":"","Account":"knavi","ClientToken":"","Language":"","CNode":{"PCode":"CJFQ","SMode":"","OperateT":""},"QNode":{"SelectT":"","Select_Fields":"","S_DBCodes":"","QGroup":[],"OrderBy":"OTA|DESC","GroupBy":"","Additon":""}}',
            'displaymode': '1',
            'pageindex': str(page+1),
            'pagecount': '21',
            'index': '1'
        }
        html = requests.post(url =  'https://navi.cnki.net/knavi/Common/Search/Journal', data = data, headers = headers).text  # 发起请求
        # 若触发反爬虫，则继续请求该网页
        while html=="":
            html = requests.post(url =  'https://navi.cnki.net/knavi/Common/Search/Journal', data = data, headers = headers).text
        print('开始爬第%d页的url' % (page+1))
        soup = BeautifulSoup(html, 'html.parser')
        x = soup.find_all(attrs={"target": "_blank"})
        for i in x:
            link = 'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=GGYY'
            new_link = re.sub('GGYY', i['href'][-4:], link)
            urls.append(new_link)

    with open(urls_path,'w',newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(urls) #多行写入
    print('已存下%d条url' % (len(urls)))

但是但是但是！因为已经对着八千多页爬了好多次，可能触发了好几层反爬虫机制，所以根本没法爬了。试过朋友的useragent不行，查到了这个库，可以提供随机的useragent：https://blog.csdn.net/qq_38251616/article/details/86751142，但是其实还是不太行，经常会断连。只能借同学的电脑把八千多页的源代码爬下来存在本地，直接解析本地的html，不过这样快很多，而且就算解析下来漏了什么也很方便重新解析。下面是完整代码。

from bs4 import BeautifulSoup
import requests
import re
import csv
from lxml import etree
import pandas as pd

headers = {'User-Agent' : ''} #这里填自己浏览器的User-Agent

def save_urls(page_nums, urls_path):
    urls = []
    for page in range(page_nums):
        data = {
            'SearchStateJson': '{"StateID":"","Platfrom":"","QueryTime":"","Account":"knavi","ClientToken":"","Language":"","CNode":{"PCode":"CJFQ","SMode":"","OperateT":""},"QNode":{"SelectT":"","Select_Fields":"","S_DBCodes":"","QGroup":[],"OrderBy":"OTA|DESC","GroupBy":"","Additon":""}}',
            'displaymode': '1',
            'pageindex': str(page+1),
            'pagecount': '21',
            'index': '1'
        }
        html = requests.post(url =  'https://navi.cnki.net/knavi/Common/Search/Journal', data = data, headers = headers).text  # 发起请求
        # 若触发反爬虫，则继续请求该网页
        while html=="":
            html = requests.post(url =  'https://navi.cnki.net/knavi/Common/Search/Journal', data = data, headers = headers).text
        print('开始爬第%d页的url' % (page+1))
        soup = BeautifulSoup(html, 'html.parser')
        x = soup.find_all(attrs={"target": "_blank"})
        for i in x:
            link = 'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=GGYY'
            new_link = re.sub('GGYY', i['href'][-4:], link)
            urls.append(new_link)

    with open(urls_path,'w',newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(urls) #多行写入
    print('已存下%d条url' % (len(urls)))

def read_urls(urls_path):
    urls = []
    f = open(urls_path, 'r', encoding='utf-8')
    reader = csv.reader(f)
    for i in reader:
        for url in i:
            urls.append(url)
    f.close()
    return urls

def save_htmls(urls, html_path):
    count = 0
    try:
        for url in urls:
            headers = {'User-Agent' : ''}
            html = requests.get(url=url, headers=headers).text

            while html=="":
                html = requests.get(url=url, headers=headers).text
            with open(html_path + '/%d.html'% count,'w',encoding='utf-8') as f:
                f.write(html)
            count += 1
            print('已存下第%d本期刊的html' % count)
    except Exception as e:
        print(e)
    print('htmls.csv文件写入完成')

def get_details(url, html):
    root = etree.HTML(html)
    data_dict = {}
    data_dict['URL'] = url
    data_dict['期刊名称（中）'] = root.xpath("//h3[@class='titbox']//text()")[0].split('\n            ')[1]
    en_name = re.findall(re.compile('(.*?)(.*?)
(.*?)
',re.DOTALL), html)
    data_dict['期刊名称（英）'] = en_name[0][1] if len(en_name)!=0 else ''
    data_dict['期刊数据库'] = " ".join(root.xpath("//p[@class='journalType']/span/text()"))
    data_dict['曾用刊名'] = root.xpath("//p[contains(text(),'曾用刊名')]//text()")[1] if len(root.xpath("//p[contains(text(),'曾用刊名')]//text()"))==2 else ''
    data_dict['主办单位'] = root.xpath("//p[contains(text(),'主办单位')]//text()")[1] if len(root.xpath("//p[contains(text(),'主办单位')]//text()"))==2 else ''
    data_dict['出版周期'] = root.xpath("//p[contains(text(),'出版周期')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版周期')]//text()"))==2 else ''
    data_dict['ISSN'] = root.xpath("//p[contains(text(),'ISSN')]//text()")[1] if len(root.xpath("//p[contains(text(),'ISSN')]//text()"))==2 else ''
    data_dict['CN'] = root.xpath("//p[contains(text(),'CN')]//text()")[1] if len(root.xpath("//p[contains(text(),'CN')]//text()"))==2 else ''
    data_dict['出版地'] = root.xpath("//p[contains(text(),'出版地')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版地')]//text()"))==2 else ''
    data_dict['语种'] = root.xpath("//p[contains(text(),'语种')]//text()")[1] if len(root.xpath("//p[contains(text(),'语种')]//text()"))==2 else ''
    data_dict['开本'] = root.xpath("//p[contains(text(),'开本')]//text()")[1] if len(root.xpath("//p[contains(text(),'开本')]//text()"))==2 else ''
    data_dict['邮发代号'] = root.xpath("//p[contains(text(),'邮发代号')]//text()")[1] if len(root.xpath("//p[contains(text(),'邮发代号')]//text()"))==2 else ''
    data_dict['创刊时间'] = root.xpath("//p[contains(text(),'创刊时间')]//text()")[1] if len(root.xpath("//p[contains(text(),'创刊时间')]//text()"))==2 else ''
    data_dict['专辑名称'] = root.xpath("//p[contains(text(),'专辑名称')]//text()")[1] if len(root.xpath("//p[contains(text(),'专辑名称')]//text()"))==2 else ''
    data_dict['专题名称'] = root.xpath("//p[contains(text(),'专题名称')]//text()")[1] if len(root.xpath("//p[contains(text(),'专题名称')]//text()"))==2 else ''
    data_dict['出版文献量'] = root.xpath("//p[contains(text(),'出版文献量')]//text()")[1] if len(root.xpath("//p[contains(text(),'出版文献量')]//text()"))==2 else ''
    data_dict['总下载次数'] = root.xpath("//p[contains(text(),'总下载次数')]//text()")[1] if len(root.xpath("//p[contains(text(),'总下载次数')]//text()"))==2 else ''
    data_dict['总被引次数'] = root.xpath("//p[contains(text(),'总被引次数')]//text()")[1] if len(root.xpath("//p[contains(text(),'总被引次数')]//text()"))==2 else ''
    data_dict['(2020)复合影响因子'] = root.xpath("//p[contains(text(),'(2020)复合影响因子')]//text()")[1] if len(root.xpath("//p[contains(text(),'(2020)复合影响因子')]//text()"))==2 else ''
    data_dict['(2020)综合影响因子'] = root.xpath("//p[contains(text(),'(2020)综合影响因子')]//text()")[1] if len(root.xpath("//p[contains(text(),'(2020)综合影响因子')]//text()"))==2 else ''
    try:
        more = ''
        for i in root.xpath("//ul[@id='evaluateInfo']//text()")[2:]:
            if '\n' not in i and '影响因子' not in i and '.' not in i:
                more += i+'\n'
        data_dict['该刊被以下数据库收录'] = re.findall(re.compile('该刊被以下数据库收录：\n(.*?)\n'), more)[0] if len(re.findall(re.compile('该刊被以下数据库收录：\n(.*?)\n'), more)) != 0 else ''
        data_dict['北京大学《中文核心期刊要目总览》来源期刊'] = re.findall(re.compile('北京大学《中文核心期刊要目总览》来源期刊： \n(.*?);\n', re.DOTALL), more)[0] if len(re.findall(re.compile('北京大学《中文核心期刊要目总览》来源期刊： \n(.*?);\n', re.DOTALL), more)[0])!= 0 else ''
        data_dict['期刊荣誉'] = re.findall(re.compile('期刊荣誉：\n(.*?);\n', re.DOTALL), more)[0] if len(re.findall(re.compile('期刊荣誉：\n(.*?);\n', re.DOTALL), more)) != 0 else ''
    except:
        data_dict['该刊被以下数据库收录'] = ''
        data_dict['北京大学《中文核心期刊要目总览》来源期刊'] = ''
        data_dict['期刊荣誉'] = ''
    return data_dict

def parse_htmls(html_path, urls):
    data_list = []
    for i in range(len(urls)):
        soup = BeautifulSoup(open(html_path + '\\' + str(i) + '.html',encoding='utf-8'),features='html.parser')
        html = str(soup)
        data_list.append(get_details(urls[i], html))
        print('已解析完第%d本期刊的所有概要信息' %  (i+1))
    print('已解析完%d本期刊的所有概要信息' %  len(urls))
    return data_list

def save_file(data_list, csv_name, xls_name):
    with open(csv_name, 'w', encoding='utf-8', newline='') as f:
        title = data_list[0].keys()
        writer = csv.DictWriter(f, title)
        writer.writeheader()
        writer.writerows(data_list)
    print('csv文件写入完成')

    df = pd.read_csv(csv_name)
    df = df.to_excel(xls_name)
    print('excel文件写入完成')

def main():
    urls_path = 'C:\\学习资料\\大二下\\python数据分析\\spider\\urls.csv'
    save_urls(406, urls_path) #存下406页中8516条url
    urls = read_urls(urls_path) #读取本地所有url
    html_path = 'C:\\学习资料\\大二下\\python数据分析\\spider\\htmls'
    save_htmls(urls, html_path) #存下8516本期刊的源代码
    data_list = parse_htmls(html_path, urls) #从本地读取每一本期刊的源代码并解析想要的概要信息
    csv_name = 'C:\\学习资料\\大二下\\python数据分析\\spider\\cnki_data.csv'
    xls_name = 'C:\\学习资料\\大二下\\python数据分析\\spider\\cnki_data.xls'
    save_file(data_list, csv_name, xls_name) #将解析完的信息存入本地

if __name__ == '__main__':
    main()

最后放几个写作业时候的参考资料：
xpath：https://www.cnblogs.com/jpfss/p/10410506.html
bs4：https://cuiqingcai.com/1319.html
正则表达式：https://blog.csdn.net/c20081052/article/details/80920073

Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
《Java高级-Xml：利用DOM4j解析XML》大大大钢琴 #Java：经验总结 java xml 开发语言
利用DOM4j解析XMLdom4j是一个简单的开源库，用于处理XML、XPath和XSLT，它基于Java平台，使用Java的集合框架，全面集成了DOM，SAX和JAXP。dom4j是目前在xml解析方面是最优秀的(Hibernate、Sun的JAXM也都使用dom4j来解析XML)，它合并了许多超出基本XML文档表示的功能，包括集成的XPath支持、XMLSchema支持以及用于大文档或流化文档
使用Python获取在线股票交易网站的实时交易数据嵌入式开发项目 2025年爬虫精通专栏 python 开发语言爬虫
目录步骤1：选择股票交易网站步骤2：使用requests库发送HTTP请求步骤3：解析HTML内容步骤4：提取实时交易数据步骤5：存储和使用数据在金融市场中，实时交易数据对于投资者来说具有重要的价值。实时的股票价格、交易量和其他市场指标可以帮助投资者做出更准确的决策，同时也是进行金融分析和建模的重要数据源。在本篇博客中，我们将学习如何使用Python获取在线股票交易网站的实时交易数据。在开始之前，
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
百度极速版APP 自动脚本 javascript代码 zaxjb123 dubbo
使用JavaScript编写针对百度极速版APP的自动化脚本通常涉及到使用WebView测试框架，比如Puppeteer或Selenium，这些工具允许你控制一个浏览器或WebView环境，从而与网页或APP中的Web内容进行交互。然而，对于原生APP（如百度极速版）的自动化测试，通常需要使用专门的移动应用自动化框架，如Appium。Appium支持多种编程语言，包括JavaScript。要使用J
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用Python爬虫实时监控行业新闻案例海拥✘ python 爬虫开发语言
目录背景环境准备请求网页数据解析网页数据定时任务综合代码使用代理IP提升稳定性运行截图与完整代码总结在互联网时代，新闻的实时性和时效性变得尤为重要。很多行业、技术、商业等领域的新闻都可以为公司或者个人发展提供有价值的信息。如果你有一项需求是要实时监控某个行业的新闻，自动化抓取并定期输出这些新闻，Python爬虫可以帮你轻松实现这一目标。本文将通过一个案例，带你一步一步实现一个简单的Python爬虫
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习笔记 - Python数据类型 yunfan188 #Python学习笔记 Python Python数据类型
前言在Python语言中，所有的数据类型都是类，每一个变量都是类的“实例”。没有基本数据类型的概念，所以整数、浮点数和字符串也都是类。Python有6种标准数据类型：数字、字符串、列表、元组、集合和字典，而列表、元组、集合和字典可以保存多项数据，它们每一个都是一种数据结构，因此可以称这四种为“数据结构”类型。本文我们主要介绍数字和字符串类型。一、数字类型Python数字类型有4种：整数类型、浮点数
证书格式介绍及如何将.pem转换为.crt和.key？小洋人最happy Linux pem crt cert openssl
证书格式介绍PKCS全称是Public-KeyCryptographyStandards，是由RSA实验室与其它安全系统开发商为促进公钥密码的发展而制订的一系列标准，PKCS目前共发布过15个标准。常用的有：PKCS#7：CryptographicMessageSyntaxStandardPKCS#10：CertificationRequestStandardPKCS#12：PersonalInf
python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
Python librosa库：一款强大的音频处理工具程序员喵哥 python 音视频开发语言
更多Python学习内容：ipengtao.com在音频信号处理和音乐分析中，如何高效地加载、分析和转换音频数据是一个核心问题。librosa是一个专为音频分析设计的Python库，提供了丰富的工具来处理音频信号。无论是计算音频特征（如频谱、节拍）还是执行音频变换（如频率变换、时间拉伸），librosa都是一个功能强大且易于使用的选择。安装在开始使用librosa之前，需要先安装它。可以通过以下命
使用Python抓取新闻媒体网站的最新头条与相关内容：深入的爬虫开发与数据分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫数据分析数据挖掘人工智能开发语言
引言在互联网时代，新闻媒体网站是人们获取信息和了解世界的重要渠道。随着新闻的即时更新，获取最新头条并进行数据分析成为许多行业领域（如媒体、广告、舆情监测等）的重要需求。通过抓取新闻媒体网站的内容，我们不仅能获取各类新闻文章，还能为后续的数据分析、情感分析、舆情监控等提供基础数据。本篇博客将详细讲解如何使用Python编写一个爬虫，抓取新闻媒体网站的最新头条及其相关内容。我们将使用最新的技术栈，包括
Python爬虫实战：获取笔趣阁图书信息，并做数据分析 ylfhpy 爬虫 python 爬虫数据分析
注意：以下内容仅供技术研究，请遵守目标网站的robots.txt规定，控制请求频率避免对目标服务器造成过大压力！1.环境准备与反爬策略pythonimportrequestsfrombs4importBeautifulSoupimportpandasaspdimportreimporttimeimportrandomfromfake_useragentimportUserAgent#需安装：pip
2024年Python最新联邦学习实战-2-用FATE从零实现横向逻辑回归，面试阿里巴巴客服 2401_84138785 程序员 python 逻辑回归面试
学好Python不论是就业还是做副业赚钱都不错，但要学会Python还是要有一个学习规划。最后大家分享一份全套的Python学习资料，给那些想学习Python的小伙伴们一点帮助！一、Python所有方向的学习路线Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、学习软件工欲善其
如何利用Python爬虫获取淘宝分类详情：实战案例指南数据小爬虫@ python 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Python编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：requests：用于发送HTTP请求。Beautifu
Python 爬虫功能介绍 chengxuyuan1213_ python 爬虫网络爬虫
在当今互联网信息爆炸的时代，数据的获取与分析成为了各行各业不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，凭借其丰富的库和框架，在数据抓取（即网络爬虫）领域展现了极大的优势。本文旨在介绍Python爬虫的基础功能，帮助初学者快速入门，理解爬虫的基本工作原理及常用技术。一、什么是网络爬虫网络爬虫（WebCrawler），又称网络蜘蛛（WebSpider）或网络机器人（WebR
Python学习心得体会 yuetouwen python windows 开发语言
一、引言Python作为一种高级编程语言，以其简洁性、易读性和强大的功能在当今的编程领域中占据着重要地位。在学习Python的过程中，我不仅掌握了一种新的编程工具，更深入地理解了编程的思维方式和逻辑结构。二、语法基础与编程环境搭建Python的语法简洁明了，相较于其他编程语言，其代码更接近自然语言。例如，使用缩进来表示代码块，而不是像C或Java那样使用大括号。在学习初期，我快速掌握了变量的定义、
【Python学习 / 6】面向对象编程（OOP）卜及中 Python基础 python 学习开发语言
文章目录⭐前言⭐一、类和对象：面向对象编程基础1.类（Class）类的组成：例子：定义一个简单的`Dog`类代码解析：2.对象（Object）对象的创建：3.三大特性：封装、继承和多态3.1封装（Encapsulation）封装的实现方式：示例：封装的应用解释：3.2继承（Inheritance）继承的优点：3.3多态（Polymorphism）示例：多态解释：4.`self`参数示例：解释：5.
Python爬虫+数据分析：京东商品评论数据接口代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商领域，商品评论数据蕴含着丰富的信息，如消费者的满意度、产品的优缺点等。京东作为国内知名的电商平台，其商品评论数据对于商家进行市场调研、改进产品，以及消费者了解商品真实情况都具有重要价值。通过获取京东商品评论数据接口，我们可以方便、高效地获取这些有价值的信息，为后续的数据分析和决策提供支持。二、接口概述需要说明的是，京东并没有公开免费的商品评论数据接口供开发者随意使用。如果要获取京东商
python爬虫多线程原理代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
多线程爬虫原理与优势在Python爬虫中，多线程是一种提升爬取效率的有效技术。在传统的单线程爬虫里，每次只能处理一个请求，只有等当前请求完成（包括发送请求、等待响应、解析数据）之后，才能开始下一个请求。而多线程爬虫可以让多个请求同时进行，在等待某个请求响应的时间里，CPU可以去处理其他请求，充分利用了CPU时间，大大提高了爬取效率。多线程爬虫的实现步骤1.引入必要的库importrequestsi
Python爬虫+数据分析：淘宝商品评论页面数据代码逐梦人爬虫技能晋升路线 python 爬虫数据分析
一、引言在电商平台中，商品评论包含了大量消费者的反馈信息，这些信息对于商家了解产品优缺点、改进服务，以及消费者做出购买决策都具有重要价值。淘宝作为国内知名的电商平台，其商品评论页面的数据蕴含着丰富的信息。通过Python爬虫技术获取这些数据，并运用数据分析方法进行处理和解读，可以挖掘出有价值的商业洞察。然而，需要注意的是，淘宝有严格的反爬机制，在进行爬虫操作时要遵守相关法律法规和平台规则，避免过度
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要

(.?)
(.?)
(.*?)

你可能感兴趣的:(python学习,爬虫,selenium,xpath,requests)

python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要

(.*?)(.*?)(.*?)

你可能感兴趣的:(python学习,爬虫,selenium,xpath,requests)

(.?)
(.?)
(.*?)