keep-hungry

python CNKI知网论文数据爬取

标题）

目的
网页入口
爬取思路
代码
总结

目的

爬选定种类（如硕博论文，期刊论文）的标题，作者，发表时间，摘要等信息并存入数据库。

网页入口

使用旧版cnki知网的入口：https://search.cnki.com.cn/Search
过去前人已经做过一部分工作，但由于参数改变，所以爬虫不能再用，本人把这个项目进行了更新，并将爬取数据存到sql数据库中。你可以通过修改数据库存储模块来达到存入csv文件或mysql数据库的功能。

！这个项目不需要模拟登陆，旧版知网也没有速度限制，所以爬取速度很快

爬取思路

以卷积神经网络为例，搜索结果为
搜索结果页：

点开链接后可查看具体内容
详细页面：

于此产生思路：

获取搜索结果页所有的链接，全部存入
根据链接的url，去获取详细页面

举例，第一个任务获取的数据结果是：

第二个任务获取的数据（包含完整摘要）结果是：

第一个任务可以从网页源代码获取信息，因此之直接使用xpath语法即可。下一步需要分析其post时的参数：
画圈的地方是重点，具体解释可参看我之前写的文章

代码

因此有如下代码（我的代码爬取的是摘要含有“舆情”的硕博论文）
参数修改在这一句里面

def __init__(self , url ='http://search.cnki.com.cn/Search/ListResult' , param = {
     'searchType': 'MulityTermsSearch', 'ArticleType':ArticleType, 'ParamIsNullOrEmpty':'true','Islegal':'false', 'Summary':'舆情', 'Type':ArticleType, 'Order':'2', 'Page':'1'})

可以使用上面的代码搜索下面的程序，再参照上面的抓包分析截图，即可知道在哪儿修改自己需求的参数。（为爱发电嘛，主要整理下思路方便自己以后复习，我也不做便利的接口了）

# -*- coding:utf-8 -*-
import sys
import requests
import math
import io
import time
import os
from lxml import etree
import sql_conn



sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
record = 'CNKI'
articleType = "博士"
if articleType == "博士":
    ArticleType = 3
    Type = 3
else:
    ArticleType = 4
    Type = 4


page_url = 20   #每页显示21篇论文
class POST:
    "获得url返回信息"
    def __init__(self , url ='http://search.cnki.com.cn/Search/ListResult' , param = {
     'searchType': 'MulityTermsSearch', 'ArticleType':ArticleType, 'ParamIsNullOrEmpty':'true','Islegal':'false', 'Summary':'舆情', 'Type':ArticleType, 'Order':'2', 'Page':'1'}):
        self.url = url
        self.header = {
     
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
        self.param = param
        
    def response(self):
        html = requests.post(url=self.url,data=self.param,headers=self.header)
        return html.text

def get_pages(html):  #获取总页数
    tree = etree.HTML(html)
    papers = tree.xpath('//input[@id="hidTotalCount"]/@value')[0]
    print(papers)
    pages = math.ceil(int(papers) / page_url)
    return pages

def get_paper_url(pages,post_form):
        
    conn = sql_conn.conn_sql()
    sql_conn.create_tab(conn)
    cursor = conn.cursor()
    
    for i in range(1, pages+1):
        post_form['Page'] = str(i)
        try:
            emp2 = POST(param = post_form)            #使用默认参数
            response = emp2.response()
            tree = etree.HTML(response)
        except:
            print("出错跳过")
            continue
        for num in range(1,page_url+2):                 #每页有20个herf,,xpath从1起始
            try:
                url = (tree.xpath('//div[@class="lplist"]/div['+str(num)+']/p/a/@href')[0])
                title = (tree.xpath('//div[@class="lplist"]/div['+str(num)+']/p/a/@title')[0])
                 #放在数组里面，然后每页存进txt文档一下
                author = (tree.xpath('//div[@class="lplist"]/div['+str(num)+']/p[3]/span[1]/@title')[0])
                dt = {
     'PaperName':title,'PaperUrl': url,'Author':author}     #字典
                sql_conn.store_to_sql(dt,conn,cursor)  #每条写入一次


            except:
                continue
            
        print(url)          
        print(title)
        print(author)
        
        
        #获取结束时间
        end=time.clock()
        print('获取文章详情页链接共用时：%s Seconds'%(end-start))





if __name__ == '__main__':
    #获取开始时间
    start=time.clock()

    
    # 避免之前的内容重复爬取
    if os.path.exists('data-detail.txt'):
        print("存在输出文件，删除文件")
        os.remove('data-detail.txt')    
    # 获取页数，可以根据搜索关键词进行url修改，这里是“大数据”
    index_url = 'http://search.cnki.com.cn/Search/ListResult'
    page = '1'
    form = {
     'searchType': 'MulityTermsSearch', 'ArticleType':ArticleType, 'ParamIsNullOrEmpty':'true','Islegal':'false', 'Summary':'舆情', 'Type':Type, 'Order':'1', 'Page':page}
    emp1 = POST(index_url,form)               #创建第一个类对象，用于获得返回数据
    html1 = emp1.response()
    maxpage = get_pages(html1)          #最大页数
    print('The total page is:', maxpage)
    get_paper_url(maxpage,form)# 获取各检索结果文章链接

上面的文件要调用sql_conn.py文件，下面是sql_conn.py文件，存入数据库。可修改为存入csv文件（需要自己改）

import pymssql 

DataBase = 'CNKI'



def conn_sql():
    server = "127.0.0.1"
    user = "sa"
    password = "123456"
    conn = pymssql.connect(server, user, password, DataBase)
    return conn

def create_tab(conn):    #create table(if not exists)
    
    table_name = 'url_title'   #表的名字
    cursor = conn.cursor()
    #sql语句一定要注意，中文要用单引号
    sentence = 'USE \"'+DataBase+'\"\
    if not exists (select * from sysobjects where id = object_id(\''+table_name+'\')and OBJECTPROPERTY(id, \'IsUserTable\') = 1) \
    CREATE TABLE \"'+table_name+'\"\
    (NUM int IDENTITY(1,1),\
    PaperName VARCHAR(100) NOT NULL,\
    PaperUrl VARCHAR(100) NOT NULL,\
    Author VARCHAR(100) NOT NULL\
    ) '
    cursor.execute(sentence)
    conn.commit()
    cursor.close()
    
    
def create_detail_tab(table):           #创建详细信息表，表的名字由调用文件传入
     conn = conn_sql()
     cursor = conn.cursor()
     sentence = 'USE \"'+DataBase+'\"\
    if not exists (select * from sysobjects where id = object_id(\''+table+'\')and OBJECTPROPERTY(id, \'IsUserTable\') = 1) \
    CREATE TABLE \"'+table+'\"\
    (NUM int IDENTITY(1,1),\
    PaperName VARCHAR(100) NOT NULL,\
    PaperUrl VARCHAR(100) NOT NULL,\
    Author VARCHAR(100) NOT NULL,\
    School VARCHAR(50) NOT NULL,\
    Year VARCHAR(20) NOT NULL,\
    Degree VARCHAR(50) NOT NULL,\
    Abstracts VARCHAR(8000) NOT NULL\
    ) '
     
     cursor.execute(sentence)
     conn.commit()
     cursor.close()
def store_to_detial(tbname,dt):
    try:
        conn = conn_sql()
        cursor = conn.cursor()
        tbname = '['+tbname+']'
        ls = [(k,v) for k,v in dt.items() if k is not None]
        sentence = 'IF NOT EXISTS ( SELECT  * FROM '+tbname+' WHERE PaperName =\''+str(ls[0][1])+'\') \
                INSERT INTO %s (' % tbname +','.join([i[0] for i in ls]) +') VALUES (' + ','.join(repr(i[1]) for i in ls) + ');'
        cursor.execute(sentence)
        conn.commit()
        cursor.close()
    except Exception as e:
            print('Error: ', e)
  
def store_to_sql(dt,connect,cursor):    #insert or just change the information
    print("1")
    tbname = '['+table_name+']'
    ls = [(k,v) for k,v in dt.items() if k is not None]
    sentence = 'IF NOT EXISTS ( SELECT  * FROM '+tbname+' WHERE PaperName =\''+str(ls[0][1])+'\') \
                INSERT INTO %s (' % tbname +','.join([i[0] for i in ls]) +') VALUES (' + ','.join(repr(i[1]) for i in ls) + ');'
    print(sentence)
    cursor.execute(sentence)
    connect.commit()
    return ""


def read_sql(conn,sentence):
    cursor = conn.cursor()
    cursor.execute(sentence)
    result = cursor.fetchall()
    conn.commit()
    cursor.close()
    return result  #返回为字典形式

数据库存储完了结果，第二次循环得到的url，即下图，以图得到详细数据

第二次循环还需要调用一个名叫spider_paper的文件：

import requests


def response_get(url):
    headers = {
     
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
                }
    html = requests.get(url=url, headers = headers)
    return html.text

下面是第二次循环爬取论文详细数据，调用上面已经给出的sql_conn.py把爬取的数据存储数据库内

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import time
import sql_conn
import spider
import str


def get_visit_url_list(cols,table_name):
    str = ','
    cols = str.join(cols)
    
    connection = sql_conn.conn_sql()
    sql_cmd = 'select '+cols+'  from ' +table_name
    result = sql_conn.read_sql(connection,sql_cmd)
    return result

    
def find_str(begain,text):
    result_find = ""
    flag =  0  #用于控制提取’：‘后的文字
    for k in range(begain, len(text)):
        if text[k] == '：':
            flag = 1
            continue
        if flag == 1:
            if text[k] == '\n' or text[k] == '\t' or text[k] == '\r' or \
                        text[k] == '】':
                continue
            if text[k] == ' ' and text[k + 1] == ' ':
                continue
            if text[k] != '【':
                result_find = result_find + text[k]
            if text[k] == '【' and k != begain:
                break
    return result_find


def get_detail_url(table_name):            #获得数据库中detail表里已有数据，并返回list
    connection = sql_conn.conn_sql()
    sql_cmd = 'select PaperUrl from ' + table_name   #读取detail表
    detail_url_list = sql_conn.read_sql(connection,sql_cmd)
    result_list = []
    for record in detail_url_list:
        result_list.append(record[0])
    return result_list


def spider_paper():
    start = time.clock()     #开始计时，统计总共花的时间
    sql_conn.create_detail_tab('detail_info')
    
    Aimist = ['PaperName','Author','PaperUrl']
    AimTable = 'url_title'
    lines = get_visit_url_list(Aimist,AimTable)
    txt_num = 1
    lin_num = 1
    detail_url_list = get_detail_url('detail_info')
    print(detail_url_list[1:10])
    process = 0    #统计第多少次循环。方便显示运行进度
    for line in lines:
        process+= 1
        print("当前进度：{}%".format(process / len(lines) * 100))
        try:
            #sleep(random.randint(1,3)) 
            paper_url = line[2]          #每个tuple的第三个存储url
            if paper_url in detail_url_list:
                print("跳过")
                continue
            print(line[0])
            detail_url_list.append(paper_url)
            attempts = 0
            success = False
    
            html = spider.response_get("http:"+paper_url)
    
            soup = BeautifulSoup(html, 'html.parser')
            success = True
    
            title = soup.find_all('div', style="text-align:center; width:740px; font-size: 28px;color: #0000a0; font-weight:bold; font-family:'宋体';")
            abstract = soup.find_all('div', style='text-align:left;word-break:break-all')
            author = soup.find_all('div', style='text-align:center; width:740px; height:30px;')

            #获取作者名字
            for item in author:
                author = item.get_text()
            # print(item)
            #获取摘要信息
            tmp = ''
            for thing in abstract:
                a = thing.strings
                for string in a:
                    tmp = tmp + string
                txt_num += 1
            result = tmp.split(' ')
            tstr = ''
            for t in result:
                test = t.split('\n')
                # print(test)
                if test != '\t' and test != '\n' and test != '\r' and test != '':
                    for i in test:
                        if len(i) > 1:
                            item = i.split('\r')
                            for j in item:
                                object = j.split('\t')
                                for k in object:
                                    tstr += k
    
            ifreferen = soup.find_all('td', class_='b14', rowspan='2')
       
            # 获取作者单位，处理字符串匹配
            authorUnitScope = soup.find('div', style='text-align:left;', class_='xx_font')
            author_unit = ''
            author_unit_text = authorUnitScope.get_text()
            # print(author_unit_text)
            
            if '【作者单位】：' in author_unit_text:
                auindex = author_unit_text.find('【作者单位】：', 0)
            else:
                auindex = author_unit_text.find('【学位授予单位】：', 0)
            author_unit = find_str(auindex,author_unit_text)
            
            # 获取关键字
            if '【学位级别】：'  in author_unit_text:
                    degreedex = author_unit_text.find('【学位级别】：', 0)
                    degree = find_str(degreedex,author_unit_text)
            else:
                degree = "非学位论文"
            
            if '【关键词】：'  in author_unit_text:
                kwindex = author_unit_text.find('【关键词】：', 0)
                key_word = find_str(kwindex,author_unit_text)
            else:
                key_word = "未提供关键词"
                
            if '【学位授予年份】：'  in author_unit_text:
                yeardex = author_unit_text.find('【学位授予年份】：', 0)
                year = find_str(yeardex,author_unit_text)
            else:
                year = "未提供硕士论文发表年份"
            tstr = tstr.replace("【摘要】：", "")
            """
            print(author)
            print(author_unit)
            print(tstr)
            print(degree)
            print(year)
            """
    
            data = dict(PaperName = line[0], PaperUrl = line[2], Author = str.delet(author),School = str.delet(author_unit),Abstracts = str.delet(tstr),\
                         Degree = str.delet(degree), Year = str.delet(year))
            sql_conn.store_to_detial('detail_info',data)
        except Exception as e:
            print('Error: ', e)
            
    end = time.clock()
    print('Running time: %s Seconds' % (end - start))


if __name__ == '__main__':
    spider_paper()

总结

如此，爬取完成。有问题欢迎评论区留言，看的人多以后也许会细化这个project，解释一些控制参数是如何设置的。

「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
ocp考试有判断题吗?多少分及格? m0_65303136 开闭原则
ocp考试有判断题吗?多少分及格?OCP考试没有判断题。OCP考试指的是OracleOCP中级认证考试，是数据库领域非常有含金量的一种认证，如果拿到OCP证书对于个人入职或者涨薪都有帮助。OCP考试，可以说是数据库领域最值得考的一个认证，根据最新的OCP19c认证考试要求，以下是考试题型和通过成绩的详细信息：考试题型OCP认证考试均为全英文选择题，包括单选题和多选题，没有操作题或其他题型(如判断题
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
golang接口用法-代码案例 JavaPub-rodert golang golang 开发语言后端
文章目录Go语言中接口（interface）的含义接口的常见应用场景示例1示例2（Dog和Cat）使用场景-多数据库Go语言中接口（interface）的含义接口在Go语言中是一种类型，它定义了一组方法的集合。一个类型只要实现了接口中定义的所有方法，就认为该类型实现了该接口。接口不关心具体的实现细节，只关心方法的签名（即方法的名称、参数和返回值类型）。接口可以看作是不同类型之间的桥梁，它允许不同类
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

python CNKI知网论文数据爬取

标题）

目的

网页入口

爬取思路

代码

总结

你可能感兴趣的:(数据库,python,python,爬虫)