collin_pxy

Spider_权威指南_seeion&cookies_爬虫基本模板（3个类）

# session 与 cookie

# 可能大家对session已经比较熟悉了，也大概了解了session的机制和原理，但是我们在做爬虫时如何会运用到session呢，就是接下来要讲到的会话保持。
# 首先说一下，为什么要进行会话保持的操作？
# requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该
# 网站的其他网页都会默认使用该session之前使用的cookie等参数尤其是在保持登陆状态时运用的最多，在某些网站抓取，或者app抓取时，有的时强制登陆，
# 有的是不登陆返回的数据就是假的或者说是不完整的数据，那我们不可能去做到每一次请求都要去登陆一下怎么办，就需要用到保持会话的功能了，我们可以
# 只登陆一次，然后保持这种状态去做其他的或者更多的请求。其次，我们该如何使用会话保持？举一个事例来说明一下：

#requests.session():维持会话,可以让我们在跨请求时保存某些参数
 
import requests
 
#实例化session
session = requests.session()
url = 'https://www.douban.com/accounts/login'
form_data = {
    'source': 'index_nav',
    'form_email': 'xxx',
    'form_password': 'xxx',
    'captcha-solution': 'stamp',
    'captcha-id': 'b3dssX515MsmNaklBX8uh5Ab:en'}
#设置请求头
req_header = {
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
 
#使用session发起请求
response = session.post(url,headers=req_header,data=form_data)
if response.status_code == 200:
    #访问个人主页：
    url = 'https://www.douban.com/people/175417123/'
    response = session.get(url,headers = req_header)
    if response.status_code == 200:
        with open('douban3.html','w') as file:
            file.write(response.text)

            

import requests
import time
mycookie = { "PHPSESSID":"56v9clgo1kdfo3q5q8ck0aaaaa" }
x = requests.session()
requests.utils.add_dict_to_cookiejar(x.cookies,{"PHPSESSID":"07et4ol1g7ttb0bnjmbiqjhp43"})
x.get("http://127.0.0.1:80",cookies = mycookie)
time.sleep(5)
#请求以后抓包可以检验一下是不是添加成功
x.get("http://127.0.0.1:80")

# 这样，通过requests.utils.add_dict_to_cookiejar对session对象设置cookie，之后所有的请求都会自动加上我自定义的cookie内容。
# 也可以通过requests.utils.cookiejar_from_dict 先生成一个cookiejar对象，到时候再赋值给session.cookies。
# 貌似还可以使用session.cookies.set()或者update()。

# 另外说一点单独处理cookie字段，处理为字典格式:
cookie = "SINAGLOBAL=821034395211.0111.1522571861723; wb_cmtLike_1850586643=1; [email protected]; wb_timefeed_1850586643=1; UOR=,,login.sina.com.cn; wvr=6; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWsNeq71O_sXkkXNnXFHgOW5JpX5KMhUgL.Fo2RSK5f1hqcShe2dJLoI0qLxK-L12qLB-zLxKqL1hnL1K2LxK-LBo5L12qLxKqL1hML1KzLxKnL1K.LB-zLxK-L1K-LBKqt; YF-V5-G0=c99031715427fe982b79bf287ae448f6; ALF=1556795806; SSOLoginState=1525259808; SCF=AqTMLFzIuDI5ZEtJyAEXb31pv1hhUdGUCp2GoKYvOW0LQTInAItM-ENbxHRAnnRUIq_MR9afV8hMc7c-yVn2jI0.; SUB=_2A2537e5wDeRhGedG7lIU-CjKzz-IHXVUm1i4rDV8PUNbmtBeLVrskW9NUT1fPIUQGDKLrepaNzTEZxZHOstjoLOu; SUHB=0IIUWsCH8go6vb; _s_tentry=-; Apache=921830614666.5322.1525261512883; ULV=1525261512916:139:10:27:921830614666.5322.1525261512883:1525239937212; YF-Page-G0=b5853766541bcc934acef7f6116c26d1"
cookie_dict = {i.split("=")[0]: i.split("=")[1] for i in cookie.split("; ")}
 

    
    
    
# 实例：    
import requests
from bs4 import BeautifulSoup


def getPage(url):
    """
    Utilty function used to get a Beautiful Soup object from a given URL
    """

    session = requests.Session()   # requests.session():维持会话,可以让我们在跨请求时保存某些参数

    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
               'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
    try:
        req = session.get(url, headers=headers)
    except requests.exceptions.RequestException:
        return None
    bs = BeautifulSoup(req.text, 'html.parser')
    return bs

# 第四章内容--处理不同的网站布局：
# 我们想在功能类似的网站上抓取类似内容时，往往这些网站的内容可能布局不一样（相同内容的标签可能不同），由于通常我们爬取的网站数量有限，
# 我们没有必要去开发比较一套统一的复杂的的算法或机器学习来识别页面上的哪些文字看起来像标题或段落，只需要手动的去检查网页元素，分别对
# 不同的网站采用不同的方式去爬取就好了：


# 示例 1：书上的例子，不没法跑通。
import requests

class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body


def getPage(url):
    req = requests.get(url)
    return BeautifulSoup(req.text, 'html.parser')


def scrapeNYTimes(url):
    bs = getPage(url)
    title = bs.find('h1').text
    lines = bs.select('div.StoryBodyCompanionColumn div p')  # nytime独有的布局
    body = '\n'.join([line.text for line in lines])
    return Content(url, title, body)

def scrapeBrookings(url):
    bs = getPage(url)
    title = bs.find('h1').text
    body = bs.find('div', {'class', 'post-body'}).text       # brookings独有的布局
    return Content(url, title, body)


url = 'https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/'
content = scrapeBrookings(url)
print('Title: {}'.format(content.title))  
print('URL: {}\n'.format(content.url))
print(content.body)

url = 'https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html'
content = scrapeNYTimes(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

# 示例 2： 修改的示例 1
import requests
from bs4 import BeautifulSoup

class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body


def getPage(url):
    html = requests.get(url)
    return BeautifulSoup(html.content,'html.parser')  # 注，此处使用 html.text时将会导致乱码

def scrapeGushidaquan(url):
    bs = getPage(url)
    title = bs.find('h2').text
    body = bs.find('div', {'class', 'tsrtInfo'}).text                              # Gushidaquan独有的布局
    return Content(url, title, body)

def scrapeRensheng5(url):
    bs = getPage(url)
    title = bs.find('h1').text
    body = bs.find_all('p')[0].text # 段落    NavigableString对象.text为 string     # Rensheng5独有的布局
    return Content(url, title, body)



url = 'https://www.gushidaquan.cc/'
content = scrapeGushidaquan(url)
print('Title: {}'.format(content.title))  
print('URL: {}\n'.format(content.url))
print(content.body)

print("-"*15)

url = 'http://www.rensheng5.com/zx/onduzhe/'
content = scrapeRensheng5(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

Title: 故事大全
URL: https://www.gushidaquan.cc/

 　　小三，是通过互联网流行起来的一个词，是对第三者的蔑称。是爱情小说及家庭伦理故事恒久的元素，也是当前不可否认的社会现象。在民间还有狐狸精、邪花等贬称。
今天故事大全小编给您推荐几篇关于小三的精彩故事。有的故事比较长，建议您边看边收藏哦。... 
---------------
Title: 读者在线阅读
URL: http://www.rensheng5.com/zx/onduzhe/

　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

# 我们还是有办法来处理针对不同网页布局的爬取的，即把 各网站的不同点：name,url,css选择器等信息作为参数传递给
# bs.find()或 bs.find_all()的 tag/tag_list,attribues_dict参数 ,或传递给 bs.select() 来定义网站的结构及目标数据的位置。


# 总结：
# 3个类：
# content--用来存储所获取的数据的相关信息
# Website--用类来存储目标数据所在网页的 name,url,titleTag，structure等信息   
# Crawler--用来爬取数据:获取 bs,解析bs 获取 title，body对象，存储数据信息到 content对象。


# 有一点不明白： url为什么单独给，而不使用 website对象里的 url？


class Content:
    """
    用来存储所获取的数据的相关信息
    """
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body

    def print(self):  # 将 打印或数据持久化的工作封装到函数里。
        """
        Flexible printing function controls output
        """
        print('URL: {}'.format(self.url))
        print('TITLE: {}'.format(self.title))
        print('BODY:\n{}'.format(self.body))

 
    
class Website:
    """ 
    用类来存储目标数据所在网页的 name,url,titleTag，structure等信息   
    """
    def __init__(self, name, url, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.titleTag = titleTag
        self.bodyTag = bodyTag


        
import requests
from bs4 import BeautifulSoup


class Crawler:
    # 获取 bs
    def getPage(self, url):
        try:
            html = requests.get(url)
        except requests.exceptions.RequestException:
            return None
#         return BeautifulSoup(html.text, 'html.parser')
        return BeautifulSoup(html.content, 'html.parser')
    
    # 解析 bs获取 tag对象
    def safeGet(self, pageObj, selector):
        """
        Utilty function used to get a content string from a Beautiful Soup object and a selector. 
        Returns an empty string if no objectis found for the given selector
        """
        selectedElems = pageObj.select(selector)
        if selectedElems is not None and len(selectedElems) > 0:
            return '\n'.join([elem.get_text() for elem in selectedElems])
        return ''
    
    #  调用上面两个方法，并将获得的 tag对象 实例化存储到 Content对象里。
    def parse(self, site_obj, url):
        """
        调用 getPage()获取包含目标数据的 bs对象，使用 safeGet()解析 bs对象的 title和 body,非空时存储到 content里
        """
        bs = self.getPage(url)
        if bs is not None:
            title = self.safeGet(bs, site_obj.titleTag)
            body = self.safeGet(bs, site_obj.bodyTag)
            if title != '' and body != '':
                content = Content(url, title, body)
                content.print()  # 调用封装后的 print()

                
if __name__=='__main__': 
#     # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：
#     siteData = [
#         ['O\'Reilly Media', 'http://oreilly.com', 'h1', 'section#product-description'],
#         ['Reuters', 'http://reuters.com', 'h1', 'div.StandardArticleBody_body_1gnLA'],
#         ['Brookings', 'http://www.brookings.edu', 'h1', 'div.post-body'],
#         ['New York Times', 'http://nytimes.com', 'h1', 'div.StoryBodyCompanionColumn div p']
#     ]
#     # 将上述信息实例化成 website对象：
#     websites = []
#     for site in siteData:
#         site_obj=Website(site[0], site[1], site[2], site[3])
#         websites.append(site_obj)

#     crawler = Crawler()
#     crawler.parse(websites[0], 'http://shop.oreilly.com/product/0636920028154.do')
#     crawler.parse(websites[1], 'http://www.reuters.com/article/us-usa-epa-pruitt-idUSKBN19W2D0')
#     crawler.parse(websites[2], 'https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/')
#     crawler.parse(websites[3], 'https://www.nytimes.com/2018/01/28/business/energy-environment/oil-boom.html')

    # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：
    siteData = [
        ['故事大全', 'http://www.brookings.edu', 'h2', 'div.bigtit'],
        ['人生故事', 'http://nytimes.com', 'p', 'div.zzinfo']
    ]
    # 将上述信息实例化成 website对象：
    websites = []
    for site in siteData:
        site_obj=Website(site[0], site[1], site[2], site[3])
        websites.append(site_obj)

    crawler = Crawler()
    crawler.parse(websites[0], 'https://www.gushidaquan.cc/')
    crawler.parse(websites[1], 'http://www.rensheng5.com/zx/onduzhe/')

URL: https://www.gushidaquan.cc/
TITLE: 故事大全
每日
故事
爱情故事
鬼故事
故事会
奇谈怪事
民间故事
幽默故事
传奇故事
哲理故事
人生故事
范文
情话大全
健康资讯
BODY:

故事大全
上网看故事，首选故事大全，阅读量排名第一的故事网站！

URL: http://www.rensheng5.com/zx/onduzhe/
TITLE: 　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

读者在线阅读_读者文摘在线阅读
Copyright © 人生屋 版权所有


BODY:

读者在线阅读
　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。
[人生]

声名20-06-24
有原则的人生最幸福20-06-23
父亲的墨水20-06-22
与母亲相守50天20-06-22
你不是世界的中心20-06-22
海上的父亲20-06-22

[人物]

三老道喜图20-06-22
俯首甘为孺子牛20-06-22
靛蓝商人20-06-22
塬下写作20-06-22
我的小说有辣子和葱20-06-21
见客记20-06-20

[文苑]

海明威的红笔20-06-22
温柔的讲述者20-06-22
我在等你啊20-06-22
春天等不来20-06-21
生有时，寐有时20-06-21
我的目光清澈20-06-20

[社会]

经济学何为20-06-24
给跳蚤穿靴子20-06-24
科技智人20-06-24
常态化偏见20-06-24
相见恨晚20-06-24
帮助别人才是文明的起点20-06-24

[生活]

我的命运是一座花园20-06-24
夜航船20-06-22
当特色菜遇上口味菜20-06-22
为什么看过的电纸书容易忘20-06-22
三泡茶20-06-22
被疫情改变的习惯20-06-22

[文明]

宋画里的医者日常20-06-22
饭不厌诈20-06-22
孤独的52赫兹20-06-20
用人之策20-06-20
“卫生”之起源20-05-22
绘画中的食物20-05-22

[点滴]

蛇与仙鹤20-06-24
真痴20-06-24
山的意义20-06-24
欲望20-06-21
傻气与福气20-06-21
鞋子20-06-21

25.1.18学习内容 The_cute_cat 学习算法数据结构
A-验证栈序列Description给出两个序列pushed和poped两个序列，其取值从1到n(n≤100000)。已知入栈序列是pushed，如果出栈序列有可能是poped，则输出Yes，否则输出No。为了防止骗分，每个测试点有多组数据，不超过5组。Input第一行一个整数q，询问次数。接下来q个询问，对于每个询问：第一行一个整数nn表示序列长度；第二行n个整数表示入栈序列；第三行n个整数表示
一篇文章讲清楚什么是Java的垃圾回收机制？（什么是GC？GC的基本原理是什么？什么是老年代和什么是新生代？什么时候才会发生垃圾回收？）沐闻题 java 面试 GC jvm 垃圾回收机制垃圾回收机制的基本原理新生代和老年代
1.什么是垃圾回收机制Java的垃圾回收机制（GarbageCollection,GC）是其内存管理的核心功能之一。通过GC，Java自动管理对象的生命周期，回收不再使用的对象所占的内存空间2.垃圾回收机制的基本原理垃圾回收的主要任务是识别和回收不再使用的对象。GC的基本工作过程包括：标记阶段：标记所有存活的对象清除阶段：回收所有未标记的对象压缩阶段（可选）：整理内存碎片3.什么是新生代和老年代这
C# 文件操作 DaodaO_Lyw 文件转载 C#
1.创建文件夹//usingSystem.IO;Directory.CreateDirectory(%%1);2.创建文件//usingSystem.IO;File.Create(%%1);3.删除文件//usingSystem.IO;File.Delete(%%1);4.删除文件夹//usingSystem.IO;Directory.Delete(%%1);5.删除一个目录下所有的文件夹//us
深入理解 JUnit 的 @RunWith 注解与自定义 Runner t0_54program junit 数据库 sqlserver 个人开发
在Java开发中，JUnit是一个不可或缺的单元测试框架，它帮助开发者确保代码的质量和稳定性。然而，JUnit的强大之处不仅在于其内置的功能，还在于它允许开发者通过扩展和自定义来满足特定的需求。今天，我们就来深入探讨一下JUnit中的@RunWith注解以及如何通过自定义Runner来实现更灵活的测试逻辑。一、@RunWith注解的作用@RunWith是JUnit提供的一个注解，它允许开发者指定一
Python学习3 柑. 学习
组合数据类型1、序列和索引a、定义序列是一个用于储存多个值的连续空间，每个值都对应一个整数编号，称为索引。索引分为正向递增索引和反向递减索引#正向递增s='helloworld'foriinrange(0,len(s)):print(i,s[i],end='\t\t')print()#反向递减foriinrange(-10,0):print(i,s[i],end='\t\t')print()b、切
C# 中的一个特性（Attribute）[ThreadStatic] CoderIsArt C#c#
[ThreadStatic]是C#中的一个特性（Attribute），用于指示静态字段的值在每个线程中是唯一的。这意味着每个访问该字段的线程都有自己独立的副本，从而避免了线程之间的干扰。关键点：线程特定存储：每个线程都有自己独立的[ThreadStatic]字段实例。静态字段要求：该特性只能应用于静态字段。初始化：在每个线程中，字段会被初始化为默认值（如null、0、false），除非显式设置。示
Docker：3、在VSCode上安装并运行python程序或JavaScript程序 shanshandeisu docker docker vscode python 容器运维 js
1.VSCode上安装并运行python程序：1.1.安装Docker插件1.2.新建自动化脚本DockerFileFROMpython:3.-slim-busterWORKDIR/appCOPY..RUNpip3install-rrequirements.txtCMD["python3","app.py"]COPY，第一个点代表根目录下的所有文件，第二个点表示当前的工作路径。RUN允许我们在创建
使用GDI+、文件和目录和打印API，批量将图片按文件名分组打包成PDF 黄铎彦大三下学期 pdf windows c++
代码写了两个小时，速度太慢（包括学习文档的时间）#include#include#include#includeusingnamespaceGdiplus;#pragmacomment(lib,"Gdiplus.lib")enum{IDLEN=30,FNAME=IDLEN+5,//.pdf};intmain(void){GdiplusStartupInputgsi;ULONG_PTRtok;Gdi
怎么下载网页的视频 666z 音视频
内容来自b站痕继痕迹博主，本人只是部分总结（），有些未整，因为感觉不好用1.用网站-Parsevideo网址:https://pv.vlogdownloader.com/在不登录的情况下可以解析5条网站，登录了是10条-硕鼠网址:http://www.flvcd.com/-视频鱼网址:http://shipinyu.com/可以完全免费使用如果有很想下载却下载不了的视频，可以人工付费下载-一个国外
【MyBatis】处理数据库字段名和Java实体类的属性名不一致的5种方法卡文迪许的引力常量 MyBatis mybatis 数据库 java
在MyBatis中，数据库表中的字段名和实体类的属性名可能不一致，下面是常见的几种方法来处理这种不一致的命名规则。方法1：SQL别名AS在SELECT语句中设置列别名（这是一个基本的SQL特性）可以强行使之匹配。selectuser_idas"id",user_nameas"userName",hashed_passwordas"hashedPassword"fromsome_tablewhere
串联型晶体管稳压电源的设计实验《模拟电子技术仿真实验》实验任务及报告书 CHG727 模电实验单片机
1.实验要求：(1)根据实验题目，进行系统分析，达到系统综合技能训练；(2)研究单相桥式整流、电容滤波电路的特性；(3)学习串联型晶体管稳压电源的设计方法以及主要技术指标的测试方法；2.实验仪器与元器件：(1)实验室仪器：MULTISIM软件、数字示波器、信号发生器、直流稳压电源、万用表、频谱仪等；(2)实验元器件：三极管三个、DIP--16插座一片、电阻若干个、电容若干个，导线若干、面包板（万能
曲率的计算 c栈算法小辰哥微积分微积分
1.弧段弯曲程度越大曲率越大，转角相同弧段越短弯曲程度越大，弧段相同转角越大弯曲程度越大2.直线的曲率处处为0，圆的曲率为半径分之一3.曲率公式：二阶导的绝对值除1+一阶导的平方的和的二分之三次方，而参数方程下，为x的一阶导乘y的二阶导-y的一阶导乘x的二阶导的差除以x的一阶导的平方+y的一阶导的平方和的二分之三次方4.曲率圆的半径为曲率的倒数
大学实验课设无忧 ------ 基于FPGA动态数码管数字时钟 FPGA猫大学实验课设无忧 fpga开发
一、前言动态数码管显示是FPGA开发中常见的应用场景之一，尤其在数字时钟、计数器等设计中广泛应用。本文将介绍如何使用FPGA实现一个基于动态数码管的数字时钟，能够显示时、分、秒。该设计基于XilinxFPGA开发板，使用VerilogHDL编写代码，适合初学者学习和参考。二、设计思路本设计分为以下主要模块：时钟分频模块：将系统时钟分频为1Hz信号，用于计时或符合设计需求的频率。动态扫描模块：控制数
SpringAI集成DeepSeek实战小马不敲代码实战 DeepSeek
SpringAI集成DeepSeek实战教程引言SpringAI作为Spring生态系统中的新成员，为开发者提供了便捷的AI集成方案。本文将详细介绍如何在Spring项目中集成DeepSeek模型，实现智能对话等功能。环境准备在开始之前，请确保您的开发环境满足以下要求：JDK17或更高版本SpringBoot3.xMaven或Gradle构建工具DeepSeekAPI密钥项目配置首先，在pom.x
网络安全 | 入门：理解基本概念和术语 xcLeigh 网络安全知识 web安全 php 安全
网络安全|入门：理解基本概念和术语前言一、什么是网络安全？1.1网络安全的重要性1.2网络安全的三大核心目标（CIA三原则）二、网络安全常见术语2.1防火墙（Firewall）2.2入侵检测系统（IDS）与入侵防御系统（IPS）2.3零信任架构（ZeroTrustArchitecture）2.4漏洞（Vulnerability）2.5漏洞扫描（VulnerabilityScanning）2.6社会
后台管理系统的通用权限解决方案(四)SpringBoot整合Dozer实现对象属性复制维先生d 后台管理系统的通用权限解决方案 spring boot 数据库后端 Dozer beanutils 对象属性复制
1dozer介绍dozer是JavaBean到JavaBean映射器，它以递归方式将数据从一个对象复制到另一个对象。dozer是用来对两个对象之间属性转换的工具，有了这个工具之后，我们将一个对象的所有属性值转给另一个对象时，就不需要再去写重复的调用set和get方法了。dozer其实是对我们熟知的beanutils的封装。2dozer案例1）创建maven工程dozer-demo，并配置其pom.
Springboot整合Dozer ym0913 后端java
一、引入依赖net.sf.dozerdozer5.5.1net.sf.dozerdozer-spring5.5.1二、配置类@ConfigurationpublicclassDozerMapperConfig{@Bean(name="org.dozer.Mapper")publicDozerBeanMappermapper(){DozerBeanMappermapper=newDozerBeanM
Java 毕业设计辅导：毕业答辩不再是噩梦，轻松顺利毕业 Hello毕设之家（专业接毕设） java 课程设计开发语言
毕业答辩是你人生的一个小考验，但也不必太紧张！想要把毕业设计做得既高效又不掉链子？我会带你从设计到实现，再到答辩环节，让你顺利毕业，轻松走向职场！让我们一起把这个“最后一关”变成你职业生涯的第一步！你需要我帮忙的地方：毕业设计的最后冲刺：项目实现后，我们一起整理、优化，让你的毕业设计在答辩时给导师留下深刻印象！不仅系统要好，文档、报告也要完美！答辩辅导：答辩怕什么？我会帮你准备答辩时最常见的问题，
LVS-DR集群搭建 afei00123 Linux
目录1.LVS-DR实验拓扑2.实验环境3.配置LVS3.1IP配置3.2生成ens37:1配置文件3.3配置LVS-DR规则4.配置RealServer4.1配置IP，生成lo:1文件4.2安装httpd服务，编写测试页面4.3关闭ARP转发5.测试6.LVS的多种调度模式1.LVS-DR实验拓扑afeiLVS-DR的特点：（1）NAT模式效率太低；（2）LVS-DR基于2层的数据报文的转发，要
跨语言语义理解与生成：多语言预训练方法及一致性优化策略网罗开发 AI 大模型人工智能深度学习负载均衡
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
使用SingleStoreDB构建高效的AI检索器 qahaj 人工智能 python
在构建现代AI应用时，高效存储和检索向量数据是不可或缺的一环。SingleStoreDB是一款高性能的分布式SQL数据库，不仅支持云端和本地部署，还具备向量存储能力及相关函数（如dot_product和euclidean_distance），能够很好地支持基于向量的应用场景，如文本相似度匹配。本文将以SingleStoreDB为核心，结合LangChain生态系统，展示如何实现一个简单但功能强大的
C++虚函数：解锁多态的“动态密码福鸦 c++c++开发语言
C++虚函数：解锁多态的“动态密码”开篇小故事：遥控器的“智能按钮”假设你有一个万能遥控器，上面只有一个“开关”按钮：按下时，电视会开机，空调会制冷，电灯会亮起。同一个按钮，却能根据设备类型触发不同行为。C++中的虚函数（VirtualFunction）就像这个“智能按钮”，允许基类指针在运行时动态调用子类的具体实现。今天，我们就来揭开虚函数的神秘面纱！一、虚函数是什么？虚函数是C++实现运行时多
Docker部署Kibana8 GitIDEA docker 容器运维
安装Kibana安装Kibana前置创建并配置kibana.yml启动Kibana检查是否启动成功通过页面访问Docker安装Kibana:GitIDEA安装Kibana前置Kibana是一款适用于Elasticsearch的源可用数据可视化仪表板软件。使用docker下载kibanadockerpullkibana:8.13.0查看es的ipdockerinspect809c99acde7f|g
编程语言難釋懷开发语言
在当今数字化的时代，编程语言作为人与计算机交流的桥梁，扮演着至关重要的角色。无论是开发一款手机应用、创建一个网站还是实现复杂的数据分析，选择合适的编程语言都是成功的关键之一。本文将带你走进编程语言的世界，探索它们的基本概念、类型以及如何根据项目需求选择最合适的工具。一、什么是编程语言？编程语言是一种用于编写计算机程序的形式化语言，它定义了一套规则和语法，让开发者能够指示计算机执行特定任务。编程语言
本地运行 DeepSeek-R1 的成本究竟多高？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读本地运行DeepSeek-R1的成本究竟多高？DeepSeek让人们对大规模生成式模型的追求更进一步，甚至有人想在本地跑下规模高达671B参数的版本。但要在家里开这种“巨无霸”，可不是闹着玩的：光是推理就对硬件提出了非常高的要求。这篇文章将大致拆解一下，如果真想在个人电脑上运行DeepSeek-R1，可能需
《Operating System Concepts》阅读笔记：p34-p40 操作系统
《OperatingSystemConcepts》学习第7天，p34-p40总结，总计7页。一、技术总结1.virtualization(虚拟化)(1)定义Atechnologyforabstractingthehardwareofasinglecomputerintoseveraldifferentexecutionenvironments,therebycreatingtheillusiont
《Operating System Concepts》阅读笔记：p26-p33 操作系统
《OperatingSystemConcepts》学习第6天，p26-p33总结，总计8页。一、技术总结timer(1)为什么设置timerWemustensurethattheoperatingsystemmaintainscontrolovertheCPU.Wecannotallowauserprogramtogetstuckinaninfinitelooportofailtocallsyst
CSDN2019博客之星评选——期待各位大佬的投票！十步杀一人_千里不留行程序人生
我的序号是68，68，68！！http://m234140.nofollow.ax.mvote.cn/opage/d4cf886a-057e-1c0d-56f1-3a86340af8fd.html2019年CSDN博客之星年度总评选已开启：68.十步杀一人_千里不留行，微信、QQ、微博渠道可以连投5票哦！扫码为我投票哦：
Python 抽象基类 ABC ：从实践到优雅 python
今天我们来聊聊Python中的抽象基类（AbstractBaseClass，简称ABC）。虽然这个概念在Python中已经存在很久了，但在日常开发中，很多人可能用得并不多，或者用得不够优雅。让我们从一个实际场景开始：假设你正在开发一个文件处理系统，需要支持不同格式的文件读写，比如JSON、CSV、XML等。初始版本：简单但不够严谨我们先来看看最简单的实现方式：classFileHandler:de
Python 并发编程实战：优雅地使用 concurrent.futures python
在Python多线程编程中，concurrent.futures模块提供了一个高层的接口来异步执行可调用对象。今天，我们将通过一个循序渐进的案例，深入了解如何使用这个强大的工具。从一个模拟场景开始假设我们需要处理一批网络请求。为了模拟这个场景，我们使用sleep来代表耗时操作：importtimeimportrandomdefslow_operation(task_id):"""模拟一个耗时的网络
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

Spider_权威指南_seeion&cookies_爬虫基本模板（3个类）

你可能感兴趣的:(Spider_权威指南_seeion&cookies_爬虫基本模板（3个类）)