永不言弃h

爬虫学习记录之Python 爬虫实战：某评分网站的Top250的书单详情

【简介】这里我们利用之前所学习的相关模块，爬取网站上top250的书单详情，最终我们将爬取出来的数据持久化存储为表格文件，使用sqlalchemy将持久化数据输入到postgresql数据库中

文章目录

1.爬取页面信息
- 1.1导入所需模块
- 1.2定义变量
- 1.3.爬取数据
- 1.4 完整代码如下
2.爬取网页图片
3.这里我们再将数据信息存储到postgres数据库当中
- 3.1创建Flask应用
- 3.2创建数据库表
- 3.3将数据存储到数据库中

1.爬取页面信息

1.1导入所需模块

在这份代码中，主要利用Python爬虫爬取豆瓣阅读书籍排行榜的前250名，并把每本书的详细信息、封面、网址和书名存储到一个CSV文件中。下面我们来逐步讲解一下代码。

导入需要的库
在代码开头导入了以下库，具体作用如下：

import csv
import os
import random
import re
import requests
from bs4 import BeautifulSoup

from main import user_agent_list, mkdir

csv：用于将数据存储到CSV文件中。
os：用于操作文件和目录。
random：用于随机选择用户代理。
re：用于正则表达式。
requests：用于获取网页内容。
BeautifulSoup：用于解析网页。
user_agent_list, mkdir：这里是我自己写的两个函数，第一个是UA伪装池，第二个是创建文件夹的函数。

1.2定义变量

在代码中，定义了一些必要的变量：

book_detail_list = []
book_img_list = []
book_name_list = []
book_url_list = []
book_all_list = []

book_auther_name = []
book_press_name = []
book_publication_time = []
book_price = []

book_detail_list：用于存储每种书籍的详细信息。
book_img_list：用于存储每种书籍的封面图片地址。
book_name_list：用于存储每种书籍的书名。
book_url_list：用于存储每种书籍的网址。
book_all_list：用于存储所有书籍的详细信息，这个变量将被写入CSV文件中。
book_auther_name：用于存储每种书籍的作者姓名。
book_press_name：用于存储每种书籍的出版社名称。
book_publication_time：用于存储每种书籍的出版时间。
book_price：用于存储每种书籍的价格。

1.3.爬取数据

这里写了一个函数用于处理，外文书籍，有翻译作者的情况，可能导致最后数据持久化存储时，格式不统一的情况。
将所有数据统一成一个格式，如下

"""以下代码：数据长度小于或等于4说无翻译作者
我们将索引为1的插入一个空白
"""
def pre_book_deatil(data):
    # 无翻译作者
    if len(data) <= 4:
        data.insert(1, ' ')
        return data
    # 有翻译作者
    else:
        return data

构造URL，每次爬取25本书籍。
随机选择一个用户代理。
发送请求获取HTML文本。
用BeautifulSoup解析HTML文本。
具体实现细节见代码。

if __name__ == '__main__':

    file = 'D:/Li Guochun/spider_book/douban_top250/'
    mkdir(file)
    for i in range(250):
        if i % 25 == 0:
            url = f'https://book.douban.com/top250?start={i}'

            # 添加注释要注意  别添加到字典里面
            headers = {
                'User-Agent': random.choice(user_agent_list),
            }

            # text（字符串） content（二进制） json（对象）

            html = requests.get(url, headers=headers)
            html = html.text
            soup = BeautifulSoup(html, 'lxml')

            # 爬出书本的详细信息
            book_all_detail = soup.find_all('p', {'class': 'pl'})
            for book_datail in book_all_detail:
                temp = book_datail.text
                temp = temp.split('/')
                temp = pre_book_deatil(temp)
                book_detail_list.append(temp)

            # 爬出每本书的封面
            book_all_img = soup.find_all('img', {"src": re.compile("subject")})
            for book_img in book_all_img:
                temp_img = book_img['src']
                book_img_list.append(temp_img)

            # 爬取每本书的网址和书名
            book_all_name_url = soup.find_all('a', href=re.compile('subject'))
            for book_name_url in book_all_name_url[1::2]:
                temp_name = book_name_url['title']
                temp_url = book_name_url['href']
                book_name_list.append(temp_name)
                book_url_list.append(temp_url)

            # 书本信息 按顺序存入列表中
    for i in range(len(book_name_list)):
        temp = []
        temp.append(book_name_list[i])
        temp.append(book_url_list[i])
        temp.append(book_img_list[i])
        for x in book_detail_list[i]:
            temp.append(x)

        book_all_list.append(temp)

存储数据
我们将所有数据存储为一个CSV文件，创建一个名为douban_top250.csv的文件。使用csv.writer将数据写入文件。将book_all_list中每个元素的内容存储为CSV文件的一行。

    # 讲文本存入表格
    # newline='' ：结束行约定
    with open(f"{file}douban_top250.csv", 'w', newline='', encoding='utf-8') as fp:
        writer = csv.writer(fp)
        for row in book_all_list:
            writer.writerow(row)

1.4 完整代码如下

import csv
import os
import random
import re
import requests
from bs4 import BeautifulSoup

from main import user_agent_list, mkdir

book_detail_list = []
book_img_list = []
book_name_list = []
book_url_list = []
book_all_list = []

book_auther_name = []
book_press_name = []
book_publication_time = []
book_price = []


def pre_book_deatil(data):
    # 无翻译作者
    if len(data) <= 4:
        data.insert(1, ' ')
        return data
    # 有翻译作者
    else:
        return data

if __name__ == '__main__':

    file = 'D:/Li Guochun/spider_book/douban_top250/'
    mkdir(file)
    for i in range(250):
        if i % 25 == 0:
            url = f'https://book.douban.com/top250?start={i}'

            # 添加注释要注意  别添加到字典里面
            headers = {
                'User-Agent': random.choice(user_agent_list),
            }

            # text（字符串） content（二进制） json（对象）

            html = requests.get(url, headers=headers)
            html = html.text
            soup = BeautifulSoup(html, 'lxml')

            # 爬出书本的详细信息
            book_all_detail = soup.find_all('p', {'class': 'pl'})
            for book_datail in book_all_detail:
                temp = book_datail.text
                temp = temp.split('/')
                temp = pre_book_deatil(temp)
                book_detail_list.append(temp)

            # 爬出每本书的封面
            book_all_img = soup.find_all('img', {"src": re.compile("subject")})
            for book_img in book_all_img:
                temp_img = book_img['src']
                book_img_list.append(temp_img)

            # 爬取每本书的网址和书名
            book_all_name_url = soup.find_all('a', href=re.compile('subject'))
            for book_name_url in book_all_name_url[1::2]:
                temp_name = book_name_url['title']
                temp_url = book_name_url['href']
                book_name_list.append(temp_name)
                book_url_list.append(temp_url)

            # 书本信息 按顺序存入列表中
    for i in range(len(book_name_list)):
        temp = []
        temp.append(book_name_list[i])
        temp.append(book_url_list[i])
        temp.append(book_img_list[i])
        for x in book_detail_list[i]:
            temp.append(x)

        book_all_list.append(temp)

    # 讲文本存入表格
    # newline='' ：结束行约定
    with open(f"{file}douban_top250.csv", 'w', newline='', encoding='utf-8') as fp:
        writer = csv.writer(fp)
        for row in book_all_list:
            writer.writerow(row)

2.爬取网页图片

这里爬取每本书的封面就比较简单了，上面我们将每本书的图片地址都持久化存储到了csv中，这里我们将表格中的数据读出来，将每个地址遍历一遍。再持久化存储到一个位置中就可以了，图片的本质就是二进制数据，所以我们做数据解析时要使用content 然后再保存，文件后缀为.jpg，即可完成图片的存储。

import random

import requests

from main import user_agent_list, mkdir, _read_book_data

# UA池



book_all_img=[]

if __name__ == '__main__':

    file = 'D:/Li Guochun/spider_book/douban_top250/book_img/'
    mkdir(file)

    book_all_list=_read_book_data()
    for book_list in book_all_list:
        url = book_list[2]
        # 添加注释要注意  别添加到字典里面
        headers = {
            'User-Agent': random.choice(user_agent_list),
        }


        html = requests.get(url, headers=headers)
        html = html.content

        image_name = url.split('/')[-1]
        with open(f'{file}{image_name}','wb') as f:
            f.write(html)

3.这里我们再将数据信息存储到postgres数据库当中

3.1创建Flask应用

我们首先需要创建一个Flask应用，并且使用SQLAlchemy作为ORM将数据存储到PostgreSQL数据库中。在这里我们需要定义一个Douban_top250类来映射与数据库中的表。具体代码如下：

from flask import Flask
from flask_sqlalchemy import SQLAlchemy
from main import _read_book_data

app = Flask(__name__)
app.config['SQLALCHEMY_DATABASE_URI'] = 'postgresql://postgres:postgres@localhost:5432/douban_top250'
app.config['SQLALCHEMY_TRACK_MODIFICATIONS'] = False

db = SQLAlchemy(app)

class Base(db.Model):
    __abstract__ = True
    id = db.Column(db.Integer, primary_key=True, autoincrement=True)

class Douban_top250(Base):
    __tablename__='douban_top250'
    book_name=db.Column(db.String(1024))
    book_url=db.Column(db.String(1024))
    book_img_url = db.Column(db.String(1024))
    book_auther = db.Column(db.String(1024))
    book_translation_auther = db.Column(db.String(1024))
    book_press = db.Column(db.String(1024))
    book_publication_time = db.Column(db.String(1024))
    book_price = db.Column(db.String(1024))

3.2创建数据库表

我们在上面的代码中定义了Douban_top250类，来映射与数据库中的表。接着我们需要使用db.create_all()方法来创建这个表。由于我们使用PostgreSQL数据库，所以在创建数据库之前，请将数据库连接地址修改为对应的数据库连接地址。经过修改后执行这两行命令用于创建表：

db.drop_all()
db.create_all()

3.3将数据存储到数据库中

有了数据库表以后，我们就可以将我们获取到的数据存储到数据库中了。我们使用一个for循环遍历获取到的所有书籍信息，将其存储到Douban_top250的实例中，然后将这些实例添加到数据库中。具体的Python代码如下：

if __name__ == '__main__':
    with app.app_context():
        db.drop_all()
        db.create_all()
    book_all_list = _read_book_data()
    for book_list in book_all_list:
        try:
            with app.app_context():
                book = Douban_top250(book_name=book_list[0],
                                     book_url=book_list[1],
                                     book_img_url=book_list[2],
                                     book_auther=book_list[3],
                                     book_translation_auther=book_list[4],
                                     book_press=book_list[5],
                                     book_publication_time=book_list[6],
                                     book_price=book_list[7])
                db.session.add(book)
                db.session.commit()
        except IndexError:
            print(f'{book_list[0]} list index out of range')

你可能感兴趣的:(爬虫,python,爬虫,学习)

5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
一次XSS漏洞引发的用户信息泄露 —— 在线教育平台真实案例剖析与防御实践
一、引子：一个“学习感言”输入框引发的安全事故在一次大型在线教育平台的开发中，笔者曾亲身经历过一起严重的安全事故。事故的起点很微不足道：一个允许用户提交“学习感言”的输入框。然而，由于缺乏安全意识和输入输出处理的规范，这个字段成为攻击者入侵的跳板，最终导致大量用户信息泄露、信任危机和平台业务受损。这个案例虽然已过去多年，但其中反映的安全盲点依然广泛存在于当前的互联网项目中，特别是在中小团队、快速上
Redis缓存四件套的学习(七) 冷崖 Redis redis 缓存
一、缓存四件套1.1、缓存预热1.1.1、什么是缓存预热缓存预热就是在系统启动前，将数据提前加载到缓存中，这样就可以避免在用户请求的时候，先查询数据库，然后再将数据回写到缓存中1.1.2、如何实现缓存预热什么都不做，只对数据库操作，利用redis回写机制，逐步将数据库的数据同步到缓存中。-------最好晚上部署完成之后，自己人提前做一次，让数据写回缓存，别把这个问题交给用户。通过中间件或程序自行
AI赋能，让办公更智能 enter回车键人工智能
AI赋能：解锁办公智能化新图景当智能化办公成为企业创造新价值的核心引擎，AI技术正以其强大的学习能力与数据处理能力，成为这场办公变革的“隐形推手”。从流程自动化到决策智能化，从单向执行到双向协作，AI正全方位渗透办公场景的每一个环节，让办公更高效、更精准、更具创造力。AI为办公流程注入“自动化基因”，将人类从机械劳动中彻底解放。传统办公中，员工需花费30%以上的时间处理重复性任务：财务人员逐张核对
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
老码农和你一起学AI：Python系列-Pandas 并行计算 chilavert318 熬之滴水穿石 pandas python
但凡用到科学计算，Pandas几乎是绕不开的工具——它以简洁的API、灵活的数据操作能力成为数据处理的“瑞士军刀”。但随着数据量增长（比如从10万行到1000万行），你可能会发现：原本流畅的代码突然变慢了，一个简单的apply操作要等好几分钟，读取大文件时进度条仿佛凝固了。这不是你的代码有问题，而是原生Pandas的“单线程”基因在多核时代遇到了瓶颈。并行计算正是解决这个问题的核心方案。简单来说，
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
深化学思践悟，激发奋进动能扎实开展主题教育活动，着力提升干部干事创业真本领 62ab9e7a8a7b
在全党开展学习贯彻习近平新时代中国特色社会主义思想主题教育，是推动贯彻党的二十大战略部署的有力举措，是深入推进新时代党的建设新的伟大工程的重大部署。领导干部要牢牢把握“学思想、强党性、重实践、建新功”总要求，聚焦凝心铸魂筑牢根本、锤炼品格强化忠诚、实干担当促进发展、践行宗旨为民造福、廉洁奉公树立新风的目标，以学铸魂、以学增智、以学正风、以学促干，着力为全面建设中国式现代化隆德凝聚力量。习近平总书记
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
PYTHON日志神器nb_log详细介绍和使用说明
个人主页：云纳星辰怀自在座右铭：“所谓坚持，就是觉得还有希望！”Python的nb_log是一个功能强大且高度灵活的日志记录模块，基于Python内置的logging模块封装，解决了传统日志库的常见痛点（如重复打印、配置复杂等），并增加了多项创新特性。一、核心特性与优势智能print增强自动捕获所有print输出，添加文件名+行号标记（如[demo.py:18]）支持IDE控制台点击跳转源码位置开
基于 Python 对于Nacos 服务订阅流程的深度剖析 chilavert318 熬之滴水穿石 python 开发语言 nacos
记得去年在外省给某事业单位给科技处的领导作关于国产化微服务项目的汇报，该处长要我详细讲解一下Nacos的来龙去脉。我问他为什么要单独了解这块，他说现在国产化已经是趋势了，他其实也想深度的了解一下，这款产品是如何演化而来，希望通过了解该产品的来龙去脉深度思索一下，他所辖范围之内系统国产化的一些思路。记得当时我也是做足了工作，然后选择一个时间给他单独汇报，会后领导反响还不错，领导总结道：Nacos适应
有个人沉淀的石头
从前有个小孩儿，打小就跟父母务工在外。去过上海，待过浙江，更是在河北生活十几年。于老家的记忆，只是一些泥泞的路，破瓦的房，还有印象模糊的几个老人。他在河北，因为口音上的差异，不愿意与当地人说话，不愿意上学，直到9岁才上了一年级，这也导致了要比同年级同学大上两岁。他后来学习很好，小学到初中，一直都是班级前三名。老师们喜欢，同学们喜欢，也一直是父母的骄傲。一路顺风顺雨，过多的溢美之词形成了强烈自尊心与
活在回忆中的人‖第一章 “别人家的孩子”啊胜啊胜lwj
第一章“别人家的孩子”啊胜都说孩子是父母的骄傲，听话懂事的孩子总会成为别人夸赞的对象，也总会成为别的父母教育他们孩子的榜样，所以孩子经常会听到这样一句话:“你看看别人家的谁谁谁，人家学习好，会干活，又懂事，有礼貌，再看看你……”，但是榜样其实也很难做，最可怕的就是父母也认可自己孩子是榜样了这个标准，那孩子就不能犯一点点的错误，俗话说，老天为你关了一扇门，就会为你打开一扇窗，这大概就是有得必有失吧，
Python爬取网易云音乐歌手歌曲和歌单！推荐好听的歌吗？爬遍天下无敌手 Python http https python ssl servlet
仅供学习参考Python爬取网易云音乐网易云音乐歌手歌曲和歌单，并下载到本地①找到要下载歌手歌曲的链接，这里用的是：https://music.163.com/#/artist?id=10559然后更改你要保存的目录，目录要先建立好文件夹，例如我的是保存在D盘-360下载-网易云热歌榜文件夹内，就可以完成下载。如果文件夹没有提前建好，会报错[Errno2]Nosuchfileordirectory
python class是什么,python中的class是什么
1、概念用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。2、类定义的语法classClassName:...3、实例为了代码的编写方便简洁，引入了类的定义；一般，使用class语句来创建一个新类，class之后为类的名称(通常首字母大写)并以冒号结尾，例如:、classTicket():def__init__(self,checi,fstation,tstat
java中字符串的创建_Java学习之字符串的创建 weixin_39849127 java中字符串的创建
Java字符串类(java.lang.String)是Java中使用最多的类，也是最为特殊的一个类，很多时候，我们对它既熟悉又陌生。一、从根本上认识java.lang.String类和String池首先，我建议先看看String类的源码实现，这是从本质上认识String类的根本出发点。从中可以看到：1、String类是final的，不可被继承。publicfinalclassString。2、St
你的博客为什么不更新了？
博客为什么不更新了很久没有写过博客了，为什么呢？因为工作了，成为了一名社畜因为没时间因为没有学习新的东西，所以无法分享因为不思进取…笔者写博客的初衷只是为了总结知识，让我学到的知识能从我这里输出出去，并且别人能看懂。如果结果能帮助更多人了解某个东西，那自然是最好的。三年前写了人生第一篇博客：SQL语句中，MySQL不支持的几种情况。反响平平，两千阅读。之后又陆续发表了几篇博客，数量不多，9篇文章。
Python中的模块和作用域全新的饭
模块的定义模块是写有python源代码的文件（其中定义了一组函数和其他对象）或c、c++编译的对象文件模块名称就是文件名模块存在的意义（使用模块的好处）可通过使用模块避免名称冲突（两个模块中可定义相同名称的函数）模块使python代码更易于管理（标准python函数位于特殊模块而非语言核心中，因此用户可根据需要加载目标模块）添加自己的模块将自己的模块添加到sys中使之可以通过使用import导入（
2021年第20周计划媛涵妈妈_自我成长
五月第三周计划:1、闺蜜团学习5个早起2、健身1小时3、亲子阅读1小时4、培养娃的睡前程序5、减轻体重上周计划完成情况1、闺蜜团学习5小时第一周内容比较少完成4小时2、亲子阅读1小时基本完成，效率不高。争取提高兴趣。3、健身1小时。基本完成4、培养娃的吃饭喝水睡觉的好习惯。晚上睡得太晚，慢慢调整吧。5、除了学习等必须的，不刷手机减少了刷手机时长，偶尔看看还是有的。6、减轻体重。减掉0.95公斤，也
3、 AWS基础设施入门：托管、部署与全球布局 jie sherry 云计算入门：从零开始掌握AWS AWS 云计算 IT基础设施
AWS基础设施入门：托管、部署与全球布局1.在AWS上托管IT基础设施将IT基础设施迁移到AWS云平台是现代企业数字化转型的重要一步。在AWS云平台上托管IT基础设施需要学习一些新概念和术语，以确保迁移过程顺利进行。AWS云平台提供的虚拟化和资源管理工具，使得企业能够灵活地构建和管理IT基础设施，同时节省时间和成本。1.1新概念和术语在AWS上托管IT基础设施涉及以下新概念和术语：虚拟化：通过软件
python画地图柱状图,小白学Python（16）——pyecharts 绘制地理图表 Geo 都灵Turin python画地图柱状图
Geo-基本示例1fromexample.commonsimportFaker2frompyechartsimportoptionsasopts3frompyecharts.chartsimportGeo4frompyecharts.globalsimportChartType,SymbolType56geo=(7Geo()8.add_schema(maptype="china")9.add("g
遥感云平台-GEE下载Landsat8/9影像数据（python）
内容介绍上期文章介绍如何在网页端导出Landsat8/9数据，本期主要介绍如何在本地GEE-python端导出数据以及出图。环境配置：Vscode+Jupyternotebook+gee+geemap+python3.10#导出所需要的包，注意提前安装ee和geemapimporteeimportosimportnumpyasnpimportgeemapfromgeemap.datasetsimp
2018-11-19 金八力杜老师
日精进68天亲爱的王总及何校，亲爱的家人们大家好!我是来自山峰教外教育的杜胜利，今天是我第68天的日精进，给大家分享我今天的进步，我们互相勉励，携手前行。每天进步一点点，距离成功便不远。1、比学习:一年级离不开王老师，我还要不断学习，还要不断磨练。2、比改变：孩子们都会自己记作业条了，虽然个别不全，这是不小的进步！3、比付出:不流血不撒汗收获不了一片天。4、比谦卑：向优秀的家人，智慧的领导学习。5
读《关于在全党大兴调查研究的工作方案》有感王家遥3
本周我们晨读阅读了中共中央办公厅印发的《关于在全党大兴调查研究的工作方案》我深有感触，调查研究能力本质上是发现问题、分析问题、解决问题的能力，是体现出干部是否善于思考、主动作为，是否坚持群众路线，善于向群众学习、向实践学习的表现，组工干部要怎样开展调查呢，我认为可以从一下几个方面入手。第一是选题要精准，选择什么问题开展调研。是调研开展的首要问题，调查研究要求要做到“顶天立地”，所谓“顶天”就是要符
2023-08-27 每天都微笑
20230827《会痛的不是爱》273笔记及摘抄笔记及摘抄1我们来到世间，就是为了做自己。经历体验，合作创造属于自己独特的生活与功课。尽管信任笃定，安心欢喜的做自己吧。因为这是我们来此，你我他终究要做的。不必比较评判，无需预设强求，我们都尽管做好自己。2一个人，不能控制另外一个人，也因此不能推动另外一个人。每个人都只能自己推动自己，所以应当给别人一些空间。3学习真实、自由、负责任地做自己，并通过同
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
这个冬天格外的冷，格外的长（第十一章）麦芒律师
看似平静地回到家，她躲到房间里，还是往外瞄了瞄，其实黑漆漆的，啥也看不到。小心翼翼地从包里慢慢抽出那个笔记本，凑近煤油灯，用手反复摩挲着光滑的封面，晃一晃，反射出晶莹剔透的光，太阳下肯定更漂亮。她谨慎地翻开封面，第一页有一行蓝色钢笔字，字体刚劲有力：好好学习，好好生活！她双手轻轻地抚摸着这几个字，眼泪不受控制地往外涌，她赶紧用袖口抹去，不然会落到本子上，可是为什么越抹越多呢？婆婆催着睡觉，她吹灭了
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他