倚东

Scrapy+Mysql+SqlAlchemy爬取招聘网站信息

爬虫目的：

爬取拉勾网站杭州分站的python岗位基本信息和岗位详情，并写入mysql数据库。后附经验总结。

知识点，
1、解析函数多个yield以及多个pipeline的使用
2、Sqlalchemy框架的使用
3、Scrapy FormRequest请求，以及反爬

难点：
岗位详细信息的url不能直接从爬虫返回信息获得，而需要另外构建url。然后通过
request再次请求，以及回调的解析函数处理后交给pipeline入库。即同一个岗位的信息需要两次入库。经尝试，用同一个mysql表格入库容易出现信息缺失，最终的方案是分两个表格入库，然后在mysql里面连接为一个表格。

代码如下：

settings.py

BOT_NAME = 'lagou1'
SPIDER_MODULES = ['lagou1.spiders']
NEWSPIDER_MODULE = 'lagou1.spiders'
MYSQL_CONNECTION='mysql+mysqlconnector://XXX:XXXX@localhost:3306/pydb?charset=utf8'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False #这个改成True，经常会没有结果。
# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 2
DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
CONCURRENT_REQUESTS_PER_DOMAIN = 3
CONCURRENT_REQUESTS_PER_IP = 3
# Disable cookies (enabled by default)
COOKIES_ENABLED = True
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
}
DOWNLOADER_MIDDLEWARES = {
    'lagou1.middlewares.Lagou1DownloaderMiddleware': 400,
#    'lagou1.middlewares.CustomerMiddleware':200
}
MEDIA_ALLOW_REDIRECTS =True #^^^^^^^^^^^^^^^^^^^^^^重要，解决图片无法下载
ITEM_PIPELINES = {
      'lagou1.pipelines.Lagou1Pipeline': 300,
    'lagou1.pipelines.Lagou1Pipeline2': 310,
#    'lagou1.pipelines.DownloadFile':320,
}

items.py

import scrapy
class Lagou1Item(scrapy.Item):
    positionId=scrapy.Field()
    positionName=scrapy.Field()
    createTime=scrapy.Field()
    companyId=scrapy.Field()
    companyShortName=scrapy.Field()
    companyFullName=scrapy.Field()
    city=scrapy.Field()
    salary=scrapy.Field()
    positionLables=scrapy.Field()
    job_trigger=scrapy.Field()
    job_description=scrapy.Field()
    job_detail_url=scrapy.Field()

lagouspider.py

# -*- coding: utf-8 -*-
import scrapy
from lagou1.items import Lagou1Item
import json
import requests
import time
from bs4 import BeautifulSoup

class LagouspiderSpider(scrapy.Spider):
    name = 'lagouspider'
    allowed_domains = ['lagou.com']
    start_urls = ['https://www.lagou.com/jobs/positionAjax.json?city=%E6%9D%AD%E5%B7%9E&needAddtionalResult=false']#'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
    proxies={"http":"http://112.111.217.45:9999"}
    h1={'User-Agent': 'Opera/9.80 (iPhone; Opera Mini/7.1.32694/27.1407; U; en) Presto/2.8.119 Version/11.10',\
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='} #创建不同的headers
    h2={'User-Agent': 'Mozilla/5.0 (Linux; U; Android 2.0; en-us; Droid Build/ESD20) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17',\
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='}
    h3={'User-Agent': 'Opera/9.80 (iPhone; Opera Mini/7.1.32694/27.1407; U; en) Presto/2.8.119 Version/11.10',\
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='}
    h4={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko'}
    def get_Cookies(self,proxies,headers): #构建获得cookies的函数
        url = 'https://www.lagou.com/jobs/list_python'
        session = requests.session()
        session.post(url,headers=headers,proxies=proxies)
        cookies = session.cookies
        return cookies.get_dict()
    def start_requests(self):
        for i in range(1,11):
            para = {'first': 'true', 'pn': str(i), 'kd': 'python'}
            yield scrapy.FormRequest(self.start_urls[0],headers=self.h3,formdata=para,cookies=self.get_Cookies(self.proxies,self.h1),callback=self.parse)#也可以使用如下的request,不过结果不同？？？
#            yield scrapy.Request(self.start_urls[0],method=POST,headers=self.h3,body=json.dumps(para),cookies=self.cookies,callback=self.parse) #功能同上条Formrequest，不过要增加method参数，formdata改成body，且接受json数据
        
    def parse(self, response):
#        print(response.text)   #查看请求结果
#        with open('e:/testlagou1.txt','w') as fp1:
#            fp1.write(response.text)
#        with open('e:/testlagou2.txt','wb') as fp2:    
#            fp2.write(response.body)
        item= Lagou1Item()
        t=json.loads(response.body_as_unicode())#注意loads函数的使用
        positionId_list=[]
        positionName_list=[]
        createTime_list=[]
        companyId_list=[]
        companyShortName_list=[]
        companyFullName_list=[]
        city_list=[]
        salary_list=[]
        positionLables_list=[]        
        job_detail_url_list=[]
        
        for results in t['content']['positionResult']['result']:
            positionId=results['positionId']
            positionName = results['positionName']
            createTime = results['createTime']
            companyShortName =results['companyShortName']
#            workYear = results['workYear']
            city = results['city']
            salary = results['salary']
            companyId=results['companyId']
            companyFullName=results['companyFullName']
            positionLables = results['positionLables']
            positionLables= ','.join(positionLables)
#            positionAdvantage = results['positionAdvantage']
            job_detail_url = 'https://www.lagou.com/jobs/' + str(positionId) + '.html'
#            companyLogo=results['companyLogo']
#            print(positionName,companyShortName,workYear,city,salary,positionLables,positionAdvantage,companyLogo) #查看是否顺利爬取数据
            positionId_list.append(positionId)
            positionName_list.append(positionName)
            createTime_list.append(createTime)
            companyId_list.append(companyId)
            companyShortName_list.append(companyShortName)
            companyFullName_list.append(companyFullName)
            positionLables_list.append(positionLables)
            city_list.append(city)
            salary_list.append(salary)
            job_detail_url_list.append(job_detail_url)
        item['positionId']=positionId_list
        item['positionName']=positionName_list
        item['createTime']=createTime_list
        item['companyShortName']=companyShortName_list
        item['companyFullName']=companyFullName_list
        item['city']= city_list
        item['companyId']=companyId_list
        item['salary']=salary_list
        item['positionLables']= positionLables_list
        item['job_detail_url']=job_detail_url_list
        yield item 返回岗位基本信息供pipeline入库。
        for i in item['job_detail_url']: #请求岗位详细信息url，回调函数parse_job_detail继续解析
            yield scrapy.Request(i,headers=self.h4,cookies=self.get_Cookies(self.proxies,self.h4),callback=self.parse_job_details) #此处cookies很重要，否则反爬起作用，得不到结果
#        
#    
    def parse_job_details(self,response): #用来获取详细的职位描述，以及职位编号，用来和parse函数获取的信息进行匹配。
        soup=BeautifulSoup(response.body_as_unicode(),'lxml')     
        item=Lagou1Item()
        positionId=response.url.split('/')[-1].split('.')[0].strip()
#        job_trigger=response.xpath('//*[@id="job_detail"]/dd[1]/p/text()').extract()
#        job_description =response.xpath('//*[@id="job_detail"]/dd[2]/div/text()').extract().strip()
        try: #beatifulsoup解析
            job_trigger=soup.select_one('#job_detail > dd.job-advantage >p').text.strip()
            job_description = soup.select_one('#job_detail > dd.job_bt > div').text.strip()
        except Exception as e:
            print(e)
# 以下是测试时面临反爬，无法得到结果时尝试的xpath方式，后来解决反爬的为，也就用不到了。        job_description=response.xpath('//*@id="job_detail"]/dd[2]/div/text()').extract()
#            job_trigger=response.xpath('//*[@id="job_detail"]/dd[1]/p/text()').extract()
#            job_description=''.join(job_description)
#            job_trigger=''.join(job_trigger)
#            for i in range(3):
#                print(response.body)
#                print('I am in parsejobdetals:',e)            
            
        item['positionId']=positionId        
        item['job_description'] =job_description
        item['job_trigger']=job_trigger
        return item

pipelines.py

    # -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
from scrapy.pipelines.images import ImagesPipeline
#from scrapy.pipelines.files import FilesPipeline
from scrapy import Request 
from scrapy.exceptions import DropItem
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column,Integer,String,DateTime
from sqlalchemy.orm import sessionmaker
import mysql.connector #注意格式

#sqlalchemy映射数据表
Base=declarative_base()
class Lagoujob(Base): #这个参数父类名
    __tablename__='lagoujob' #存储岗位基本信息的数据表
    id=Column(Integer,primary_key=True)
    positionId=Column(String(50),unique=True)
    positionName=Column(String(50))
    createTime=Column(DateTime)
    companyId=Column(String(50))
    companyShortName=Column(String(100))
    companyFullName=Column(String(100)) #公司简称的长度超过想象，所以数值要大些
    city=Column(String(50))
    salary=Column(String(30))
    positionLables=Column(String(100))
    job_detail_url=Column(String(100)) 
    
class Lagoudetails(Base): 
    __tablename__='lagoudetails' #存储岗位详细信息的数据表
    id=Column(Integer,primary_key=True)
    positionId=Column(String(50),unique=True)
    job_trigger=Column(String(100))
    job_description=Column(String(1000)) 
    
class Lagou1Pipeline(object):
    def __init__(self):
        connection='mysql+mysqlconnector://pyuser:888888@localhost:3306/pydb?charset=utf8' #UTF8MB4
        engine=create_engine(connection,echo=True) #数据库连接
        DBSession=sessionmaker(bind=engine) #创建会话对象，用于数据表的操作
        self.Sqlsession=DBSession()
        Base.metadata.create_all(engine) #创建数据表
        
    def process_item(self, item, spider):
        if 'job_trigger' not in item.keys():  两个pipeline处理
            for i in range(0,len(item['positionId'])): #这里不能用len(item)，因为只有10个字段，只能存入前10条记录
                try:
                    jobs=Lagoujob(positionId=item['positionId'][i],positionName=item['positionName'][i],createTime=item['createTime'][i],companyId=item['companyId'][i],companyShortName=item['companyShortName'][i],companyFullName=item['companyFullName'][i],city=item['city'][i],salary=item['salary'][i],positionLables=item['positionLables'][i],job_detail_url=item['job_detail_url'][i])
                    self.Sqlsession.add(jobs)
                    self.Sqlsession.commit() 
                except Exception as e:  
                    self.Sqlsession.rollback()   #如果需要执行异常语句，此句不可少!                 
#                    pass
                    print(e)
        return item
    
     #以下需要另外做一个类
class Lagou1Pipeline2(object):     
    def __init__(self):
        connection='mysql+mysqlconnector://XXX:XXXXXlocalhost:3306/pydb?charset=utf8' #UTF8MB4
        engine=create_engine(connection,echo=True) #数据库连接
        DBSession=sessionmaker(bind=engine) #创建会话对象，用于数据表的操作
        self.Sqlsession2=DBSession()
        Base.metadata.create_all(engine) #创建数据表
    def process_item(self, item, spider):
        if 'job_trigger' in item:  jobdetails=Lagoudetails(positionId=item['positionId'],job_trigger=item['job_trigger'], job_description=item['job_description'])
            try:
                self.Sqlsession2.add(jobdetails)
                self.Sqlsession2.commit()
            except Exception as e:
                print(e)
#                self.Sqlsession2.rollback() 
        return item
        
class DownloadFile(ImagesPipeline): #爬取图片pipeline未使用。
    def get_media_requests(self,item,info):
        for url,filename in zip(item['FileUrl'],item['FileName']):
            cookies={'X_HTTP_TOKEN': '42daf4b72327b2815637417751bf5e71415983ed09', 'user_trace_token': '20191224082925-308fab45-3629-4198-be34-cbb2eb78a270', 'JSESSIONID': 'ABAAABAAAGGABCB228791B35A6AD371A8A3D1C8FF1D6C88', 'SEARCH_ID': 'fd50d5fe208f4940a22a2bd69d76a576'} 
            h3={'User-Agent': 'Opera/9.80 (iPhone; Opera Mini/7.1.32694/27.1407; U; en) Presto/2.8.119 Version/11.10',\
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='}
            yield Request(url,headers=h3,cookies=cookies,meta={'name':filename})
            
    def file_path(self,request,response=None,info=None):
        file_name='E:\\scrapypro\\lagou1\\pic\\'+(request.meta['name'])+'.jpg'
        return file_name
 
    def item_completed(self, results, item, info):
        image_path = [x['path'] for ok, x in results if ok]
        if not image_path:
            raise DropItem('Item contains no images')
        item['image_paths'] = image_path
        return item

爬取结果：
lagoujob表格

lagoudetails

最后通过Mysql的 inner join语句将两个表格连接成一个新的表格。

create table lagoujobinfo(select lagoujob.*,lagoudetails.job_trigger,lagoudetails.job_description from lagoujob
LEFT JOIN lagoudetails on lagoujob.positionId=lagoudetails.positionId);

经验：
1、得不到预期结果，可以在代码相应环节中增加print信息，查看问题所在。
2、很多时候是反爬导致了运行出错，并非代码有问题。所以需要解决反爬的问题。
3、尝试了使用一个数据表的操作，发现总有信息遗漏，最后稳妥起价，干脆分两个表格，然后连接成一个。
4、一开始数据数据一直没有入库，后来找到原因是映射数据表的时候字段长度设置太保守，爬取的信息过
长，写不下导致的。

2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
免费开源的后端API服务-supabase安装和使用-简直是前端学习者福音前端三评 strapi Ajax 工具开源前端 supabase
文章目录它是什么安装和部署关于安装关于部署1、注册用户2、创建组织3、创建项目创建数据库表（填充内容）填充数据库表使用postman联调API它是什么一个开源免费的后端框架，firebase的替代品。可以简单理解类似于headlesscms，但是不仅仅只提供内容，它还集成了服务订阅、即时API，用户身份认证（包括第三方身份认证，比如使用github、Google等账号实现快速登录和注册）、边缘函数
SQLI靶场（四）（54~65关）新玉5401 数据库 oracle java
less-54本关需要我们在10步之内获取到字段名。不过方法和之前还是一样。但是本关会随机生成数据库名字，表名，列名。以下语句是根据我在通关时所随机产生的内容而定的。判断闭合输入：?id=1,?id=1'据此得出闭合方式为单引号闭合。判断显示位输入：?id=-1'unionselect1,2,3--+获取数据库名输入：?id=-1'unionselect1,database(),3--+获取表名输
车位租赁系统的设计与实现(代码+数据库+LW) 小码学长毕业设计小程序 java 数据库 maven 学习
摘要传统信息的管理大部分依赖于管理人员的手工登记与管理，然而，随着近些年信息技术的迅猛发展，让许多比较老套的信息管理模式进行了更新迭代，车位信息因为其管理内容繁杂，管理数量繁多导致手工进行处理不能满足广大用户的需求，因此就应运而生出相应的车位租赁系统。本车位租赁系统分为管理员还有用户两个权限，管理员可以管理用户的基本信息内容，可以管理公告信息以及车位信息，能够与用户进行相互交流等操作，用户可以查看
【技术点】用SQL语言操作关系型数据库Mysql中的数据（有练习资料） ^Mark_Zhang^ 后端开发数据库 sql mysql
用SQL语言操作关系型数据库Mysql中的数据一、增删改查增数据删数据改数据查数据二、触发器三、视图练习题目链接前言：之前操作的时候大多时候都是用GPT生成的sql语句（有一说一真的实用），但是缺少自己完整独立完成sql语句书写的能力，直到学校课程上到了数据库原理才意识到好像真的需要认真学一下这些sql语句了，另外为了方便各位练习达到学习效果，如果想要答案可以私我单独发。一、增删改查增删改查，也称
Red Hat 8.1 部署MySQL 5.7 云计算老王 mysql adb android
RedHat8.1部署MySQL5.7文章目录RedHat8.1部署MySQL5.7一、关闭防火墙和Selinux二、配置YUM源三、安装依赖包四、安装MySQL4.1创建安装目录并解压文件到目录中4.2创建快捷方式4.3创建用户组4.4初始化4.5配置环境变量五、启动数据库5.1后台启动，并登陆数据库5.2新增远程用户5.3修改本地用户密码5.4关闭数据库一、关闭防火墙和Selinuxsyste
数据库基础知识：理论、E-R图、事务、原则地信小学生数据库数据库 ubuntu postgresql
（5）数据库理论与E-R图数据库理论（DatabaseTheory）是在创建数据库的过程涉及创建现实世界的抽象模型；将现实世界的概念作为实体表示在数据库中。E-R图（EntityRelationshipDiagramming）用于表示数据模型的图形工具/关系的抽象，主要用于数据库设计阶段，通过实体（Entity）、属性（Attribute）和关系（Relationship）来描述数据之间的结构和联
mongodb数据库备份迁移 windows -> linux weixin_30597269 数据库操作系统 json
mongodb数据库备份迁移windows->linuxcd到本机mongodb的安装目录如：C:\ProgramFiles\MongoDB\Server\3.4\bin可以发现里面除了可以启动mongodb的mongod.exe还有很多启动程序其中mongodump.exe和mongorestore.exe就分别是用来数据备份迁移的mongodump备份数据库常用命令格mongodump-hIP
五、Mongodb的备份恢复与导出导入 s_daqing mongodb
1、备份备份的语法：mongodump-hdbhost-ddbname-odbdirectory-h：服务器地址，也可以指定端⼝号-d：需要备份的数据库名称-o：备份的数据存放位置，此⽬录中存放着备份出来的数据示例：mongodump-h127.0.0.1:27017-dtest1-o~/Desktop/test1bak2、恢复恢复语法：mongorestore-hdbhost-ddbname--
数据库管理系统的数据控制功能橘子熊-0 数据库
数据库管理系统提供下述4个方面的数据控制功能：（1）数据的安全性控制：防止不合法使用数据库造成数据的泄露和破坏，使每个用户只能按其规定对某些数据进行某种或某些操作和处理。安全性控制是指要尽可能杜绝所有可能的数据库非法访问。数据的安全性是保护数据库以防止不合法使用造成的数据泄露、更改或破坏。安全性措施：①用户标识和鉴定。通过定义用户标识对用户身份进行鉴定，只允许合法用户才能进入系统。②用户存取权限控
最新外卖霸王餐系统程序源码|美团/饿了么霸王餐系统(含数据库)（可对接公众号） AALoveTouch 霸王餐 php
一款特别好用的霸王餐系统，搭建也特别简单，个人需要自备服务器和域名。下面是一些系统图片：下面是有关部分代码展示：部分代码展示配置数据库
[转] mongodb数据库备份和恢复 hi_zf MongoDB mongodb
windows下面mongodb数据库备份和恢复1、mongodump（备份）及mongorestore（还原）→说明：mongodump是一个用于导出二进制数据库内容的实用工具，它导出的bson文档中只会包含着集合文档等信息，不包括索引信息（索引信息会单独导出），所以还原后，索引必须重建（这个不用担心，使用mongorestore会自动重建mongodump生成的索引信息）。3.4版本中添加了对
PostgreSQL体系结构 eygle
原文：https://www.enmotech.com/web/detail/1/764/1.html导读：本文主要从日志文件、参数文件、控制文件、数据文件、redo日志（WAL）、后台进程这六个方面来讨论PostgreSQL的结构。一、引言PostgreSQL是最像Oracle的开源数据库，我们可以拿MySQL和Oracle来比较学习它的体系结构，比较容易理解。本文会讨论pg的如下结构：日志文件
mikro-orm 和typeorm 对比大耳朵乔乔 NodeJs #SQL #NestJs node.js 数据库
以下是Mikro-ORM和TypeORM的详细对比：设计理念与架构Mikro-ORM：基于数据映射器、工作单元和身份映射模式。这种设计使得它在管理内存中实体状态方面表现优异，能够自动处理事务，当调用em.flush()时，所有计算出的更改都会被包装在一个数据库事务中。TypeORM：支持活跃记录和数据映射器模式，深受Hibernate、Doctrine和Entity框架等传统ORM的影响。它提供了
史上最全Oracle数据库查看表空间的名称及大小、使用情况等 DZ2317794308 sql oracle 数据库
1.查看表空间物理文件的名称及大小SELECTTABLESPACE_NAME,FILE_ID,FILE_NAME,ROUND(BYTES/(1024*1024),0)TOTAL_SPACEFROMDBA_DATA_FILESORDERBYTABLESPACE_NAME;2.查看表空间的名称及大小SELECTT.TABLESPACE_NAME,ROUND(SUM(BYTES/(1024*1024))
T-SQL语言的语法 Code花园包罗万象 golang 开发语言后端
T-SQL深度解析与应用T-SQL（Transact-SQL）是微软SQLServer使用的一种扩展SQL（结构化查询语言）。它不仅支持标准SQL的所有功能，而且增加了许多实用的扩展和特性，使得数据库的操作更加灵活和强大。本文将对T-SQL的基本语法、数据操作、控制流、存储过程、触发器及其在实际工作中的应用进行深入探讨。一、T-SQL的基本语法T-SQL语法大致可以分为以下几类：1.数据定义语言（
详解数据库系统概述凭君语未可数据库数据库 oracle
数据库系统概述1.数据库（Database）1.1定义：1.2特点：1.3举例：2.数据库管理系统（DBMS：DatabaseManagementSystem）2.1定义：2.2DBMS的主要功能：2.3常见的数据库管理系统：2.4工作流程（类比）：3.数据库系统（DatabaseSystem）3.1定义：3.2组成：3.3举例：三者的关系举例：以电商系统为例总结（《数据库系统概论》）数据库数据库
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
Python Web应用开发进阶：集成数据库与SQLAlchemy Evaporator Core Python开发经验 python 前端数据库
引言在上一篇《PythonWeb应用开发入门：从零搭建一个简单的Web应用》中，我们学习了如何使用Flask框架搭建一个简单的Web应用。然而，大多数Web应用都需要与数据库进行交互，以存储和检索数据。本文将深入探讨如何在Flask应用中集成数据库，并使用SQLAlchemy进行数据操作。一、数据库选择与安装1.1选择数据库在PythonWeb开发中，常用的数据库有SQLite、MySQL、Pos
如何运用python爬虫获取大型资讯类网站文章，并同时导出pdf或word格式文本？大懒猫软件深度学习 python 网络爬虫自然语言处理
这里，我们以比较知名的商业新知网站https://www.shangyexinzhi.com/为例进行代码编写，下面进行代码应用思路。第一部分，分析网站结构首先，我们来分析，要使用Python技术分析一个网站的结构，通常可以通过以下步骤实现：获取网站的HTML内容：使用requests库来获取网站的HTML源代码。解析HTML内容：使用BeautifulSoup库来解析HTML，提取网站的结构信息
数据库基础：从概念到 MySQL 实战东锋1.3 数据库数据库 mysql
数据库基础：从概念到MySQL实战在当今数字化时代，数据的重要性不言而喻，而数据库作为数据管理的核心工具，发挥着关键作用。对于技术爱好者和开发者来说，深入了解数据库知识是必不可少的。今天，就让我们一起走进数据库的世界，从基础概念到MySQL数据库的实战应用，进行一次全面的探索。一、数据库的基本概念1.数据库发展历程数据库的发展是随着数据处理量的不断增加而逐步演进的，主要经历了四个阶段：人工管理阶段
Redis 消息队列详解 maply Redis redis 数据库缓存
Redis消息队列详解Redis作为一个高性能的内存数据库，支持多种实现消息队列的方式，主要包括：RedisList（基于列表的队列）RedisPub/Sub（发布/订阅）RedisStream（消息流）RedisSortedSet（延迟队列）不同的方式适用于不同的场景，下面详细讲解各自的实现原理、适用场景以及示例代码。1.基于RedisList的消息队列Redis的List结构（链表）可以用来实
浅谈redis zhaoyang9999 redis redis 数据库 java
redis谈谈你对redis的理解非关系数据库他是单线程的：数据放在内存中，单线程操作效率高（多线程会造成CPU的上下文切换）基于内存操作（周期性的把更新的数据写入到磁盘（RDB）或者把修改操作写入追加的文件记录（AOF））五大基本数据类型strng（最常用）list（列表）底层链表可以用来消息订阅set（集合）hash（哈希hsetkeyfieldvalue）map集合更适合对象的存储Zset（
【Redis】Redis入门以及什么是分布式系统{Redis引入+分布式系统介绍} 阿猿收手吧！ #Redis redis 数据库缓存
文章目录介绍redis的引入分布式系统单机架构应用服务和数据库服务分离【负载均衡】引入更多的应用服务器节点单机架构分布式是什么数据库分离和负载均衡理解负载均衡数据库读写分离引入缓存数据库分库分表引入微服务介绍Theopensource,in-memorydatastoreusedbymillionsofdevelopersasadatabases，cache,streamingengine,and
java.sql.Date 弃用分析与替代方案蓝田～ java microsoft
引言java.sql.Date是Java标准库中的一个类，它继承自java.util.Date，主要用于在Java应用程序与数据库之间进行日期数据的传输。然而，随着Java语言的发展，java.sql.Date以及其父类java.util.Date逐渐被认为存在设计缺陷，并被新的日期时间API所替代。本文将对java.sql.Date的启用原因进行分析，并探讨其弃用原因及替代方案。启用原因分析SQ
【黑龙江乡镇界】面图层arcgis数据shp格式乡镇名称和编码wgs84无偏移内容测评鸿业远图科技 arcgis
本文将详细讲解与“最新黑龙江乡镇界面图层arcgis数据shp格式乡镇名称和编码wgs84无偏移”相关的知识点，包括GIS基础、ArcGIS软件、SHP文件格式、WGS84坐标系统以及乡镇行政数据的重要性。GIS基础GIS（GeographicInformationSystem，地理信息系统）是一种用于采集、存储、管理、分析和展示所有类型地理数据的系统。它整合了地图、数据库、统计分析和计算机图形等
MyBatis 框架简介天之涯上上 mybatis tomcat java
MyBatis框架简介MyBatis是一个优秀的Java持久层框架，它主要用于简化应用程序与数据库之间的交互。通过MyBatis，开发者可以直接编写SQL语句或使用XML映射文件来操作数据库，同时保持代码的灵活性和高效性。MyBatis以其易用性、灵活性和对SQL的强大支持而闻名，尤其适用于复杂查询和高度定制化的数据库操作场景。MyBatis的主要功能和特点1.持久化操作MyBatis通过将Jav
JAVA开发中 MyBatis XML 映射文件的作用天之涯上上 java mybatis xml
MyBatisXML映射文件（通常是以.xml结尾的文件，例如UserMapper.xml）是MyBatis框架的重要组成部分，主要用于定义SQL语句、结果映射关系以及参数绑定。它的作用是将Java方法与SQL语句关联起来，实现持久化操作（如查询、插入、更新和删除）。以下是关于MyBatisXML映射文件的详细说明：1.XML映射文件的作用1.1定义SQL语句MyBatis的核心功能是操作数据库，
MySQL 执行计划：优化查询性能 J老熊 MySQL 实战秘籍 mysql 数据库开发语言后端面试性能优化系统架构
一、什么是MySQL执行计划？MySQL执行计划（ExecutionPlan）是MySQL在执行SQL查询时，所采取的具体执行策略。它描述了查询如何从数据库中获取数据，执行的步骤顺序以及使用的索引等信息。通过执行计划，我们可以直观地看到查询语句的执行路径，从而判断是否可以优化。二、如何查看MySQL执行计划？查看执行计划有几种方式：EXPLAIN语句使用EXPLAIN可以查看单个查询的执行计划。例
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Scrapy+Mysql+SqlAlchemy爬取招聘网站信息

你可能感兴趣的:(python爬虫,数据库)