孤卷残梦饮一池恨

使用scrapy框架实现爬虫详解

文章目录

- - 安装scrapy
  - 1. 创建一个scrapy项目
  - 2. 生成一个爬虫
  - 3. 提取数据
  - 4.保存数据
  - 5.启动爬虫
  - 显示不同等级的log信息
  - 设置log日志保存路径
  - 配置项管道
  - 为项目定义字段
  - 在框架中使用logging模块
  - logging模块的使用
  - 实现翻页请求
  - 请求详情页
  - 实例爬取详情页和下一页
  - 生成crawlspider爬虫
  - scrapy模拟登陆
  - - - 在爬虫文件中start_requests函数中添加登录后的cookies
      - 模拟浏览器的Form Data发送POST请求
      - 使用`scrapy.FormRequest.from_response`，
  - 下载中间件
- Scrapy_Redis框架
- - - request对象什么时候入队
    - scrapy_redis去重的方法
    - 判断数据是否存在
  - dmoz.py爬虫
  - myspider_redis.py分布式爬虫
  - mycrawler_redis.py 分布式自动提取url爬虫

Scrapy版本：2.1

安装scrapy

pip install wheel
pip install scrapy

1. 创建一个scrapy项目

语法： scrapy startproject '项-t目名称'

scrapy startproject mySpider

2. 生成一个爬虫

语法：scrapy genspider '爬虫名称' '爬取的网站'

cd mySpider
scrapy genspider example example.com

目录结构：

注意：scrapy.cfg文件中不要添加中文注释，并且注释只能添加到行首

|—— mySpider 
	|—— mySpider
		|—— spiders "创建的爬虫文件夹"
			|——__init__.py
			|——itcast.py "创建的一个爬虫"
        |-- __init__.py
        |—— items.py    	"在这里为您的抓取项目定义模型"
        |—— middlewares.py 	"自定义中间件的文件"
        |—— pipelines.py	"管道，保存数据"
        |—— settings.py 	"设置文件，UA，启动管道"
    |—— scrapy.cfg		"项目的配置文件"

3. 提取数据

在spider文件夹下itcast.py中完善spider，使用xpath等方法

# -*- coding: utf-8 -*-
import scrapy

class ItcastSpider(scrapy.Spider):
    name = 'itcast'  # 爬虫名称
    allowed_domains = ['XXX.cn']  # 允许爬取的范围
    start_urls = ['http://www.XXXX.html']  # 最开始请求的url地址

    def parse(self, response):
        # 处理start_url地址对应的响应
        # print(response.status)
        # ret = response.xpath('//div[@class="tea_con"]//h3/text()')
        # print(ret)
        # 分组
        li_list = response.xpath('//div[@class="tea_con"]//li')
        for li in li_list:
            item = {
     
                'name': li.xpath('.//h3/text()').extract_first(),
                'title': li.xpath('.//h4/text()').extract_first(),
            }
            # print(item)
            # 只能return Request, BaseItem, dict or None这些值
            yield item

4.保存数据

在pipelines.py文件中保存数据

from pymongo import MongoClient

client = MongoClient()
collection = client['mySpider']['itcast']


class MyspiderPipeline:
    def process_item(self, item, spider):
        item['hello'] = 'word'
        return item


class MyspiderPipeline1:
    def process_item(self, item, spider):
        print(item)
        collection.insert(dict(item))
       	return item

5.启动爬虫

在项目目录下执行命令

语法：scrapy crawl '爬虫名称'

scrapy crawl example

settings.py文件中：

显示不同等级的log信息

LOG_LEVEL='WARNING'

设置log日志保存路径

LOG_FILE='./log.log' # 设置日志文件保存的路径

配置项管道

数字越小越先经过pipelines.py中的pipeline(管道)

# Configure item pipelines 
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
     
    'mySpider.pipelines.MyspiderPipeline': 300, #先进过300，再经过301
    'mySpider.pipelines.MyspiderPipeline1': 301,
}

为项目定义字段

在item.py文件中

import scrapy
class MyspiderItem(scrapy.Item):
    name=scrapy.Field()
    title=scrapy.Field()
    hello=scrapy.Field()

在爬虫文件中使用定义的字段

from mySpider.items import MyspiderItem
for li in li_list:
    item = MyspiderItem()
    item['name'] = li.xpath('.//h3/text()').extract_first(),
    item['title'] = li.xpath('.//h4/text()').extract_first(),

在框架中使用logging模块

在settings.py文件中设置log等级和保存路径
在任何文件中import logging

import logging
logger=logging.getLogger(__name__) # 获取当前文件名
logger.warning("*"*10) # 设置log日志

logging模块的使用

import logging

# 设置日志输出的样式
logging.basicConfig(level=logging.INFO,
                    format='[%(asctime)s %(filename)s [line:%(lineno)d]] %(levelname)s %(message)s',
                    datefmt='%a, %d %b %Y %H:%M:%S',
                    filename='myapp.log',
                    filemode='w')

logger = logging.getLogger(__name__) # 获取当前文件名

if __name__ == '__main__':
    logger.info("this is info log ")
    logger.warning("this is warning log ")
    print(logger)

实现翻页请求

next_page_url = response.xpath('a[text()="下一页"]/@href').extract()
        while len(next_page_url)>0:
            yield scrapy.Request(next_page_url,callback=self.parse)

语法：
scrapy.Request( url[, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=False, errback=None, flags=None, cb_kwargs=None])

callbac：指定传入的url交个那个解析函数去处理

meta：实现在不同的解析函数中传递数据，meta默认会携带部分信息，比如下载延迟，请求深度等

dont_filter：让scrapy的去重不会过滤当前url，scrapy默认有url去重功能，对需要重复请求的url有重要用途

请求详情页

 yield scrapy.Request(
                url=item['href'],
                callback=self.parse_detail,
                meta={
     'item': item}
            )

    def parse_detail(self, response):  # 处理详情页

        item=response.meta['item']
        item['comment'] = response.xpath('//div[@class="details-box"]/pre/text()').extract()
        item['content_img'] = response.xpath('//div[@class="clear details-img-list Picture-img"]/img/@src').extract()

        yield item

实例爬取详情页和下一页

# -*- coding: utf-8 -*-
import scrapy
from yangguang.items import YangguangItem


class TousuSpider(scrapy.Spider):
    name = 'tousu'
    allowed_domains = ['XXX.com'] # 此处写错将爬取不到任何数据
    start_urls = ['http://XXXX']

    def parse(self, response):
        # print(response.text)
        li_list = response.css('li.clear')
        for li in li_list:
            item = YangguangItem()
            item['code'] = li.css('span.state1::text').extract_first()
            item['title'] = li.css('span.state3 a.color-hover::text').extract_first()
            item['publish_date'] = li.css('span.state5::text').extract_first()
            item['href'] = response.urljoin(li.css('span.state3 a.color-hover::attr(href)').extract_first())
            # print('详情页：',item['href'])

            yield scrapy.Request(
                url=item['href'],
                callback=self.parse_detail,
                meta={
     'item': item}
            )
        # 翻页
        next_url = response.xpath('//a[@class="arrow-page prov_rota"]//@href').extract_first()
        if next_url:
            next_url = response.urljoin(next_url) # 拼接绝对路径
            # print("下一页：",next_url)
            yield scrapy.Request(
                url=next_url,
                callback=self.parse,
            )

    def parse_detail(self, response):  # 处理详情页

        item=response.meta['item']
        item['comment'] = response.xpath('//div[@class="details-box"]/pre/text()').extract()
        item['content_img'] = response.xpath('//div[@class="clear details-img-list Picture-img"]/img/@src').extract()

        yield item

生成crawlspider爬虫

自动提取url地址，爬取详情页数据，和下一页数据
语法： scrapy genspider -t crawl '爬虫名称' '爬取的网站'

scrapy genspider -t crawl example example.com

爬虫实例

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class GgSpider(CrawlSpider):
    name = 'gg'
    allowed_domains = ['xxx.cn']
    start_urls = ['http://xxxx.html']

    rules = (
        # link_extractor是一个链接提取器对象，它定义如何从每个已爬网页面提取链接。每个产生的链接将用于生成一个Request对象，该对象将在其meta字典中（在link_text键下方）包含链接的文本。如果省略，将使用不带参数创建的默认链接提取器，从而提取所有链接。
        # callback是为使用指定链接提取器提取的每个链接调用的可调用或字符串（在这种情况下，将使用具有该名称的Spider对象中的方法）。
        # 此回调接收Response 作为第一个参数，并必须返回的单个实例或可迭代的 Item，dict和/或Request对象（或它们的任何亚类）。
        # follow是一个布尔值，它指定是否应从使用此规则提取的每个响应中跟随链接。如果callback为None ，则follow默认为True，否则为False
        Rule(LinkExtractor(allow=r'/\d+/t\d+_\d+\.html'), callback='parse_item'),
        Rule(LinkExtractor(allow=r'list_\d+.html'), follow=True)
    )
	# parse 函数不能定义，他有特殊的功能需要实现，定义后会重写函数
    # def parse(self, response):
    #     print(response.text)

    def parse_item(self, response):
        item = {
     }
        item['title'] = response.xpath('//div[@class="dj-xl-tit"]/h2/text()').get()
        item['date'] = response.xpath('//div[@class="dysx"][4]/div[@class="tab_content"]/text()').extract_first()
        print(item)
        # return item

scrapy模拟登陆

在爬虫文件中start_requests函数中添加登录后的cookies

  def start_requests(self):
        cookies = '。。。。。。'
        cookies = {
     i.split('=')[0]: i.split('=')[1] for i in cookies.split('; ')}
        yield scrapy.Request(
            self.start_urls[0],
            callback=self.parse,
            cookies=cookies
        )

    def parse(self, response):
        yield scrapy.Request(
            'http://www.renren.com/xxxxxxx/profile',  # 个人主页
            callback=self.parse_detial
        )

    def parse_detial(self, response):
        print(re.findall('人艰不拆', response.body.decode()))

模拟浏览器的Form Data发送POST请求

观察浏览器中FormData的值在多次请求中那些会发生改变，
在网页源代码中是否能找到对应的值

    def parse(self, response):
        authenticity_token = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()
        ga_id = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()
        webauthn_support = response.xpath('//input[@name="webauthn-support"]/@value').extract_first()  # supported
        webauthn_iuvpaa_support = response.xpath('//input[@name="webauthn-iuvpaa-support"]/@value').extract_first()
        # return_to:
        # required_field_ce3f:
        timestamp = response.xpath('//input[@name="timestamp"]/@value').extract_first()
        timestamp_secret = response.xpath('//input[@name="timestamp_secret"]/@value').extract_first()

        post_data = {
     
            'authenticity_token': authenticity_token,
            'ga_id': ga_id,
            'login': '[email protected]',
            'password': 'clg159600',
            'webauthn-support': webauthn_support,
            'webauthn-iuvpaa-support': webauthn_iuvpaa_support,
            'return_to': '',
            'required_field_ce3f': '',
            'timestamp': timestamp,
            'timestamp_secret': timestamp_secret
        }

        yield scrapy.FormRequest(
            'https://github.com/session',
            formdata=post_data,
            callback=self.after_login
        )
    def after_login(self,response):
        print(re.findall('gelanyingqi',response.body.decode()))

使用scrapy.FormRequest.from_response，

from_response中的fromid属性可以选择页面中多个from表单
input的name值作为formdata的key值，value值作为字典的value

    def parse(self, response):
        yield scrapy.FormRequest.from_response(
            response,  # 自动从response中寻找from表单的地址
            formdata={
     
                'login': '[email protected]',
                'password': 'clg159600'
            },
            callback=self.after_login
        )

    def after_login(self, response):
        print(re.findall('gelanyingqi', response.body.decode()))

下载中间件

在middlewares.py文件中

import random


class RandomUserAgentMiddleware:
    def process_request(self, request, spider):
        ua = random.choice(spider.settings.get('USER_AGENTS_LIST'))  # 随机一个User-Agent
        request.headers['User-Agent'] = ua
        request.meta['proxy'] = 'http://1.85.5.66:8060'  # 使用代理IP


class CheckUserAgent:
    def process_response(self, request, response, spider):
        # print(dir(response)) # 查看response的属性
        print('使用浏览器：', request.headers['User-Agent'])
        return response

Scrapy_Redis框架

实例下载

request对象什么时候入队

dont_filter=True，构造请求的时候，把dont_filter设置为True，该URL会被反复抓取（URL地址对应的内容会更新的情况下使用）
一个全新的url地址被抓到的时候，构造request请求
url地址在strat_url中的时候，会入赘，不管之前是否请求过
因为构造start_url地址的请求时候，dont_filter=True

源码scheduler.py文件中

    def enqueue_request(self, request):
        if not request.dont_filter and self.df.request_seen(request):
            # dont_filter=False True True  request指纹已存在 # 不会入队
            # dont_filter=False True False  request指纹已经存在 全新的url # 会入队
            # dont_filter=True False #会入队
            self.df.log(request, self.spider)
            return False
        if self.stats:
            self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
        self.queue.push(request) #入队
        return True

scrapy_redis去重的方法

使用sha1加密request得到指纹
把指纹存在redis集合中
下一次新来一个request，同样的方式生成指纹，判断指纹是否存在redis的集合中

源码dupefilter.py中return request_fingerprint的引用

fp = hashlib.sha1()
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url, keep_fragments=keep_fragments)))
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[cache_key] = fp.hexdigest()
    return cache[cache_key]

判断数据是否存在

源码dupefilter.py文件中

 fp = self.request_fingerprint(request)
        # 这将返回添加的值的数量，如果已经存在，则为零
        added = self.server.sadd(self.key, fp)
        return added == 0

dmoz.py爬虫

# 在settings.py文件中添加过滤

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
REDIS_URL='redis://127.0.0.1:6379'

myspider_redis.py分布式爬虫

在redis数据库中添加start_url地址，完成同一代码多电脑爬取

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'myspider_redis'
    redis_key = 'myspider:start_urls' # 储存在数据库中
    allowed_domain=[]

mycrawler_redis.py 分布式自动提取url爬虫

from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider


class MyCrawler(RedisCrawlSpider):
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'mycrawler_redis'
    redis_key = 'mycrawler:start_urls'
    allow_domains=[]
    rules = (
        # follow all links
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )

    def parse_page(self, response):
        return {
     
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
Spring 核心技术解析【纯干货版】- XII：Spring 数据访问模块 Spring-R2dbc 模块精讲 m0_74825003 面试学习路线阿里巴巴 spring java 后端
在现代应用架构中，高并发、低延迟的需求推动了响应式编程的发展，而传统的JDBC由于其同步阻塞机制，在高吞吐场景下可能成为瓶颈。R2DBC（ReactiveRelationalDatabaseConnectivity）作为响应式关系型数据库访问标准，正是为了解决这一问题而诞生的。SpringR2DBC作为Spring生态对R2DBC的封装，提供了非阻塞、异步的数据库访问能力，并与SpringWebF
解释SQL和NoSQL数据库的区别，各自的适用场景是什么？破碎的天堂鸟学习教程 nosql 数据库
SQL与NoSQL数据库的深度对比及适用场景分析一、核心定义与数据模型差异1：SQL数据库结构化数据模型：基于关系型模型，数据以表格（行和列）形式存储，表之间通过外键建立关联。例如，客户表与订单表通过客户ID关联，形成严格的逻辑结构。预定义模式（Schema）：需提前定义表结构（字段类型、主键、外键等），修改结构需通过ALTER等命令，灵活性较低。标准化查询语言：使用SQL（StructuredQ
网络安全工具 AWVS 与 Nmap：原理、使用及代码示例阿贾克斯的黎明网络安全安全 web安全网络
目录网络安全工具AWVS与Nmap：原理、使用及代码示例AWVS：Web漏洞扫描的利器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用AWVSAPI进行扫描）Nmap：网络探测与端口扫描的神器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用Nmap进行扫描）总结在网络安全领域，AWVS（AcunetixWebVulnerabilityScanner）和Nmap是
深入剖析 Weblogic、ThinkPHP、Jboss、Struct2 历史漏洞阿贾克斯的黎明网络安全 web安全
目录深入剖析Weblogic、ThinkPHP、Jboss、Struct2历史漏洞一、Weblogic漏洞（一）漏洞原理（二）漏洞利用代码（Python示例）（三）防范措施二、ThinkPHP漏洞（一）漏洞原理（二）漏洞利用代码（示例，假设存在漏洞的代码片段）（三）防范措施三、Jboss漏洞（一）漏洞原理（二）漏洞利用代码（Java示例，用于构造恶意序列化数据）（三）防范措施四、Struct2漏洞
【Python专栏】Python的发展历程雾岛心情 Python入门到精通 python 开发语言
Python的创始人为吉多·范罗苏姆（GuidovanRossum），人称龟叔1989年，为了打发圣诞节假期，Guido开始写Python语言的编译器。Python这个名字，来自Guido所挚爱的电视剧MontyPython’sFlyingCircus。他希望这个新的叫做Python的语言，能符合他的理想：创造一种C和shell之间，功能全面，易学易用，可拓展的语言。Python的具体发展历史和版
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
一学就会：A*算法详细介绍（Python）不去幼儿园人工智能（AI）#启发式算法算法 python 人工智能机器学习开发语言
本篇文章是博主人工智能学习以及算法研究时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在启发式算法专栏：【人工智能】-【启发式算法】（6）---《一学就会：A*算法详细介绍（Python）》一学就会：A*算法详细介绍（Python）目录A*算法介绍A*算法的核心概念A*算法的特点A*算法示例：迷宫
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输 winfredzhang python 音视频实时传输蓝牙耳机
在现代的工作和生活环境中，音频传输的需求日益增加。无论是远程会议、在线教育，还是家庭娱乐，音频的实时传输都扮演着至关重要的角色。今天，我将向大家介绍一个简单而实用的应用程序，它能够捕获笔记本电脑麦克风的音频，并通过蓝牙耳机实时传输。这款应用程序特别适用于需要在会议室等场景中远程听取声音的情况。接下来，我将详细讲解这个应用程序的实现过程，并提供完整的代码和使用指南。引言想象一下这样的场景：你需要离开
网络安全加密python代码黑客Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出
Day5 --- Flask-RESTful请求响应与SQLAlchemy基础 laufing 问题 flask restful python
文章目录昨日回顾今日内容1.请求解析1.1RequestParser处理请求1.2参数详解1.3处理请求案例2.返回响应2.1序列化数据:2.2返回JSON格式3.ORM与Flask-SQLAlchemy3.1ORM介绍ORM框架3.2Flask-SQLAlchemy扩展3.3定义模型类3.4数据库迁移操作4.数据增删改查4.1新增数据4.2简单查询4.3更新数据4.4删除数据5.数据操作案例昨日
python 商城性能,python商城项目总结 Yvetzy python 商城性能
importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要
用Python写一个商城系统潮水岩
如果要用Python写一个商城系统，可以先定义需要实现的功能，再按照功能模块分别进行开发。下面是一个简单的开发流程：数据模型设计：需要定义商品、订单、用户等数据模型，并且将它们存储在数据库中。用户模块：用户可以注册、登录、查看个人信息、修改密码等。商品模块：商家可以发布商品、管理商品信息、查看商品列表等；用户可以查看商品详情、加入购物车等。订单模块：用户可以下单、查看订单详情、取消订单、评价订单等
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python导出结果_Python连接Oracle数据查询导出结果 weixin_39712821 python导出结果
python连接oracle，需用用到模块cx_oracle，可以直接pip安装，如网络不好，可下载离线后本地安装本人由于工作需要，期望便捷查询所得结果，且固定输出某个格式具体代码如下：#!coding:utf-8importcx_Oracleconn=cx_Oracle.connect('username/password@IP/连接名')cur=conn.cursor()cur.execute
Python—kafka操作蓝魔Y Python编程 kafka
文档结构1、概念简介2、环境搭建3、操作实践1、概念简介2、环境搭建接口手册：https://kafka-python.readthedocs.io/en/master/Python操作kafka的模块为：kafka-python模块安装pipinstallkafka-python3、操作实践=============================================over====
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
Linux上用C++和GCC开发程序实现不同PostgreSQL实例下单个数据库的多个Schema之间的稳定高效的数据迁移 weixin_30777913 c++数据库 postgresql
设计一个在Linux上运行的GCCC++程序，同时连接两个不同的PostgreSQL实例，两个实例中分别有一个数据库的多个Schema的表结构完全相同，复制一个实例中一个数据库的多个Schema里的所有表的数据到另一个实例中一个数据库的多个Schema里，使用以下快速高效的方法，加入异常处理，支持每隔固定时间重试一定次数，每张表的复制运行状态和记录条数，开始结束时间戳，运行时间，以及每个批次的运行
python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算路过炊烟 python画出roc曲线 auc计算逻辑
前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，
【spug】使用勤不了一点 CI/CD python django ci/cd 运维 devops
目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
python实现从oracle数据库查询数据生成excel透视表发送outlook niceme！ python
#-*-coding:utf-8-*-#http://pypi.cq.pegatroncorp.com/simple--trusted-hostpypi.cq.pegatroncorp.comimportchardetimportdatetimeimporttimeimportxlwtimportwin32com.clientaswin32fromwin32com.clientimportcons
pip 与当前python环境版本不匹配，python安装库成功，还是提示没有该库灿灿的金 python pip 开发语言
解决pip版本不一致在使用pip命令前加上python-m即可让pip版本和当前python版本一致因此,当使用pip安装依赖时,需要在命令前添加python-m来配合使用,比如安装一个pillow库,命令如下python-mpipinstallpillow你同时安装了python2和python3pipinstallPillow可能下载的是python3的库，而你代码跑的是python2可以通过
【Python-ML】SKlearn库性能指标ROC-AUC fjssharpsword Big data python专栏
#-*-coding:utf-8-*-'''Createdon2018年1月19日@author:Jason.F@summary:ROC(receiveroperatorcharacteristic，基于模型真正率和假正率等性能指标评估分类模型'''importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.cros
Postgresql 查询数据库列表，表列表，字段列表小毛驴850 postgresql 数据库
--列出数据库列表SELECT*FROMpg_database;--查询表字段明细SELECTcol.table_schema,col.table_name,col.ordinal_position,col.column_name,col.data_type,col.character_maximum_length,col.numeric_precision,col.numeric_scale,c
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb