amelia1995

scrapy中命令介绍

一、显示全部命令

1、在项目外输入 scrapy -h

(scrapy_env) frange@ubuntu:~/workspace/spider$ scrapy -h
Scrapy 1.5.1 - no active project

Usage:
scrapy  [options] [args]

Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy

[ more ] More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

scrapy -h

2、在项目内输入scrapy -h

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago/spider_lago$ scrapy -h
Scrapy 1.5.1 - project: spider_lago

Usage:
  scrapy  [options] [args]

Available commands:
  bench         Run quick benchmark test
  check         Check spider contracts
  crawl         Run a spider
  edit          Edit spider
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

Use "scrapy  -h" to see more info about a command

scrapy -h

二、单个命令介绍

1、bench

　　对网站进行快速爬取测试，用于检测本地硬件的性能

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago$ scrapy bench http://baidu.com
2018-08-14 02:12:01 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: spider_lago)
2018-08-14 02:12:01 [scrapy.utils.log] INFO: Versions: lxml 4.2.3.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.7.0, Python 3.5.2 (default, Nov 23 2017, 16:37:01) - [GCC 5.4.0 20160609], pyOpenSSL 18.0.0 (OpenSSL 1.1.0h  27 Mar 2018), cryptography 2.3, Platform Linux-4.15.0-29-generic-x86_64-with-Ubuntu-16.04-xenial
2018-08-14 02:12:02 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'spider_lago.spiders', 'LOG_LEVEL': 'INFO', 'BOT_NAME': 'spider_lago', 'LOGSTATS_INTERVAL': 1, 'SPIDER_MODULES': ['spider_lago.spiders'], 'CLOSESPIDER_TIMEOUT': 10}
2018-08-14 02:12:03 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.closespider.CloseSpider']
2018-08-14 02:12:03 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-08-14 02:12:03 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-08-14 02:12:03 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-08-14 02:12:03 [scrapy.core.engine] INFO: Spider opened
2018-08-14 02:12:03 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:04 [scrapy.extensions.logstats] INFO: Crawled 53 pages (at 3180 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:05 [scrapy.extensions.logstats] INFO: Crawled 117 pages (at 3840 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:06 [scrapy.extensions.logstats] INFO: Crawled 173 pages (at 3360 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:07 [scrapy.extensions.logstats] INFO: Crawled 229 pages (at 3360 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:08 [scrapy.extensions.logstats] INFO: Crawled 269 pages (at 2400 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:09 [scrapy.extensions.logstats] INFO: Crawled 325 pages (at 3360 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:10 [scrapy.extensions.logstats] INFO: Crawled 365 pages (at 2400 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:11 [scrapy.extensions.logstats] INFO: Crawled 373 pages (at 480 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:12 [scrapy.extensions.logstats] INFO: Crawled 421 pages (at 2880 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:13 [scrapy.extensions.logstats] INFO: Crawled 461 pages (at 2400 pages/min), scraped 0 items (at 0 items/min)
2018-08-14 02:12:13 [scrapy.core.engine] INFO: Closing spider (closespider_timeout)
2018-08-14 02:12:14 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 199285,
 'downloader/request_count': 477,
 'downloader/request_method_count/GET': 477,
 'downloader/response_bytes': 1332429,
 'downloader/response_count': 477,
 'downloader/response_status_count/200': 477,
 'finish_reason': 'closespider_timeout',
 'finish_time': datetime.datetime(2018, 8, 14, 9, 12, 14, 485240),
 'log_count/INFO': 17,
 'memusage/max': 53321728,
 'memusage/startup': 53321728,
 'request_depth_max': 17,
 'response_received_count': 477,
 'scheduler/dequeued': 477,
 'scheduler/dequeued/memory': 477,
 'scheduler/enqueued': 9541,
 'scheduler/enqueued/memory': 9541,
 'start_time': datetime.datetime(2018, 8, 14, 9, 12, 3, 671156)}
2018-08-14 02:12:14 [scrapy.core.engine] INFO: Spider closed (closespider_timeout)

scrapy bench http://baidu.com

2、fetch

　　显示爬取过程

(scrapy_env) frange@ubuntu:~/workspace/spider$ scrapy fetch --nolog http://baidu.com

 百度一下，你就知道         
        
 
 
  新闻 hao123 地图 视频 贴吧   更多产品 
 
 
    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号

爬取百度

3、genspider

　　创建一个爬虫项目，需要在爬虫项目内运行

4、runspider

　　直接运行一个爬虫文件

5、settings

　　查看scrapy对应的配置信息

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago/spider_lago$ scrapy settings --get ROBOTSTXT_OBEY
False

6、shell

　　启动scrapy交互终端

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago/spider_lago$ scrapy shell
2018-08-14 03:01:30 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: spider_lago)
2018-08-14 03:01:30 [scrapy.utils.log] INFO: Versions: lxml 4.2.3.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.7.0, Python 3.5.2 (default, Nov 23 2017, 16:37:01) - [GCC 5.4.0 20160609], pyOpenSSL 18.0.0 (OpenSSL 1.1.0h  27 Mar 2018), cryptography 2.3, Platform Linux-4.15.0-29-generic-x86_64-with-Ubuntu-16.04-xenial
2018-08-14 03:01:30 [scrapy.crawler] INFO: Overridden settings: {'LOGSTATS_INTERVAL': 0, 'SPIDER_MODULES': ['spider_lago.spiders'], 'NEWSPIDER_MODULE': 'spider_lago.spiders', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'BOT_NAME': 'spider_lago'}
2018-08-14 03:01:30 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2018-08-14 03:01:30 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-08-14 03:01:30 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-08-14 03:01:30 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-08-14 03:01:30 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    
[s]   item       {}
[s]   settings   
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects 
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
>>>

scrapy shell

7、startproject

　　创键爬虫

8、version

　　scrapy版本信息

9、view

　　实现下载某个网页并用浏览器查看

三、项目内命令

由于scrapy全局命令可以在非爬虫项目中使用也可以在项目中使用，所以，在项目命令中也会有全局命令。

1、genspider

　　在爬虫项目目录中，基于爬虫模板直接创建一个scrapy爬虫文件

　　下面的代码为查看模板

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago/spider_lago$ scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

View Code

　　查看模板内容

(scrapy_env) frange@ubuntu:~/workspace/spider/spider_lago/spider_lago$ scrapy genspider -d csvfeed
# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider


class $classname(CSVFeedSpider):
    name = '$name'
    allowed_domains = ['$domain']
    start_urls = ['http://$domain/feed.csv']
    # headers = ['id', 'name', 'description', 'image_link']
    # delimiter = '\t'

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    def parse_row(self, response, row):
        i = {}
        #i['url'] = row['url']
        #i['name'] = row['name']
        #i['description'] = row['description']
        return i

View Code

　　创建一个爬虫

scrapy genspider -t basic weisuen baidu.com

2、check

　　实现对某个爬虫文件进行合同检查

scrapy check 爬虫名

3、crawl

　　启动某个爬虫

scrapy crawl 爬虫名 --loglevel=INFO

4、list

　　列出当前可使用的爬虫文件

5 、edit

　　用编辑器打开爬虫文件进行编辑

6、parse

　　获取指定的url网址，如果没指定爬虫文件使用默认的爬虫文件和默认的处理函数进行处理

转载于:https://www.cnblogs.com/Frange/p/9476029.html

你可能感兴趣的:(python,爬虫,shell)

Python3 字典：解锁高效数据存储的钥匙李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享编程实战趣味编程编程技巧
Python3字典：解锁高效数据存储的钥匙内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解决方案，帮助读
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
(c/c++)——C++和python的异常处理想要躺平的一枚 C++python c语言 c++
目录一、C++的异常处理二、python的异常处理——自定义异常一、C++的异常处理C++中选择用throw来抛出异常，catch来捕捉异常和处理try{//可能发生异常的语句//throw异常对象}catch(类型1){//发生类型1异常时的处理代码}catch(类型2){//发生类型2异常时的处理代码}catch(...){//不管什么异常，都在这里统一处理。}throw抛出异常对象，异常对象
【自动化】使用PlayWright+代理IP实现多环境隔离青塬科技 Python
Playwright是由微软公司2020年初发布的新一代自动化测试工具，相较于目前最常用的Selenium，它仅用一个API即可自动执行Chromium、Firefox、WebKit等主流浏览器自动化操作。对各种开发语言也有非常好的支持。常用的NodeJs、Java、python都有支持，且有丰富的文档参考。Python环境下的安装使用1、安装依赖库pipinstallplaywright2、安装
python3.10运行moviepy失败 fendouweiqian Python python
运行异常：Nomodulenamed‘moviepy.editor’python版本为：3.10.12修复方案：pipuninstallmoviepypipinstallmoviepy==1.0.3
在 Windows 系统上，将 Ubuntu 从 C 盘迁移到 D 盘 YiHanXii windows ubuntu postgresql
在Windows系统上，如果你使用的是WSL（WindowsSubsystemforLinux）并安装了Ubuntu，你可以将Ubuntu从C盘迁移到D盘。迁移过程涉及导出当前的Ubuntu发行版，然后将其导入到D盘的目标目录。以下是详细的步骤：1.导出Ubuntu发行版首先，你需要将Ubuntu发行版从当前的C盘导出为.tar文件。打开PowerShell（管理员权限）：按Win+X，选择Win
【Origin+Python】使用External Python批量出图代码参考2 kkkkkkkkk_1201 绘图 python 开发语言
目录前情提要进阶代码1批量绘制曲线图2曲线图设置3批量绘制相同设置的曲线图去除水印前情提要基础教程见链接:【Origin+Python】使用ExternalPython批量出图代码参考这里主要介绍一些进阶代码以及使用盗版origin要如何去除水印的方法！#############################################################进阶代码########
Python面向对象编程：精雕细琢对象的“名片”——重写 `__str__()` 和 `__repr__()` 方法清水白石008 Python题库 python python 开发语言
Python面向对象编程：精雕细琢对象的“名片”——重写__str__()和__repr__()方法在Python中，当我们使用print()函数打印一个对象，或者在交互式解释器中直接输入对象并回车时，Python会尝试将该对象转换为字符串进行显示。这个转换过程涉及到两个特殊方法：__str__()和__repr__()。正确地重写这两个方法，可以让我们更好地控制对象的字符串表示形式，提高代码的可
origin软件有python好用吗_Origin 2021大大改进了与Python的交互 weixin_39922534
经常收到同学咨询如何在Origin中管理下载Python包的问题，可以翻看上期专栏Origin2021对使用Python编程进行了重大改进。这些改进主要包括：新的originpro程序包，可使用Python语言轻松访问Origin对象和数据Python代码编辑器IDE现支持自动补完和调试功能可通过脚本或图形用户界面来安装和管理Python包设置列值，拟合函数和文本对象中使用Python函数从Lab
origin和python有什么不同_python爬虫之git的使用（origin说明） weixin_39878760
1、首先我们回忆两个命令#gitremoteaddorigin远程仓库链接#gitpush-uoriginmaster我们一起看看这个命令，git是git的一级命令，push就是下载，-u应该使用用账户验证maser就是分支的名字(前面我们说过)，那么这个origin是个什么鬼？大家看看下面的这个5毛钱图，就能发现，其实origin就是远程仓库的名称。如果不相信在看看我的配置文件#vi.git/c
tensorflow对应的python版本_tensorflow + python + keras 版本对应关系 weixin_39912303
TensorFlow2.2tensorflow-2.2TensorFlow2.2.0+Keras2.3.1onPython3.7.TensorFlow2.1tensorflow-2.1TensorFlow2.1.0+Keras2.3.1onPython3.6.TensorFlow2.0tensorflow-2.0TensorFlow2.0.0+Keras2.3.1onPython3.6.Tenso
python中shutil.copyfile的用法_python shutil.copy()用法 weixin_39678103
shutil.copyfile(src,dst)：复制文件内容（不包含元数据）从src到dst。DST必须是完整的目标文件名;如果src和dst是同一文件，就会引发错误shutil.Error。dst必须是可写的，否则将引发异常IOError。如果dst已经存在，它会被替换。特殊文件，例如字符或块设备和管道不能使用此功能，因为copyfile会打开并阅读文件。src和dst的是字符串形式的路径名。
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
【Mac】Python相关知识经验水银嘻嘻 Python macos python 开发语言
一、给Python3安装第三方库mac下给Python3安装第三方库pillow，处理图片【安装方式】：终端中输入命令：python3-mpipinstallpillow按回车，等待pillow下载安装NOTE:其他模块同理，如pytesseract二、Python版本升级1.终端执行命令：brewinstallpython32.安装Python3版本成功后，系统默认的仍旧是之前的版本，注意不要去
Python shutil.copy 函数 song_cai_csdn python
shutil.copy(source-path,dest-path)source-path中包含目录，对导致IOError:[Errno13]Permissiondenied异常
（三）python网络爬虫（理论+实战）——爬虫与反爬虫阳光宅男xxb 30天学会python网络爬虫 python 大数据爬虫
系列文章目录（1）python网络爬虫—快速入门（理论+实战）（一）（2）python网络爬虫—快速入门（理论+实战）（二）序言本人从事爬虫相关工作已8年以上，从一个小白到能够熟练使用爬虫，中间也走了些弯路，希望以自身的学习经历，让大家能够轻而易举的，快速的，掌握爬虫的相关知识并熟练的使用它，避免浪费更多的无用时间，甚至走
（详细整理！！！！）Tensorflow与Keras、Python版本对应关系！！！今天不想Debug tensorflow keras 人工智能
小伙伴们大家好，不知道大家有没有被tensorflow框架困扰过今天我就给大家整理一下tensorflow和keras、python版本的对应关系大家这些都可以在官网找到，下面我把官网的连接给大家放在这里：在Windows环境中从源代码构建|TensorFlow(google.cn)但是为了方便大家，我给大家列在下面啦！！！下面这个是我给大家总结的（也是为我自己整理的，嘿嘿~~~）（然后后面我也把
华为OD机试E卷 --分苹果 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述A、B两个人把苹果分为两堆，A希望按照他的计算规则等分苹果，他的计算规则是按照二进制加法计算，并且不计算进位12+5=9(1100+0101=9)，B的计算规则是十进制加法，包括正常进位，B希望在满足A的情况下获取苹果重量最多。输入苹果的数量和每个苹果重量，输出满足A的情况下
Package ‘importlib-metadata‘ requires a different Python: 3.6.10 not in ‘＞=3.7‘ zy_whynot python python 开发语言后端
报错ERROR:Package'importlib-metadata'requiresadifferentPython:3.6.10notin'>=3.7'WARNING:Youareusingpipversion20.0.2;however,version21.3.1isavailable.Youshouldconsiderupgradingviathe'/usr/local/bin/pytho
Python设计模式 - 工厂方法模式 mofei12138 设计模式 python python 设计模式工厂方法模式
定义工厂方法模式是一种创建型设计模式，它定义一个创建对象的接口，让其子类来处理对象的创建，而不是直接实例化对象。结构抽象工厂（Factory）：声明工厂方法，返回一个产品对象。具体工厂类都必须实现该方法。具体工厂（ConcreteFactory）：实现工厂方法以创建具体的产品对象。抽象产品（Product）：定义产品对象的接口。具体产品（ConcreteProduct）：实现产品接口的具体产品对象
正则表达式的艺术：轻松驾驭 Python 的 re 库傻啦嘿哟 mysql 数据库 java
目录一、正则表达式的基本概念二、Python的re库简介三、正则表达式的元字符四、正则表达式的贪婪与非贪婪模式五、实战案例六、总结正则表达式（RegularExpression）是文本处理中不可或缺的工具，它强大而灵活，能够帮助我们高效地匹配、查找、替换复杂的文本模式。Python的re库为我们提供了便捷的正则表达式操作接口。本文将带你领略正则表达式的艺术，通过简洁明了的代码和案例，轻松驾驭Pyt
python广告点击率预测_常见计算广告点击率预估算法总结 weixin_39850143 python广告点击率预测
欢迎大家前往腾讯云技术社区，获取更多腾讯海量技术实践干货哦~作者：导语：本文讨论了CTR预估模型，包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作。前言谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到
python 菜单调用_Python Tkinter Menu菜单（窗口菜单和右键菜单）使用详解 weixin_39997311 python 菜单调用
Tkinter为菜单提供了Menu类，该类既可代表菜单条，也可代表菜单，还可代表上下文菜单（右键菜单）。简单来说，Menu类就可以搞定所有菜单相关内容。程序可调用Menu的构造方法来创建菜单，在创建菜单之后可通过如下方法添加菜单项：add_command()：添加菜单项。add_checkbutton()：添加复选框菜单项。add_radiobutton()：添加单选钮菜单项。add_separa
游戏引擎架构第二版中文pdf_Allen Kashiwa的游戏开发信息 weixin_39811166 游戏引擎架构第二版中文pdf
0本文首发于我的github和我的博客，欢迎大家与我交流。1基础知识与通用技能1.1语言相关1.1.1C/C++C++Primer1.1.2C#C#编程指南CLRviaC#（第4版）1.1.3LuaProgramminginLua1.1.4Python廖雪峰的Python教程1.2语言无关1.2.1算法算法图解DataStructureVisualizations算法可视化visualgoIntr
python菜单栏_(7)python tkinter-菜单栏 weixin_39625172 python菜单栏
importtkinterimporttkinter.messageboxdefbut():tkinter.Toplevel()root=tkinter.Tk()#root.title('GUI')#标题root.geometry('800x600')#窗体大小root.resizable(False,False)#固定窗体f=tkinter.Menu(root)#创建根菜单root['menu'
python的中文翻译-再聊聊Python中文社区的翻译 weixin_37988176
在写《学习Python，怎能不懂点PEP呢？》的时候，我已经发现国内的Python翻译环境不容乐观。这个结论可能不对，毕竟这几年Python大热，或许有不少优秀的翻译项目，只是我还不知道而已。不管如何，接着上一篇关于“Python学习资料汉化”的话题，今天，我们再聊聊Python中文社区的翻译话题。Python部落的翻译社很巧合的是，Python部落（公众号：Python程序员）刚刚低调地上线了“
【Python】 -- 趣味代码 - 圣诞树电科_银尘 Python趣味编程 python 开发语言
文章目录文章目录01圣诞树动图设计框架02圣诞树程序代码01圣诞树动图设计框架下面是对代码主要部分的详细解释：导入库：代码开始部分导入了turtle库，并给它起了别名t，同时导入了random库并给它起了别名r，以及time库。设置画布：使用screensize设置画布背景为黑色，title设置窗口标题为"圣诞快乐"，setup设置画布大小为800x800像素。设置画笔：pencolor设置画笔颜
如何解决Package ‘zipp’ requires a different Python: 3.5.2 not in '>=3.6 @_sunny_@ pip python tensorflow
如何解决Package‘zipp’requiresadifferentPython:3.5.2notin'>=3.6我出现这个问题是在我的服务器上，安装TensorFlow包的时候。原因就是Python的版本较低，Zipp的版本较高解决办法输入pip3list查看包的版本，然后将zipp包先卸载pip3uninstallzipp然后下载指定版本的Zipp包pip3installzipp==1.0.
python 爬虫4 - re模块（正则表达式） Shin zhong python 爬虫正则表达式 python
一、正则表达式1.概念正则表达式（RegularExpression，简称Regex）是一种用于匹配字符串的模式。它可以用来搜索、替换、验证文本中的特定模式。Python中的re模块提供了对正则表达式的支持。2.语法正则表达式的语法相对复杂，但理解其核心概念后，可以用非常简洁的方式来表达字符串匹配规则符号解释.匹配任意单个字符（除换行符）。^匹配字符串的开头。$匹配字符串的结尾。*匹配前面的字符0
python提出HTML中的连接和文本。 laocooon523857886 Python 前端服务器 linux
49LanguagesSimpleEnglishBahasaIndonesiaBahasaMelayuCataleskyDanskDeutschEestiEspaolEsperantoEuskaraFranaisGalegoHrvatskiItalianoLietuviMagyarNederlandsNorskbokmlNorsknynorskPolskiPortugusRomnSlovenina
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他