栗子ma

【爬虫】Scrapy 抓取网站数据

【原文链接】http://chenqx.github.io/2014/11/09/Scrapy-Tutorial-for-BBSSpider/

Scrapy Tutorial

　　接下来以爬取饮水思源BBS数据为例来讲述爬取过程，详见 bbsdmoz代码。
　　本篇教程中将带您完成下列任务：

1. 创建一个Scrapy项目
2. 定义提取的Item
3. 编写爬取网站的 spider 并提取 Item
4. 编写 Item Pipeline 来存储提取到的Item(即数据)

Creating a project

　　在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令：

scrapy startproject bbsdmoz

该命令将会创建包含下列内容的 bbsDmoz 目录，这些文件分别是：

scrapy.cfg: 项目的配置文件
bbsDmoz/: 该项目的python模块。之后您将在此加入代码。
bbsDmoz/items.py: 项目中的item文件.
bbsDmoz/pipelines.py: 项目中的pipelines文件.
bbsDmoz/settings.py: 项目的设置文件.
bbsDmoz/spiders/: 放置spider代码的目录.

Defining our Item

　　Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
　　类似在ORM (Object Relational Mapping, 对象关系映射) 中做的一样，您可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。(如果不了解ORM,不用担心，您会发现这个步骤非常简单)
　　首先根据需要从bbs网站获取到的数据对item进行建模。我们需要从中获取url，发帖板块，发帖人，以及帖子的内容。对此，在item中定义相应的字段。编辑 bbsDmoz 目录中的 items.py 文件：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field

class BbsItem(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = Field()
    forum = Field()
    poster = Field()
    content = Field()

　　一开始这看起来可能有点复杂，但是通过定义item，您可以很方便的使用Scrapy的其他方法。而这些方法需要知道您的item的定义。

Our first Spider

　　Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。
　　其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

创建一个Spider

Selectors选择器

　　我们使用XPath来从页面的HTML源码中选择需要提取的数据。这里给出XPath表达式的例子及对应的含义:

/html/head/title: 选择HTML文档中标签内的 </code> 元素</li> <li><code>/html/head/title/text()</code>: 选择上面提到的 <code><title></code> 元素的文字</li> <li><code>//td</code>: 选择所有的 <code><td></code> 元素</li> <li><code>//div[@class="mine"]</code>: 选择所有具有 <code>class="mine"</code> 属性的 <code>div</code> 元素</li> </ul> <p>　　以饮水思源BBS一页面为例：https://bbs.sjtu.edu.cn/bbstcon?board=PhD&reid=1406973178&file=M.1406973178.A<br> 　　观察HTML页面源码并创建我们需要的数据(种子名字，描述和大小)的XPath表达式。<br> 　　通过观察，我们可以发现<code>poster</code>是包含在 <code>pre/a</code> 标签中的，这里是<code>userid=jasperstream</code>:</p> <p><a href="http://img.e-com-net.com/image/info8/3caac6f3781240b2977cdd071037d00d.jpg" target="_blank"><img alt="【爬虫】Scrapy 抓取网站数据_第1张图片" class="has" src="http://img.e-com-net.com/image/info8/3caac6f3781240b2977cdd071037d00d.jpg" width="650" height="282" style="border:1px solid black;"></a></p> <p>　　因此可以提取<code>jasperstream</code>的 XPath 表达式为：'//pre/a/text()'</p> <p>　　为了配合XPath，Scrapy除了提供了 Selector 之外，还提供了方法来避免每次从response中提取数据时生成selector的麻烦。Selector有四个基本的方法:</p> <ul> <li><code>xpath()</code>: 传入xpath表达式，返回该表达式所对应的所有节点的<code>selector list</code>列表。</li> <li><code>css()</code>: 传入CSS表达式，返回该表达式所对应的所有节点的<code>selector list</code>列表.</li> <li><code>extract()</code>: 序列化该节点为unicode字符串并返回<code>list</code>。</li> <li><code>re()</code>: 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。</li> </ul> <p>　　如提取上述的<code>poster</code>的数据：</p> <pre class="has"><code class="language-python">sel.xpath('//pre/a/text()').extract()</code></pre> <h3 id="使用Item">使用Item</h3> <p>　　<code>Item</code> 对象是自定义的python字典。您可以使用标准的字典语法来获取到其每个字段的值(字段即是我们之前用Field赋值的属性)。一般来说，Spider将会将爬取到的数据以 <code>Item</code> 对象返回。　</p> <h3 id="Spider代码">Spider代码</h3> <p>　　以下为我们的第一个<strong><code>Spider代码</code></strong>，保存在 <code>bbsDmoz/spiders</code> 目录下的 <code>forumSpider.py</code> 文件中：</p> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- """ Created on Fri Jul 20 13:18:58 2018 @author: Administrator """ from scrapy.selector import Selector from scrapy.http import Request from scrapy.contrib.spiders import CrawlSpider from scrapy.contrib.loader import ItemLoader #SGMLParser based link extractors are unmantained and its usage is discouraged. It is recommended to migrate to LxmlLinkExtractor #from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor from bbsdmoz.items import BbsItem class forumSpider(CrawlSpider): # name of spiders name = 'bbsSpider' allow_domain = ['bbs.sjtu.edu.cn'] start_urls = [ 'https://bbs.sjtu.edu.cn/bbsall' ] link_extractor = { 'page': LxmlLinkExtractor(allow = '/bbsdoc,board,\w+\.html$'), 'page_down': LxmlLinkExtractor(allow = '/bbsdoc,board,\w+,page,\d+\.html$'), 'content': LxmlLinkExtractor(allow = '/bbscon,board,\w+,file,M\.\d+\.A\.html$'), } _x_query = { 'page_content': '//pre/text()[2]', 'poster' : '//pre/a/text()', 'forum' : '//center/text()[2]', } def parse(self, response): for link in self.link_extractor['page'].extract_links(response): yield Request(url = link.url, callback=self.parse_page) def parse_page(self, response): for link in self.link_extractor['page_down'].extract_links(response): yield Request(url = link.url, callback=self.parse_page) for link in self.link_extractor['content'].extract_links(response): yield Request(url = link.url, callback=self.parse_content) def parse_content(self, response): bbsItem_loader = ItemLoader(item=BbsItem(), response = response) url = str(response.url) bbsItem_loader.add_value('url', url) bbsItem_loader.add_xpath('forum', self._x_query['forum']) bbsItem_loader.add_xpath('poster', self._x_query['poster']) bbsItem_loader.add_xpath('content', self._x_query['page_content']) return bbsItem_loader.load_item()</code></pre> <h2 id="Define_Item_Pipeline"><strong>Define Item Pipeline</strong></h2> <p>　　当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。<br> 　　每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。<br> 　　以下是<code>item pipeline</code>的一些典型应用：</p> <ul> <li>清理HTML数据</li> <li>验证爬取的数据(检查item包含某些字段)</li> <li>查重(并丢弃)</li> <li>将爬取结果保存，如保存到数据库、XML、JSON等文件中</li> </ul> <h3 id="编写_Item_Pipeline">编写 Item Pipeline</h3> <p>　　编写你自己的<code>item pipeline</code>很简单，每个<code>item pipeline</code>组件是一个独立的Python类，同时必须实现以下方法:</p> <pre class="has"><code class="language-python">process_item(item, spider) 　　每个item pipeline组件都需要调用该方法，这个方法必须返回一个 Item (或任何继承类)对象，或是抛出 DropItem异常，被丢弃的item将不会被之后的pipeline组件所处理。　　参数：item (Item object) – 由 parse 方法返回的 Item 对象　　　　　spider (Spider object) – 抓取到这个 Item 对象对应的爬虫对象</code></pre> <p>　　此外,他们也可以实现以下方法：</p> <pre class="has"><code class="language-python">open_spider(spider) 　　当spider被开启时，这个方法被调用。　　参数: spider (Spider object) – 被开启的spider close_spider(spider) 　　当spider被关闭时，这个方法被调用，可以再爬虫关闭后进行相应的数据处理。　　参数: spider (Spider object) – 被关闭的spider</code></pre> <p>　　本文爬虫的<code>item pipeline</code>如下，保存为XML文件：</p> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals from scrapy import log from bbsdmoz.items import BbsItem from twisted.enterprise import adbapi from scrapy.contrib.exporter import XmlItemExporter from dataProcess import dataProcess class BbsdmozPipeline(object): def __init__(self): pass @classmethod def from_crawler(cls, crawler): pipeline = cls() crawler.signals.connect(pipeline.spider_opened, signals.spider_opened) crawler.signals.connect(pipeline.spider_closed, signals.spider_closed) return pipeline def spider_opened(self, spider): self.file = open('bbsData.xml', 'wb') self.expoter = XmlItemExporter(self.file) self.expoter.start_exporting() def spider_closed(self, spider): self.expoter.finish_exporting() self.file.close() # process the crawled data, define and call dataProcess function # dataProcess('bbsData.xml', 'text.txt') def process_item(self, item, spider): self.expoter.export_item(item) return item</code></pre> <p>　　编写dataProcess.py小工具：</p> <p><a href="http://img.e-com-net.com/image/info8/63e4abcbee2149fa8966f0a3e51925e0.png" target="_blank"><img alt="【爬虫】Scrapy 抓取网站数据_第2张图片" class="has" src="http://img.e-com-net.com/image/info8/63e4abcbee2149fa8966f0a3e51925e0.png" width="567" height="161" style="border:1px solid black;"></a></p> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- """ Created on Fri Jul 20 14:45:01 2018 @author: Administrator """ from lxml import etree # In Python 3, ConfigParser has been renamed to configparser from configparser import ConfigParser class dataProcess: def __init__(self, source_filename, target_filename): # load stop words into the memory. fin = open(source_filename, 'r') read = fin.read() output = open(target_filename, 'w') output.write(read) fin.close() output.close()</code></pre> <h2 id="Settings"><strong>Settings (settings.py)</strong></h2> <p>　　Scrapy设定(<code>settings</code>)提供了定制Scrapy组件的方法。您可以控制包括核心(core)，插件(extension)，pipeline及spider组件。<br> 　　设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。设定可以通过下面介绍的多种机制进行设置。<br> 　　设定(settings)同时也是选择当前激活的Scrapy项目的方法(如果您有多个的话)。<br> 　　在<code>setting</code>配置文件中，你可一定以抓取的速率、是否在桌面显示抓取过程信息等。详细请参考内置设定列表请参考。</p> <p>　　为了启用一个<code>Item Pipeline</code>组件，你必须将它的类添加到 <code>ITEM_PIPELINES</code>. 分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。</p> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- # Scrapy settings for bbsdmoz project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # https://doc.scrapy.org/en/latest/topics/settings.html # https://doc.scrapy.org/en/latest/topics/downloader-middleware.html # https://doc.scrapy.org/en/latest/topics/spider-middleware.html BOT_NAME = 'bbsdmoz' SPIDER_MODULES = ['bbsdmoz.spiders'] NEWSPIDER_MODULE = 'bbsdmoz.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'bbsdmoz (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = True # Configure maximum concurrent requests performed by Scrapy (default: 16) CONCURRENT_REQUESTS = 32 # Configure a delay for requests for the same website (default: 0) # See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay # See also autothrottle settings and docs #DOWNLOAD_DELAY = 3 # The download delay setting will honor only one of: #CONCURRENT_REQUESTS_PER_DOMAIN = 16 #CONCURRENT_REQUESTS_PER_IP = 16 # Disable cookies (enabled by default) #COOKIES_ENABLED = False # Disable Telnet Console (enabled by default) #TELNETCONSOLE_ENABLED = False # Override the default request headers: #DEFAULT_REQUEST_HEADERS = { # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', # 'Accept-Language': 'en', #} # Enable or disable spider middlewares # See https://doc.scrapy.org/en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES = { # 'bbsdmoz.middlewares.BbsdmozSpiderMiddleware': 543, #} # Enable or disable downloader middlewares # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html #DOWNLOADER_MIDDLEWARES = { # 'bbsdmoz.middlewares.BbsdmozDownloaderMiddleware': 543, #} # Enable or disable extensions # See https://doc.scrapy.org/en/latest/topics/extensions.html #EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, #} # Configure item pipelines # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { 'bbsdmoz.pipelines.BbsdmozPipeline': 300, } # Enable and configure the AutoThrottle extension (disabled by default) # See https://doc.scrapy.org/en/latest/topics/autothrottle.html #AUTOTHROTTLE_ENABLED = True # The initial download delay #AUTOTHROTTLE_START_DELAY = 5 # The maximum download delay to be set in case of high latencies #AUTOTHROTTLE_MAX_DELAY = 60 # The average number of requests Scrapy should be sending in parallel to # each remote server #AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0 # Enable showing throttling stats for every response received: #AUTOTHROTTLE_DEBUG = False # Enable and configure HTTP caching (disabled by default) # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings #HTTPCACHE_ENABLED = True #HTTPCACHE_EXPIRATION_SECS = 0 #HTTPCACHE_DIR = 'httpcache' #HTTPCACHE_IGNORE_HTTP_CODES = [] #HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'</code></pre> <h2 id="Crawling"><strong>Crawling</strong></h2> <p>　　写好爬虫程序后，我们就可以运行程序抓取数据。进入项目的根目录<code>bbsDomz/</code>下，执行下列命令启动spider (会爬很久)：</p> <pre class="has"><code class="language-bash">scrapy crawl bbsSpider</code></pre> <p>【完整代码】</p> <ul> <li>dataProcess.py</li> </ul> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- """ Created on Fri Jul 20 14:45:01 2018 @author: Administrator """ from lxml import etree # In Python 3, ConfigParser has been renamed to configparser from configparser import ConfigParser class dataProcess: def __init__(self, source_filename, target_filename): # load stop words into the memory. fin = open(source_filename, 'r') read = fin.read() output = open(target_filename, 'w') output.write(read) fin.close() output.close()</code></pre> <ul> <li>settings.py</li> </ul> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- # Scrapy settings for bbsdmoz project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # https://doc.scrapy.org/en/latest/topics/settings.html # https://doc.scrapy.org/en/latest/topics/downloader-middleware.html # https://doc.scrapy.org/en/latest/topics/spider-middleware.html BOT_NAME = 'bbsdmoz' SPIDER_MODULES = ['bbsdmoz.spiders'] NEWSPIDER_MODULE = 'bbsdmoz.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'bbsdmoz (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = True # Configure maximum concurrent requests performed by Scrapy (default: 16) CONCURRENT_REQUESTS = 32 # Configure a delay for requests for the same website (default: 0) # See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay # See also autothrottle settings and docs #DOWNLOAD_DELAY = 3 # The download delay setting will honor only one of: #CONCURRENT_REQUESTS_PER_DOMAIN = 16 #CONCURRENT_REQUESTS_PER_IP = 16 # Disable cookies (enabled by default) #COOKIES_ENABLED = False # Disable Telnet Console (enabled by default) #TELNETCONSOLE_ENABLED = False # Override the default request headers: #DEFAULT_REQUEST_HEADERS = { # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', # 'Accept-Language': 'en', #} # Enable or disable spider middlewares # See https://doc.scrapy.org/en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES = { # 'bbsdmoz.middlewares.BbsdmozSpiderMiddleware': 543, #} # Enable or disable downloader middlewares # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html #DOWNLOADER_MIDDLEWARES = { # 'bbsdmoz.middlewares.BbsdmozDownloaderMiddleware': 543, #} # Enable or disable extensions # See https://doc.scrapy.org/en/latest/topics/extensions.html #EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, #} # Configure item pipelines # See https://doc.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { 'bbsdmoz.pipelines.BbsdmozPipeline': 300, } # Enable and configure the AutoThrottle extension (disabled by default) # See https://doc.scrapy.org/en/latest/topics/autothrottle.html #AUTOTHROTTLE_ENABLED = True # The initial download delay #AUTOTHROTTLE_START_DELAY = 5 # The maximum download delay to be set in case of high latencies #AUTOTHROTTLE_MAX_DELAY = 60 # The average number of requests Scrapy should be sending in parallel to # each remote server #AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0 # Enable showing throttling stats for every response received: #AUTOTHROTTLE_DEBUG = False # Enable and configure HTTP caching (disabled by default) # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings #HTTPCACHE_ENABLED = True #HTTPCACHE_EXPIRATION_SECS = 0 #HTTPCACHE_DIR = 'httpcache' #HTTPCACHE_IGNORE_HTTP_CODES = [] #HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'</code></pre> <ul> <li>pipelines.py</li> </ul> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapy import signals from scrapy import log from bbsdmoz.items import BbsItem from twisted.enterprise import adbapi from scrapy.contrib.exporter import XmlItemExporter from dataProcess import dataProcess class BbsdmozPipeline(object): def __init__(self): pass @classmethod def from_crawler(cls, crawler): pipeline = cls() crawler.signals.connect(pipeline.spider_opened, signals.spider_opened) crawler.signals.connect(pipeline.spider_closed, signals.spider_closed) return pipeline def spider_opened(self, spider): self.file = open('bbsData.xml', 'wb') self.expoter = XmlItemExporter(self.file) self.expoter.start_exporting() def spider_closed(self, spider): self.expoter.finish_exporting() self.file.close() # process the crawled data, define and call dataProcess function # dataProcess('bbsData.xml', 'text.txt') def process_item(self, item, spider): self.expoter.export_item(item) return item</code></pre> <ul> <li>items.py</li> </ul> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html from scrapy.item import Item, Field class BbsItem(Item): # define the fields for your item here like: # name = scrapy.Field() url = Field() forum = Field() poster = Field() content = Field()</code></pre> <ul> <li>forumSpider.py</li> </ul> <pre class="has"><code class="language-python"># -*- coding: utf-8 -*- """ Created on Fri Jul 20 13:18:58 2018 @author: Administrator """ from scrapy.selector import Selector from scrapy.http import Request from scrapy.contrib.spiders import CrawlSpider from scrapy.contrib.loader import ItemLoader #SGMLParser based link extractors are unmantained and its usage is discouraged. It is recommended to migrate to LxmlLinkExtractor #from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor from bbsdmoz.items import BbsItem class forumSpider(CrawlSpider): # name of spiders name = 'bbsSpider' allow_domain = ['bbs.sjtu.edu.cn'] start_urls = [ 'https://bbs.sjtu.edu.cn/bbsall' ] link_extractor = { 'page': LxmlLinkExtractor(allow = '/bbsdoc,board,\w+\.html$'), 'page_down': LxmlLinkExtractor(allow = '/bbsdoc,board,\w+,page,\d+\.html$'), 'content': LxmlLinkExtractor(allow = '/bbscon,board,\w+,file,M\.\d+\.A\.html$'), } _x_query = { 'page_content': '//pre/text()[2]', 'poster' : '//pre/a/text()', 'forum' : '//center/text()[2]', } def parse(self, response): for link in self.link_extractor['page'].extract_links(response): yield Request(url = link.url, callback=self.parse_page) def parse_page(self, response): for link in self.link_extractor['page_down'].extract_links(response): yield Request(url = link.url, callback=self.parse_page) for link in self.link_extractor['content'].extract_links(response): yield Request(url = link.url, callback=self.parse_content) def parse_content(self, response): bbsItem_loader = ItemLoader(item=BbsItem(), response = response) url = str(response.url) bbsItem_loader.add_value('url', url) bbsItem_loader.add_xpath('forum', self._x_query['forum']) bbsItem_loader.add_xpath('poster', self._x_query['poster']) bbsItem_loader.add_xpath('content', self._x_query['page_content']) return bbsItem_loader.load_item()</code></pre> <p>The end.</p> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1294241576125538304"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(Scrapy,Python,爬虫)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1895287347730247680.htm" title="Python连接SQL SEVER数据库全流程" target="_blank">Python连接SQL SEVER数据库全流程</a> <span class="text-muted">m0_74824865</span> <a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF/1.htm">学习路线</a><a class="tag" taget="_blank" href="/search/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4/1.htm">阿里巴巴</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe</div> </li> <li><a href="/article/1895284197078134784.htm" title="网络安全工具 AWVS 与 Nmap：原理、使用及代码示例" target="_blank">网络安全工具 AWVS 与 Nmap：原理、使用及代码示例</a> <span class="text-muted">阿贾克斯的黎明</span> <a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8/1.htm">网络安全</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/web%E5%AE%89%E5%85%A8/1.htm">web安全</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a> <div>目录网络安全工具AWVS与Nmap：原理、使用及代码示例AWVS：Web漏洞扫描的利器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用AWVSAPI进行扫描）Nmap：网络探测与端口扫描的神器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用Nmap进行扫描）总结在网络安全领域，AWVS（AcunetixWebVulnerabilityScanner）和Nmap是</div> </li> <li><a href="/article/1895284197728251904.htm" title="深入剖析 Weblogic、ThinkPHP、Jboss、Struct2 历史漏洞" target="_blank">深入剖析 Weblogic、ThinkPHP、Jboss、Struct2 历史漏洞</a> <span class="text-muted">阿贾克斯的黎明</span> <a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8/1.htm">网络安全</a><a class="tag" taget="_blank" href="/search/web%E5%AE%89%E5%85%A8/1.htm">web安全</a> <div>目录深入剖析Weblogic、ThinkPHP、Jboss、Struct2历史漏洞一、Weblogic漏洞（一）漏洞原理（二）漏洞利用代码（Python示例）（三）防范措施二、ThinkPHP漏洞（一）漏洞原理（二）漏洞利用代码（示例，假设存在漏洞的代码片段）（三）防范措施三、Jboss漏洞（一）漏洞原理（二）漏洞利用代码（Java示例，用于构造恶意序列化数据）（三）防范措施四、Struct2漏洞</div> </li> <li><a href="/article/1895281546349309952.htm" title="【Python专栏】Python的发展历程" target="_blank">【Python专栏】Python的发展历程</a> <span class="text-muted">雾岛心情</span> <a class="tag" taget="_blank" href="/search/Python%E5%85%A5%E9%97%A8%E5%88%B0%E7%B2%BE%E9%80%9A/1.htm">Python入门到精通</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python的创始人为吉多·范罗苏姆（GuidovanRossum），人称龟叔1989年，为了打发圣诞节假期，Guido开始写Python语言的编译器。Python这个名字，来自Guido所挚爱的电视剧MontyPython’sFlyingCircus。他希望这个新的叫做Python的语言，能符合他的理想：创造一种C和shell之间，功能全面，易学易用，可拓展的语言。Python的具体发展历史和版</div> </li> <li><a href="/article/1895281419433865216.htm" title="Stable diffusion 3.5本地运行环境配置记录" target="_blank">Stable diffusion 3.5本地运行环境配置记录</a> <span class="text-muted">寸先生的牛马庄园</span> <a class="tag" taget="_blank" href="/search/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/1.htm">扩散模型</a><a class="tag" taget="_blank" href="/search/stable/1.htm">stable</a><a class="tag" taget="_blank" href="/search/diffusion/1.htm">diffusion</a> <div>1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi</div> </li> <li><a href="/article/1895281293109817344.htm" title="阿里巴巴DIN模型原理与Python实现" target="_blank">阿里巴巴DIN模型原理与Python实现</a> <span class="text-muted">eso1983</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95/1.htm">推荐算法</a> <div>阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不</div> </li> <li><a href="/article/1895274358599905280.htm" title="pytorch基础-比较矩阵是否相等" target="_blank">pytorch基础-比较矩阵是否相等</a> <span class="text-muted">yuweififi</span> <a class="tag" taget="_blank" href="/search/pytorch/1.htm">pytorch</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,</div> </li> <li><a href="/article/1895273724924456960.htm" title="一学就会：A*算法详细介绍（Python）" target="_blank">一学就会：A*算法详细介绍（Python）</a> <span class="text-muted">不去幼儿园</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%EF%BC%88AI%EF%BC%89/1.htm">人工智能（AI）</a><a class="tag" taget="_blank" href="/search/%23/1.htm">#</a><a class="tag" taget="_blank" href="/search/%E5%90%AF%E5%8F%91%E5%BC%8F%E7%AE%97%E6%B3%95/1.htm">启发式算法</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>本篇文章是博主人工智能学习以及算法研究时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在启发式算法专栏：【人工智能】-【启发式算法】（6）---《一学就会：A*算法详细介绍（Python）》一学就会：A*算法详细介绍（Python）目录A*算法介绍A*算法的核心概念A*算法的特点A*算法示例：迷宫</div> </li> <li><a href="/article/1895271959265079296.htm" title="电竞赛事数据分析：LNG vs BLG的胜利背后" target="_blank">电竞赛事数据分析：LNG vs BLG的胜利背后</a> <span class="text-muted">烧瓶里的西瓜皮</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6/1.htm">自动驾驶</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">数据可视化</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a> <div>电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作</div> </li> <li><a href="/article/1895271453989859328.htm" title="如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输" target="_blank">如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输</a> <span class="text-muted">winfredzhang</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a><a class="tag" taget="_blank" href="/search/%E5%AE%9E%E6%97%B6%E4%BC%A0%E8%BE%93/1.htm">实时传输</a><a class="tag" taget="_blank" href="/search/%E8%93%9D%E7%89%99%E8%80%B3%E6%9C%BA/1.htm">蓝牙耳机</a> <div>在现代的工作和生活环境中，音频传输的需求日益增加。无论是远程会议、在线教育，还是家庭娱乐，音频的实时传输都扮演着至关重要的角色。今天，我将向大家介绍一个简单而实用的应用程序，它能够捕获笔记本电脑麦克风的音频，并通过蓝牙耳机实时传输。这款应用程序特别适用于需要在会议室等场景中远程听取声音的情况。接下来，我将详细讲解这个应用程序的实现过程，并提供完整的代码和使用指南。引言想象一下这样的场景：你需要离开</div> </li> <li><a href="/article/1895265524632317952.htm" title="网络安全加密python代码" target="_blank">网络安全加密python代码</a> <span class="text-muted">黑客Ash</span> <a class="tag" taget="_blank" href="/search/web%E5%AE%89%E5%85%A8/1.htm">web安全</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a> <div>点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出</div> </li> <li><a href="/article/1895250265381072896.htm" title="python 商城性能,python商城项目总结" target="_blank">python 商城性能,python商城项目总结</a> <span class="text-muted">Yvetzy</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%95%86%E5%9F%8E/1.htm">商城</a><a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD/1.htm">性能</a> <div>importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要</div> </li> <li><a href="/article/1895250266542895104.htm" title="用Python写一个商城系统" target="_blank">用Python写一个商城系统</a> <span class="text-muted">潮水岩</span> <div>如果要用Python写一个商城系统，可以先定义需要实现的功能，再按照功能模块分别进行开发。下面是一个简单的开发流程：数据模型设计：需要定义商品、订单、用户等数据模型，并且将它们存储在数据库中。用户模块：用户可以注册、登录、查看个人信息、修改密码等。商品模块：商家可以发布商品、管理商品信息、查看商品列表等；用户可以查看商品详情、加入购物车等。订单模块：用户可以下单、查看订单详情、取消订单、评价订单等</div> </li> <li><a href="/article/1895249508762185728.htm" title="python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例" target="_blank">python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例</a> <span class="text-muted">weixin_39955149</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/pandas/1.htm">pandas</a><a class="tag" taget="_blank" href="/search/%E8%AF%BB%E5%8F%96%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">读取数据库</a> <div>Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins</div> </li> <li><a href="/article/1895249382060650496.htm" title="python导出结果_Python连接Oracle数据查询导出结果" target="_blank">python导出结果_Python连接Oracle数据查询导出结果</a> <span class="text-muted">weixin_39712821</span> <a class="tag" taget="_blank" href="/search/python%E5%AF%BC%E5%87%BA%E7%BB%93%E6%9E%9C/1.htm">python导出结果</a> <div>python连接oracle，需用用到模块cx_oracle，可以直接pip安装，如网络不好，可下载离线后本地安装本人由于工作需要，期望便捷查询所得结果，且固定输出某个格式具体代码如下：#!coding:utf-8importcx_Oracleconn=cx_Oracle.connect('username/password@IP/连接名')cur=conn.cursor()cur.execute</div> </li> <li><a href="/article/1895249255841460224.htm" title="Python—kafka操作" target="_blank">Python—kafka操作</a> <span class="text-muted">蓝魔Y</span> <a class="tag" taget="_blank" href="/search/Python%E7%BC%96%E7%A8%8B/1.htm">Python编程</a><a class="tag" taget="_blank" href="/search/kafka/1.htm">kafka</a> <div>文档结构1、概念简介2、环境搭建3、操作实践1、概念简介2、环境搭建接口手册：https://kafka-python.readthedocs.io/en/master/Python操作kafka的模块为：kafka-python模块安装pipinstallkafka-python3、操作实践=============================================over====</div> </li> <li><a href="/article/1895248876202422272.htm" title="python使用kafka原理详解_Python操作Kafka原理及使用详解" target="_blank">python使用kafka原理详解_Python操作Kafka原理及使用详解</a> <span class="text-muted">形象顧問Aking</span> <div>Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk</div> </li> <li><a href="/article/1895248876617658368.htm" title="python把oracle的查询结果导出为insert语句" target="_blank">python把oracle的查询结果导出为insert语句</a> <span class="text-muted">优游的鱼</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor</div> </li> <li><a href="/article/1895248371954806784.htm" title="python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算" target="_blank">python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算</a> <span class="text-muted">路过炊烟</span> <a class="tag" taget="_blank" href="/search/python%E7%94%BB%E5%87%BAroc%E6%9B%B2%E7%BA%BF/1.htm">python画出roc曲线</a><a class="tag" taget="_blank" href="/search/auc%E8%AE%A1%E7%AE%97%E9%80%BB%E8%BE%91/1.htm">auc计算逻辑</a> <div>前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，</div> </li> <li><a href="/article/1895245978634612736.htm" title="【spug】使用" target="_blank">【spug】使用</a> <span class="text-muted">勤不了一点</span> <a class="tag" taget="_blank" href="/search/CI%2FCD/1.htm">CI/CD</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/django/1.htm">django</a><a class="tag" taget="_blank" href="/search/ci%2Fcd/1.htm">ci/cd</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/devops/1.htm">devops</a> <div>目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp</div> </li> <li><a href="/article/1895244589867003904.htm" title="记一次从mysql数据迁移到oralce （基于python和pandas）" target="_blank">记一次从mysql数据迁移到oralce （基于python和pandas）</a> <span class="text-muted">qq_36532060</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/pandas/1.htm">pandas</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最</div> </li> <li><a href="/article/1895243708371103744.htm" title="python调用kafka" target="_blank">python调用kafka</a> <span class="text-muted">smile__su</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/kafka/1.htm">kafka</a> <div>先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装</div> </li> <li><a href="/article/1895242951110488064.htm" title="python实现从oracle数据库查询数据生成excel透视表发送outlook" target="_blank">python实现从oracle数据库查询数据生成excel透视表发送outlook</a> <span class="text-muted">niceme！</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>#-*-coding:utf-8-*-#http://pypi.cq.pegatroncorp.com/simple--trusted-hostpypi.cq.pegatroncorp.comimportchardetimportdatetimeimporttimeimportxlwtimportwin32com.clientaswin32fromwin32com.clientimportcons</div> </li> <li><a href="/article/1895241689514176512.htm" title="pip 与当前python环境版本不匹配，python安装库成功，还是提示没有该库" target="_blank">pip 与当前python环境版本不匹配，python安装库成功，还是提示没有该库</a> <span class="text-muted">灿灿的金</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/pip/1.htm">pip</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>解决pip版本不一致在使用pip命令前加上python-m即可让pip版本和当前python版本一致因此,当使用pip安装依赖时,需要在命令前添加python-m来配合使用,比如安装一个pillow库,命令如下python-mpipinstallpillow你同时安装了python2和python3pipinstallPillow可能下载的是python3的库，而你代码跑的是python2可以通过</div> </li> <li><a href="/article/1895239923523448832.htm" title="【Python-ML】SKlearn库性能指标ROC-AUC" target="_blank">【Python-ML】SKlearn库性能指标ROC-AUC</a> <span class="text-muted">fjssharpsword</span> <a class="tag" taget="_blank" href="/search/Big/1.htm">Big</a><a class="tag" taget="_blank" href="/search/data/1.htm">data</a><a class="tag" taget="_blank" href="/search/python%E4%B8%93%E6%A0%8F/1.htm">python专栏</a> <div>#-*-coding:utf-8-*-'''Createdon2018年1月19日@author:Jason.F@summary:ROC(receiveroperatorcharacteristic，基于模型真正率和假正率等性能指标评估分类模型'''importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.cros</div> </li> <li><a href="/article/1895237022864437248.htm" title="使用Python导出Oracle数据库数据表目录" target="_blank">使用Python导出Oracle数据库数据表目录</a> <span class="text-muted">SeanData</span> <a class="tag" taget="_blank" href="/search/Python/1.htm">Python</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据分析</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%9B%AE%E5%BD%95%E5%AF%BC%E5%87%BA/1.htm">数据目录导出</a> <div>###Oracle数据库数据表目录导出###导入包importpandasaspdimportcx_Oracle###数据库信息username='xxx'password='yyy'ipaddr='100.28.60.132'port='1521'service_name='service_name'connect_string=ipaddr+":"+port+"/"+service_name#</div> </li> <li><a href="/article/1895236518625210368.htm" title="《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用" target="_blank">《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用</a> <span class="text-muted">不摆烂的小劉</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/flask/1.htm">flask</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建</div> </li> <li><a href="/article/1895232990695452672.htm" title="【python 机器学习】sklearn ROC曲线与AUC指标" target="_blank">【python 机器学习】sklearn ROC曲线与AUC指标</a> <span class="text-muted">人才程序员</span> <a class="tag" taget="_blank" href="/search/%E6%9D%82%E8%B0%88/1.htm">杂谈</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/sklearn/1.htm">sklearn</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/1.htm">神经网络</a><a class="tag" taget="_blank" href="/search/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B/1.htm">目标检测</a> <div>文章目录sklearnROC曲线与AUC指标1.什么是ROC曲线与AUC？通俗介绍：学术解释：2.在`sklearn`中绘制ROC曲线与计算AUC2.1导入库和数据2.2加载数据集2.3训练模型2.4预测概率2.5计算FPR、TPR和AUC2.6绘制ROC曲线3.解析ROC曲线和AUC值4.总结sklearnROC曲线与AUC指标在机器学习中，评估分类模型的性能不仅仅依赖于准确率，还需要使用一些更</div> </li> <li><a href="/article/1895232864388182016.htm" title="python操作kafka" target="_blank">python操作kafka</a> <span class="text-muted">您懂我意思吧</span> <a class="tag" taget="_blank" href="/search/python%E5%BC%80%E5%8F%91/1.htm">python开发</a><a class="tag" taget="_blank" href="/search/kafka/1.htm">kafka</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>一、参考阿里云的官方链接：使用PythonSDK接入Kafka收发消息_云消息队列Kafka版(Kafka)-阿里云帮助中心二、安装python环境三、添加python依赖库pipinstallconfluent-kafka==1.9.2四、新建一个setting.py文件配置信息kafka_setting={'sasl_plain_username':'XXX',#如果是默认接入点实例，请删除该</div> </li> <li><a href="/article/1895230976326430720.htm" title="Python异步编程-asyncio详解" target="_blank">Python异步编程-asyncio详解</a> <span class="text-muted">我爱让机器学习</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/asyncio/1.htm">asyncio</a><a class="tag" taget="_blank" href="/search/%E5%BC%82%E6%AD%A5/1.htm">异步</a> <div>目录asyncio简介示例什么是asyncio?适用场景APIasyncio的使用可等待对象什么是可等待对象？协程对象任务对象Future对象协程什么是协程？基本使用运行协程Task什么是Task？创建Task取消TaskTask异常获取Task回调TaskGroup什么是TaskGroup？为什么使用TaskGroup？创建任务异常处理同步任务完成asyncio简介示例首先，我们来看一个简单的H</div> </li> <li><a href="/article/120.htm" title="web前段跨域nginx代理配置" target="_blank">web前段跨域nginx代理配置</a> <span class="text-muted">刘正强</span> <a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a><a class="tag" taget="_blank" href="/search/cms/1.htm">cms</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a> <div>nginx代理配置可参考server部分 server { listen 80; server_name localhost; </div> </li> <li><a href="/article/247.htm" title="spring学习笔记" target="_blank">spring学习笔记</a> <span class="text-muted">caoyong</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a> <div>一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式) </div> </li> <li><a href="/article/374.htm" title="Eclipse打开workspace提示工作空间不可用" target="_blank">Eclipse打开workspace提示工作空间不可用</a> <span class="text-muted">0624chenhong</span> <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a> <div>做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重</div> </li> <li><a href="/article/501.htm" title="Javascript 面向对面写法的必要性？" target="_blank">Javascript 面向对面写法的必要性？</a> <span class="text-muted">一炮送你回车库</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a> <div>现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu</div> </li> <li><a href="/article/628.htm" title="js array对象的迭代方法" target="_blank">js array对象的迭代方法</a> <span class="text-muted">换个号韩国红果果</span> <a class="tag" taget="_blank" href="/search/array/1.htm">array</a> <div>1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型</div> </li> <li><a href="/article/755.htm" title="对Hibernate缓存机制的理解" target="_blank">对Hibernate缓存机制的理解</a> <span class="text-muted">归来朝歌</span> <a class="tag" taget="_blank" href="/search/session/1.htm">session</a><a class="tag" taget="_blank" href="/search/%E4%B8%80%E7%BA%A7%E7%BC%93%E5%AD%98/1.htm">一级缓存</a><a class="tag" taget="_blank" href="/search/%E5%AF%B9%E8%B1%A1%E6%8C%81%E4%B9%85%E5%8C%96/1.htm">对象持久化</a> <div>在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了</div> </li> <li><a href="/article/882.htm" title="WebService调用错误合集" target="_blank">WebService调用错误合集</a> <span class="text-muted">darkranger</span> <a class="tag" taget="_blank" href="/search/webservice/1.htm">webservice</a> <div> Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可</div> </li> <li><a href="/article/1009.htm" title="JSP和Servlet的中文乱码处理" target="_blank">JSP和Servlet的中文乱码处理</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/Java+Web/1.htm">Java Web</a> <div>JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以</div> </li> <li><a href="/article/1136.htm" title="面试经典六问" target="_blank">面试经典六问</a> <span class="text-muted">atongyeye</span> <a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a> <div>题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌</div> </li> <li><a href="/article/1263.htm" title="contentResolver.query()参数详解" target="_blank">contentResolver.query()参数详解</a> <span class="text-muted">百合不是茶</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/query%28%29%E8%AF%A6%E8%A7%A3/1.htm">query()详解</a> <div>收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() { </div> </li> <li><a href="/article/1390.htm" title="ora-00054:resource busy and acquire with nowait specified解决方法" target="_blank">ora-00054:resource busy and acquire with nowait specified解决方法</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/kill/1.htm">kill</a><a class="tag" taget="_blank" href="/search/nowait/1.htm">nowait</a> <div> 当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句</div> </li> <li><a href="/article/1517.htm" title="web 开发乱码" target="_blank">web 开发乱码</a> <span class="text-muted">征客丶</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a> <div>以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，</div> </li> <li><a href="/article/1644.htm" title="【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式" target="_blank">【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/spark/1.htm">spark</a> <div>Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&</div> </li> <li><a href="/article/1771.htm" title="JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss" target="_blank">JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss</a> <span class="text-muted">BlueSkator</span> <a class="tag" taget="_blank" href="/search/-Xss/1.htm">-Xss</a><a class="tag" taget="_blank" href="/search/-Xmn/1.htm">-Xmn</a><a class="tag" taget="_blank" href="/search/-Xms/1.htm">-Xms</a><a class="tag" taget="_blank" href="/search/-Xmx/1.htm">-Xmx</a> <div> 堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355</div> </li> <li><a href="/article/1898.htm" title="jqGrid 各种参数详解(转帖)" target="_blank">jqGrid 各种参数详解(转帖)</a> <span class="text-muted">BreakingBad</span> <a class="tag" taget="_blank" href="/search/jqGrid/1.htm">jqGrid</a> <div> jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string </div> </li> <li><a href="/article/2025.htm" title="读《研磨设计模式》-代码笔记-代理模式-Proxy" target="_blank">读《研磨设计模式》-代码笔记-代理模式-Proxy</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面</div> </li> <li><a href="/article/2152.htm" title="应用升级iOS8中遇到的一些问题" target="_blank">应用升级iOS8中遇到的一些问题</a> <span class="text-muted">chenhbc</span> <a class="tag" taget="_blank" href="/search/ios8/1.htm">ios8</a><a class="tag" taget="_blank" href="/search/%E5%8D%87%E7%BA%A7iOS8/1.htm">升级iOS8</a> <div>1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void</div> </li> <li><a href="/article/2279.htm" title="工作流与自组织的关系？" target="_blank">工作流与自组织的关系？</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a> <div> 目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务</div> </li> <li><a href="/article/2406.htm" title="Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX" target="_blank">Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a> <div>insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一</div> </li> <li><a href="/article/2533.htm" title="二叉树:堆" target="_blank">二叉树:堆</a> <span class="text-muted">dieslrae</span> <a class="tag" taget="_blank" href="/search/%E4%BA%8C%E5%8F%89%E6%A0%91/1.htm">二叉树</a> <div> 这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &</div> </li> <li><a href="/article/2660.htm" title="C语言学习八结构体" target="_blank">C语言学习八结构体</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/c/1.htm">c</a> <div>为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,</div> </li> <li><a href="/article/2787.htm" title="centos安装golang" target="_blank">centos安装golang</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/centos/1.htm">centos</a> <div>#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<</div> </li> <li><a href="/article/2914.htm" title="10.性能优化-监控-MySQL慢查询" target="_blank">10.性能优化-监控-MySQL慢查询</a> <span class="text-muted">frank1234</span> <a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/1.htm">性能优化</a><a class="tag" taget="_blank" href="/search/MySQL%E6%85%A2%E6%9F%A5%E8%AF%A2/1.htm">MySQL慢查询</a> <div>1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn</div> </li> <li><a href="/article/3041.htm" title="Java父类取得子类类名" target="_blank">Java父类取得子类类名</a> <span class="text-muted">happyqing</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/this/1.htm">this</a><a class="tag" taget="_blank" href="/search/%E7%88%B6%E7%B1%BB/1.htm">父类</a><a class="tag" taget="_blank" href="/search/%E5%AD%90%E7%B1%BB/1.htm">子类</a><a class="tag" taget="_blank" href="/search/%E7%B1%BB%E5%90%8D/1.htm">类名</a> <div> 在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void </div> </li> <li><a href="/article/3168.htm" title="Spring3.2新注解@ControllerAdvice" target="_blank">Spring3.2新注解@ControllerAdvice</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/%40Controller/1.htm">@Controller</a> <div>@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co</div> </li> <li><a href="/article/3295.htm" title="Java spring mvc多数据源配置" target="_blank">Java spring mvc多数据源配置</a> <span class="text-muted">liuxihope</span> <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a> <div>转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo</div> </li> <li><a href="/article/3422.htm" title="第12章 Ajax（下）" target="_blank">第12章 Ajax（下）</a> <span class="text-muted">onestopweb</span> <a class="tag" taget="_blank" href="/search/Ajax/1.htm">Ajax</a> <div>index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/</div> </li> <li><a href="/article/3549.htm" title="BW / Universe Mappings" target="_blank">BW / Universe Mappings</a> <span class="text-muted">blueoxygen</span> <a class="tag" taget="_blank" href="/search/BO/1.htm">BO</a> <div> BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi</div> </li> <li><a href="/article/3676.htm" title="Java开发熟手该当心的11个错误" target="_blank">Java开发熟手该当心的11个错误</a> <span class="text-muted">tomcat_oracle</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95/1.htm">单元测试</a> <div>#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为</div> </li> <li><a href="/article/3803.htm" title="推行国产操作系统的优劣" target="_blank">推行国产操作系统的优劣</a> <span class="text-muted">yananay</span> <a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E5%9B%BD%E4%BA%A7%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F/1.htm">国产操作系统</a> <div>最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>