浅汐王

Scrapy 爬取伯乐在线

 
   项目介绍 
  

 
   使用Scrapy框架进行爬取伯乐在线的所有技术文章 
  

 
   所用知识点 
  

Scrapy项目的创建
Scrapy框架Shell命令的使用
Scrapy自带的图片下载管道
Scrapy自定义图片下载管道(继承自带的管道)
Scrapy框架ItemLoader的使用
Scrapy自定义ItemLoader
Scrapy中同步将Item保存入Mysq数据库
Scrapy中异步将Item保存入Mysq数据库

 
   项目初始 
  

 
   创建新项目 
  

 
   scrapy startproject bole 
  

 
   创建爬虫 
  

 
   scrapy 
    
   genspider 
    
   jobbole 
    
   blog 
   .jobbole.com

 
   爬虫调试 
  

 
   为了方便对爬虫进行调试，在项目目录中创建一个main.py文件 
  

 
   from 
    scrapy.cmdline  
   import 
    execute 
  

 
   import 
    sys,os

 
   # 将项目目录动态设置到环境变量中 
  

 
   # os.path.abspath(__file__) 获取main.py的路径 
  

 
   # os.path.dirname(os.path.abspath(__file__) 获取main.py所处目录的上一级目录 
  

 
   sys.path.append(os.path.dirname(os.path.abspath(__file__))) 
  

 
   execute([ 
   'scrapy' 
   , 
   'crawl' 
   , 
   'jobbole' 
   ]) 
  

 
   在爬虫开始运行时，建议修改项目中的配置文件,找到 
   ROBOTSTXT_OBEY 
   将其改为False,如果不修改的话，Scrapy会自动的查找网站的ROBOTS协议，会过滤不符合协议的URL  
  

 
   在windows环境下可能会出现 
   No moudle named 'win32api' 
   ,因此需要执行 
   pip install pypiwin32

 
   如果下载速度过慢可使用豆瓣源进行安装 
  

 
   pip install -i  
   https://pypi.douban.com/simple 
    pypiwin32 
  

 
   前置知识 
  

 
   XPath语法简介 
  

 
   CSS常用选择器 
  

 
   Scrapy shell模式 
  

 
   在解析页面的时候如果要查看运行结果则必须要运行Scrapy爬虫发起一个请求，而Scrapy提供了一种方便的调试方法可以只请求一次。 
  

 
   scrpay shell http: 
   //blog.jobbole.com/111144/

 
   文章解析 
  

 
   文章详情页 
  

 
   Xpath的解析方式 
  

 
   def 
    
   parse_detail 
   (self, response):

 
   # xpath方式进行解析

 
   # 文章标题

 
   title = response.xpath( 
   '//div[@class="entry-header"]/h1/text()' 
   ).extract_first() 
  

 
   # 发布时间

 
   create_time = response.xpath( 
   '//p[@class="entry-meta-hide-on-mobile"]/text()' 
   ).extract_first().replace( 
   '·' 
   , 
   '' 
   ).strip() 
  

 
   # 点赞数

 
   # contains函数是找到class中存在vote-post-up这个类

 
   up_num = response.xpath( 
   '//span[contains(@class,"vote-post-up")]/h10/text()' 
   ).extract_first() 
  

 
   # 收藏数

 
   fav_num = response.xpath( 
   '//span[contains(@class,"bookmark-btn")]/text()' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   ,fav_num) 
  

 
   if 
    match_re:

 
   fav_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   fav_num = 
   0

 
   # 评论数

 
   comment_num = response.xpath( 
   '//a[@href="#article-comment"]/span/text()' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   , comment_num) 
  

 
   if 
    match_re:

 
   comment_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   comment_num = 
   0

 
   # 文章正文

 
   content = response.xpath( 
   '//div[@class="entry"]' 
   ).extract_first() 
  

 
   # 获取标签

 
   tags_list = response.xpath( 
   '//p[@class="entry-meta-hide-on-mobile"]/a/text()' 
   ).extract() 
  

 
   tags_list = [element 
   for 
    element 
   in 
    tags_list 
   if 
    
   not 
    element.strip().endswith( 
   '评论' 
   )] 
  

 
   tags = 
   "," 
   .join(tags_list) 
  

 
   CSS解析方式 
  

 
   def 
    
   parse_detail 
   (self, response):

 
   # CSS方式进行解析

 
   # 文章标题

 
   title = response.css( 
   'div.entry-header h1::text' 
   ).extract_first() 
  

 
   # 发布时间

 
   create_time = response.css( 
   'p.entry-meta-hide-on-mobile::text' 
   ).extract_first().replace( 
   '·' 
   , 
   '' 
   ).strip() 
  

 
   # 点赞数

 
   up_num = response.css( 
   'span.vote-post-up h10::text' 
   ).extract_first() 
  

 
   # 收藏数

 
   fav_num = response.css( 
   'span.bookmark-btn::text' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   ,fav_num) 
  

 
   if 
    match_re:

 
   fav_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   fav_num = 
   0

 
   # 评论数

 
   comment_num = response.css( 
   'a[href="#article-comment"] span::text' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   , comment_num) 
  

 
   if 
    match_re:

 
   comment_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   comment_num = 
   0

 
   # 文章正文

 
   content = response.css( 
   'div.entry' 
   ).extract_first() 
  

 
   # 获取标签

 
   tags_list = response.css( 
   'p.entry-meta-hide-on-mobile a::text' 
   ).extract() 
  

 
   tags_list = [element 
   for 
    element 
   in 
    tags_list 
   if 
    
   not 
    element.strip().endswith( 
   '评论' 
   )] 
  

 
   tags = 
   "," 
   .join(tags_list) 
  

 
   列表页 
  

 
   def 
    
   parse 
   (self, response):

 
   # 获取文章列表中的每一篇文章的url交给Scrapy下载并解析

 
   article_nodes = response.css( 
   'div#archive .floated-thumb .post-thumb a' 
   ) 
  

 
   for 
    article_node  
   in 
    article_nodes:

 
   # 解析每个文章的封面图

 
   font_image_url = article_node.css( 
   'img::attr(src)' 
   ).extract_first( 
   "" 
   ) 
  

 
   # 解析每个文章的url

 
   article_url = article_node.css( 
   '::attr(href)' 
   ).extract_first( 
   "" 
   ) 
  

 
   # 智能对url进行拼接，如果url中不带有域名则会自动添加域名

 
   # 通过在Request中设置meta信息来进行数据的传递

 
   yield 
    Request(url=parse.urljoin(response.url, article_url),meta={  
   'font_image_url' 
   :parse.urljoin(response.url, font_image_url)}, callback=self.parse_detail)

 
   # 获取文章的下一页url地址，并交给自身解析

 
   next_url = response.css( 
   'a.next.page-numbers::attr(href)' 
   ).extract_first( 
   '' 
   ) 
  

 
   if 
    next_url:

 
   yield 
    Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

 
   def 
    
   parse_detail 
   (self, response):

 
   article_item = JobBoleArticleItem() 
  

 
   # 从response中获取数据

 
   # 文章封面图

 
   font_image_url = response.meta.get( 
   'font_image_url' 
   , 
   '' 
   ) 
  

 
   # CSS方式进行解析

 
   # 文章标题

 
   title = response.css( 
   'div.entry-header h1::text' 
   ).extract_first() 
  

 
   # 发布时间

 
   create_time = response.css( 
   'p.entry-meta-hide-on-mobile::text' 
   ).extract_first().replace( 
   '·' 
   , 
   '' 
   ).strip() 
  

 
   # 点赞数

 
   up_num = response.css( 
   'span.vote-post-up h10::text' 
   ).extract_first() 
  

 
   # 收藏数

 
   fav_num = response.css( 
   'span.bookmark-btn::text' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   ,fav_num) 
  

 
   if 
    match_re:

 
   fav_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   fav_num = 
   0

 
   # 评论数

 
   comment_num = response.css( 
   'a[href="#article-comment"] span::text' 
   ).extract_first() 
  

 
   match_re = re.match( 
   '.*?(\d+).*' 
   , comment_num) 
  

 
   if 
    match_re:

 
   comment_num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   comment_num = 
   0

 
   # 文章正文

 
   content = response.css( 
   'div.entry' 
   ).extract_first() 
  

 
   # 获取标签

 
   tags_list = response.css( 
   'p.entry-meta-hide-on-mobile a::text' 
   ).extract() 
  

 
   tags_list = [element 
   for 
    element 
   in 
    tags_list 
   if 
    
   not 
    element.strip().endswith( 
   '评论' 
   )] 
  

 
   tags = 
   "," 
   .join(tags_list) 
  

 
   article_item[ 
   "title" 
   ] = title 
  

 
   article_item[ 
   "create_time" 
   ] = create_time 
  

 
   article_item[ 
   "url" 
   ] = response.url 
  

 
   article_item[ 
   "font_image_url" 
   ] = [font_image_url] 
  

 
   article_item[ 
   "up_num" 
   ] = up_num 
  

 
   article_item[ 
   "fav_num" 
   ] = fav_num 
  

 
   article_item[ 
   "comment_num" 
   ] = comment_num 
  

 
   article_item[ 
   "content" 
   ] = content 
  

 
   article_item[ 
   "tags" 
   ] = tags 
  

 
   yield 
    article_item

 
   定义Items 
  

 
   class 
    JobBoleArticleItem(scrapy.Item):

 
   title = scrapy.Field() 
  

 
   create_time = scrapy.Field() 
  

 
   url = scrapy.Field() 
  

 
   url_object_id = scrapy.Field() 
  

 
   font_image_url = scrapy.Field() 
  

 
   font_image_path = scrapy.Field() 
  

 
   up_num = scrapy.Field() 
  

 
   fav_num = scrapy.Field() 
  

 
   comment_num = scrapy.Field() 
  

 
   tags = scrapy.Field() 
  

 
   content = scrapy.Field() 
  

 
   pipeline管道的使用 
  

 
   Scrapy自带的图片下载管道 
  

 
   在settings.py中的pipeline处添加 scrapy.pipeline.images.ImagesPipeline 
  

 
   ITEM_PIPELINES = {  
  

 
   'bole.pipelines.BolePipeline' 
   : 
   300 
   ,

 
   'scrapy.pipeline.images.ImagesPipeline' 
    :  
   200

}

 
   # 设置图片url的字段，scraoy将从item中找出此字段进行图片下载 
  

 
   IMAGES_URLS_FIELD = 
   "font_image_url"

 
   # 设置图片下载保存的目录 
  

 
   project_path = os.path.abspath(os.path.dirname( 
   __file__ 
   )) 
  

 
   IMAGES_STORE = os.path.join(project_path, 
   "images" 
   ) 
  

 
   # 表示只下载大于100x100的图片 
  

 
   IMAGES_MIN_HEIGHT = 
   100

 
   IMAGES_MIN_WIDTH = 
   100

 
   之后运行项目可能包PIL未找到，因此需要 
   pip install pillow

 
   此外scrapy的图片下载默认是接受一个数组，因此在赋值的时候需要 
   article_item["font_image_url"] = [font_image_url]

 
   自定义图片下载管道 
  

 
   虽然Scrapy自带的下载中间件很好用，但是如果我要获取图片下载后保存的路径则官方自带就不能满足需求，因此需要我们自定义管道 
  

 
   # 自定义图片下载处理的中间件 
  

 
   class 
    ArticleImagePipeline(ImagesPipeline):

 
   # 重载函数，改写item处理完成的函数

 
   def 
    
   item_completed 
   (self, results, item, info):

 
   for 
    key, value  
   in 
    results:

 
   font_image_path = value[ 
   "path" 
   ] 
  

 
   item[ 
   "font_image_path" 
   ] = font_image_path 
  

 
   return 
    item

 
   使用Scrapy自带的管道将Item导出成Json文件 
  

 
   from scrapy.exporters import JsonItemExporter 
  

 
   # 使用Scrapy自带的JsonExporter将item导出为json 
  

 
   class JsonExportPipeline(object): 
  

 
   # 调用scrapy提供的JsonExporter导出json文件 
  

 
   def __init__(self): 
  

 
   self.file = open('article_export.json', 'wb') 
  

 
   self.exporter = JsonItemExporter(self.file, encoding="utf-8", ensure_ascii=False) 
  

 
   self.exporter.start_exporting() 
  

 
   # 重写Item处理 
  

 
   def process_item(self, item, spider): 
  

 
   self.exporter.export_item(item) 
  

 
   return item 
  

 
   def spider_closed(self, spider): 
  

 
   self.exporter.finish_exporting() 
  

 
   self.file.close() 
  

 
   自定义管道将Item保存为Json文件 
  

 
   import 
    codecs,json

 
   # 自定义将Item导出为Json的管道 
  

 
   class 
    ArticleWithJsonPipeline(object):

 
   # 爬虫初始化时调用

 
   def 
    
   __init__ 
   (self):

 
   # 打开json文件

 
   # 使用codecs能够解决编码方面的问题

 
   self.file = codecs.open( 
   'article.json' 
   , 
   'w' 
   ,encoding= 
   "utf-8" 
   ) 
  

 
   # 重写Item处理

 
   def 
    
   process_item 
   (self, item, spider):

 
   # 需要关闭ensure_ascii，不然中文字符会显示不正确

 
   lines = json.dump(dict(item), ensure_ascii= 
   False 
   )+ 
   '\n' 
  

 
   # 将一行数据写入

 
   self.file.write(lines) 
  

 
   return 
    item

 
   # 爬虫结束时调用

 
   def 
    
   spider_closed 
   (self, spider):

 
   # 关闭文件句柄

 
   self.file.close() 
  

 
   同步化将Item保存入数据库 
  

 
   pip install mysqlclient 安装Mysql客户端库 
  

 
   import 
    MySQLdb

 
   # 同步机制写入数据库 
  

 
   class 
    ArticleWithMysqlPipeline(object):

 
   def 
    
   __init__ 
   (self):

 
   self.conn = MySQLdb.connect( 
   '127.0.0.1' 
   , 
   'root' 
   , 
   'root' 
   , 
   'scrapy' 
   , charset= 
   "utf8" 
   , use_unicode= 
   True 
   ) 
  

 
   self.cursor = self.conn.cursor() 
  

 
   def 
    
   process_item 
   (self, item, spider):

 
   insert_sql = 
   '''

 
   INSERT INTO 
  

 
   jobbole_article (title, create_time, url, url_object_id, font_image_url, comment_num, up_num, fav_num, tags, content) 
  

 
   VALUES 
  

 
   (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s) 
  

'''

 
   self.cursor.execute(insert_sql, (item[ 
   "title" 
   ], item[ 
   "create_time" 
   ], item[ 
   "url" 
   ], item[ 
   "url_object_id" 
   ], item[ 
   "font_image_url" 
   ][ 
   0 
   ], 
  

 
   item[ 
   "comment_num" 
   ], item[ 
   "up_num" 
   ], item[ 
   "fav_num" 
   ], item[ 
   "tags" 
   ], item[ 
   "content" 
   ])) 
  

 
   self.conn.commit() 
  

 
   def 
    
   spider_closed 
   (self, spider):

 
   self.conn.close() 
  

 
   异步化将Item保存入数据库 
  

 
   因为Scrapy的解析速度非常快，加上文章的内容较大，因此会出现数据库的操作速度赶不上解析速度会产生阻塞，因此采用异步化的方式来进行数据的插入 
  

 
   import 
    MySQLdb.cursors

 
   from 
    twisted.enterprise  
   import 
    adbapi 
  

 
   # 异步操作写入数据库 
  

 
   class 
    ArticleTwiterMysqlPipeline(object):

 
   # scrapy会自动执行此方法，将setting文件中的配置读入

 
   @classmethod 
  

 
   def 
    
   from_settings 
   (cls, settings):

 
   param = dict( 
  

 
   host = settings[ 
   "MYSQL_HOST" 
   ], 
  

 
   db = settings[ 
   "MYSQL_DBNAME" 
   ], 
  

 
   user = settings[ 
   "MYSQL_USERNAME" 
   ], 
  

 
   passwd = settings[ 
   "MYSQL_PASSWORD" 
   ], 
  

 
   charset = 
   "utf8" 
   , 
  

 
   cursorclass = MySQLdb.cursors.DictCursor, 
  

 
   use_unicode = 
   True

)

 
   #需要使用连接模块的模块名

 
   dbpool = adbapi.ConnectionPool( 
   "MySQLdb" 
   , **param) 
  

 
   return 
    cls(dbpool)

 
   def 
    
   __init__ 
   (self, dbpool):

 
   self.dbpool = dbpool 
  

 
   # 使用twisted异步将数据插入到数据库中

 
   def 
    
   process_item 
   (self, item, spider):

 
   query = self.dbpool.runInteraction(self.do_insert, item) 
  

 
   query.addErrback(self.handle_error, item, spider) 
  

 
   # 自定义错误处理

 
   def 
    
   handle_error 
   (self, failure, item, spider):

 
   print(failure) 
  

 
   print(item) 
  

 
   def 
    
   do_insert 
   (self, cursor, item):

 
   insert_sql = 
   '''

 
   INSERT INTO 
  

 
   jobbole_article (title, create_time, url, url_object_id, font_image_url, font_image_path, comment_num, up_num, fav_num, tags, content) 
  

 
   VALUES 
  

 
   (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s) 
  

'''

 
   cursor.execute(insert_sql, (item[ 
   "title" 
   ], item[ 
   "create_time" 
   ], item[ 
   "url" 
   ], item[ 
   "url_object_id" 
   ], item[ 
   "font_image_url" 
   ][ 
   0 
   ], 
  

 
   item[ 
   "font_image_path" 
   ], item[ 
   "comment_num" 
   ], item[ 
   "up_num" 
   ], item[ 
   "fav_num" 
   ], item[ 
   "tags" 
   ], item[ 
   "content" 
   ])) 
  

 
   项目改进 
  

 
   前面使用了最基本的方式来解析的文章详情页，这样使得spider的代码十分长，不容易维护，因此可以采用自定义ItemLoder的方式方便对规则的管理 
  

 
   spider文件的修改 
  

 
   class 
    JobboleSpider(scrapy.Spider):

 
   # 爬虫的名称 后续启动爬虫是采用此名称

 
   name = 
   "jobbole"

 
   # 爬取允许的域名

 
   allowed_domains = [ 
   "blog.jobbole.com" 
   ] 
  

 
   # 起始url列表 ， 其中的每个URL会进入下面的parse函数进行解析

 
   start_urls = [ 
   'http://blog.jobbole.com/all-posts/' 
   ] 
  

 
   # 列表页面的解析

 
   def 
    
   parse 
   (self, response):

 
   # 获取文章列表中的每一篇文章的url交给Scrapy下载并解析

 
   article_nodes = response.css( 
   'div#archive .floated-thumb .post-thumb a' 
   ) 
  

 
   for 
    article_node  
   in 
    article_nodes:

 
   # 解析每个文章的封面图

 
   font_image_url = article_node.css( 
   'img::attr(src)' 
   ).extract_first( 
   "" 
   ) 
  

 
   # 解析每个文章的url

 
   article_url = article_node.css( 
   '::attr(href)' 
   ).extract_first( 
   "" 
   ) 
  

 
   # 智能对url进行拼接，如果url中不带有域名则会自动添加域名

 
   # 通过在Request中设置meta信息来进行数据的传递

 
   yield 
    Request(url=parse.urljoin(response.url, article_url),meta={  
   'font_image_url' 
   :parse.urljoin(response.url, font_image_url)}, callback=self.parse_detail)

 
   # 获取文章的下一页url地址，并交给自身解析

 
   next_url = response.css( 
   'a.next.page-numbers::attr(href)' 
   ).extract_first( 
   '' 
   ) 
  

 
   if 
    next_url:

 
   yield 
    Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

 
   # 详情页面的解析

 
   def 
    
   parse_detail 
   (self, response):

 
   article_item = JobBoleArticleItem() 
  

 
   # 从response中获取文章封面图

 
   font_image_url = response.meta.get( 
   'font_image_url' 
   , 
   '' 
   ) 
  

 
   item_loader = JobBoleArticleItemLoader(item=JobBoleArticleItem(),response=response) 
  

 
   item_loader.add_css( 
   'title' 
   , 
   'div.entry-header h1::text' 
   ) 
  

 
   item_loader.add_css( 
   'create_time' 
   , 
   'p.entry-meta-hide-on-mobile::text' 
   ) 
  

 
   item_loader.add_value( 
   'url' 
   , response.url) 
  

 
   item_loader.add_value( 
   'url_object_id' 
   , get_md5(response.url)) 
  

 
   item_loader.add_value( 
   'font_image_url' 
   , [font_image_url]) 
  

 
   item_loader.add_css( 
   'comment_num' 
   , 
   'a[href="#article-comment"] span::text' 
   ) 
  

 
   item_loader.add_css( 
   'content' 
   , 
   'div.entry' 
   ) 
  

 
   item_loader.add_css( 
   'tags' 
   , 
   'p.entry-meta-hide-on-mobile a::text' 
   ) 
  

 
   item_loader.add_css( 
   'up_num' 
   , 
   '.vote-post-up h10' 
   ) 
  

 
   item_loader.add_css( 
   'fav_num' 
   , 
   'div.post-adds > span.btn-bluet-bigger.href-style.bookmark-btn.register-user-only::text' 
   ) 
  

 
   article_item = item_loader.load_item() 
  

 
   yield 
    article_item

 
   自定义的ItemLoader 
  

 
   import 
    datetime

 
   import 
    re

 
   import 
    scrapy

 
   from 
    scrapy.loader  
   import 
    ItemLoader 
  

 
   from 
    scrapy.loader.processors  
   import 
    MapCompose, TakeFirst, Join 
  

 
   # 去除文本中的点 
  

 
   def 
    
   remove_dote 
   (value):

 
    
   return 
    value.replace( 
   '·' 
   , 
   '' 
   ).strip() 
  

 
   # 时间转换处理 
  

 
   def 
    
   date_convert 
   (value):

 
   try 
   :

 
   create_time = datetime.datetime.strptime(value, 
   "%Y/%m/%d" 
   ).date() 
  

 
   except 
    Exception  
   as 
    e:

 
   create_time = datetime.datetime.now().date() 
  

 
   return 
    create_time

 
   # 获得数字 
  

 
   def 
    
   get_num 
   (value):

 
   match_re = re.match( 
   '.*?(\d+).*' 
   , value) 
  

 
   if 
    match_re:

 
   num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   num = 
   0

 
   return 
    int(num)

 
   # 获取点赞数 
  

 
   def 
    
   get_up_num 
   (value):

 
   match_re = re.match( 
   '(\d+)' 
   , value) 
  

 
   if 
    match_re:

 
   num = match_re.group( 
   1 
   ) 
  

 
   else 
   :

 
   num = 
   0

 
   return 
    int(num)

 
   # 去掉tag中的评论 
  

 
   def 
    
   remove_comment_tag 
   (value):

 
   if 
    
   "评论" 
    
   in 
    value:

 
   return 
    
   ""

 
   return 
    value

 
   # 默认返回 
  

 
   def 
    
   return_value 
   (value):

 
   return 
    value

 
   # 自定义ITemLoader 
  

 
   class 
    JobBoleArticleItemLoader(ItemLoader):

 
   # 改写默认的output_processor

 
   default_output_processor = TakeFirst() 
  

 
   # 伯乐在线Item 
  

 
   class 
    JobBoleArticleItem(scrapy.Item):

 
   title = scrapy.Field() 
  

 
   create_time = scrapy.Field( 
  

 
   # 该传入的字段值要批量处理的函数

 
   input_processor=MapCompose(remove_dote, date_convert), 
  

)

 
   url = scrapy.Field() 
  

 
   url_object_id = scrapy.Field() 
  

 
   font_image_url = scrapy.Field( 
  

 
   output_processor = MapCompose(return_value) 
  

)

 
   font_image_path = scrapy.Field() 
  

 
   up_num = scrapy.Field( 
  

 
   input_processor = MapCompose(get_up_num) 
  

)

 
   fav_num = scrapy.Field( 
  

 
   input_processor=MapCompose(get_num), 
  

)

 
   comment_num = scrapy.Field( 
  

 
   input_processor=MapCompose(get_num), 
  

)

 
   tags = scrapy.Field( 
  

 
   input_processor=MapCompose(remove_comment_tag), 
  

 
   output_processor = Join( 
   ',' 
   ) 
  

)

 
   content = scrapy.Field() 
  

```

基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
python函数闭包和递归_闭包和递归_个人文章 - SegmentFault 思否 weixin_39830313 python函数闭包和递归
js变量的作用域:全局作用域(全局变量):在函数外面声明的变量**生命周期(变量从声明到销毁)：页面从打开到关闭.局部作用域(局部变量):在函数里面声明的变量**生命周：开始调用函数到函数执行完毕1.闭包使用介绍1.闭包介绍(closure)1.1闭包：是一个可以在函数外部访问函数内部变量的函数->闭包是函数1.2闭包作用：可以在函数外部访问函数内部变量->延长局部变量的生命周期1.3闭包语法：-
python函数闭包和递归_python函数基础3--闭包 + 递归 + 函数回调 weixin_39532019 python函数闭包和递归
一、闭包1.函数嵌套defouter():print("外层函数")definner():print("内层函数")returninner()outer()函数嵌套流程图2.闭包闭包的表现形式：函数里面嵌套函数，外层函数返回内层函数的函数名，这种情况就称之为闭包defouter():print("外层函数")definner():print("内层函数")returninnerret=outer(
python中的递归、回调函数以及闭包总结敲代码敲到头发茂密 Python成长之路 python 开发语言
这里写目录标题一、递归例1：利用递归函数计算1到10的和例2：利用递归函数计算10的阶乘二、回调函数特别注意：在函数中的调用函数分为以下情况：1、同步回调2、异步回调三、闭包一、递归作用：在函数内部调用自己若干次例1：利用递归函数计算1到10的和defsum_num(num):ifnum>=1:sum=num+sum_num(num-1)else:sum=0returnsumprint(sum_n
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
python八股（—） --FBV，CBV suohanfjiusbis 数据库 python
引言FBV是面向函数的视图。defFBV(request):ifrequest.method=='GET':returnHttpResponse("GET")elifrequest.method=='POST':returnHttpResponse("POST")CBV是面向类的视图。classCBV(View):defget(self,request):returnHttpResponse("G
【纯职业小组——思维】 Kent_J_Truman 蓝桥杯算法
题目思路第十五届蓝桥杯省赛PythonB组H题【纯职业小组】题解（AC）_蓝桥杯纯职业小组-CSDN博客代码#includeusingnamespacestd;usingll=longlong;intmain(){ios::sync_with_stdio(0);cin.tie(0);intt;cin>>t;while(t--){intn;llk;cin>>n>>k;unordered_maph;f
第十五届蓝桥杯省赛PythonB组B题【数字串个数】题解（AC）信奥郭老师蓝桥杯职场和发展
设n=10000n=10000n=10000。法一枚举333的个数以及777的个数，假设333的个数为iii，777的个数为jjj，那么非3,73,73,7的个数即为n−i−jn-i-jn−i−j。在长度为nnn的字符串中选取iii的方案数为CniC^i_nCni，在剩余n−in-in−i个位置选取jjj个的方案数为Cn−ijC^j_{n-i}Cn−ij，剩余位置个数为n−i−jn-i-jn−i−
ModuleNotFoundError: No module named ‘h5py‘ Hardess-god python
到ModuleNotFoundError:Nomodulenamed'h5py'错误表明Python环境中没有安装h5py模块。h5py是一个用于处理HDF5二进制数据格式的Python接口，广泛用于大规模存储和操纵数据。解决方案：安装h5py要解决这个问题，你需要在你的Python环境中安装h5py。以下是如何在不同环境中安装h5py的步骤：使用pip安装如果你使用的是pip包管理器，可以通过以
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
蓝桥杯2024年第十五届省赛真题-魔法巡游（Python）罄竹_ python刷题 python 蓝桥杯算法
前言本文参考了FJ_EYoungOneC的文章思路，并且修改了该文章的某些理解上的偏差。一、题目题目来源：dotcpp题目描述在蓝桥王国中，两位魔法使者，小蓝与小桥，肩负着维护时空秩序的使命。他们每人分别持有N个符文石，这些石头被赋予了强大的力量，每一块上都刻有一个介于1到109之间的数字符号。小蓝的符文石集合标记为s1,s2,...,sN，小桥的则为t1,t2,...,tN。两位魔法使者的任务是
想使用dify实现docx文档的自动生成？试了一圈，感觉还是根据python-docx更靠谱几道之旅人工智能智能体及数字员工人工智能
前言：文档自动生成的需求痛点在软件开发过程中，需求文档、设计文档等材料的编写是每个开发者都绕不开的工作。最近笔者接到一个需要批量生成标准化需求文档的任务，尝试了目前热门的低代码工具Dify后，发现对于稍微复杂格式的文档生成需求（例如文本居中这么简单的需求），最终还是回归到基于python-docx库的解决方案。本文将分享两种技术路线的对比实践。一、Dify的踩坑经历我尝试了markdown转doc
python中列表排序 hedgehog" python python list
Python中列表的排序方法1.sort()方法2.sorted()方法========================================1.sort()函数，无返回值主要参数：（1）key:用来进行比较的元素，指定可迭代对象的一个元素作为参数来进行排序。（2）reverse:排序规则。reverse=True降序排序reverse=False升序排序（默认）示例1：list1=[5
python 列表排序 rainynights Python
在我们实际使用中，对于列表的操作是十分常见的。对于列表的数据，在很多特殊的情况下我们需要对列表内的数据进行排列以达到我们特定的显示需求。今天，我们一起看一下python中关于列表排序的一些知识。有些时候我们希望对列表进行排序后，列表可以保存我们排序后的结果，但是很多情况下我们只是希望通过列表的排序，临时的显示排序结果而已。所以对于列表的排序可以分为永久性的排序和临时性的排序。sort()sort(
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
华为OD机试 - 相对开音节 - 正则表达式（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 正则表达式 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述相对开音节构成的结构为辅音+元音（aeiou）+辅音(r除外)+
华为OD机试 - 数列描述 - 动态规划（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 动态规划 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一个数列a[N](N=60)，从a[0]开始，每一项都是一个数
华为OD机试 - 输出单向链表中倒数第k个结点 - 双指针（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 链表 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述输入一个单向链表，输出该链表中倒数第k个结点，链表的倒数第1个结
华为OD机试 - 图片整理（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述Lily上课时使用字母数字图片教小朋友们学习英语单词，每次都需要
华为OD机试 - 宜居星球改造计划 - 图的多源BFS（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述2XXX年，人类通过对火星的大气进行宜居改造分析，使得火星已在理
华为OD机试 - 红黑图（Python/JS/C/C++ 2023 B卷100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述众所周知红黑树是一种平衡树，它最突出的特性就是不能有两个相邻的红
华为OD机试 - DNA序列（Python/JS/C/C++ 2023 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述一个DNA序列由A/C/G/T四个字母的排列组合组成。G和C的比
华为OD机试 - 书籍叠放 - 逻辑分析（Python/JS/C/C++ 2024 B卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述书籍的长、宽都是整数对应(l,w)。如果书A的长宽度都比B长宽大
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

Scrapy 爬取伯乐在线

你可能感兴趣的:(python)