My.ICBM

【进阶】【Python网络爬虫】【15.爬虫框架】scrapy入门（附大量案例代码）（建议收藏）

Python网络爬虫基础

一、爬虫框架
- 1. 什么是框架？
- 2. 初期如何学习框架？
二、scrapy 入门
- 1. 网络爬虫
- - 请求数据
  - 解析数据
  - 保存数据
- 2. scrapy安装
- - 安装方式
  - 全局命令
  - 项目命令
  - - 案例 - scrapy 下厨房网爬取
    - - settings.py
      - spiders
      - blood.py
    - 案例 - scrapy爬取哔哩哔哩网
    - - settings.py
      - items.py
      - pipelines.py
      - iders
      - libi.py - 基于终端指令的持久化存储（简单）不推荐
        
        libi,py - 基于管道的持久化存储方式（通用）
    - 案例 - scrapy数据保存到数据库
    - - settings.py
      - items.py
      - pipelines.py
      - spiders
      - libi.py
    - 案例 - scrapy爬取二进制数据
    - - settings.py
      - items.py
      - pipelines.py
      - spiders
      - img.py

一、爬虫框架

1. 什么是框架？

所谓的框架，其实说白了就是一个【项目的半成品】，该项目的半成品需要被集成了各种功能且具有较强的通用性。

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

2. 初期如何学习框架？

只需要学习框架集成好的各种功能的用法即可！前期切勿钻研框架的源码！

二、scrapy 入门

1. 网络爬虫

网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价值的数据。

一个网络爬虫程序的基本执行流程可以总结三个过程：请求数据， 解析数据， 保存数据

请求数据

请求的数据除了普通的HTML之外，还有 json 数据、字符串数据、图片、视频、音频等。

解析数据

当一个数据下载完成后，对数据中的内容进行分析，并提取出需要的数据，提取到的数据可以以多种形式保存起来，数据的格式有非常多种，常见的有csv、json、pickle等

保存数据

最后将数据以某种格式（CSV、JSON）写入文件中，或存储到数据库（MySQL、MongoDB）中。同时保存为一种或者多种。

通常，我们想要获取的数据并不只在一个页面中，而是分布在多个页面中，这些页面彼此联系，一个页面中可能包含一个或多个到其他页面的链接，提取完当前页面中的数据后，还要把页面中的某些链接也提取出来，然后对链接页面进行爬取（循环1-3步骤）。
设计爬虫程序时，还要考虑防止重复爬取相同页面（URL去重）、网页搜索策略（深度优先或广度优先等）、爬虫访问边界限定等一系列问题。
从头开发一个爬虫程序是一项烦琐的工作，为了避免因制造轮子而消耗大量时间，在实际应用中我们可以选择使用一些优秀的爬虫框架，使用框架可以降低开发成本，提高程序质量，让我们能够专注于业务逻辑（爬取有价值的数据）。接下来，就带你学习目前非常流行的开源爬虫框架Scrapy。

2. scrapy安装

scrapy官网： https://scrapy.org/
scrapy中文文档：https://www.osgeo.cn/scrapy/intro/overview.html

安装方式

在任意操作系统下，可以使用pip安装Scrapy，例如：

Linux/mac系统：

pip install scrapy（任意目录下）

Windows系统：可以直接pip install scrapy安装,如果安装出错可以采用如下方式：

1.pip install wheel (任意目录下)

2.下载 twisted 文件，下载网址如下： http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3.终端进入下载目录，执行 pip install Twisted-17.1.0-cp35-cp35m-win_amd64.whl
注意：如果该步骤安装出错，则换一个版本的 whl 文件即可

4.pip install pywin32 （任意目录下）

如果安装好后，在终端中录入 scrapy 指令按下回车，如果没有提示找到该指令，则表示安装成功

安装完成后我们需要测试安装是否成功，通过如下步骤确认:

在终端中测试能否执行 scrapy 这条命令：

Scrapy 2.4.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench				Run quick benchmark test
  fetch				Fetch a URL using the Scrapy downloader
  genspider			 Generate new spider using pre-defined templates
  runspider			 Run a self-contained spider (without creating a project)
  settings			 Get settings values
  shell				Interactive scraping console
  startproject		  Create new project
  version			 Print Scrapy version
  view				Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

输入 scrapy bench 测试连通性，如果出现以下情况表示安装成功：

通过了以上两项检测，说明Scrapy安装成功了。如上所示，我们安装的是当前最新版本2.4.0。

注意：
成功安装后，在CMD下运行scrapy出现上图不算真正成功，检测真正是否成功使用scrapy bench测试，如果没有提示错误，就代表成功安装。

具体Scrapy安装流程参考：http://doc.scrapy.org/en/latest/intro/install.html##intro-install-platform-notes 里面有各个平台的安装方法

全局命令

Scrapy 2.4.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench				Run quick benchmark test
  				   # 测试电脑性能
  fetch				Fetch a URL using the Scrapy downloader
  				   # 将源代码下载下来并显示出来
  genspider			 Generate new spider using pre-defined templates
  				   # 创建一个新的 spider 文件
  runspider			 Run a self-contained spider (without creating a project)
  				   # 这个和通过crawl启动爬虫不同，scrapy runspider 爬虫文件名称
  settings			 Get settings values
  				   # 获取当前的配置信息
  shell				Interactive scraping console
  				   # 进入 scrapy 的交互模式
  startproject		  Create new project
  					# 创建爬虫项目
  version			 Print Scrapy version
  					# 显示scrapy框架的版本
  view				Open URL in browser, as seen by Scrapy
  					# 将网页document内容下载下来，并且在浏览器显示出来

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

项目命令

scrapy startproject projectname项目名称

## 创建一个项目
firstBlood   # 项目所在文件夹, 建议用pycharm打开该文件夹
    ├── firstBlood  		# 项目跟目录
    │   ├── __init__.py
    │   ├── items.py  		# 封装数据的格式
    │   ├── middlewares.py  # 所有中间件
    │   ├── pipelines.py	# 所有的管道
    │   ├── settings.py		# 爬虫配置信息
    │   └── spiders			# 爬虫文件夹, 稍后里面会写入爬虫代码
    │       └── __init__.py
    └── scrapy.cfg			# scrapy项目配置信息,不要删它,别动它,善待它.

cd project_name（进入项目目录）
scrapy genspider 爬虫文件的名称（自定义一个名字即可）起始url （随便写一个网址即可）

创建好爬虫项目以后，还需要创建爬虫。
scrapy crawl spidername

运行爬虫。注意该命令运行时所在的目录

案例 - scrapy 下厨房网爬取

settings.py

BOT_NAME = "First"

SPIDER_MODULES = ["First.spiders"]
NEWSPIDER_MODULE = "First.spiders"
# 指定输出的日志类型
LOG_LEVEL = 'ERROR'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36"

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

spiders

blood.py

import scrapy

class BloodSpider(scrapy.Spider):
    # 爬虫文件的唯一标识
    name = "blood"
    # 允许的域名
    allowed_domains = ["www.baidu.com"]
    # 起始的 url 列表（重要）：列表内部的 url 都会被框架进行异步的请求发送
    start_urls = ["https://www.xiachufang.com/category/40076/"]

    # 数据解析 ： parse 调用的次数取决于 start_urls 列表元素的个数
    def parse(self, response):  # response 参数就表示响应对象
        # 如何实现数据解析 ： Xpath
        li_list = response.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/ul/li')

        for li in li_list:
            # xpath 最终会返回的是 Selector 对象，想要的解析的数据是存储在该对象的 data 属性中（extract可以实现该功能）
            # title = li.xpath('./div/div/p[1]/a/text()')[0].extract()  # 一般不用

            # extract_first 可以将 xpath 返回类别中的第一个 Selector 对象中的 data 属性值获取
            # title = li.xpath('./div/div/p[1]/a/text()').extract_first()

            # extract 可以将 xpath 返回列表中的每一个 Selector 对象中的 data 属性值获取
            title = li.xpath('./div/div/p[1]/a/text()').extract()
            # 如果 xpath 返回的列表元素只有一个则使用 extract_first ，否则使用 extract
            print(title)

案例 - scrapy爬取哔哩哔哩网

settings.py

BOT_NAME = "biliPro"

SPIDER_MODULES = ["biliPro.spiders"]
NEWSPIDER_MODULE = "biliPro.spiders"

# 指定输出的日志类型
LOG_LEVEL = 'ERROR'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36"

# Obey robots.txt rules
ROBOTSTXT_OBEY = False


REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

items.py

import scrapy

class BiliproItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()

pipelines.py

# 存储 txt 文件
class BiliproPipeline:# 一个管道类只负责将数据存储到一个载体中
    fp = None

    # 全程只会被调用一次
    def open_spider(self, spider):
        print('i am open_spider()')
        self.fp = open('bili.txt', 'w')

    # process_item 函数就是用来接受爬虫文件提交过来的item对象，且可以将item对象中的数据存储到任何载体中
    def process_item(self, item, spider):  # 参数 item 就是管道接收到item对象
        title = item['title']
        author = item['author']
        # 数据存储到文件里
        self.fp.write(author + ':' + title + '\n')
        return item

    # process_item 函数调用的次数取决于爬虫文件给管道提交的 item 的次数

    def close_spider(self, spider):
        print('i am close_spider()')
        # 该函数只会在爬虫结束前被调用一次
        self.fp.close()

iders

libi.py - 基于终端指令的持久化存储（简单）不推荐

import scrapy

class LibiSpider(scrapy.Spider):
    name = "libi"
    allowed_domains = ["www.xxx.com"]
    start_urls = [
        "https://search.bilibili.com/all?keyword=%E5%AE%8F%E8%A7%82%E7%BB%8F%E6%B5%8E&from_source=webtop_search&spm_id_from=333.1007&search_source=5"]

    # 基于终端指令的持久化存储（简单）：只可以将 parse 方法的返回值存储写入到指定后缀的文本文件中
    def parse(self, response):
        div_list = response.xpath('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[3]/div/div')
        all_data = []
        for div in div_list:
            title = div.xpath('./div/div[2]/div/div/a/h3/text()').extract()
            title = ''.join(title)
            author = div.xpath('./div/div[2]/div/div/p/a/span[1]/text()').extract_first()

            dic = {
                'title': title,
                'author': author,
            }

            all_data.append(dic)
        return all_data  # all_data里面就存储了爬取到的数据
    
 # 指令 scrapy crawl bili -o bili.csv

libi,py - 基于管道的持久化存储方式（通用）

import scrapy

from ..items import BiliproItem

class LibiSpider(scrapy.Spider):
    name = "libi"
    allowed_domains = ["www.xxx.com"]
    start_urls = [
        "https://search.bilibili.com/all?keyword=%E5%AE%8F%E8%A7%82%E7%BB%8F%E6%B5%8E&from_source=webtop_search&spm_id_from=333.1007&search_source=5"]

    # 基于管道的持久化存储方式（通用）
    def parse(self, response):
        div_list = response.xpath('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[3]/div/div')
        all_data = []
        for div in div_list:
            title = div.xpath('./div/div[2]/div/div/a/h3/text()').extract()
            title = ''.join(title)
            author = div.xpath('./div/div[2]/div/div/p/a/span[1]/text()').extract_first()

            # 创建一个 item 类型的对象
            item = BiliproItem(title=title, author=author)
            yield item

    # 编码流程：1.解析数据 2.创建一个 item 类的对象（存储解析出来的数据）3.将解析出来的数据存储到该 item 类型的对象中 4.将item对象提交给管道

    # 爬虫文件：libi.py  进行请求发送和数据解析
    # item文件： items.py  定义n个变量
    # 管道文件： pipelines.py  接收item对象进行数据持久化存储

案例 - scrapy数据保存到数据库

如何将数据存储到数据库
- 注意：一个管道类负责将数据存储到一个具体的载体中。如果想要将爬取到的数据存储到多个不同的载体/数据库中，则需要定义多个管道类。
思考：
- 在有多个管道类的前提下，爬虫文件提交的item会同时给每一个管道类还是单独的管道类？
  - 爬虫文件只会将item提交给优先级最高的那一个管道类。优先级最高的管道类的process_item中需要写return item操作，该操作就是表示将item对象传递给下一个管道类，下一个管道类获取了item对象，才可以将数据存储成功！

settings.py

BOT_NAME = "biliPro"
SPIDER_MODULES = ["biliPro.spiders"]
NEWSPIDER_MODULE = "biliPro.spiders"

# 指定输出的日志类型
LOG_LEVEL = 'ERROR'

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36"

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
   # value 值表示的数字代表了管道类的优先级，数字越小表示优先级越高
   "biliPro.pipelines.BiliproPipeline": 300,
   "biliPro.pipelines.MysqlPipeline": 301,
   "biliPro.pipelines.RedisPipeLine": 302,
   "biliPro.pipelines.MongoPipeline": 303,
}

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

items.py

import scrapy

class BiliproItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()

pipelines.py

import pymysql  # pip install pymysql

''' 第一个管道类：存储 txt 文件 '''
class BiliproPipeline:  # 一个管道类只负责将数据存储到一个载体中
    fp = None

    # 全程只会被调用一次
    def open_spider(self, spider):
        print('i am open_spider()')
        self.fp = open('bili.txt', 'w')

    # process_item 函数就是用来接受爬虫文件提交过来的item对象，且可以将item对象中的数据存储到任何载体中
    def process_item(self, item, spider):  # 参数 item 就是管道接收到item对象
        title = item['title']
        author = item['author']
        # 数据存储到文件里
        self.fp.write(author + ':' + title + '\n')
        return item

    # process_item 函数调用的次数取决于爬虫文件给管道提交的 item 的次数

    def close_spider(self, spider):
        print('i am close_spider()')
        # 该函数只会在爬虫结束前被调用一次
        self.fp.close()


''' 第二个管道类：存储到 mysql 数据库 '''
class MysqlPipeline:
    conn = None  # 链接对象
    cursor = None  # 游标对象

    def open_spider(self, spider):
        # 链接数据库的操作只需要被执行一次
        self.conn = pymysql.Connect(
            host='127.0.0.1',  # mysql 数据库服务器的ip地址
            port=3306,  # 端口号
            user='root',  # 用户名
            password='root',  # 密码
            db='spider',  # 数据仓库名称
        )
        # 创建一个游标对象（用来使用python程序执行sql语句）
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):  # 参数 item 就是管道接收到item对象，由上级优先级高的管道类传递过来
        title = item['title']
        author = item['author']
        # 使用游标对象 cursor 执行 sql语句
        sql = 'insert into bili values ("%s","%s")' % (title, author)
        self.cursor.execute(sql)
        # 提交事物
        self.conn.commit()
        return item

    def close_spider(self, spider):
        self.conn.close()
        self.cursor.close()
        
        
''' 第三个管道类：存储 Redis 数据库 '''
class RedisPipeLine:
    conn = None

    def open_spider(self, spider):
        # 创建 redis 的链接对象
        self.conn = Redis(
            host='127.0.0.1',
            port=3308
        )

    def process_item(self, item, spider):  # 参数 item 就是管道接收到item对象，由上级优先级高的管道类传递过来
        # item 本身就是一个字典
        self.conn.lpush('libi', item)
        return item

    def close_spider(self, spider):
        pass


''' 第四个管道类：存储 MongoDB 数据库 '''
import pymongo
class MongoPipeline:
    conn = None  # 链接对象
    db_sanqi = None  # 数据仓库

    def open_spider(self, spider):
        self.conn = pymongo.MongoClient(
            host='127.0.0.1',
            port=27017
        )
        self.db_sanqi = self.conn['sanqi']

    def process_item(self, item, spider):
        self.db_sanqi['xiaoshuo'].insert_one({'title': item['title']})
        print('插入成功！')
        return item

spiders

libi.py

import scrapy

from ..items import BiliproItem


class LibiSpider(scrapy.Spider):
    name = "libi"
    allowed_domains = ["www.xxx.com"]
    start_urls = [
        "https://search.bilibili.com/all?keyword=%E5%AE%8F%E8%A7%82%E7%BB%8F%E6%B5%8E&from_source=webtop_search&spm_id_from=333.1007&search_source=5"]

    # 基于管道的持久化存储方式（通用）
    def parse(self, response):
        div_list = response.xpath('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[3]/div/div')
        all_data = []
        for div in div_list:
            title = div.xpath('./div/div[2]/div/div/a/h3/text()').extract()
            title = ''.join(title)
            author = div.xpath('./div/div[2]/div/div/p/a/span[1]/text()').extract_first()

            # 创建一个 item 类型的对象
            item = BiliproItem(title=title, author=author)
            yield item  # item会提交给那个管道类？一定是提交给优先级最高的管道类！！

    # 编码流程：1.解析数据 2.创建一个 item 类的对象（存储解析出来的数据）3.将解析出来的数据存储到该 item 类型的对象中 4.将item对象提交给管道

    # 爬虫文件：libi.py  进行请求发送和数据解析
    # item文件： items.py  定义n个变量
    # 管道文件： pipelines.py  接收item对象进行数据持久化存储

在爬虫文件中进行数据爬取和数据解析

在 items.py 文件中进行相关变量的定义（变量的个数取决于爬虫文件中解析字段的个数）

在爬虫文件中将解析到的数据存储到item类型的对象中

将 item 类型的对象提交给管道

管道的 process_item 函数中接收item对象，且将 item 对象的数据存储到指定的平台或者载体中

在配置文件中开启管道的机制

案例 - scrapy爬取二进制数据

使用一个专有的管道类ImagesPipeline

http://pic.netbian.com/4kmeinv/

首先安装插件： pip install PIL / pip install Pillow

具体的编码流程：
- 1.在爬虫文件中进行图片/视频的链接提取
- 2.将提取到的链接封装到items对象中，提交给管道
- 3.在管道文件中自定义一个父类为ImagesPipeline的管道类，且重写三个方法即可：

def get_media_requests(self, item, info):接收爬虫文件提交过来的item对象，然后对图片地址发起网路请求，返回图片的二进制数据

def file_path(self, request, response=None, info=None, *, item=None)：指定保存图片的名称
def item_completed(self, results, item, info)：返回item对象给下一个管道类

settings.py

BOT_NAME = "imgPro"

SPIDER_MODULES = ["imgPro.spiders"]
NEWSPIDER_MODULE = "imgPro.spiders"

# 指定输出的日志类型
LOG_LEVEL = 'ERROR'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
IMAGES_STORE = 'girlsLib'

ITEM_PIPELINES = {
    "imgPro.pipelines.BytesPipeLine": 300,
}

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

items.py

import scrapy

class ImgproItem(scrapy.Item):
    img_src = scrapy.Field()

pipelines.py

import scrapy
from scrapy.pipelines.images import ImagesPipeline

# 普通的管道类：将文本数据持久化
class ImgproPipeline:
    def process_item(self, item, spider):
        return item

# 特殊的管道类：将二进制数据持久化
# 自定义了一个管道类，该类的父类为 ImagesPipeline
class BytesPipeLine(ImagesPipeline):
    # 重写三个父类的方法来完成图片二进制数据的请求和持久化存储
    # 可以根据图片地址，对其进行请求，获取图片数据
    # 接收爬虫文件提交过来的item对象,并且可以对相关的多媒体资源进行网络请求
    def get_media_requests(self, item, info):
        # 提取图片地址或者视频地址
        img_src = item['img_src']
        # 可以对 img_src 进行网络请求获取图片数据
        yield scrapy.Request(img_src)

    def file_path(self, request, response=None, info=None, *, item=None):  # 指定保存图片的名称
        # 用来将请求到的多媒体数据进行指定路径的存储
        # 返回存储文件的名字
        img_src = request.url  # 图片地址
        img_title = img_src.split('/')[-1]
        print(img_title, '下载保存成功！')
        return img_title

    # 如果没有下一个管道类，该方法可以不写
    def item_completed(self, results, item, info):  # 返回item对象给下一个管道类
        return item  # 可以将当前的管道类接收到item对象传递给下一个管道类2.

spiders

img.py

import scrapy
from ..items import ImgproItem

class ImgSpider(scrapy.Spider):
    name = "img"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ["http://pic.netbian.com/4kmeinv/"]

    def parse(self, response):
        # 解析图片地址
        li_list = response.xpath('//*[@id="main"]/div[3]/ul/li')
        for li in li_list:
            img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src').extract_first()
            # 图片地址封装到item对象中，且将item提交给管道即可
            item = ImgproItem(img_src=img_src)
            print(item)
            yield item
            # 特殊的管道类：主要是对二进制的数据进行持久化存储

你可能感兴趣的:(Python网络爬虫,python,爬虫,scrapy)

binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
Python-Zstandard 使用教程
Python-Zstandard使用教程项目介绍Python-Zstandard是一个为Zstandard（zstd）压缩库提供Python绑定的开源项目。Zstandard是一种由Facebook开发的高性能数据压缩算法，旨在提供高压缩比和快速压缩解压速度。Python-Zstandard项目的目标是通过一个Pythonic的接口，提供对底层CAPI的丰富访问，同时不牺牲性能。项目地址：GitH
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Py-spy：优秀的 Python 程序性能监控、分析器
py-spy是用于Python程序的性能监控、分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低：为了最大化提高速度，它是用Rust编写的，并且与配置的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python程序。py-spy可在Linux，OSX，Windows和FreeBSD上运行，并支持
python软件代码运行解析器出错是怎么问题_Py-Spy - Python程序的抽样分析器 weixin_39714307
Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。Py-Spy是Python程序的抽样分析器。它允许您可视化Python程序正花费时间在哪部分，而无需重新启动程序或以任何方式修改代码。Py-Spy的开销极低：它使用Rust语言编写，速度快，不会在与配置的Python程序相同的进程中运行，也不会以任何方式中断正在运行的程序。这意味着Py-Spy可以安全地用于
Python 包管理工具pip
pip是Python的包管理工具，用于安装和管理Python包（库或模块）。它是Python生态系统中最重要的工具之一，几乎所有第三方库都可以通过pip安装。以下是关于pip的详细讲解：1.pip是什么？pip是PythonPackageInstaller的缩写。它是一个命令行工具，用于从PythonPackageIndex(PyPI)下载和安装Python包。pip可以管理Python包的安装、
pip和conda 李星星BruceL pip conda
目录1使用Conda？你可能不需要Docker1.1Docker在开发环境中的应用1.2Python和Conda：跨平台逻辑，跨平台依赖1.3Conda作为生产环境中Docker的替代方案1.4避免使用Docker的一些限制2PipvsConda：深入比较Python的两种包管理系统2.1起点：哪种依赖？2.1.1Pip：仅限Python库2.1.2Conda：任何依赖都可以是Conda包（几乎）
探索Python性能优化的新里程：py-spy 施刚爽
探索Python性能优化的新里程：py-spy项目介绍py-spy是一个为Python程序设计的轻量级采样剖析器，它无需重启或修改你的代码就能让你看到程序运行时的时间分配情况。由于其采用Rust编写，因此在不影响目标程序运行的情况下，py-spy能安全地对生产环境中的Python代码进行剖析。该项目支持Linux、macOS、Windows和FreeBSD上的所有现代CPython解释器版本（从2
【python学习】使用魔塔社区的模型
前言魔塔社区有很多模型，但是怎么使用呢？刚开始学习python，简单的摸索一下一、新建项目1、创建虚拟环境condacreate-npaddlepython=3.102、激活虚拟环境condaactivatepaddle3、新建项目PyCharn新建一个项目，选择已创建的虚拟环境paddle项目新增models目录二、下载模型打开PyCharm的Terminal，命令行前面有一个(paddle)，
【基础】Python包及环境管理工具大盘点：pip、pipx、poetry、conda、pipenv、Pixi、uv、venv、virtualenv、pyenv 、Mamba、Hatch、PDM等正经教主程序基础 python python 开发语言包工具环境工具
前言工欲善其事，必先利其器，如今兵器各式各样，咱就盘点一下有哪些兵器，都有啥特点，供各位侠客参考，希望大家都能找到自己喜欢的。正经开始以下是针对Python环境中常用工具的特点、易用性对比及使用建议的详细总结：一、工具分类与核心功能根据功能定位，可将工具分为以下几类：虚拟环境管理：venv、virtualenv包管理与依赖解析：pip、pipx综合项目管理：poetry、pipenv、Hatch、
Python 并发调试工具（py-spy、GDB、pyperf）解析赛博社畜联盟 python 开发语言
```htmlPython并发调试工具（py-spy、GDB、pyperf）解析Python并发调试工具（py-spy、GDB、pyperf）解析在现代软件开发中，Python以其简洁的语法和强大的库支持，成为了许多开发者首选的语言。然而，随着程序复杂度的增加，尤其是涉及并发编程时，调试和性能优化变得尤为重要。本文将介绍三个常用的Python并发调试工具：py-spy、GDB和pyperf，并深入
Python 依赖管理的新动向：pip、Poetry 和 Conda 谁是未来的标准？
```htmlPython依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？Python依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？在Python生态系统中，依赖管理是一个至关重要的环节。无论是小型脚本还是大型企业级项目，依赖管理的好坏直接影响到项目的开发效率和稳定性。近年来，随着Python社区的快速发展，依赖管理工具也经历了显著的变化。本文将探讨三种主流的
Conda常用命令耘田 conda 人工智能
查看Conda的完整帮助文档conda-h显示当前安装的Conda版本号conda-V列出所有已创建的Conda虚拟环境（标记*表示当前激活的环境）。condaenvlist删除所有缓存文件（包括未使用的包、临时文件等），释放磁盘空间condaclean--all新建名为ai-knowledge-mgr的虚拟环境，并安装Python3.8版本condacreate-nai-knowledge-mg
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
使用Python实现的Excel像素画
简介：本项目主要使用python语言，将图片转为Excel，图片中的每一个像素转化为Excel中的每一个单元格。主要使用pillow和xlsxwriter这两个模块。项目使用一个python文件即可。一：项目功能和流程介绍项目的主要功能：就是将一张人脸图像，画在Excel表格上，图片的每一个像素点对应Excel的一个格子，俗称像素画。流程：创建Excel表，并设置行高和列宽打开图片遍历图片每一个像
python高并发web框架_Python3中tornado高并发框架 weixin_39788969 python高并发web框架
1.单线程tornado.web：基础web框架模块tornado.ioloop：核心IO循环模块，高效的基础。封装了:1.asyncio协程，异步处理2.epoll模型：水平触发（状态改变就询问，select(),poll()），边缘触发（一直询问，epoll()）3.poll模型：I/O多路复用技术4.BSD（UNIX操作系统中的一个分支的总称）的kqueue（kueue是在UNIX上比较高效
基于python的文字识别系统_基于Python的图片文本识别系统的研究 weixin_39683368 基于python的文字识别系统
龙源期刊网http://www.qikan.com.cn基于Python的图片文本识别系统的研究作者：韩琳来源：《科学与财富》2019年第20期近年来随着计算机技术的不断发展，OpticalCharacterRecognition（光学字符识别，简称“OCR”）应用的领域更加的广泛，而图片文字识别就是其中重要的一个。目前图片文字识别的准确率并没有达到100%，这也成为了图片文字识别发展领域的一大瓶
基于python的图像识别_基于PYTHON的图片文字识别
文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般包括以下几个过程：图像输入、图像前处理、预识别：1图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV、CxImage等开源项目。2预处理：主要包括二值化，噪声去除，倾斜较正等。2.1二值化：对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
Python类中魔术方法(Magic Methods)完全指南：从入门到精通盛夏绽放 python 开发语言
文章目录Python类中魔术方法(MagicMethods)完全指南：从入门到精通一、魔术方法基础1.什么是魔术方法？2.魔术方法的特点二、常用魔术方法分类详解1.对象创建与初始化2.对象表示与字符串转换3.比较运算符重载4.算术运算符重载5.容器类型模拟6.上下文管理器7.可调用对象三、高级魔术方法1.属性访问控制2.描述符协议3.数值类型转换四、魔术方法最佳实践五、综合案例：自定义分数类Pyt
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
〖Python 数据库开发实战 - Redis篇②〗- Linux系统下安装 Redis 数据库哈哥撩编程 #⑤ -数据库开发实战篇 Python全栈白宝书 python 数据库数据库开发实战 linux安装redis
订阅Python全栈白宝书-零基础入门篇可报销！白嫖入口-请点击我。推荐他人订阅，可获取扣除平台费用后的35%收益，文末名片加V！说明：该文属于Python全栈白宝书专栏，免费阶段订阅数量4300+，购买任意白宝书体系化专栏可加入TFS-CLUB私域社区。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还有机会加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
上传文件csv并解析list_基于PyQt5表格控件TableWidget的csv文件内容显示
(70后红太阳2020年4月写于成都)一、配置环境开发环境：Win7；开发工具：Python3.8.2IDLE，QtDesigner5.13.2；Python安装目录：D:python；文件保存目录：D:python基于PyQt5表格控件TableWidget的csv文件内容显示；路径配置：在cmd下，运行path=%path%;Dpythonpython38-32scripts;D:python
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
网络爬虫-07 YEGE学AI算法 Python-网络爬虫
网络爬虫-07）**Spider06回顾****scrapy框架****完成scrapy项目完整流程****我们必须记住****爬虫项目启动方式****数据持久化存储****Spider07笔记****分布式爬虫****scrapy_redis详解****腾讯招聘分布式改写****机器视觉与tesseract****补充-滑块缺口验证码案例****豆瓣网登录****Fiddler抓包工具****移
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
爬虫初认识老杨玩python python
关于爬虫你是否在夜深人静的时候，想看一些让你更睡不着的图片你是否在考试前夕或者面试前夕，想看一些具有针对性的题目和面试题你是否想在杂乱的网络世界中获取你想要的数据什么是爬虫：通过编写程序，模拟浏览器，去互联网上抓取我们想要的数据的过程爬虫的合法性爬虫不被法律禁止快播王欣技术本无罪但有法律风险爬虫干扰被访问网站的正常运营爬取受法律保护的特定类型的数据和信息如何避免法律风险时常优化爬虫程序，避免干扰网
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla