a little peanut

爬虫基础-数据存储

注：本文章为学习过程中对知识点的记录，供自己复习使用，也给大家做个参考，如有错误，麻烦指出，大家共同探讨，互相进步。
借鉴出处：
该文章的路线和主要内容：崔庆才（第2版）python3网络爬虫开发实战

文章目录

- 1、Text文本文件存储
- 2、JSON文件存储
- 3、CSV文件存储
- 4、MySQL存储
- 5、MongoDB文档存储
- 6、Redis缓存存储
- 7、Elasticsearch搜索引擎存储
- 8、RabbitMq消息队列存储（后续再补，现在用不到，待开发中扩展到mq时，再学习此模块）

1、Text文本文件存储

def open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)

file表示要保存或者打开的文件路径。
mode是一个可选字符串，指定文件的模式打开。
encoding指定文件的编码方式。
buffering用于设置缓冲策略的可选整数。传递0以关闭缓冲（仅在二进制模式下允许），传递1以选择行缓冲（仅在文本模式下可用），以及大于1的整数表示固定大小块缓冲区的大小。
当没有缓冲参数时给定，默认缓冲策略的工作方式如下：二进制文件以固定大小的块缓冲；缓冲区的大小使用试探法选择，试图确定底层设备的“块大小”并返回io.DEFAULT_BUFFER_size。在许多系统上，缓冲区通常为4096或8192字节长。“交互式”文本文件（isatty（）返回True的文件）使用行缓冲。其他文本文件使用上述策略用于二进制文件。
errors是一个可选字符串，指定编码错误的方式此参数不应在二进制模式下使用。通过“strict”用于在存在编码错误时引发ValueError异常（默认值“无”具有相同的效果），或传递“忽略”以忽略错误。（请注意，忽略编码错误可能会导致数据丢失。）
newline换行符控制通用换行符的工作方式（它仅适用于文本模式）。它可以是None、“”、“\n”、“\r”和“\r\n”。
如果closefd为False，则底层文件描述符将保持打开状态当文件关闭时。当给定文件名时，此操作无效并且在这种情况下必须为True。

但常用的三个参数就是file、mode、encoding了。
mode的几种模式：

r：以只读方式打开一个文件，默认模式。
rb：以二进制方式打开一个文件，例如音频、图片、视频等。
r+：以读写方式打开一个文件，既可以读文件又可以写文件。
rb+：以二进制读写方式打开一个文件，即可以读也可以写，读写都是二进制数据。
w：以写入的方式打开一个文件。如果该文件已存在，则将其覆盖；否则创建文件（下面几个都是）。
wb：以二进制写入方式打开一个文件。
w+：以读写方式打开一个文件。
wb+：以二进制读写格式打开一个文件。
a：以追加方式打开一个文件。若文件已存在，文件指针会放在文件结尾；否则创建文件来写入。（下面几个都是）。
ab：以二进制追加方式打开一个文件。
a+：以读写方式打开一个文件。
ab+：以二进制追加方式打开一个文件。

每回调用open方法后，要用close()方法关闭文件对象。
为了简化方法，采用with as语法。当with控制块语句结束时，文件会自动关闭，意味着不需要在调用close方法。

with open('movies.txt', 'w', encoding='utf-8') as file:
	file.write(f'名称':{name}\n}
	file.write(f'类别':{categories}\n}
	file.write(f'上映事件':{published_at}\n}
	file.write(f'评分':{score}\n}

2、JSON文件存储

在JSON对象中用’[]'包围的内容相当于数组，数组中的每个元素都可以是任意类型，数据结构类型为[“java”,“javascript”,“vb”,…]。‘{}’包围的内容相当于对象，数据结构类型是{key1:value1,key2:value2,…}
JSON可以有对象和数组两种形式自由组合，能够嵌套无限次，并且结构清晰，是数据交换的极佳实现方式。
JSON库中的loads方法将JSON文本字符串转为JSON对象，反过来通过dumps方法将JSON对象转换为文本字符串。
loads
输入：

import json
str = '''[{"name":"Bob"},{"name":"Tom"}]'''
print(type(str))
data = json.loads(str)
print(type(data))
print(data)
print(data[1].get('name'))

输出：

<class 'str'>
<class 'list'>
[{'name': 'Bob'}, {'name': 'Tom'}]
Tom

注意：JSON字符串的表示需要用双引号，否则loads方法会解析失败。同时还有load方法，与loads功能一致，只不过load接收的是文件操作对象，loads接收的是JSON字符串。
dumps
输入：

import json
data = [{'name':'张三'},{'name':'Tom'}]
with open('data.json','w',encoding='utf-8') as file:	
	# indent缩进字符的个数;ensure_ascii=False表示不让中文转Unicode字符
    file.write(json.dumps(data,indent=2,ensure_ascii=False))

输出：

# data.json
[
  {
    "name": "张三"
  },
  {
    "name": "Tom"
  }
]

注意：dumps同样有dump方法，与load使用方式一致。

3、CSV文件存储

CSV比Excel文件更加简洁，XLS文本是电子表格，包含文本、数值、公式和格式等内容，CSV中不包含这些，就是以特定字符作为分隔符的纯文本，结构简单清晰。所以，有时候使用CSV来存储数据是比较方便的。
写入
输入：

import csv
with open('data.csv','w',encoding='utf-8') as csvFile:
    # writer初始化csv写入对象;delimiter用于传列与列之间的分隔符
    writer = csv.writer(csvFile, delimiter=',')
    writer.writerow(['id','name'])
    # writerow写入单行数据
    writer.writerow(['10001','Tom'])
    writer.writerow(['10002','Jack'])
    # writerows写入多行数据
    writer.writerows([['10003','Jerry'],['10004','Bob']])

输出：

# data.csv
id,name

10001,Tom

10002,Jack

10003,Jerry

10004,Bob

但一般情况下，爬虫爬取的都是结构化的数据，我们一般会用字典表示这种数据。csv库提供了字典的写入方式，如下：
输入：

import csv
with open('data.csv','w',encoding='utf-8') as csvFile:
    fieldnames = ['id', 'name']
    # DictWriter初始化csv写入对象并定义好字段;delimiter用于传列与列之间的分隔符
    writer = csv.DictWriter(csvFile, fieldnames=fieldnames, delimiter=';')
    # writeheader方法写入fieldnames头信息
    writer.writeheader()
    # writerow写入单行数据
    writer.writerow({'id':'10001','name':'Tom'})
    writer.writerow({'id':'10002','name':'Jack'})
    # writerows写入多行数据
    writer.writerows([{'id':'10003','name':'Jerry'},{'id':'10004','name':'Bob'}])

输出：

# data.csv
id;name

10001;Tom

10002;Jack

10003;Jerry

10004;Bob

同时，通过pandas库DataFrame对象的to_csv方法将数据写入CSV文件中。
安装pandas库pip install pandas
输入：

import pandas as pd
data = [
    {'id':'10001','name':'Tom'},
    {'id':'10002','name':'Jack'}
]
df = pd.DataFrame(data)
df.to_csv('data.csv', index=False)

输出：

# data.csv
id,name
10001,Tom
10002,Jack

读取
采用csv中的reader函数进行读取csv文件。
输入：

import csv
with open('data.csv','r',encoding='utf-8') as csvFile:
    reader = csv.reader(csvFile)
    for row in reader:
        print(row)

输出：

['id', 'name']
['10001', 'Tom']
['10002', 'Jack']

也可以用read_csv方法将数据从CSV文件中读取出来。
输入：

import pandas as pd
df = pd.read_csv('data.csv')
print(df)
# 转换成列表或元组
data = df.values.tolist()
print(data)

输出：

      id  name
0  10001   Tom
1  10002  Jack
[[10001, 'Tom'], [10002, 'Jack']]

4、MySQL存储

关系型数据库是基于关系模型的数据库，而关系模型是通过二维表来保存的，所以关系型数据库中数据的存储方式就是行列组成的表，每一列代表一个字段、每一行代表一条记录。表可以看作某个实体的集合，实体之间存在的联系需要通过表与表之间的关联关系体现，例如主键和外键的关联关系。由多个表组成的数据库，就是关系型数据库。
关系型数据库有多种，例如SQLite、MySQL、Oracle、SQL Server、DB2等。
安装连接库pip install pymysql
输入：

import pymysql
# 与mysql建立连接，填写mysql的host,port,user,password
db = pymysql.connect(host='127.0.0.1',port=3306, user='root', password='password')
# 获取mysql的操作游标，利用游标执行sql语句
cursor= db.cursor()
sql1 = 'CREATE DATABASE IF NOT EXISTS TestDataBase;'
sql2 = 'USE TestDataBase;'
sql3 = 'CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL ,name VARCHAR(255) NOT NULL , primary key (id));'
# execute执行语句
cursor.execute(sql1)
cursor.execute(sql2)
cursor.execute(sql3)
data = [{'id':'100001','name':'Tom'},{'id':'100002','name':'Jerry'},{'id':'100003','name':'Jack'}]
# 插入数据
sql4 = 'INSERT INTO students(id, name) values(%s ,%s)'
try:
    for i in range(len(data)):
        cursor.execute(sql4,(data[i].get("id"),data[i].get("name")))
    # 提交到数据库
    db.commit()
except EOFError as e:
    print(e)
    # 如果执行异常，用rollback回滚
    db.rollback()
# 更新数据
sql5 = 'UPDATE students SET name=%s WHERE id=%s;'
try:
    cursor.execute(sql5,('Bob','100001'))
    db.commit()
except EOFError as e:
    print(e)
    db.rollback()
# 删除数据
sql6 = 'DELETE FROM students where name=%s;'
try:
    cursor.execute(sql6,('Jerry'))
    db.commit()
except EOFError as e:
    print(e)
    db.rollback()
# 查询数据
sql7 = 'SELECT * FROM students;'
try:
    cursor.execute(sql7)
    # 如果先fetchone再fetchall，那fetchall就查询不到第一条数据了
    # one = cursor.fetchone()
    alls = cursor.fetchall()
    for row in alls:
        print(row)
except EOFError as e:
    print(e)
    db.rollback()
db.close()

其他知识点：
事务的4个属性：

属性	解释
原子性	事务是一个不可分割的工作单位，一个事务要么全部提交成功，要么全部失败回滚，不能只执行其中的一部分操作
一致性	事务的执行不能破坏数据库数据的完整性和一致性，一个事务在执行之前和执行之后，数据库都必须处于一致性状态如果数据库系统在运行过程中发生故障，有些事务尚未完成就被迫中断，这些未完成的事务对数据库所作的修改有一部分已写入物理数据库，这是数据库就处于一种不正确的状态，也就是不一致的状态。
隔离性	一个事务的执行不能被其他事务干扰，即一个事务内部的操作及使用的数据对并发的其他事务是隔离的，并发执行的各个事务之间不能互相干扰
持久性	持续性也称持久性，指一个事务一旦提交，它对数据库中数据做的改变就应该是永久性的。接下来的其他操作或故障不应该对数据有任何影响。即使发生系统崩溃或机器宕机等故障，只要数据库能够重新启动，那么一定能够将其恢复到事务成功结束的状态。

5、MongoDB文档存储

键值存储数据库：Redis、Voldmort、Oracle BDB等。
列存储数据库：Cassandra、HBase、Riak等。
文档型数据库：CouchDB、MongoDB等。
键值存储数据库：Redis、Voldmort、Oracle BDB等。
图形数据库：Neo4J、InfoGrid、Infinite Graph等。
MongoDB事由C++语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统，其内容的存储形式类似JSON对象。它的字段值可以包含其他文档、数组及文档数组，非常灵活。
安装pip install pymongo
输入：

import pymongo
'''建立连接'''
client = pymongo.MongoClient(host='localhost',port=27017)
# 或者这种方式client = pymongo.MongoClient('mongodb://localhost:27017')
'''指定数据库'''
db = client.test
# 或者这种方式db = client['test']
'''指定集合'''
collection = db.students
# 或者这种方式collection = db['students']
'''插入数据'''
student1 = {'id':'100001','name':'Tom'}
result = collection.insert(student1)
# 每条数据都有一个_id属性作为唯一标识。如果没有显式指明该属性，那么MongoDB会自动产生一个Object类型的_id属性，insert方法会在执行后返回_id值。
print(result)
'''插入多条数据'''
student2 = {'id':'100002','name':'Jerry'}
result = collection.insert([student1,student2])
# PyMongo3.x版本中推荐使用insert_one和insert_many方法，继续使用insert也没问题。
print(result)
'''查询'''
result = collection.find_one({'name':'Tom'})
# find_one查询一条数据；find查询所有数据。返回的是一个字典类型。
print(result)
'''计数'''
count = collection.find().count()
print(count)
'''排序'''
#ASCENDING升序，DESCENDING降序
results = collection.find().sort('name', pymongo.ASCENDING)
print([result['name'] for result in results])
'''偏移'''
# skip(2)偏移2个位置即忽略前两个元素，获取第三个及以后的元素
results = collection.find().sort('name', pymongo.ASCENDING).skip(2)
print([result['name'] for result in results])
# limit(2)指定获取前两个
# 数据库中数据量偏大时，最好不要使用大偏移来查询数据，可能导致内存溢出。
results = collection.find().sort('name', pymongo.ASCENDING).skip(2).limit(2)
print([result['name'] for result in results])
# 数据量偏大时，根据id查询,这里需要记录好上次查询的_id
from bson.objectid import ObjectId
collection.find({'_id':{'$gt':ObjectId('2738192731720a1902c38103d')}})
'''更新'''
student = collection.find_one({'id':'100001'})
student['name'] = 'Bob'
result = collection.update({'id':'100001'},student)
print(result)
'''删除'''
result = collection.remove({'name':'Tom'})
print(result)
'''还有find_one_and_delete\find_one_and_replace\find_one_and_update\create_index\create_indexes\drop_index等方法，实际使用时，再根据官方提供的api操作即可'''

还有一些常用操作符，如比较符号、正则匹配 $ regex、类型判断$type、文本查询 $ text等，用到时百度即可。

6、Redis缓存存储

Redis是一个基于内存的、高效的键值型数据库，存取效率极高，而且支持多种数据存储结构，使用起来也非常简单。
安装pip install redis
输入：

from redis import StrictRedis
redis = StrictRedis(host='localhost',port=6379, db=0, password='password')
    ## 构建连接的其他方法
    # 1、ConnectionPool连接方式
    # from redis import StrictRedis,ConnectionPool
    # pool = ConnectionPool(host='localhost',port=6379, db=0, password='password')
    # redis = StrictRedis(connection_pool=pool)
    # 2、通过URL连接
    # url = 'redis://:redisredis@localhost:6379/0'
    # pool = ConnectionPool.from_url(url)
    # redis = StrictRedis(connection_pool=pool)
redis.set('name','Bob')
print(redis.get('name'))

输出：
b’Bob’
1、键的一些判断和操作方法

2、键值对存储的相关方法

3、列表操作

4、集合操作

5、有序集合操作

6、散列操作

7、Elasticsearch搜索引擎存储

Elasticsearch是一个开源的搜索引擎，建议在一个全文搜索引擎库Lucene的基础之上。（Lucene拥有最先进、高性能和全功能搜索引擎功能的库，但也仅仅只是一个库。）Elasticsearch也是使用Java编写的，其内部使用Lucene实现索引和搜索，但它的目标是使全文检索变得简单，相当于Lucene的一层封装，它提供了一套简单一致的RESTful Api来帮助我们实现存储和检索。
特点：

一个分布式的实时文档存储库，每个字段都可以被索引和检索；
一个分布式的实时分析搜索引擎；
能胜任上百个服务节点的扩展，并支持PB级别的结构化或者非结构化数据。

介绍几个概念：

节点和集群
Elasticsearch 本质上是一个分布式数据库，允许多台服务器协同工作，每台服务器可以运行多个 Elasticsearch 实例。单个 Elasticsearch 实例称为一个节点（Node），一组节点构成一个集群（Cluster）
索引
索引，即 Index，Elasticsearch 会索引所有字段，经过处理后写入一个反向索引（Inverted Index）。查找数据的时候，直接查找该索引。所以，Elasticsearch 数据管理的顶层单位就叫作索引，其实就相当于 MySQL、MongoDB 等中数据库的概念。
文档
文档，即 Document。索引里面单条记录称为文档，许多条文档构成了一个索引。同一个索引里面的文档，不要求有相同的结构（Schema），但是最好保持一致，因为这样有利于提高搜索效率。
类型
文档可以分组，比如 weather 这个索引里面，既可以按城市分组（北京和上海），也可以按气候分组（晴天和雨天）。这种分组就叫作类型（Type），它是虚拟的逻辑分组，用来过滤文档，类似 MySQL 中的数据表、MongoDB 中的 Collection。
不同的类型应该有相似的结构。举例来说，id 字段不能在这个组中是字符串，在另一个组中是数值。这是与关系型数据库的表的一个区别。性质完全不同的数据（比如 products 和 logs）应该存成两个索引，而不是一个索引里面的两个类型（虽然可以做到）。
根据规划，Elastic 6.x 版只允许每个索引包含一个类型，Elastic 7.x 开始将会将其彻底移除。
字段
每个文档都类似一个 JSON 结构，它包含了许多字段，每个字段都有其对应的值，多个字段组成了一个文档，其实就可以类比 MySQL 数据表中的字段。

安装pip install elasticsearch

输入：

from elasticsearch import Elasticsearch
'''建立连接'''
es = Elasticsearch(['http://[username:password@]hostname:port'], verify_certs=True)
'''创建索引'''
# 合理利用ignore可以避免没必要的错误
result = es.indices.create(index='news', ignore=400)
print(result)
'''删除索引'''
result = es.indices.delete(index='news', ignore=[400,404])
print(result)
'''插入数据'''
data = {'title':'乘风破浪会有时，直挂云帆济沧海','url':'http://view.inew.com/asd098092sa8d90890890'}
#create需要指定id; es.index(index='news', body=data) --- index不需要指定id，会自动生成。
result = es.create(index='news', id=1, body=data)
print(result)
'''更新数据'''
data = {'title':'乘风破浪会有时，直挂云帆济沧海','url':'http://view.inew.com/asd098092sa8d90890890','date':'2022-10-23'}
#es.index(index='news',doc_type='politics',body=data, id=1)
result = es.update(index='news', body=data, id=1)
print(result)
'''删除数据'''
result = es.delete(index='news', id=1)
print(result)
'''查询数据'''
# 根据索引查询该索引下的所有数据
result = es.search(index='news')
dsl = {
    'query':{
        'match':{
            'title':'hello'
        }
    }
}
# 全文检索符合的字段
result = es.search(index='news', body=dsl)

8、RabbitMq消息队列存储（后续再补，现在用不到，待开发中扩展到mq时，再学习此模块）

在爬取过程中，可能需要一些进程间的通信机制：

一个进程负责构造爬取请求，另一个进程负责执行爬取请求。
某个数据爬取进程执行完毕，通知另外一个负责数据处理的进程开始处理数据。
某个进程新建了一个爬取任务，通知另外一个负责数据爬取的进程开始爬取数据。

为了降低这些进程的耦合度，需要一个类似消息队列的中间件来存储和转发消息，实现进程间的通信。有了消息队列中间件之后，以上各机制中的两个进程就可以独立执行，它们之间的通信则由消息队列实现。

一个进程根据需要爬取的任务，构造请求对象并放入消息队列，另一个进程从队列中取出请求对象并执行爬取。
某个数据爬取进程执行完毕，就像消息队列发送消息，当另一个负责数据处理的进程监听到这类消息时，就开始处理数据。
某个进程新建了一个爬取任务后，就向消息队列发送消息，当另一个负责数据爬取的进程监听到这类消息时吗，就开始爬取数据。

RabbitMQ介绍
RabbitMQ是使用Erlang语言开发的开源消息队列系统，基于AMQP协议实现，其主要特点有面向消息、队列、路由（包括点对点和发布/订阅）、可靠性、安全性。具有以下特点：

可靠性：RabbitMQ通过一些机制保证可靠性，如持久化、传输确认、发布确认。
灵活的路由：有Exchange将消息路由至消息队列。RabbitMQ已经提供了一些内置的Exchange来实现典型的路由功能；对于较复杂的路由功能，则将多个Exchange绑定在一起，或者通过插件机制实现自己的Exchange。
消息集群：多个RabbitMQ服务器可以组成一个集群，形成一个逻辑Broker。
高可用：消息队列可以在集群中的机器上镜像存储，使得队列在部分节点出问题的情况下仍然可用。
多种协议支持：RabbitMQ支持多种消息队列协议，如STOMP、MQTT。
多语言客户端：RabbitMQ几乎支持所有常用语言。
管理界面：RabbitMQ提供了一个易用的用户界面，使得用户可以监听和监管消息Broker的多个方面。
跟踪机制：RabbitMQ提供了消息跟踪机制，如果消息异常，使用者就可以找出发生了什么。
插件机制：RabbitMQ提供了许多插件，实现了多方面的扩展，用户也可以编写自己的插件。
安装pip install pika

基本了解：
从本质上讲是一个生产者-消费者模型。

生命队列：通过指定一些参数，创建消息队列。
生产内容：生产者根据队列的连接信息连接队列，往队列中放入消息。
消费内容：消费者根据队列的连接信息连接队列，从队列中取出消息。

'''声明一个队列'''
import pika
QUEUE_NAME = 'scrape'
connection = pika.BlockingConnection(pika.ConnectionParameters('localhost'))
channel = connection.channel()
channel.queue_declare(queue=QUEUE_NAME)

你可能感兴趣的:(Python3网络爬虫,爬虫,linux,服务器)

Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
服务器虚拟化相关的面试题努力的搬砖人. java 面试服务器其他
以下是服务器虚拟化相关的面试题，涵盖了服务器虚拟化的基础概念、技术原理、应用场景、性能优化、容错与高可用性、网络与存储、管理与监控、安全与备份、与其他技术的结合等方面，希望对你有所帮助。服务器虚拟化基础概念1.什么是服务器虚拟化？它的主要目的是什么？•服务器虚拟化是指通过虚拟化技术将一台物理服务器虚拟成多台虚拟机，每台虚拟机可以独立运行操作系统和应用程序。其主要目的是提高服务器的资源利用率，降低硬
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
在 Linux 中，lsblk 命令输出内容解释冷冷清清中的风风火火 linux 运维服务器
在Linux中，lsblk命令用于以树状结构列出所有块设备（如磁盘、分区、LVM逻辑卷等）的信息。以下是lsblk输出的详细解释和示例：1.示例输出NAMEMAJ:MINRMSIZEROTYPEMOUNTPOINTSsda8:00238.5G0disk├─sda18:10512M0part/boot/efi├─sda28:201G0part/boot└─sda38:30237G0part└─vg-
在 Linux 系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）冷冷清清中的风风火火 linux 运维服务器
在Linux系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）**是管理存储的基础。以下是详细的区分方法和操作示例：一、通过设备命名规则区分Linux中磁盘和分区的命名遵循特定规则：类型命名格式示例说明磁盘/dev/sdX/dev/sdasd表示SCSI/SATA磁盘，X为字母（a,b,c…）。/dev/nvmeXnY/dev/nvme0n1nvme表示NVMe磁盘，X为控制器编号
什么是CDN？一篇让小白也能看懂的科普博客网络小白不怕黑网络科普网络 CDN 网络科普
目录什么是CDN？CDN的工作原理CDN的核心组成部分CDN的主要作用CDN的应用场景CDN的优势与局限性如何选择CDN服务？总结1.什么是CDN？CDN的全称是ContentDeliveryNetwork，中文翻译为内容分发网络。简单来说，CDN是一个由多个服务器组成的网络系统，这些服务器分布在世界各地，用来帮助用户更快、更稳定地访问网站、视频、图片等内容。举个例子：假设你在北京访问一个位于美国
SSL证书申请,流程，分类 thinkhi9999 ssl http 爬虫
SSH与SSL应用方向不同，但基于技术都是一样的（公钥和私钥配对）SSL主要用在Browser和Server通信，比如HTTPS=HTTP+SSLSSH是由客户端和服务端的软件组成的，用于computer之间通信，比如我们通过SSH登录远端服务器。有两个不兼容的版本分别是：1.x和2.x。用SSH2.x的客户程序是不能连接到SSH1.x的服务程序上去的。OpenSSH2.x同时支持SSH1.x和2
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
大模型学习-让其他电脑可访问本地ollama的模型并进行流式响应 Gratitute_林腾大模型学习学习语言模型
目录让其他电脑可访问本地ollama流式响应让其他电脑可访问本地ollama默认情况下，其他电脑不能直接访问本地Ollama服务。解决方法：让Ollama监听局域网地址，而不是localhost我们可以让Ollama监听局域网IP，在Ollama服务器上运行：setOLLAMA_HOST=0.0.0.0:11434ollamaserve注意：这种方式只对当前CMD窗口有效，关闭窗口后就会失效。如果
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
测试工程师Ai应用实战指南简例prompt 进击的雷神 prompt
阅读原文以下是一个真实具体的案例，展示测试工程师如何在不同阶段结合DeepSeek提升效率。案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis延迟队列1.需求分析阶段痛点：需求文档仅描述业务逻辑，未明确异常场景（如服务器时间不同步、Redi
Linux 上安装 PostgreSQL lsx202406 开发语言
Linux上安装PostgreSQL引言PostgreSQL是一款功能强大、性能卓越的开源关系型数据库管理系统。它支持多种操作系统，包括Linux。本文将详细介绍如何在Linux系统上安装PostgreSQL，帮助您快速入门。准备工作在开始安装之前，请确保您的Linux系统满足以下条件：系统版本：Linux发行版，如Ubuntu、CentOS等。网络连接：确保您的系统可以访问互联网。用户权限：具有
服务器中防火墙的重要性 wanhengidc 服务器网络运维
服务器作为重要的网络设备，需要承担存储、处理和传输大量数据信息，所以服务器经常被恶意软件和网络攻击者视为主要目标，企业为了能够保护服务器不受各种网络威胁的影响，安装防火墙是最为基本的一种安全保护措施。服务器防火墙是网络安全的第一道防线，可以控制服务器上的网络访问权限，通过设置适合的规则和策略，管理员可以限制IP地址的访问权限，保护服务器不会受到未经授权的IP地址访问，保护了服务器中重要数据信息的安
Linux骨灰级玩家修炼秘籍！从零基础到精通，收藏这篇就够了！程序员肉肉 linux 运维服务器网络学习 oracle 数据库
Linux骨灰级玩家修炼秘籍！99.99%的人已跪！Linux运维？想玩转它？那可得经历九九八十一难！咱得把这事儿分成四个阶段：新手村、进阶副本、高手进阶、以及最终的封神之路！之前爆肝半年，搞了篇云计算学习路线，新手直接起飞，从小白到大神！第一阶段：新手村新手村里，你得先把Linux这游戏的基本操作摸透。别急，一步一个脚印，咱得有个路线图。新手上路：Linux的前世今生、基本指令（比如cp、ls、
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
基于Linux的多进程并发服务器设计与实现名誉寒冰服务器 linux c++
基于Linux的多进程并发服务器设计与实现简介本项目实现了一个基于Linux的多进程并发服务器框架，采用进程池技术提高服务器并发处理能力，主要用于文件传输服务。该框架利用了Unix域套接字、管道通信、文件描述符传递和epoll机制等技术，实现了高效的任务分发和并发处理。系统架构该服务器采用主-从进程模型（Master-Worker模式）：主进程（Master进程）：负责监听客户端连接请求，并将连接
chokidar - chokidar 初识（初识案例演示、初识案例解读、初识案例测试）我命由我12345 Node.js 简化库编程 node.js js javascript 前端框架前端 npm html5
一、chokidar1、chokidar概述chokidar是一个用于监视文件系统变化的Node.js库chokidar提供了一种简单、高效的方式来监视文件和目录的创建、修改、删除等操作chokidar是是fs.watch和fs.watchFile方法的增强版，解决了它们在一些平台上的不一致性和局限性2、chokidar的特点跨平台的支持：chokidar在Windows、Linux、macOS上
Linux系统之cal命令详解门前灯 linux 运维服务器 cal
cal命令详解cal是一个用于显示日历的简单工具。默认情况下，它会显示当前月份的日历，但可以通过参数和选项显示特定月份、年份或自定义格式的日历。基本语法cal[options][[[day]month]year]无参数：显示当前月份的日历。单参数：显示指定年份的日历。双参数：显示指定月份和年份的日历。三参数：显示指定日、月和年份的日历，并在终端上高亮显示该日期。常用选项选项描述-1,--one显示
cursor免费使用方法交流分享0.47*依然可用 SGG_CV 人工智能 gpt
方法：使用第三方工具仅用作交流所用，一切后果皆自负工具可以帮助您重置Cursor的试用期。可以一键重置。使用方法如下：运行工具：-Windows：运行下载的可执行文件。-macOS/Linux：在终端中运行相应的脚本。重置试用期：按照工具提示，完成重置。请注意，使用第三方工具可能存在安全风险，建议在可信的环境中使用。亲测这个目前可用。获取方式如下：在下面链接的后台回复cursor交流获取curso
easyswoole学习记录司江龙 swoole PHP easyswoole swoole
php-fpm的工作方式php-fpm就是php-fastcgi进程管理器主要工作的就是mastr进程，主要和linux进行一个协调，当请求从nginx到fpm的时候，master会把请求交给自己下面管理的子进程一个池模型，问题：一个work进程内只会处理一个请求，也就是说这个进程内在同一时刻只会处理一个request请求，不会处理多个，所以一台服务器的并发数就取决于服务器开启了多少个work进程
webRTC入门示例demo 周末的音视频 webRTC webrtc 音视频
本文主要阐述如何运行webRTC的官方入门示例demo，并简单搭建本地局域网服务器用于测试，可以使得两个手机端可以进行视频通话，感受webRTC的核心功能。一、背景1、webRTC的官方APP的demo下载路径如下：https://github.com/webrtc/apprtcWebRTC官方demo的主代码库里并不包含AndroidStudio工程，因此很多开发人员都不知道如何运行Androi
关于swoole的初步了解记录 snacy swoole php 服务器
今天初步了解了一下关于swoole的相关知识，在这里记录一下。关于swoole的初步了解记录安装swoole扩展swoole扩展需要在Linux环境下安装，目前还不支持在Windows环境下安装，当前操作系统为centOS系统安装swoole需要：PHP、php-pear(这个是为了稍后可以使用pecl来安装swoole)、php-devel、gcc先执行更新操作：yumupdate(已更新过的可
Django系列教程（15）——上传文件 l软件定制开发工作室 Django教程 django okhttp python
目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行。用户在前端点击文件上传，然后以POST方式将数据和文件提交到服务器。服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
win-服务器部署程序自启动设置 johnrui operation and maintenance win 运维
为了简化应用服务器中项目启动的操作，现对在win操作系统下服务启动设置为开机启动的相关操作，在这里做一次记录和分享。参阅了很多文章，知道win设置开机启动项方式很多，这篇文章只是其中的一种，但是经过了实践测试非常有效。设置步骤如下：1）按住Win键，再按R键(Win+R)，启动"运行"窗口;2）WindowsXP/2003/2008/2008R2输入：controluserpasswords2Wi
服务器运维---服务器假死 johnrui Java
在线上环境中，经常会出现服务卡顿，造成数据无法更新、获取的现象。对于这种现象现，个人一自身的工作经历总结如下：一、定时任务时间间隔短，造成服务卡顿，线程池爆满，线程锁无法释放，进而服务崩溃：设定的时间间隔内，程序未执行完成，又开始进行下一轮的程序执行，这样的幂等性执行最终造成线程池爆满，服务崩溃；解决办法：根据业务量计算程序执行一次耗时，科学合理设定时间间隔；二、定时任务，程序中存在HTTP请求，
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc