计算机只能理解二进制数据,即0和1形式的数据。这些数据的顺序移动称为流。以称为块(chunk
)的破碎部分流式传输数据;计算机一收到数据块就开始处理数据,而不用等待整个数据。
我们这篇文章就将讲解一下Stream
和Buffer
。有时,处理速度小于接收块的速率或快于接收块的速率;在这两种情况下,都需要保存块,因为处理需要最少量的块,这是使用chunk
完成的。
Buffer
是一种抽象,允许我们处理 Node.js
中的原始二进制数据。它们在处理文件和网络或一般 I/O
时特别有用。
缓冲区代表分配给我们计算机的一块内存。缓冲区的大小一旦设置就无法更改。缓冲区用于存储字节。
让我们用一些数据创建一些缓冲区:
// buffer-data.js
// 创建一些缓冲区
const bufferFromString = Buffer.from('Ciao human')
const bufferFromByteArray = Buffer.from([67, 105, 97, 111, 32, 104, 117, 109, 97, 110])
const bufferFromHex = Buffer.from('4369616f2068756d616e', 'hex')
const bufferFromBase64 = Buffer.from('Q2lhbyBodW1hbg==', 'base64')
// 数据以二进制格式存储
console.log(bufferFromString) //
console.log(bufferFromByteArray) //
console.log(bufferFromHex) //
console.log(bufferFromBase64) //
// 原始缓冲区数据可以“可视化”为字符串、十六进制或 base64
console.log(bufferFromString.toString('utf-8')) // Ciao human (默认'utf-8')
console.log(bufferFromString.toString('hex')) // 4369616f2068756d616e
console.log(bufferFromString.toString('base64')) // Q2lhbyBodW1hbg==
// 获取buffer的长度
console.log(bufferFromString.length) // 10
现在,让我们创建一个 Node.js
脚本,使用缓冲区将文件从一个位置复制到另一个位置:
// buffer-copy.js
import {
readFile,
writeFile
} from 'fs/promises'
async function copyFile (src, dest) {
// 读取整个文件内容
const content = await readFile(src)
// 将该内容写入其他地方
return writeFile(dest, content)
}
// `src` 是来自 cli 的第一个参数,`dest` 是第二个
const [src, dest] = process.argv
// 开始复制并处理结果
copyFile(src, dest)
.then(() => console.log(`${src} copied into ${dest}`))
.catch((err) => {
console.error(err)
process.exit(1)
})
可以按如下方式使用此脚本:
node ./buffer-copy.js <source-file> <dest-file>
但是我们有没有想过当尝试复制大文件(比如说 3Gb)时会发生什么?
发生的情况是,我们会看到脚本严重失败并出现以下错误:
RangeError [ERR_FS_FILE_TOO_LARGE]: File size (3221225472) is greater than 2 GB
at readFileHandle (internal/fs/promises.js:273:11)
at async copyFile (file:///...//buffer-copy.js:8:19) {
code: 'ERR_FS_FILE_TOO_LARGE'
}
为什么会发生这种情况?
本质上是因为当我们使用fs.readFile
时,我们使用Buffer
对象从内存中的文件加载所有二进制内容。根据设计,缓冲区在内存中的大小受到限制。
可以使用以下代码创建具有最大允许大小的缓冲区:
// biggest-buffer.js
import buffer from 'buffer'
// 这将分配几 GB 内存
const biggestBuffer = Buffer.alloc(buffer.constants.MAX_LENGTH) // 创建一个具有最大可能大小的缓冲区
console.log(biggestBuffer) //
在某种程度上,我们可以将流视为一种抽象,它允许我们处理在不同时刻到达的数据部分(块)。每个块都是一个Buffer
实例。
Stream
是 Node.js
中处理流数据的抽象接口。Node.js
中stream
模块提供了用于实现流接口的 API
。Node.js
提供了许多流对象。例如,对 HTTP
服务器的请求和process.stdout
都是流实例。
我们需要 Node.js
中的流来处理和操作流数据,例如视频、大文件等。Node.js
中的 stream
模块用于管理所有流。流是一个抽象接口,用于与 Node.js
中的流数据一起工作。Node.js
为我们提供了许多流对象。
例如,如果我们请求HTTP
服务器和进程,则两者都被视为流实例。标准输出。流可以是可读的、可写的或两者兼而有之。所有流都是EventEmitter
的实例。要访问流模块,要使用的语法是:
const stream = require('stream');
Node.js
中有四种基本的流类型:
Writable
:可以写入数据的流(例如,fs.createWriteStream()
)。Readable
:可以从中读取数据的流(例如fs.createReadStream()
)。Duplex
:既是Writable
又是Readable
的流(例如,net.Socket
)。Transform
:Duplex
可以在写入和读取数据时修改或转换数据的流(例如,zlib.createDeflate()
)。// stream-copy.js
import {
createReadStream,
createWriteStream
} from 'fs'
const [,, src, dest] = process.argv
// 创建源流
const srcStream = createReadStream(src)
// 创建目标流
const destStream = createWriteStream(dest)
// 当源流上有数据时,
// 将其写入目标流
srcStream.on('data', (chunk) => destStream.write(chunk))
本质上,我们用createReadStream
和createWriteStream
替换readFile
和writeFile
。然后使用它们创建两个流实例srcStream
和destStream
。这些对象分别是一个 ReadableStream
(输入)和一个 WritableStream
(输出)的实例。
目前,唯一需要理解的重要细节是流并不急切;他们不会一次性读取所有数据。数据以块、小部分数据的形式读取。一旦块通过data
事件可用,我们就可以立即使用它。当源流中有新的数据块可用时,我们立即将其写入目标流。这样,我们就不必将所有文件内容保存在内存中。
请记住,这里的实现并不是万无一失的,存在一些粗糙的边缘情况,但就目前而言,这足以理解 Node.js
中流处理的基本原理。
可读流 → 该流用于创建用于读取的数据流,例如读取大块文件。
例子:
const fs = require('fs');
const readableStream = fs.createReadStream('./article.md', {
highWaterMark: 10
});
readableStream.on('readable', () => {
process.stdout.write(`[${readableStream.read()}]`);
});
readableStream.on('end', () => {
console.log('DONE');
});
可写流 → 这将创建要写入的数据流。例如:向文件中写入大量数据。
例子:
const fs = require('fs');
const file = fs.createWriteStream('file.txt');
for (let i = 0; i < 10000; i++)
{
file.write('Hello world ' + i);
}
file.end();
双工流 → 该流用于创建同时可读和可写的流。
例子:
const server = http.createServer((req, res) => {
let body = '';
req.setEncoding('utf8');
req.on('data', (chunk) => {
body += chunk;
});
req.on('end', () => {
console.log(body);
try {
res.write('Hello World');
res.end();
} catch (er) {
res.statusCode = 400;
return res.end(`error: ${er.message}`);
}
});
});
Node
中有两种类型的可读流:
read
方法来读取它。让我们看看这两种实现(缓冲区和流式传输)在内存使用和执行时间方面的比较。
我们可以查看 Node.js
脚本在缓冲区中分配了多少数据的一种方法是调用process.memoryUsage().arrayBuffers
方法。
const { pipeline } = require('node:stream/promises');
const fs = require('node:fs');
const zlib = require('node:zlib');
async function run() {
await pipeline(
fs.createReadStream('archive.tar'),
zlib.createGzip(),
fs.createWriteStream('archive.tar.gz'),
);
console.log('Pipeline succeeded.');
}
run().catch(console.error);