Keep-Thinking

MongoDB学习之旅十一：MongoDB GridFS

这篇文章写的很详细，忍不住就拿来收藏了！

GridFS 是一种将大型文件存储在MongoDB 数据库中的文件规范。所有官方支持的驱动均实现了GridFS 规范。

GridFS是MongoDB中的一个内置功能，可以用于存放大量小文件。

官网学习：

http://www.mongodb.org/display/DOCS/GridFS

http://www.mongodb.org/display/DOCS/GridFS+Specification

1、为什么要用GridFS

由于MongoDB 中BSON 对象大小是有限制的，所以GridFS 规范提供了一种透明的机制，可以将一个大文件分割成为多个较小的文档，这样的机制允许我们有效的保存大文件对象，特别对于那些巨大的文件，比如视频、高清图片等。

2、如何实现海量存储

为实现这点，该规范指定了一个将文件分块的标准。每个文件都将在文件集合对象中保存一个元数据对象，一个或多个chunk 块对象可被组合保存在一个chunk 块集合中。大多数情况下，你无需了解此规范中细节，而可将注意力放在各个语言版本的驱动中有关GridFS API 的部分或是如何使用mongofiles 工具上。

3、语言支持

GridFS 对Java, Perl, PHP, Python, Ruby 等程序语言均支持，且提供了良好的API 接口。

4、简单介绍

GridFS 使用两个表来存储数据：

files 包含元数据对象

chunks 包含其他一些相关信息的二进制块

为了使多个GridFS 命名为一个单一的数据库，文件和块都有一个前缀，默认情况下，前缀是fs，所以任何默认的GridFS 存储将包括命名空间fs.files 和fs.chunks。各种第三方语言的驱动有权限改变这个前缀，所以你可以尝试设置另一个GridFS 命名空间用于存储照片，它的具体位置为:photos.files 和photos.chunks。下面我们看一下实际的例子吧。

5、命令行工具

    mongofiles 是从命令行操作GridFS 的一种工具，例如我们将”testfile”这个文件存到库里面，具体用法如下：
    [root@localhost bin]# ./mongofiles put testfile
    connected to: 127.0.0.1
    added file: { _id: ObjectId('4fc60175c714c5d960fff76a'), filename: "testfile", chunkSize: 262144,
    uploadDate: new Date(1338376565745), md5: "8addbeb77789ae6b2cb75deee30faf1a", length:
    16 }
    done!

下面我们查一下看库里有哪些GridFS 文件，在”mongofiles”后加一个参数”list”即可

    [root@localhost bin]# ./mongofiles list
    connected to: 127.0.0.1
    testfile 16

接下来我们进库里看一下是否有新的东西

    [root@localhost bin]# ./mongo
    MongoDB shell version: 1.8.1
    connecting to: test
    > show collections
    fs.chunks --上文提到的fs.chunks
    fs.files --上文提到的fs.files
    system.indexes
    system.js
    >

我们继续查看fs.files 中的内容

    > db.fs.files.find()
    { "_id" : ObjectId("4fc60175c714c5d960fff76a"), "filename" : "testfile", "chunkSize" : 262144,
    "uploadDate" : ISODate("2012-05-30T11:16:05.745Z"), "md5" :
    "8addbeb77789ae6b2cb75deee30faf1a", "length" : 16 }

    字段说明:
    Filename: 存储的文件名
    chunkSize: chunks 分块的大小
    uploadDate: 入库时间
    md5: 此文件的md5 码
   length: 文件大小, 单位”字节”
    看来fs.files 中存储的是一些基础的元数据信息
我们继续查看fs.chunks 中的内容

    > db.fs.chunks.find()
    { "_id" : ObjectId("4fc60175cf1154905d949336"), "files_id" :
    ObjectId("4fc60175c714c5d960fff76a"), "n" : 0, "data" :
    BinData(0,"SGVyZSBpcyBCZWlqaW5nCg==") }

其中比较重要的字段是”n”，它代表的是chunks 的序号，此序号从0 开始，看来fs.chunks中存储的是一些实际的内容数据信息
我们即然能将此文件存进去，我们就应该有办法将其取出来，下面看一下实例:

    [root@localhost bin]# rm testfile
    rm：是否删除 一般文件 “testfile”? y --先删文件
    [root@localhost bin]# ./mongofiles get testfile --将其从库里取出来
    connected to: 127.0.0.1
    done write to: testfile
    [root@localhost bin]# md5sum testfile --校验md5，结果跟库里相同
    8addbeb77789ae6b2cb75deee30faf1a testfile
    [root@localhost bin]#

6、索引

   db.fs.chunks.ensureIndex({files_id:1, n:1}, {unique: true});

这样，一个块就可以利用它的files_id 和 n 的值进行检索。注意，GridFS 仍然可以用findOne得到第一个块，如下：

   db.fs.chunks.findOne({files_id: myFileID, n: 0});

7、应用

    MongoDB提供了一个命令行工具mongofiles可以来处理GridFS，在bin目录下。
    列出所有文件：
    mongofiles list
    上传一个文件：
    mongofiles put xxx.txt
   下载一个文件：
    mongofiles get xxx.txt
    查找文件：
    mongofiles search xxx    //会查找所有文件名中包含“xxx”的文件
    mongofiles list xxx //会查找所有文件名以“xxx”为前缀的文件
    参数说明：
    –d 指定数据库，默认是fs，Mongofiles list –d testGridfs
    -u –p 指定用户名，密码
    -h 指定主机
    -port 指定主机端口
    -c 指定集合名，默认是fs
    -t 指定文件的MIME类型，默认会忽略
    使用MongoVUE来查看，管理GridFS
    MongoVUE地址：http://www.mongovue.com/
    MongoVUE是个免费软件，但超过15天后功能受限。可以通过删除以下注册表项来解除限制：

    [HKEY_CURRENT_USER\Software\Classes\CLSID\{B1159E65-821C3-21C5-CE21-34A484D54444}\4FF78130]

    把这个项下的值全删掉就可以了。
    用java驱动上传下载文件：
    下载地址：https://github.com/mongodb/mongo-java-driver/downloads
    官方的文档貌似不是最新的，不过通过查看api来使用也不困骓。
    http://api.mongodb.org/java/2.7.2/
    以下代码基于mongo-2.7.3.jar

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.UnknownHostException;
import java.security.NoSuchAlgorithmException;
import com.mongodb.BasicDBObject;
import com.mongodb.DB;
import com.mongodb.DBCollection;
import com.mongodb.DBObject;
import com.mongodb.Mongo;
import com.mongodb.MongoException;
import com.mongodb.gridfs.GridFS;
import com.mongodb.gridfs.GridFSDBFile;
import com.mongodb.gridfs.GridFSInputFile;

public class Test {
    Mongo connection;
    DB db;
    DBCollection collection;
    GridFS myFS;

    String mongoDBHost = "127.0.0.1";
    int mongoDBPort = 27017;
    String dbName = "testGridfs";
    String collectionName = "fs";

    public static void main(String[] args) throws MongoException, IOException, NoSuchAlgorithmException {
        Test t = new Test();
        
        String fileName = "F:/CPU.txt";
        String name = "CPU.txt";
        
        //把文件保存到gridfs中，并以文件的md5值为id
        t.save(new FileInputStream(fileName), name);
        
        //据文件名从gridfs中读取到文件
        
        GridFSDBFile gridFSDBFile = t.getByFileName(name);
        if(gridFSDBFile != null){
            System.out.println("filename:" + gridFSDBFile.getFilename());
            System.out.println("md5:" + gridFSDBFile.getMD5());
            System.out.println("length:" + gridFSDBFile.getLength());
            System.out.println("uploadDate:" + gridFSDBFile.getUploadDate());
            
            System.out.println("--------------------------------------");
            gridFSDBFile.writeTo(System.out);
        }else{
            System.out.println("can not get file by name:" + name);
        }
    }

    public Test() throws UnknownHostException, MongoException, NoSuchAlgorithmException {
        _init();
    }
    

    public Test(String mongoDBHost, int mongoDBPort, String dbName,
            String collectionName) throws UnknownHostException, MongoException, NoSuchAlgorithmException {
        this.mongoDBHost = mongoDBHost;
        this.mongoDBPort = mongoDBPort;
        this.dbName = dbName;
        this.collectionName = collectionName;
        _init();
    }
    
    
    private void _init() throws UnknownHostException, MongoException, NoSuchAlgorithmException{
        connection = new Mongo(mongoDBHost, mongoDBPort);
        db = connection.getDB(dbName);
        collection = db.getCollection(collectionName);
        myFS = new GridFS(db);
    }
    
    /**
     * 用给出的id，保存文件，透明处理已存在的情况
     * id 可以是string，long，int，org.bson.types.ObjectId 类型
     * @param in
     * @param id
     */
    public void save(InputStream in, Object id){
        DBObject query  = new BasicDBObject("_id", id);
        GridFSDBFile gridFSDBFile = myFS.findOne(query);
        
        if(gridFSDBFile != null)
            return;
        
        GridFSInputFile gridFSInputFile = myFS.createFile(in);
        gridFSInputFile.save();
        return;
    }
    
    /**
     * 据id返回文件
     * @param id
     * @return
     */
    public GridFSDBFile getById(Object id){
        DBObject query  = new BasicDBObject("_id", id);
        GridFSDBFile gridFSDBFile = myFS.findOne(query);
        return gridFSDBFile;
    }
    
    /**
     * 据文件名返回文件，只返回第一个
     * @param fileName
     * @return
     */
    public GridFSDBFile getByFileName(String fileName){
        DBObject query  = new BasicDBObject("filename", fileName);
        GridFSDBFile gridFSDBFile = myFS.findOne(query);
        return gridFSDBFile;
    }
}

nginx-gridfs模块的安装使用

项目主页：https://github.com/mdirolf/nginx-gridfs

通过nginx-gridfs，可以直接用http来访问GridFS中的文件。

1. 安装

安装各种依赖包：zlib，pcre，openssl

在ubuntu下可能是以下命令：

sudo apt-get install zlib1g-dev //貌似sudo apt-get install zlib-dev 不能安装

sudo apt-get install libpcre3 libpcre3-dev

sudo apt-get install openssl libssl-dev

安装git（略）

用git下载nginx-gridfs的代码：

git clone git://github.com/mdirolf/nginx-gridfs.git

cd nginx-gridfs

git submodule init

git submodule update

下载nginx：

wget http://nginx.org/download/nginx-1.0.12.zip

tar zxvf nginx-1.0.12.zip

cd nginx-1.0.12

./configure --add-module=的路径>

make

sudo make install

如果编译出错，则在configure时加上--with-cc-opt=-Wno-error 参数。

2. 配置nginx

在server的配置中加上以下

location /pics/ {

gridfs pics

field=filename

type=string;

mongo 127.0.0.1:27017;

}

上面的配置表示：

数据库是pics，通过文件名filename来访问文件，filename的类型是string

目前只支持通过id和filename来访问文件。

启动nginx：/usr/local/nginx/sbin/nginx

用MongoVUE把一个图片001.jpg上传到pics数据库中。

打开：http://localhost/pics/001.jpg

如果成功，则可以看到显示图片了。

3. nginx-gridfs的不足

没有实现http的range support，也就是断点续传，分片下载的功能。

GridFS实现原理

GridFS在数据库中，默认使用fs.chunks和fs.files来存储文件。

其中fs.files集合存放文件的信息，fs.chunks存放文件数据

一个fs.files集合中的一条记录内容如下，即一个file的信息如下

    {
    "_id" : ObjectId("4f4608844f9b855c6c35e298"),       //唯一id，可以是用户自定义的类型
    "filename" : "CPU.txt",      //文件名
    "length" : 778,      //文件长度
    "chunkSize" : 262144,      //chunk的大小
    "uploadDate" : ISODate("2012-02-23T09:36:04.593Z"), //上传时间
    "md5" : "e2c789b036cfb3b848ae39a24e795ca6",      //文件的md5值
    "contentType" : "text/plain"      //文件的MIME类型
    "meta" : null     //文件的其它信息，默认是没有”meta”这个key，用户可以自己定义为任意BSON对象
    }

对应的 fs.chunks 中的 chunk如下：

   { 
   "_id" : ObjectId("4f4608844f9b855c6c35e299"), 	 //chunk的id
   "files_id" : ObjectId("4f4608844f9b855c6c35e298"), 	//文件的id，对应fs.files中的对象，相当于fs.files集合的外键
   "n" : 0, 	 //文件的第几个chunk块，如果文件大于chunksize的话，会被分割成多个chunk块
   "data" : BinData(0,"QGV...")	 //文件的二进制数据，这里省略了具体内容
   }

   默认chunk的大小是256K。
   public static final int DEFAULT_CHUNKSIZE = 256 * 1024;
   所以在把文件存入到GridFS过程中，如果文件大于chunksize，则把文件分割成多个chunk，再把这些chunk保存到fs.chunks中，最后再把文件信息存入到fs.files中。
   在读取文件的时候，先据查询的条件，在fs.files中找到一个合适的记录，得到“_id”的值，再据这个值到fs.chunks中查找所有“files_id”为“_id”的chunk，并按“n”排序，最后依次读取chunk中“data”对象的内容，还原成原来的文件。
   自定义Gridfs的hash函数
   尽管从理论上，无论用什么hash函数，都有可能出现hash值相同，但内容不相同的文件，但是对于GridFS默认使用的md5算法，目前已出现长度和md5值都相同但内容不一样的文件。
   如果想要自已改用其它hash算法，可以从驱动入手。因为GridFS在MongoDB中实际也只是两个普通的集合，所以完全可以自已修改驱动，替换下hash算法即可。
   目前java版的驱动比较简单，可以很容易修改实现。
   但是要注意，这样不符合GridFS的规范了。
   注意事项
   1. GridFS不自动处理md5相同的文件，对于md5相同的文件，如果想在GridFS中只有一个存储，要用户自已处理。Md5值的计算由客户端完成。
   2. 因为GridFS在上传文件过程中是先把文件数据保存到fs.chunks，最后再把文件信息保存到fs.files中，所以如果在上传文件过程中失败，有可能在fs.chunks中出现垃圾数据。这些垃圾数据可以定期清理掉。

MongoDB实战-生产环境中分片的部署与配置 perfecttshoot MongoDB 部署配置分片集群 mongodb
在生产环境里部署分片集群时，面前会出现很多选择和挑战。下面会介绍几个推荐的拓扑结构。1.部署拓扑要运行示例MongoDB分片集群，你一共要启动九个进程（每个副本集三个mongod，外加三个配置服务器）。咋一看，这个数字有点吓人。一开始用户会假设在生产环境里运行两个分片集群要有九台独立的机器。幸运的是，实际需要的机器要少很多，看一下集群中各组件所要求的资源就知道为什么了。首先考虑下副本集，每个成员都
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
【MongoDB】分片部署和应用实践全过程 gaoyi1234560 mongodb 数据库运维开发
基本概念Router(mongos)：数据库集群请求的入口ConfigServers(replicaset)存储数据库的元数据，如路由，分片的配置Share:数据库拆分分片具体操作配置主机名：vi/etc/hosts192.168.0.222m1192.168.0.111m2192.168.0.113m3安装目录为：/opt/mongodb/cluster创建目录和日志目录：mkdir-p/opt
Mongodb配置分片服务器 czw0723 mongodb 数据库服务器
mongodb的sharding集群由以下3个服务组成：ShardsServer:每个shard由一个或多个mongod进程组成，用于存储数据ConfigServer:用于存储集群的Metadata信息，包括每个Shard的信息和chunks信息RouteServer:用于提供路由服务，由Client连接，使整个Cluster看起来像单个DB服务器另外，Chunks是指MongoDB中一段连续的数
MongoDB慢日志查询及索引创建 laolitou_1024 中间件微服务数据库 mongodb
MongoDB的慢日志（SlowQueryLog）对于运维和程序员来说都非常重要，因为它直接关系到数据库的性能和应用程序的稳定性。以下分享介绍下MongoDB慢日志查询及索引创建相关的一些笔记。一，准备1.使用db.currentOp()实时监控db.currentOp()可以查看当前正在执行的操作，适合捕捉瞬时的高CPU操作。db.currentOp()示例：过滤长时间运行的操作db.curre
mysql的数据如何进kafka_MySQL数据实时增量同步到Kafka IT巫师
一、go-mysql-transfergo-mysql-transfer是一款MySQL实时、增量数据同步工具。能够实时解析MySQL二进制日志binlog，并生成指定格式的消息，同步到接收端。go-mysql-transfer具有如下特点：1、不依赖其它组件，一键部署2、集成多种接收端，如：Redis、MongoDB、Elasticsearch、RabbitMQ、Kafka、RocketMQ，不
Centos7部署Graylog5.2日志系统 LoongKK linux 运维 linux ssh graylog centos 日志
Graylog5.2部署Graylog5.2适配MongoDB5.x~6.x，MongoDB5.0+要求CPU支持AVX指令集。主机说明localhost部署Graylog，需要安装mongodb-org-6.0、Elasticsearch7.10.2参考：https://blog.csdn.net/qixiaolinlin/article/details/129966703https://blo
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
【概念】Node.js，Express.js MongoDB Mongoose Express-Validator Async Handler 一袋米扛几楼98 各类概念 node.js express javascript
1.Node.js定义：Node.js是一个基于ChromeV8引擎的JavaScript运行时环境，允许你在服务器端运行JavaScript代码。作用：它使得开发者可以使用JavaScript编写服务器端代码，从而实现前后端使用同一种语言。比喻：Node.js就像是“工厂的电力系统”，它为整个工厂（应用程序）提供动力（运行环境）。没有电力系统，工厂的机器（代码）就无法运转。特点：非阻塞I/O：N
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
VMWare Centos7虚拟机安装并运行MongoDB Jay_Wooz 经验数据库环境搭建 mongodb linux 数据库
虚拟机：CentOS-7-x86_64-Minimal-2009MongoDB：mongodb-linux-x86_64-rhel70-5.0.5运行起来#Step1.安装依赖yuminstalllibcurlopenssl-y#Step2.下载mongoDB压缩包wgethttps://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-5.
docker compose部署dragonfly java初学者分享 docker 容器运维
整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、rei
SpringBoot整合通用xxl-job,自动注册任务 java初学者分享 spring boot 后端 java
整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、rei
SpringBoot整合阿里云、腾讯云、minio、百度云、华为云、天翼云、金山云、七牛云、移动云、网易数帆等等有关于S3协议下文分布式对象存储接口 java初学者分享阿里云腾讯云华为云
前提：在可运行的SpringBoot的项目内引用以下JAR包整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到
SpringBoot整合多租户MongoBD java初学者分享 SaaS多租户专栏 spring boot 后端 java mongodb
前提：在可运行的SpringBoot的项目内引用以下JAR包整个工具的代码都在Gitee或者Github地址内gitee：solomon-parent:这个项目主要是总结了工作上遇到的问题以及学习一些框架用于整合例如:rabbitMq、reids、Mqtt、S3协议的文件服务器、mongodbgithub：GitHub-ZeroNing/solomon-parent:这个项目主要是总结了工作上遇到
17.1Go语言操作MongoDB chxii go语言 #go 基础 golang mongodb 开发语言
驱动安装gogetgo.mongodb.org/mongo-driver/mongo基础连接示例packagemainimport("context""fmt""log""time""go.mongodb.org/mongo-driver/mongo""go.mongodb.org/mongo-driver/mongo/options")funcmain(){//设置客户端选项clientOpti
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
基于koajsAdmin+mongodb的后台管理快速开发框架安装运行记录后青春期的诗go 经验分享 mongodb 数据库 node.js vue.js elementui
前置操作下载源码源码地址：https://gitee.com/zhoushuigui/koajs-admin安装mongodb数据库并连接安装yarnnpminstallyarn-g安装nodemonnpminstallnodemon-g前端运行安装依赖进入项目根目录，在命令行执行如下命令安装依赖：yarn--registry=https://registry.npmmirror.com启动服务y
使用spring data MongoDB对MongoDB进行简单CURD操作示例其实我就是个萌新 spring mongodb java
本文章为作者个人学习笔记，仅作参考。1.application.properties配置spring.data.mongodb.database=[数据库名]spring.data.mongodb.host=localhost[主机名,本机：localhost]spring.data.mongodb.port=[数据库端口，默认:27017]2.根据数据库文档定义实体类：@RequiredArgs
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
MongoDB处理动态字段 weixin_49784554 mongodb asp.net
在ASP.NETCore中处理MongoDB的动态字段（即文档结构不固定）时，通常有以下几种方法：1.使用BsonDocument（最灵活）如果你的文档结构变化很大，直接使用BsonDocument进行存储和查询：usingMongoDB.Bson;usingMongoDB.Driver;varclient=newMongoClient("mongodb://localhost:27017");v
腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务 CSDN资讯腾讯云 mongodb 人工智能
2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
python gridfs_【已解决】用Python去连接本地mongoDB去用GridFS保存文件 weixin_39622225 python gridfs
折腾：期间，命令行方式的mongofiles去putgetdeletedelete_id等，已经基本上搞清楚了。接着就是去用Python代码，通过driver：的方式，调用API，去保存数据了。pythonmongodbgridfs需要先安装：pymongo就是这些API了。通过：发现，对于此处：➜英语资源mongod--versiondbversionv3.6.3gitversion:9586e
在Ubuntu上安装MEAN Stack的4个步骤 Kaede6 技术文章-Linux服务部署 ubuntu linux 运维
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

MongoDB学习之旅十一：MongoDB GridFS

你可能感兴趣的:(MongoDB)