Ceph常见问题

1. CephFS问题诊断

1.1 无法创建

创建新CephFS报错Error EINVAL: pool ‘rbd-ssd’ already contains some objects. Use an empty pool instead，解决办法：

ceph fs new cephfs rbd-ssd rbd-hdd --force

1.2 mds.0 is damaged

断电后出现此问题。MDS进程报错： Error recovering journal 0x200: (5) Input/output error。诊断过程：

# 健康状况
ceph health detail
# HEALTH_ERR mds rank 0 is damaged; mds cluster is degraded
# mds.0 is damaged
 
# 文件系统详细信息，可以看到唯一的MDS Boron启动不了
ceph fs status
# cephfs - 0 clients
# ======
# +------+--------+-----+----------+-----+------+
# | Rank | State  | MDS | Activity | dns | inos |
# +------+--------+-----+----------+-----+------+
# |  0   | failed |     |          |     |      |
# +------+--------+-----+----------+-----+------+
# +---------+----------+-------+-------+
# |   Pool  |   type   |  used | avail |
# +---------+----------+-------+-------+
# | rbd-ssd | metadata |  138k |  106G |
# | rbd-hdd |   data   | 4903M | 2192G |
# +---------+----------+-------+-------+
 
# +-------------+
# | Standby MDS |
# +-------------+
# |    Boron    |
# +-------------+
 
# 显示错误原因
ceph tell mds.0 damage
# terminate called after throwing an instance of 'std::out_of_range'
#   what():  map::at
# Aborted
 
# 尝试修复，无效
ceph mds repaired 0
 
# 尝试导出CephFS日志，无效
cephfs-journal-tool journal export backup.bin
# 2019-10-17 16:21:34.179043 7f0670f41fc0 -1 Header 200.00000000 is unreadable
# 2019-10-17 16:21:34.179062 7f0670f41fc0 -1 journal_export: Journal not readable, attempt object-by-object dump with `rados`Error ((5) Input/output error)
 
# 尝试重日志修复，无效
# 尝试将journal中所有可回收的 inodes/dentries 写到后端存储（如果版本比后端更高）
cephfs-journal-tool event recover_dentries summary
# Events by type:
# Errors: 0
# 2019-10-17 16:22:00.836521 7f2312a86fc0 -1 Header 200.00000000 is unreadable
 
# 尝试截断日志，无效
cephfs-journal-tool journal reset 
# got error -5from Journaler, failing
# 2019-10-17 16:22:14.263610 7fe6717b1700  0 client.6494353.journaler.resetter(ro) error getting journal off disk
# Error ((5) Input/output error)
 
 
# 删除重建，数据丢失
ceph fs rm cephfs  --yes-i-really-mean-it
 
 
 
## 又一次遇到此问题
 
# 深度清理，发现200.00000000存在数据不一致
ceph osd deep-scrub all
40.14 shard 14: soid 40:292cf221:::200.00000000:head data_digest
  0x6ebfd975 != data_digest 0x9e943993 from auth oi 40:292cf221:::200.00000000:head
  (22366'34 mds.0.902:1 dirty|data_digest|omap_digest s 90 uv 34 dd 9e943993 od ffffffff alloc_hint [0 0 0])                                                                              
40.14 deep-scrub 0 missing, 1 inconsistent objects
40.14 deep-scrub 1 errors
 
# 查看RADOS不一致对象详细信息
rados list-inconsistent-obj  40.14  --format=json-pretty
{
    "epoch": 23060,
    "inconsistents": [
        {
            "object": {
                "name": "200.00000000",
            },
            "errors": [],
            "union_shard_errors": [
                # 错误原因，校验信息不一致
                "data_digest_mismatch_info"
            ],
            "selected_object_info": {
                "oid": {
                    "oid": "200.00000000",
                },
            },
            "shards": [
                {
                    "osd": 7,
                    "primary": true,
                    "errors": [],
                    "size": 90,
                    "omap_digest": "0xffffffff"
                },
                {
                    "osd": 14,
                    "primary": false,
 
# errors：分片之间存在不一致，而且无法确定哪个分片坏掉了，原因：
#    data_digest_mismatch 此副本的摘要信息和主副本不一样
#    size_mismatch 此副本的数据长度和主副本不一致
#    read_error 可能存在磁盘错误
                    "errors": [
                        # 这里的原因是两个副本的摘要不一致
                        "data_digest_mismatch_info"
                    ],
                    "size": 90,
                    "omap_digest": "0xffffffff",
                    "data_digest": "0x6ebfd975"
                }
            ]
        }
    ]
}
# 转为处理inconsistent问题，停止OSD.14，Flush 日志，启动OSD.14，执行PG修复
# 无效…… 执行PG修复后Ceph会自动以权威副本覆盖不一致的副本，但是并非总能生效，
# 例如，这里的情况，主副本的数据摘要信息丢失
 
# 删除故障对象
rados -p rbd-ssd  rm 200.00000000

2. OSD问题诊断

2.1 启动后立即崩溃

通常可以认为属于Ceph的Bug。这些Bug可能因为数据状态引发，有些时候将崩溃OSD的权重清零，可以恢复：

# 尝试解决osd.17启动后立即宕机
ceph osd reweight 17 0

3. PG问题诊断

3.1 所有PG卡在unkown

如果创建一个存储池后，其所有PG都卡在此状态，可能原因是CRUSH map不正常。你可以配置osd_crush_update_on_start为true让集群自动调整CRUSH map。

3.2 卡在peering

ceph -s显示如下状态，长期不恢复：

  cluster:       
    health: HEALTH_WARN                                          
            Reduced data availability: 2 pgs inactive, 2 pgs peering
            19 slow requests are blocked > 32 sec
  data:
    pgs:     0.391% pgs not active
             510 active+clean
             2   peering

此案例中，使用此PG的Pod呈Known状态。

检查卡在inactive状态的PG：

ceph pg dump_stuck inactive
 
PG_STAT STATE   UP     UP_PRIMARY ACTING ACTING_PRIMARY  
17.68   peering [3,12]          3 [3,12]              3
16.32   peering [4,12]          4 [4,12]              4

输出其中一个PG的诊断信息，片断如下：

// ceph pg 17.68 query
{                                               
    "info": {                                            
        "stats": {
            "state": "peering",
            "stat_sum": {
                "num_objects_dirty": 5
            },
            "up": [
                3,
                12
            ],
            "acting": [
                3,
                12
            ],
            // 因为哪个OSD而阻塞
            "blocked_by": [
                12
            ],
            "up_primary": 3,
            "acting_primary": 3
        }
    },
    "recovery_state": [
        // 如果顺利，第一个元素应该是 "name": "Started/Primary/Active"
        {
            "name": "Started/Primary/Peering/GetInfo",
            "enter_time": "2018-06-11 18:32:39.594296",
            // 但是，卡在向OSD 12 请求信息这一步上
            "requested_info_from": [
                {
                    "osd": "12"
                }
            ]
        },
        {
            "name": "Started/Primary/Peering",
        },
        {
            "name": "Started",
        }
    ]
}

没有获得osd-12阻塞Peering的明确原因。

查看日志，osd-12位于10.0.0.104，osd-3位于10.0.0.100，后者为Primary OSD。

osd-3日志，在18:26开始出现，和所有其它OSD之间心跳检测失败。此时10.0.0.100负载很高，卡死。

osd-12日志，在18:26左右大量出现：

osd.12 466 heartbeat_check: no reply from 10.0.0.100:6803 osd.4 since back 2018-06-11 18:26:44.973982 ...

直到18:44分仍然无法进行心跳检测，重启osd-12后一切恢复正常。

3.3 incomplete

检查无法完成的PG：

ceph pg dump_stuck
 
# PG_STAT STATE      UP     UP_PRIMARY ACTING ACTING_PRIMARY
# 17.79   incomplete [9,17]          9 [9,17]              9
# 32.1c   incomplete [16,9]         16 [16,9]             16
# 17.30   incomplete [16,9]         16 [16,9]             16
# 31.35   incomplete [9,17]          9 [9,17]              9

查询PG 17.30的诊断信息：

// ceph pg  17.30 query
{
  "state": "incomplete",
  "info": {
    "pgid": "17.30",
    "stats": {
      // 被osd.11阻塞而无法完成，此osd已经不存在
      "blocked_by": [
        11
      ],
      "up_primary": 16,
      "acting_primary": 16
    }
  },
  // 恢复的历史记录
  "recovery_state": [
    {
      "name": "Started/Primary/Peering/Incomplete",
      "enter_time": "2018-06-17 04:48:45.185352",
      // 最终状态，此PG没有完整的副本
      "comment": "not enough complete instances of this PG"
    },
    {
      "name": "Started/Primary/Peering",
      "enter_time": "2018-06-17 04:48:45.131904",
      "probing_osds": [
        "9",
        "16",
        "17"
      ],
      // 期望检查已经不存在的OSD
      "down_osds_we_would_probe": [
        11
      ],
      "peering_blocked_by_detail": [
        {
          "detail": "peering_blocked_by_history_les_bound"
        }
      ]
    }
  ]
}

以看到17.30期望到osd.11寻找权威数据，而osd.11已经永久丢失了。这种情况下，可以尝试强制标记PG为complete。

首先，停止PG的主OSD： service ceph-osd@16 stop

然后，运行下面的工具：

ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-16  --pgid 17.30 --op mark-complete
# Marking complete 
# Marking complete succeeded

最后，重启PG的主OSD： service ceph-osd@16 start

3.4 单副本导致的stale

不做副本的情况下，单个OSD宕机即导致数据不可用：

ceph health detail 
# 注意Acting Set仅仅有一个成员
# pg 2.21 is stuck stale for 688.372740, current state stale+active+clean, last acting [7]
# 但是其它PG的Acting Set则不是
# pg 3.4f is active+recovering+degraded, acting [9,1]

如果OSD的确出现硬件故障，则数据丢失。此外，你也无法对这种PG进行查询操作。

3.5 inconsistent

定位出问题PG的主OSD，停止它，刷出日志，然后修复PG：

 ceph health detail
# HEALTH_ERR 2 scrub errors; Possible data damage: 2 pgs inconsistent
# OSD_SCRUB_ERRORS 2 scrub errors
# PG_DAMAGED Possible data damage: 2 pgs inconsistent
#     pg 15.33 is active+clean+inconsistent, acting [8,9]
#     pg 15.61 is active+clean+inconsistent, acting [8,16]
 
# 查找OSD所在机器
ceph osd find 8
 
# 登陆到osd.8所在机器
systemctl stop [email protected]
ceph-osd -i 8 --flush-journal
systemctl start [email protected]
ceph pg repair 15.61

4. 对象问题诊断

4.1 unfound

持有对象权威副本的OSD宕机或被剔除，会导致该问题出现。例如两个配对的OSD（共同处理某个PG）：

osd.1宕机
osd.2独自处理了一些写操作
osd1开机
osd.1+osd2配对，由于osd.2独自的写操作，缺失的对象排队等候在osd.1上恢复
恢复完成之前，osd.2宕机，或者被移除

在上面这个事件序列中，osd.1知道权威副本存在，但是却找不到，这种情况下针对目标对象的请求会被阻塞，直到权威副本的持有者osd上线。

执行下面的命令，定位存在问题的PG：

ceph health detail | grep unfound
# OBJECT_UNFOUND 1/90055 objects unfound (0.001%)
#     pg 33.3e has 1 unfound objects
#    pg 33.3e is active+recovery_wait+degraded, acting [17,6], 1 unfound

进一步，定位存在问题的对象：

 // ceph pg 33.3e list_missing
{
    "offset": {
        "oid": "",
        "key": "",
        "snapid": 0,
        "hash": 0,
        "max": 0,
        "pool": -9223372036854775808,
        "namespace": ""
    },
    "num_missing": 1,
    "num_unfound": 1,
    "objects": [
        {
            "oid": {
                // 丢失的对象
                "oid": "obj_delete_at_hint.0000000066",
                "key": "",
                "snapid": -2,
                "hash": 2846662078,
                "max": 0,
                "pool": 33,
                "namespace": ""
            },
            "need": "1723'1412",
            "have": "0'0",
            "flags": "none",
            "locations": []
        }
    ],
    "more": false
}

如果丢失的对象太多，more会显示为true。

执行下面的命令，可以查看PG的诊断信息：

// ceph pg 33.3e query
{
  "state": "active+recovery_wait+degraded",
  "recovery_state": [
    {
      "name": "Started/Primary/Active",
      "enter_time": "2018-06-16 15:03:32.873855",
      // 丢失的对象所在的OSD
      "might_have_unfound": [
        {
          "osd": "6",
          "status": "already probed"
        },
        {
          "osd": "11",
          "status": "osd is down"
        }
      ],
    } 
  ]
}

上面输出中的osd.11，先前已经出现硬件故障，被移除了。这意味着unfound的对象已经不可恢复。你可以标记：

# 回滚到前一个版本，如果是新创建对象则忘记其存在。不支持EC池
ceph pg 33.3e mark_unfound_lost revert
# 让Ceph忘记unfound对象的存在
ceph pg 33.3e mark_unfound_lost delete

5. ceph-deploy

5.1 TypeError: ‘Logger’ object is not callable

/usr/lib/python2.7/dist-packages/ceph_deploy/osd.py第376行，替换为：

LOG.info(line.decode('utf-8'))

5.2 Could not locate executable ‘ceph-volume’ make sure it is installed and available

应该安装ceph-deploy的1.5.39版本，2.0.0版本仅仅支持luminous：

apt remove ceph-deploy
apt install ceph-deploy=1.5.39 -y

5.3 部署MON后ceph-s卡死

在我的环境下，是因为MON节点识别的public addr为LVS的虚拟网卡的IP地址导致。修改配置，显式指定MON的IP地址即可：

[mon.master01-10-5-38-24]
public addr = 10.5.38.24 
cluster addr = 10.5.38.24
 
[mon.master02-10-5-38-39]
public addr = 10.5.38.39
cluster addr = 10.5.38.39
 
[mon.master03-10-5-39-41]
public addr = 10.5.39.41
cluster addr = 10.5.39.41

6. ceph-helm

在我的环境下部署，出现一系列和权限有关的问题，如果你遇到相同问题且不关心安全性，可以修改配置：

# kubectl -n ceph edit configmap ceph-etc
apiVersion: v1
data:
  ceph.conf: |
    [global]
    fsid = 08adecc5-72b1-4c57-b5b7-a543cd8295e7
    mon_host = ceph-mon.ceph.svc.k8s.gmem.cc
    # 添加以下三行
    auth client required = none
    auth cluster required = none
    auth service required = none
    [osd]
    # 在大型集群里用单独的“集群”网可显著地提升性能
    cluster_network = 10.0.0.0/16
    ms_bind_port_max = 7100
    public_network = 10.0.0.0/16
kind: ConfigMap

如果需要保证集群安全，请参考下面几个案例。

6.1 ceph-mgr报Operation not permitted

问题现象
此Pod一直无法启动，查看容器日志，发现：
timeout 10 ceph --cluster ceph auth get-or-create mgr.xenial-100 mon ‘allow profile mgr’ osd ‘allow *’ mds ‘allow *’ -o /var/lib/ceph/mgr/ceph-xenial-100/keyring
0 librados: client.admin authentication error (1) Operation not permitted

问题分析
连接到可以访问的ceph-mon，执行命令：

kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon -- ceph

发现报同样的错误。这说明client.admin的Keyring有问题。登陆到ceph-mon，获取Keyring列表：

# kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon bash
# ceph --cluster=ceph  --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth list   
 
installed auth entries:
 
client.admin
        key: AQAXPdtaAAAAABAA6wd1kCog/XtV9bSaiDHNhw==
        auid: 0
        caps: [mds] allow
        caps: [mgr] allow *
        caps: [mon] allow *
        caps: [osd] allow *
 
client.bootstrap-mds
        key: AQAgPdtaAAAAABAAFPgqn4/zM5mh8NhccPWKcw==
        caps: [mon] allow profile bootstrap-mds
client.bootstrap-osd
        key: AQAUPdtaAAAAABAASbfGQ/B/PY4Imoa4Gxsa2Q==
        caps: [mon] allow profile bootstrap-osd
client.bootstrap-rgw
        key: AQAJPdtaAAAAABAAswtFjgQWahHsuy08Egygrw==
        caps: [mon] allow profile bootstrap-rgw

而当前使用的client.admin的Keyring内容为：

[client.admin]
  key = AQAda9taAAAAABAAgWIsgbEiEsFRJQq28hFgTQ==
  auid = 0
  caps mds = "allow"
  caps mon = "allow *"
  caps osd = "allow *"
  caps mgr = "allow *"

内容不一致。使用auth list获得的client.admin的Keyring，可以发现是有效的：

ceph --cluster=ceph --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth get client.admin > client.admin.keyyring
ceph --name client.admin --keyring client.admin.keyyring # OKskydns_skydns_dns_cachemiss_count_total{instance="172.27.100.134:10055"}

检查一下各Pod的/etc/ceph/ceph.client.admin.keyring，可以发现都是从Secret ceph-client-admin-keyring挂载的。那么这个Secret是如何生成的呢？执行命令：

kubectl -n ceph get job --output=yaml --export | grep ceph-client-admin-keyring -B 50

可以发现Job ceph-storage-keys-generator负责生成该Secret。查看其Pod日志可以生成Keyring、创建Secret的记录。进一步查看Pod的资源定义，可以看到负责创建的脚本/opt/ceph/ceph-storage-key.sh挂载自ConfigMap ceph-bin中的ceph-storage-key.sh。

解决此问题最简单的办法就是修改Secret，将其修改为集群中实际有效的Keyring：

# 导出Secret定义
kubectl -n ceph get  secret ceph-client-admin-keyring --output=yaml --export > ceph-client-admin-keyring
# 获得有效Keyring的Base64编码
cat client.admin.keyyring | base64
# 将Secret中的编码替换为上述Base64，然后重新创建Secret
kubectl -n ceph apply -f ceph-client-admin-keyring

此外Secret pvc-ceph-client-key中存放的也是admin用户的Key，其内容也需要替换到有效的：

kubectl -n ceph edit secret  pvc-ceph-client-key

6.2 pvc无法提供

原因和上一个问题类似，还是权限问题。

查看无法绑定的PVC日志：

# kubectl -n ceph describe pvc
 Normal   Provisioning        53s   ceph.com/rbd ceph-rbd-provisioner-5544dcbcf5-n846s 708edb2c-4619-11e8-abf2-e672650d97a2  External provisioner is provisioning volume for claim
"ceph/ceph-pvc"
  Warning  ProvisioningFailed  53s   ceph.com/rbd ceph-rbd-provisioner-5544dcbcf5-n846s 708edb2c-4619-11e8-abf2-e672650d97a2  Failed to provision volume with StorageClass "general"
: failed to create rbd image: exit status 1, command output: 2018-04-22 13:44:35.269967 7fb3e3e3ad80 -1 did not load config file, using default settings.
2018-04-22 13:44:35.297828 7fb3e3e3ad80 -1 auth: unable to find a keyring on /etc/ceph/ceph.client.admin.keyring,/etc/ceph/ceph.keyring,/etc/ceph/keyring,/etc/ceph/keyring.bin: (2)
 No such file or directoryConnection to localhost closed by remote host.
Connection to localhost closed.e3e3ad80  0 librados: client.admin authentication error (1) Operation not permitted

rbd-provisioner需要读取StorageClass定义，获取需要的凭证信息：

# kubectl -n ceph get storageclass --output=yaml
apiVersion: v1                                                                                                                                                                  
items:                                                                                                                                                                          
- apiVersion: storage.k8s.io/v1                                                                                                                                                 
  kind: StorageClass                                                                                                                                                            
  metadata:                                                                                                                             
    name: general
  parameters:
    adminId: admin
    adminSecretName: pvc-ceph-conf-combined-storageclass
    adminSecretNamespace: ceph
    imageFeatures: layering
    imageFormat: "2"
    monitors: ceph-mon.ceph.svc.k8s.gmem.cc:6789
    pool: rbd
    userId: admin
    userSecretName: pvc-ceph-client-key
  provisioner: ceph.com/rbd
  reclaimPolicy: Delete

可以看到牵涉到两个Secret：pvc-ceph-conf-combined-storageclass、pvc-ceph-client-key，你需要把正确的Keyring内容写入其中。

6.3 pvc无法Attach

现象：
PVC可以Provision，RBD可以通过Ceph命令挂载，但是Pod无法启动，Describe之显示：

auth: unable to find a keyring on /etc/ceph/keyring: (2) No such file or directory
monclient(hunting): authenticate NOTE: no keyring found; disabled cephx authentication
librados: client.admin authentication error (95) Operation not supported

解决办法：
把ceph.client.admin.keyring拷贝一份为 /etc/ceph/keyring即可。

6.4 ceph-osd报Operation not permitted

原因和上一个问题一样。查看无法启动的容器日志：

kubectl -n ceph logs ceph-osd-dev-vdb-bjnbm -c osd-prepare-pod
# ceph --cluster ceph --name client.bootstrap-osd --keyring /var/lib/ceph/bootstrap-osd/ceph.keyring health                                                   
# 0 librados: client.bootstrap-osd authentication error (1) Operation not permitted                                               
# [errno 1] error connecting to the cluster

进一步查看，可以发现/var/lib/ceph/bootstrap-osd/ceph.keyring挂载自ceph-bootstrap-osd-keyring下的ceph.keyring：

# kubectl -n ceph get secret ceph-bootstrap-osd-keyring --output=yaml --export
apiVersion: v1
data:
  ceph.keyring: W2NsaWVudC5ib290c3RyYXAtb3NkXQogIGtleSA9IEFRQVlhOXRhQUFBQUFCQUFSQ2l1bVY1NFpOU2JGVWwwSDZnYlJ3PT0KICBjYXBzIG1vbiA9ICJhbGxvdyBwcm9maWxlIGJvb3RzdHJhcC1vc2QiCgo=
kind: Secret
metadata:
  creationTimestamp: null
  name: ceph-bootstrap-osd-keyring
  selfLink: /api/v1/namespaces/ceph/secrets/ceph-bootstrap-osd-keyring
type: Opaque
 
# BASE64解码后：
[client.bootstrap-osd]
  key = AQAYa9taAAAAABAARCiumV54ZNSbFUl0H6gbRw==
  caps mon = "allow profile bootstrap-osd"

获得实际有效的Keyring：

kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon -- ceph --cluster=ceph --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth get client.bootstrap-osd
# 注意上述命令的输出的第一行exported keyring for client.bootstrap-osd不属于Keyring
[client.bootstrap-osd]
        key = AQAUPdtaAAAAABAASbfGQ/B/PY4Imoa4Gxsa2Q==
        caps mon = "allow profile bootstrap-osd"

修改Secret： kubectl **-**n ceph edit secret ceph-bootstrap-osd-keyring 替换为上述Keyring。

6.5 ceph-osd报No cluster conf with fsid

报错信息：

# kubectl -n ceph logs  ceph-osd-dev-vdc-cpkxh -c osd-activate-pod
ceph_disk.main.Error: Error: No cluster conf found in /etc/ceph with fsid 08adecc5-72b1-4c57-b5b7-a543cd8295e7
# 每个OSD都包同样的错误

对应的配置文件内容：

 kubectl -n ceph get configmap ceph-etc --output=yaml
apiVersion: v1
data:
  ceph.conf: |
    [global]
    fsid = a4426e8a-c46d-4407-95f1-911a23a0dd6e
    mon_host = ceph-mon.ceph.svc.k8s.gmem.cc
    [osd]
    cluster_network = 10.0.0.0/16
    ms_bind_port_max = 7100
    public_network = 10.0.0.0/16
kind: ConfigMap
metadata:
  name: ceph-etc
  namespace: ceph

可以看到，fsid不一致。修改一下ConfigMap中的fsid即可解决此问题。

6.6 容器无法Attach PV

报错信息：
describe pod报错：timeout expired waiting for volumes to attach/mount for pod
kubelet报错：executable file not found in $PATH, rbd output
原因分析：
动态提供的持久卷，包含两个阶段：
1. 卷提供，原本由控制平面负责，controller-manager中需要包含rbd命令，才能在Ceph集群中创建供K8S使用的镜像。目前这个职责由external_storage项目的rbd-provisioner完成
2. 卷依附/分离，由使用卷的Pod所在的Node的kubelet负责完成。这些Node需要安装rbd命令，并提供有效的配置文件

解决方案：

# 安装软件
apt install -y ceph-common
# 从ceph-mon拷贝以下文件：
# /etc/ceph/ceph.client.admin.keyring
# /etc/ceph/ceph.conf

应用上述方案后，如果继续报错：rbd: map failed exit status 110, rbd output: rbd: sysfs write failed In some cases useful info is found in syslog。则查看一下系统日志：

dmesg | tail
 
# [ 3004.833252] libceph: mon0 10.0.0.100:6789 feature set mismatch, my 106b84a842a42 
#     < server's 40106b84a842a42, missing 400000000000000
# [ 3004.840980] libceph: mon0 10.0.0.100:6789 missing required protocol features

对照本文前面的特性表，可以发现内核版本必须4.5+才可以（CEPH_FEATURE_NEW_OSDOPREPLY_ENCODING）。
最简单的办法就是升级一下内核：

# Desktop
apt install --install-recommends linux-generic-hwe-16.04 xserver-xorg-hwe-16.04 -y
# Server
apt install --install-recommends linux-generic-hwe-16.04 -y
 
sudo apt-get remove linux-headers-4.4.* -y && \
sudo apt-get remove linux-image-4.4.* -y && \
sudo apt-get autoremove -y && \
sudo update-grub

或者，将tunables profile调整到hammer版本的Ceph：

ceph osd crush tunables hammer
# adjusted tunables profile to hammer

6.7 OSD启动失败报文件名太长

报错信息：ERROR: osd init failed: (36) File name too long

报错原因：使用的文件系统为EXT4，存储的xattrs大小有限制，有条件的话最好使用XFS

解决办法：修改配置文件，如下：

 osd_max_object_name_len = 256
osd_max_object_namespace_len = 64

6.8 无法打开/proc/0/cmdline

报错信息：Fail to open ‘/proc/0/cmdline’ error No such file or directory

报错原因：在CentOS 7上，将ceph-mon和ceph-osd（基于目录）部署在同一节点（基于Helm）报此错误，分离后问题消失。此外部署mon的那些节点还设置了虚IP，其子网和Ceph的Cluster/Public网络相同，这导致了某些OSD监听的地址不正确。

再次遇到此问题，原因是一个虚拟网卡lo:ngress使用和eth0相同的网段，导致OSD使用了错误的网络。

解决办法是写死OSD监听地址：

[osd.2]                                                                                                                                                                          
public addr = 10.0.4.1                                                                                                                                                           
cluster addr = 10.0.4.1

6.9 无法挂载RBD

报错信息：Input/output error，结合dmesg | tail可以看到更细节的报错

报错原因，可能情况：

CentOS7下报错，提示客户端不满足特性CEPH_FEATURE_CRUSH_V4（1000000000000）。解决办法，将Bucket算法改为straw。注意，之后加入的OSD仍然默认使用straw2，使用的镜像的标签为tag-build-master-luminous-ubuntu-16.04。

6.10 write error: File name too long

external storage中的CephFS可以正常Provisioning，但是尝试读写数据时报此错误。原因是文件路径过长，和底层文件系统有关，为了兼容部分Ext文件系统的机器，我们限制了osd_max_object_name_len。

解决办法，不使用UUID，而使用namespace + pvcname来命名目录。修改cephfs-provisioner.go，118行

// create random share name
share := fmt.Sprintf("%s-%s", options.PVC.Namespace,options.PVC.Name)
// create random user id
user := fmt.Sprintf("%s-%s", options.PVC.Namespace,options.PVC.Name)

重新编译即可。

7. k8s相关

7.1 **rbd image * is still being used**

describe pod发现：

rbd image rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 is still being used

说明有其它客户端正在占用此镜像。如果尝试删除镜像，你会发现无法成功：

rbd rm rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 
 
librbd::image::RemoveRequest: 0x560e39df9af0 check_image_watchers: image has watchers - not removing
Removing image: 0% complete...failed.
rbd: error: image still has watchers
This means the image is still open or the client using it crashed. Try again after closing/unmapping it or waiting 30s for the crashed client to timeout.

要知道watcher是谁，可以执行：

rbd status rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 
Watchers:
        watcher=10.5.39.12:0/1652752791 client.94563 cookie=18446462598732840961

可以发现10.5.39.12正在占用镜像。

另一种获取watcher的方法是，使用rbd的header对象。执行下面的命令获取rbd的诊断信息：

rbd info rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 
 
rbd image 'kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6':
        size 8192 MB in 2048 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.134474b0dc51
        format: 2
        features: layering
        flags: 
        create_timestamp: Wed Jul 11 17:49:51 2018

字段block_name_prefix的值rbd_data.134474b0dc51，将data换为header即为header对象。然后使用命令：

rados listwatchers -p rbd-unsafe rbd_header.134474b0dc51
 
watcher=10.5.39.12:0/1652752791 client.94563 cookie=18446462598732840961

既然知道10.5.39.12占用镜像，断开连接即可。在此机器上执行下面的命令，显示当前映射的rbd镜像列表：

rbd showmapped
 
id pool       image                                                       snap device  
0  rbd-unsafe kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 -    /dev/rbd0 
1  rbd-unsafe kubernetes-dynamic-pvc-0729f9a6-84f0-11e8-9b75-5a3f858854b1 -    /dev/rbd1

此机器上的rbd0虽然映射，但是没有挂载。解除映射：

rbd unmap /dev/rbd0

再次检查rbd镜像状态，发现没有watcher了：

rbd status rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 
 
Watchers: none

7.2 rbd: map failed signal: aborted (core dumped)

kubectl describe报错Unable to mount volumes for pod… timeout expired waiting for volumes to attach or mount for pod…

检查发现目标rbd没有Watcher，Pod所在机器的Kubectl报错rbd: map failed signal: aborted (core dumped)。此前曾经在该机器上执行过rbd unmap操作。

手工 rbd map后问题消失。

8. 断电后无法启动OSD

journal do_read_entry: bad header magic

报错信息：journal do_read_entry(156389376): bad header magic…FAILED assert(interval.last > last)

这是12.2版本已知的BUG，断电后可能出现OSD无法启动，可能导致数据丢失。

9. 其他

9.1 Couldn’t init storage provider (RADOS)

RGW实例无法启动，通过journalctl看到上述信息。

要查看更多信息，需要查看RGW日志：

2020-10-22 16:51:55.771035 7fb1b0f20e80  0 ceph version 12.2.5 (cad919881333ac92274171586c827e01f554a70a) luminous (stable), process (unknown), pid 2546439
2020-10-22 16:51:55.792872 7fb1b0f20e80  0 librados: client.rgw.ceph02 authentication error (22) Invalid argument
2020-10-22 16:51:55.793450 7fb1b0f20e80 -1 Couldn't init storage provider (RADOS)

可以发现是和身份验证有关的问题。

通过 systemctl status ceph-radosgw@rgw.**$**RGW_HOST得到命令行，手工运行：

radosgw -f --cluster ceph  --name client.rgw.ceph02 --setuser ceph --setgroup ceph -d --debug_ms 1

发现报错和上面一样。尝试增加–keyring参数，问题解决：

radosgw -f --cluster ceph  --name client.rgw.ceph02        \
  --setuser ceph --setgroup ceph -d --debug_ms 1           \
  --keyring=/var/lib/ceph/radosgw/ceph-rgw.ceph02/keyring

看来是Systemd服务没有找到keyring导致。

9.2 禁用IPv6的机器上无法开启Prometheus模块

报错信息：Unhandled exception from module ‘prometheus’ while running on mgr.master01-10-5-38-24: error(‘No socket could
be created’,)

解决办法： ceph config-key set mgr/prometheus/server_addr 0.0.0.0

9.3 反复警告mon… clock skew

原因是时钟不同步警告阈值太低，在global段增加配置并重启MON：

mon clock drift allowed = 2
mon clock drift warn backoff = 30

或者执行下面的命令即时生效：

ceph tell mon.* injectargs '--mon_clock_drift_allowed=2'
ceph tell mon.* injectargs '--mon_clock_drift_warn_backoff=30'

或者检查ntp相关配置，保证时钟同步精度。

9.4 深度清理导致高IO

深度清理很消耗IO，如果长时间无法完成，可以禁用：

ceph osd set noscrub
ceph osd set nodeep-scrub

问题解决后，可以再启用：

ceph osd unset noscrub
ceph osd unset nodeep-scrub

使用CFQ作为IO调度器时，可以调整OSD IO线程的优先级：

# 设置调度器
echo cfq > /sys/block/sda/queue/scheduler
 
# 检查当前某个OSD的磁盘线程优先级类型
ceph daemon osd.4 config get osd_disk_thread_ioprio_class
 
# 修改IO优先级
ceph tell osd.* injectargs '--osd_disk_thread_ioprio_priority 7'
# IOPRIO_CLASS_RT最高 IOPRIO_CLASS_IDLE最低
ceph tell osd.* injectargs '--osd_disk_thread_ioprio_class idle'

如果上述措施没有问题时，可以考虑配置以下参数：

osd_deep_scrub_stride = 131072                                                                                                                                                       
# 每次Scrub的块数量范围
osd_scrub_chunk_min = 1                                                                                                                                                              
osd_scrub_chunk_max = 5                                                                                                                                                              
osd scrub during recovery = false                                                                                                                                                    
osd deep scrub interval = 2592000                                                                                                                                                    
osd scrub max interval = 2592000                                                                                                                                                     
# 单个OSD并发进行的Scrub个数
osd max scrubs = 1   
# Scrub起止时间                                                                                                                                                            
osd max begin hour = 2                                                                                                                                                               
osd max end hour = 6                                                                                                                                                                 
# 系统负载超过多少则禁止Scrub
osd scrub load threshold = 4                                                                                                                                                         
# 每次Scrub后强制休眠0.1秒
osd scrub sleep = 0.1                                                                                                                                                                  
# 线程优先级
osd disk thread ioprio priority = 7
osd disk thread ioprio class = idle

9.5 强制unmap

如果Watcher被黑名单，则尝试Unmap镜像时会报错：rbd: sysfs write failed rbd: unmap failed: (16) Device or resource busy

可以使用下面的命令强制unmap： rbd unmap -o force ...

9.6 增加pg_num和pgp_num后无法A+C

部分PG状态卡死，可能原因是OSD允许的PG数量受限，修改全局配置项mon_max_pg_per_osd并重启MON即可。

此外注意：调整PG数量后，一定要进入A+C状态后，再进行下一次调整。

9.7 无法删除RBD镜像

下面第二个镜像对应的K8S PV已经删除：

rbd ls
# kubernetes-dynamic-pvc-35350b13-46b8-11e8-bde0-a2c14c93573f
# kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

但是对应的RBD没有删除，手工删除：

rbd remove kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

报错：

2018-04-23 13:37:25.559444 7f919affd700 -1 librbd::image::RemoveRequest: 0x5598e77831d0 check_image_watchers: image has watchers - not removing
Removing image: 0% complete…failed.
rbd: error: image still has watchers
This means the image is still open or the client using it crashed. Try again after closing/unmapping it or waiting 30s for the crashed client to timeout.

查看RBD状态：

# rbd info kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4
rbd image 'kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4':
        size 8192 MB in 2048 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.1003e238e1f29
        format: 2
        features: layering
        flags: 
        create_timestamp: Mon Apr 23 11:42:59 2018
 
#rbd status kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4
Watchers:
        watcher=10.0.0.101:0/4275384344 client.65597 cookie=18446462598732840963

到10.0.0.101这台机器上查看：

# df | grep e6e3339859d4
/dev/rbd2        8125880  251560   7438508   4% /var/lib/kubelet/plugins/kubernetes.io/rbd/rbd/rbd-image-kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

重启Kubelet后可以删除RBD。

9.8 Error EEXIST: entity osd.9 exists but key does not match

# 删除密钥
ceph auth del osd.9
# 重新收集目标主机的密钥
ceph-deploy --username ceph-ops gatherkeys Carbon

9.9 创建新Pool后无法Active+Clean


    pgs:     12.413% pgs unknown                                                                                                                                                   
             20.920% pgs not active                                                                                                                                                
             768 active+clean                                                                                                                                                      
             241 creating+activating                                                                                                                                               
             143 unknown

可能是由于PG总数太大导致，降低PG数量后很快Active+Clean

9.10 Orphaned pod无法清理

报错信息：Orphaned pod “a9621c0e-41ee-11e8-9407-deadbeef00a0” found, but volume paths are still present on disk : There were a total of 1 errors similar to this. Turn up verbosity to see them

临时解决办法：

rm -rf /var/lib/kubelet/pods/a9621c0e-41ee-11e8-9407-deadbeef00a0/volumes/rook.io~rook/

9.11 osd启动报错：ERROR: osd init failed: (1) Operation not permitted

可能原因是OSD使用的keyring和MON不一致。对于ID为14的OSD，将宿主机/var/lib/ceph/osd/ceph-14/keyring的内容替换为 ceph auth get osd.14的输出前两行即可。

9.12 Mount failed with ‘(11) Resource temporarily unavailable’

在没有停止OSD的情况下执行ceph-objectstore-tool命令，会出现此错误。

9.13 neither `public_addr` nor `public_network` keys are defined for monitors

通过ceph-deploy添加MON节点时出现此错误，将public_network配置添加到配置文件的global段即可。

9.14 journalctl删除pv后卡在Terminating

可能原因：

对应的PVC没有删除，还在引用此PV。先删除PV即可

chown: cannot access ‘/var/log/ceph’: No such file or directory

OSD无法启动，报上面的错误，可以配置：

ceph:
  storage:
    osd_log: /var/log

HEALTH_WARN application not enabled on

 
                                 #池 # 功能
ceph osd pool application enable rbd block-devices

10. 诊断

调试日志

注意：详尽的日志每小时可能超过 1GB ，如果你的系统盘满了，这个节点就会停止工作。

10.1 临时启用调试日志

 # 通过中心化配置下发
ceph tell osd.0 config set debug_osd 0/5
 
# 到目标主机上，针对OSD进程设置
ceph daemon osd.0 config set debug_osd 0/5

10.2 配置日志级别

可以为各子系统定制日志级别

 # debug {subsystem} = {log-level}/{memory-level}
 
[global]
        debug ms = 1/5
[mon]
        debug mon = 20
        debug paxos = 1/5
        debug auth = 2
[osd]
        debug osd = 1/5
        debug filestore = 1/5
        debug journal = 1
        debug monc = 5/20
[mds]
        debug mds = 1
        debug mds balancer = 1
        debug mds log = 1
        debug mds migrator = 1

子系统列表：

子系统	日志级别	内存日志级别
default	0	5
lockdep	0	1
context	0	1
crush	1	1
mds	1	5
mds balancer	1	5
mds locker	1	5
mds log	1	5
mds log expire	1	5
mds migrator	1	5
buffer	0	1
timer	0	1
filer	0	1
striper	0	1
objecter	0	1
rados	0	5
rbd	0	5
rbd mirror	0	5
rbd replay	0	5
journaler	0	5
objectcacher	0	5
client	0	5
osd	1	5
optracker	0	5
objclass	0	5
filestore	1	3
journal	1	3
ms	0	5
mon	1	5
monc	0	10
paxos	1	5
tp	0	5
auth	1	5
crypto	1	5
finisher	1	1
reserver	1	1
heartbeatmap	1	5
perfcounter	1	5
rgw	1	5
rgw sync	1	5
civetweb	1	10
javaclient	1	5
asok	1	5
throttle	1	1
refs	0	0
compressor	1	5
bluestore	1	5
bluefs	1	5
bdev	1	3
kstore	1	5
rocksdb	4	5
leveldb	4	5
memdb	4	5
fuse	1	5
mgr	1	5
mgrc	1	5
dpdk	1	5
eventtrace	1	5

10.3 加快日志滚动

如果磁盘空间有限，可以配置/etc/logrotate.d/ceph，加快日志滚动：

rotate 7
weekly
size 500M
compress
sharedscripts

然后设置定时任务，定期检查并清理：

30 * * * * /usr/sbin/logrotate /etc/logrotate.d/ceph >/dev/null 2>&1

你可能感兴趣的:(Ceph,存储,ceph)

浅析JVM虚拟机之一 �欢快↑㎡ jvm java linux
1.为什么要学习JVM可以深入了解Java,分析字节码，得到准确的结论可以提升排查问题的能力，可能出现内存溢出，GC频率导致响应慢等等2.JVM的部分核心2.1类装载子系统类装载子系统主要功能是查找并验证类文件、完成相关内存空间的分配和对象赋值。2.2运行时数据区类文件加载到内存之后由运行时数据区来完成数据存储和数据交换。运行时数据区又分为线程共享内存区和线程隔离内存区。线程共享内存区包括方法区（
JVM堆（Heap）详解与工作流程分析 empti_ Java基础 jvm java
JVM堆（Heap）详解与工作流程分析1.JVM堆核心架构1.1堆内存整体布局Java堆新生代YoungGeneration老年代OldGenerationEden区Survivor区S0Survivor区S1元空间Metaspace字符串常量池1.2各区域核心参数区域默认占比JVM参数存储内容Eden区80%新生代-XX:NewRatio新创建的对象Survivor区10%新生代×2-XX:Su
AcWing--数据结构1 谢耳朵(wer~wer~) Acwing学习数据结构 c++算法
用数组来模拟链表。这种实现链表的方式也叫静态链表。1.单链表写邻接表：存储图和树我们定义：e[N]用来表示某个点的值是多少；ne[N]用来表示某个点的next指针是多少e和ne是用下标关联起来的如：head->3->5->7->9->空(下标从0开始，3的下标是0，以此类推，空的下标为-1）那么e[0]=3,ne[0]=1;e[1]=5,ne[1]=2;...e[3]=9,ne[3]=-1//单
HashMap HansenPole825 哈希算法散列表算法
一、结构1.数组（桶数组）初始容量默认16。数组元素成为桶，每个桶存储链表或红黑树（jdk1.8及以后）。2.链表当不同key的哈希值映射到同一桶式，以链表形式存储。3.红黑树jdk1.8及以后引入红黑树：当链表长度大于等于8且桶数组长度大于等于64式，链表转化为红黑树，查询时间从O（n）降为O（logn）。树节点小于6时退化为链表二、关键机制1.哈希计算（jdk1.8）staticfinalin
AWS中的 CloudFormation 等待的L先生 aws 云计算
AWS中的CloudFormation1.CloudFormation是什么？AWSCloudFormation是亚马逊科技（AWS）提供的一项服务，允许用户通过模板来描述和配置，从而实现基础设施即代码（InfrastructureasCode，lac）。CloudFormation使用JSON或者YAML文件编写的模板来定义一组AWS资源的集合，称为“堆栈”，这些资源可以包括EC2实例，S3存储
Android笔记（十五）ContentProvider源码浅析 jametang25 andorid
ContentProvider作为四大组件之一，由于业务上用到的地方不多,目前业务是系统界面，属于系统应用，最适合使用ContentProvider来进行少量数据存储，我们业务中涉及到的Settings.system和Settings.Secure等数据库，就是通过ContentProvider来封装、用ContentResolver来访问的//通过ContentResolver来访问Settin
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
MySQL常用函数性能优化及索引影响分析 Hai－W 数据库 mysql 性能优化数据库 sql
MySQL常用函数性能优化指南（含索引影响分析）以下是MySQL函数使用指南，新增性能影响评级、索引失效分析和优化方案，帮助您高效使用函数：一、字符串处理函数（含性能分析）函数示例性能影响索引影响优化建议CONCAT()SELECTCONCAT(first_name,last_name)FROMusers;⭐⭐❌导致全扫描存储计算列：ALTERTABLEusersADDfull_nameVARCH
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
一周搞定Redis面试题|第一天认识Redis以及Redis数据类型天天开心(∩_∩) redis 数据库面试缓存
目录认识Redis1.介绍一下Redis2.使用Redis的好处在哪里Redis的数据类型3.Redis的数据类型有哪些String三种编码方式常见面试题4.在Redis中String数据类型的编码方式有几种，区别是什么？5.浮点型在String使用什么编码方式6.为什么EMBSTR的阈值是44字节7.String可以有多大？8.SDS有什么作用？List常见面试题9.List对象底层存储的编码实
深入解析 Cookie、LocalStorage 和 SessionStorage 浪裡遊杂文前端服务器后端信息与通信 tcp/ip 交互
浏览器数据存储三剑客：深入解析Cookie、LocalStorage和SessionStorage在现代Web应用开发中，经常需要在用户的浏览器端存储数据，以实现用户状态管理、个性化设置、离线功能等。浏览器为此提供了几种主要的客户端存储机制，其中Cookie、LocalStorage和SessionStorage是最常用且核心的三种。虽然它们都用于在浏览器端存储数据，但它们在设计目的、生命周期、作
浏览器存储机制解析：Cookie vs localStorage vs sessionStorage neon1204 计算机｜网络计算机网络缓存
全面对比：cookie、localStorage和sessionStorage1.Cookie核心作用：用于浏览器和服务器通信（如身份验证）存储大小：最多4KB生命周期：可设置过期时间（通过Expires或Max-Age）未设置则随浏览器会话结束失效访问方式：读/写：document.cookie（字符串形式）修改需手动字符串拼接通信特性：每次HTTP请求自动携带（通过请求头）增加网络负担安全相关
计算机基础和Java编程的练习题柳依依@ Java入门 java 开发语言
1.计算机的核心硬件是什么？各自有什么用？中央处理器（CPU）：负责执行程序中的指令，进行算术和逻辑运算，是计算机的“大脑”。内存（RAM）：临时存储CPU正在处理的程序和数据，速度快但断电后数据丢失。硬盘（HDD/SSD）：永久存储操作系统、应用程序和用户数据，断电后数据不丢失。主板：连接所有硬件组件，提供数据传输的通道。显卡（GPU）：负责图形渲染，将数字信号转换为图像显示在屏幕上。电源：为计
oracle 归档日志与RECOVERY_FILE_DEST 视图是桃萌萌鸭~ oracle 数据库
1.RECOVERY_FILE_DEST视图的作用RECOVERY_FILE_DEST是Oracle数据库用于管理快速恢复区（FastRecoveryArea,FRA）的一个视图。FRA是Oracle提供的一种集中存储恢复相关文件（如归档日志、备份文件、闪回日志等）的区域。RECOVERY_FILE_DEST视图的主要作用显示快速恢复区的路径和状态：快速恢复区的配置路径。快速恢复区的总大小和当前使
Oracle 导入导出 dmp 数据文件实战 dazhong2012 数据库 oracle 数据库
一、DMP文件基础知识1.DMP文件定义DMP（DataPumpDumpFile）是Oracle数据库专用的二进制格式文件，由expdp/impdp或旧版exp/imp工具生成。它包含数据库对象的元数据（表结构、索引等）和实际数据，是数据备份、迁移和恢复的核心载体。2.DMP文件结构文件头：记录Oracle版本、字符集、导出时间等元信息。数据段：存储表数据，按数据块组织，支持并行读写。索引段：加速
Club_IntelliMatch_Development_Guide Joseit python python pygame django flask
ClubIntelliMatch系统-全栈开发流程文档概述ClubIntelliMatch系统是一个现代化的社团活动智能匹配平台，采用前后端分离架构。系统基于PythonFlask构建RESTfulAPI后端，Vue.js3+Vite构建现代化前端，MySQL作为持久化数据存储。本文档深入分析了整个开发流程的技术架构、设计原则和实现细节。系统架构流程图后端API架构前端组件架构app.pyFlas
Oracle 临时表空间相关操作 dazhong2012 数据库 oracle 数据库
一、临时表空间概述临时表空间（TemporaryTablespace）是Oracle数据库中用于存储临时数据的特殊存储区域，其数据在会话结束或事务提交后自动清除，重启数据库后彻底消失。主要用途包括：存储排序操作（如ORDERBY）的中间结果支持哈希连接（HashJoin）等复杂查询索引创建时的临时数据存储核心特点：数据非永久性，关闭数据库后自动删除不能存储永久性对象（如表、视图）独立于永久表空间管
Java实现简易即时通讯系统程序员皮皮林 Java java
我们想要实现一个类似QQ的即时通讯程序。由于这是一个复杂的项目，我们将分步骤进行，并只实现核心功能。核心功能包括：1.用户注册与登录2.添加好友3.发送消息（点对点）4.接收消息我们将使用Socket编程来实现。为了简化，我们不使用数据库，而是使用文件存储用户信息和好友关系。我们将创建两个主要部分：服务器和客户端。服务器端：-处理用户注册、登录请求-管理用户连接（在线状态）-转发消息客户端：-提供
短视频运营怎样提高视频剪辑效率？矩阵营销老黄新媒体运营流量运营营销剪辑
提高短视频剪辑效率的核心在于将“智能工具”融入全流程管理，并建立标准化操作体系。一、前期策划与素材管理1.AI爆款脚本拆解使用视频宝AI生成模版功能，精准查询全网爆款视频，拆解爆款脚本结构，自动分离视频、音频、字幕，避免盲目剪辑。2.素材管理按标签化管理素材（如“产品特写逆光”“口播惊叹句12种版本”），上传云端储存，组织内部各成员都能在线共享素材。还可以自行储备大量无版权空镜素材，存储时添加“季
深入了解数据库领域行式存储的架构设计数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库 ai
深入了解数据库领域行式存储的架构设计关键词：行式存储、数据库架构、OLTP、存储引擎、行记录格式摘要：本文将以“行式存储”为核心，从生活场景切入，逐步拆解数据库行式存储的底层架构设计。我们将通过“图书馆藏书”的趣味比喻、具体代码示例和真实数据库（如MySQLInnoDB）的实践案例，深入理解行式存储的核心原理、适用场景及未来趋势，帮助读者建立对数据库存储架构的系统认知。背景介绍目的和范围数据库是现
Git 学习笔记笑衬人心。 git 学习笔记
Git简介Git是一个分布式版本控制系统，用于跟踪文件更改，协作开发软件项目。特点：分布式：每个开发者本地都有完整仓库。高效：分支和合并操作快速。安全：数据通过哈希存储，不易被篡改。安装GitWindows:下载地址：https://git-scm.com/安装后可使用GitBash。macOS:brewinstallgitLinux:sudoaptupdatesudoaptinstallgitG
Python操作百度网盘指南 weixin_47233946 编程 python 开发语言
##介绍百度网盘是中国流行的云存储服务，通过API可以实现自动化操作。本指南介绍如何使用Python操作百度网盘，包括上传、下载、管理文件等功能。##准备工作###1.获取百度网盘开发者权限1.访问[百度开发者中心](https://pan.baidu.com/union/home)2.注册开发者账号并创建应用3.获取API密钥（AppKey和SecretKey）###2.安装必要的Python库
Spring Boot进阶(108)：这年头不会还有谁没碰过minio的吧？这可太... bug菌¹ 滚雪球学SpringBoot spring boot 集成minio minio 文件存储
本文收录于「滚雪球学SpringBoot」专栏，手把手带你零基础入门SpringBoot，从入门到就业，助你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：前言：文件存储那些“坑”，你踩过几个？MinIO是什么？MinIO的“秘密武器”为什么选择MinIO？MinIO能给你什么？MinIO核心概念MinIO客户端实操创建bucket测试文件上传设
什么是 MongoDB？它的主要特点有哪些？真IT布道者 android
一、MongoDB概述MongoDB是一个开源的、面向文档的NoSQL数据库系统，由MongoDBInc.公司开发并维护。它采用BSON（BinaryJSON）格式存储数据，属于分布式文档数据库的类别。关键结论：MongoDB通过灵活的文档模型、水平扩展能力和丰富的查询功能，成为现代应用开发中最流行的NoSQL数据库之一。二、核心架构特点1.文档数据模型MongoDB使用文档（Document）作
嵌入式原理与应用篇---常见基础知识（9） Atticus-Orion 微处理器原理与应用篇上位机操作篇上位机知识篇网络微处理器原理与应用
冯诺伊曼计算机的组成部分及功能冯诺伊曼计算机的设计基于“存储程序”原理，其核心思想是将程序和数据以二进制形式存储在存储器中，由计算机自动执行。以下是各部分的功能及设计思路：一、运算器（ArithmeticLogicUnit,ALU）功能：负责执行算术运算（如加减乘除）和逻辑运算（如与、或、非），是计算机处理数据的核心部件。设计思路：通过逻辑门电路（如全加器、乘法器）实现基本运算，采用并行计算结构提
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
AIDeepSeekLe - Typecho AI摘要生成插件独立开发者阿乐原创人工智能数据库 ai AI写作
文章目录生成文章标题的方法标题优化技巧功能特点安装方法配置说明使用方法手动生成摘要自动生成摘要摘要显示插件优势框架设计核心文件工作流程数据存储常见问题生成文章标题的方法理解文章的核心主题和关键信息，确保标题能准确概括内容。分析目标读者群体，根据受众的兴趣和需求调整标题风格。使用简洁有力的词语，避免冗长或复杂的表达，保持标题清晰易懂。考虑使用疑问句或数字列表等吸引眼球的句式，增加标题的吸引力。标题优
Java 企业级 Jakarta EE 11 发布 ejinxian Java java 开发语言 Jakarta EE 11 java EE 11
标志着企业级Java在简化开发、提升开发人员生产力和整体性能方面的进步。主要亮点包括：现代化的测试兼容性工具包(TCK)、全新JakartaData规范的引入、对现有规范的重大更新以及对最新JavaLTS版本的支持，使开发人员能够充分利用Java21中的增强功能，包括虚拟线程JakartaData在简化企业应用程序持久化逻辑方面迈出了重要一步。主要功能包括：BasicRepository：基础存储
GTID（Global Transaction Identifier，全局事务标识符）：MySQL 主从复制的核心机制心灵星图运维 mysql 数据库
GTID（GlobalTransactionIdentifier，全局事务标识符）是MySQL数据库在主从复制中引入的核心机制，用于唯一标识全局事务，简化复制管理和故障转移流程。其核心概念与工作机制如下：一、GTID的定义与组成基本结构GTID由两部分构成：source_id:transaction_id。source_id：即MySQL实例的唯一标识server_uuid（首次启动时生成，存储在
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。