潇洒哥来啦

ceph节点journal盘更换

zabbix监控报警一台ceph节点journal盘写入寿命已经达到96%以上，根据intel官方说法写入寿命达到设置值将会无法正常写入。PercentageUsed : 97

[root@ceph-11 ~]# isdct show -sensor
PowerOnHours : 0x021B5
EraseFailCount : 0
EndToEndErrorDetectionCount : 0
ReliabilityDegraded : False
AvailableSpare : 100
AvailableSpareBelowThreshold : False
DeviceStatus : Healthy
SpecifiedPCBMaxOperatingTemp : 85
SpecifiedPCBMinOperatingTemp : 0
UnsafeShutdowns : 0x08
CrcErrorCount : 0
AverageNandEraseCycles : 2917
MediaErrors : 0x00
PowerCycles : 0x0C
ProgramFailCount : 0
MaxNandEraseCycles : 2922
HighestLifetimeTemperature : 57
PercentageUsed : 97
ThermalThrottleStatus : 0
ErrorInfoLogEntries : 0x00
MinNandEraseCycles : 2913
LowestLifetimeTemperature : 23
ReadOnlyMode : False
ThermalThrottleCount : 0
TemperatureThresholdExceeded : False
Temperature - Celsius : 50

有12个osd用这块盘做的日志

[root@ceph-11 ~]# lsblk 
NAME         MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda            8:0    0   5.5T  0 disk 
└─sda1         8:1    0   5.5T  0 part /var/lib/ceph/osd/ceph-87
sdb            8:16   0   5.5T  0 disk 
└─sdb1         8:17   0   5.5T  0 part /var/lib/ceph/osd/ceph-88
sdc            8:32   0   5.5T  0 disk 
└─sdc1         8:33   0   5.5T  0 part /var/lib/ceph/osd/ceph-89
sdd            8:48   0   5.5T  0 disk 
└─sdd1         8:49   0   5.5T  0 part /var/lib/ceph/osd/ceph-90
sde            8:64   0   5.5T  0 disk 
└─sde1         8:65   0   5.5T  0 part /var/lib/ceph/osd/ceph-91
sdf            8:80   0   5.5T  0 disk 
└─sdf1         8:81   0   5.5T  0 part /var/lib/ceph/osd/ceph-92
sdg            8:96   0   5.5T  0 disk 
└─sdg1         8:97   0   5.5T  0 part /var/lib/ceph/osd/ceph-93
sdh            8:112  0   5.5T  0 disk 
└─sdh1         8:113  0   5.5T  0 part /var/lib/ceph/osd/ceph-94
sdi            8:128  0   5.5T  0 disk 
└─sdi1         8:129  0   5.5T  0 part /var/lib/ceph/osd/ceph-95
sdj            8:144  0   5.5T  0 disk 
└─sdj1         8:145  0   5.5T  0 part /var/lib/ceph/osd/ceph-96
sdk            8:160  0   5.5T  0 disk 
└─sdk1         8:161  0   5.5T  0 part /var/lib/ceph/osd/ceph-97
sdl            8:176  0   5.5T  0 disk 
└─sdl1         8:177  0   5.5T  0 part /var/lib/ceph/osd/ceph-98
sdm            8:192  0 419.2G  0 disk 
└─sdm1         8:193  0 419.2G  0 part /
nvme0n1      259:0    0 372.6G  0 disk 
├─nvme0n1p1  259:1    0    30G  0 part 
├─nvme0n1p2  259:2    0    30G  0 part 
├─nvme0n1p3  259:3    0    30G  0 part 
├─nvme0n1p4  259:4    0    30G  0 part 
├─nvme0n1p5  259:5    0    30G  0 part 
├─nvme0n1p6  259:6    0    30G  0 part 
├─nvme0n1p7  259:7    0    30G  0 part 
├─nvme0n1p8  259:8    0    30G  0 part 
├─nvme0n1p9  259:9    0    30G  0 part 
├─nvme0n1p10 259:10   0    30G  0 part 
├─nvme0n1p11 259:11   0    30G  0 part 
└─nvme0n1p12 259:12   0    30G  0 part 
[root@ceph-11 ~]#

1，降低osd优先级
在大部分故障场景, 我们需要关机操作, 为了让用户无感知, 我们需要提前降低待操作的节点的优先级。首先看下ceph版本号，ceph版本为10.x. 我们启用了primary-affinity支持, 用户的io请求会先转给primary pg处理. 然后写入其他replica(副本).。先找出host ceph-11对应的osd，然后把这些osd的primary-affinity设为0, 意思就是上面的pg除非其他副本挂了, 否则不应该成为主pg.

   -12  65.47299     host ceph-11                                   
    87   5.45599         osd.87        up  1.00000          0.89999 
    88   5.45599         osd.88        up  0.79999          0.29999 
    89   5.45599         osd.89        up  1.00000          0.89999 
    90   5.45599         osd.90        up  1.00000          0.89999 
    91   5.45599         osd.91        up  1.00000          0.89999 
    92   5.45599         osd.92        up  1.00000          0.79999 
    93   5.45599         osd.93        up  1.00000          0.89999 
    94   5.45599         osd.94        up  1.00000          0.89999 
    95   5.45599         osd.95        up  1.00000          0.89999 
    96   5.45599         osd.96        up  1.00000          0.89999 
    97   5.45599         osd.97        up  1.00000          0.89999 
    98   5.45599         osd.98        up  0.89999          0.89999

将osd87到98优先级设置为0
for osd in {87..98}; do ceph osd primary-affinity "$osd" 0; done

使用ceph osd tree可以看到对应的节点设置

   -12  65.47299     host ceph-11                                   
    87   5.45599         osd.87        up  1.00000                0 
    88   5.45599         osd.88        up  0.79999                0 
    89   5.45599         osd.89        up  1.00000                0 
    90   5.45599         osd.90        up  1.00000                0 
    91   5.45599         osd.91        up  1.00000                0 
    92   5.45599         osd.92        up  1.00000                0 
    93   5.45599         osd.93        up  1.00000                0 
    94   5.45599         osd.94        up  1.00000                0 
    95   5.45599         osd.95        up  1.00000                0 
    96   5.45599         osd.96        up  1.00000                0 
    97   5.45599         osd.97        up  1.00000                0 
    98   5.45599         osd.98        up  0.89999                0

2，禁止踢出节点
ceph osd set noout

默认情况下, osd长时间无响应则会被自动踢出集群, 从而触发数据迁移. 关机更换ssd操作时间较长, 为了避免数据无意义地来回迁移, 我们需要临时禁止集群自动踢osd，使用ceph -s检查是否配置完成。可以看到集群状态变为WARN, 额外提示说noout flag被设置了, 而且flags这样多了一项

[root@ceph-11 ~]# ceph -s
    cluster 936a5233-9441-49df-95c1-01de82a192f4
     health HEALTH_WARN
            noout flag(s) set
     monmap e5: 6 mons at {ceph-1=100.100.200.201:6789/0,ceph-2=100.100.200.202:6789/0,ceph-3=100.100.200.203:6789/0,ceph-4=100.100.200.204:6789/0,ceph-5=100.100.200.205:6789/0,ceph-6=100.100.200.206:6789/0}
            election epoch 406, quorum 0,1,2,3,4,5 ceph-1,ceph-2,ceph-3,ceph-4,ceph-5,ceph-6
      fsmap e94: 1/1/1 up {0=ceph-1=up:active}, 1 up:standby
     osdmap e73511: 111 osds: 108 up, 108 in
            flags noout,sortbitwise,require_jewel_osds
      pgmap v85913863: 5064 pgs, 24 pools, 89164 GB data, 12450 kobjects
            261 TB used, 141 TB / 403 TB avail
                5060 active+clean
                   4 active+clean+scrubbing+deep
  client io 27608 kB/s rd, 59577 kB/s wr, 399 op/s rd, 668 op/s wr

3，检查pg是否完成切换

[root@ceph-11 ~]# ceph pg ls | grep "\[9[1-8],"
13.24   5066    0   0   0   0   41480507922 3071    3071    active+clean    2019-07-02 19:33:37.537802  73497'120563162 73511:110960694 [94,25,64]  94  [94,25,64]  94  73497'120562718 2019-07-02 19:33:37.537761  73294'120561198 2019-07-01 18:11:54.686413
13.10f  4874    0   0   0   0   39967832064 3083    3083    active+clean    2019-07-01 23:56:13.911259  73511'59603193  73511:52739094  [91,44,38]  91  [91,44,38]  91  73302'59589396  2019-07-01 23:56:13.911226  69213'59545762019-06-26 22:58:12.864475
13.17d  5001    0   0   0   0   40919228578 3088    3088    active+clean    2019-07-02 13:51:04.162137  73511'34680543  73511:26095334  [96,45,72]  96  [96,45,72]  96  73497'34678725  2019-07-02 13:51:04.162089  70393'34676042019-07-01 08:47:58.771910
13.20d  4872    0   0   0   0   40007166482 3036    3036    active+clean    2019-07-03 07:40:28.677097  73511'27811217  73511:22372286  [93,85,73]  93  [93,85,73]  93  73497'27809831  2019-07-03 07:40:28.677059  73302'27796622019-07-01 23:15:14.731237
13.214  5006    0   0   0   0   40940654592 3079    3079    active+clean    2019-07-02 21:10:51.094829  73511'34400529  73511:27161705  [94,61,53]  94  [94,61,53]  94  73497'34398612  2019-07-02 21:10:51.094784  73294'34393962019-07-01 18:54:06.249357
13.2fd  4950    0   0   0   0   40522633728 3086    3086    active+clean    2019-07-02 06:36:14.763435  73511'149011011 73511:136693896 [91,58,36]  91  [91,58,36]  91  73497'148963815 2019-07-02 06:36:14.763383  73497'148963815 2019-07-02 06:36:14.763383
13.3ae  4989    0   0   0   0   40879544320 3055    3055    active+clean    2019-07-02 00:30:44.817062  73511'67827999  73511:60578765  [91,54,25]  91  [91,54,25]  91  73302'67806651  2019-07-02 00:30:44.817017  69213'67776352

主pg不肯走啊，既然这样那就不管它了，我们前面已经设置禁止踢出节点，且我们用的是三副本，直接关闭这台机器ceph会启用副本，也不会出现数据迁移。
一个存储3份的集群, 可以容忍任意两个主机故障.，所以你需要确保已经关机的节点数量不要超出限制. 以免引发更大的故障.

4，停止服务、关闭服务器、更换ssd
新换上去的ssd使用率为0，PercentageUsed : 0

[root@ceph-11 ~]# isdct show -sensor

PowerOnHours : 0x063F3
EraseFailCount : 0
EndToEndErrorDetectionCount : 0
ReliabilityDegraded : False
AvailableSpare : 100
AvailableSpareBelowThreshold : False
DeviceStatus : Healthy
SpecifiedPCBMaxOperatingTemp : 85
SpecifiedPCBMinOperatingTemp : 0
UnsafeShutdowns : 0x00
CrcErrorCount : 0
AverageNandEraseCycles : 7
MediaErrors : 0x00
PowerCycles : 0x012
ProgramFailCount : 0
MaxNandEraseCycles : 10
HighestLifetimeTemperature : 48
PercentageUsed : 0
ThermalThrottleStatus : 0
ErrorInfoLogEntries : 0x00
MinNandEraseCycles : 6
LowestLifetimeTemperature : 16
ReadOnlyMode : False
ThermalThrottleCount : 0
TemperatureThresholdExceeded : False
Temperature - Celsius : 48

5，插入新的磁盘为nvme0n1

[root@ceph-11 ~]# lsblk 
NAME    MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda       8:0    0   5.5T  0 disk 
└─sda1    8:1    0   5.5T  0 part /var/lib/ceph/osd/ceph-87
sdb       8:16   0   5.5T  0 disk 
└─sdb1    8:17   0   5.5T  0 part /var/lib/ceph/osd/ceph-88
sdc       8:32   0   5.5T  0 disk 
└─sdc1    8:33   0   5.5T  0 part /var/lib/ceph/osd/ceph-89
sdd       8:48   0   5.5T  0 disk 
└─sdd1    8:49   0   5.5T  0 part /var/lib/ceph/osd/ceph-90
sde       8:64   0   5.5T  0 disk 
└─sde1    8:65   0   5.5T  0 part /var/lib/ceph/osd/ceph-91
sdf       8:80   0   5.5T  0 disk 
└─sdf1    8:81   0   5.5T  0 part /var/lib/ceph/osd/ceph-92
sdg       8:96   0   5.5T  0 disk 
└─sdg1    8:97   0   5.5T  0 part /var/lib/ceph/osd/ceph-93
sdh       8:112  0   5.5T  0 disk 
└─sdh1    8:113  0   5.5T  0 part /var/lib/ceph/osd/ceph-94
sdi       8:128  0   5.5T  0 disk 
└─sdi1    8:129  0   5.5T  0 part /var/lib/ceph/osd/ceph-95
sdj       8:144  0   5.5T  0 disk 
└─sdj1    8:145  0   5.5T  0 part /var/lib/ceph/osd/ceph-96
sdk       8:160  0   5.5T  0 disk 
└─sdk1    8:161  0   5.5T  0 part /var/lib/ceph/osd/ceph-97
sdl       8:176  0   5.5T  0 disk 
└─sdl1    8:177  0   5.5T  0 part /var/lib/ceph/osd/ceph-98
sdm       8:192  0 419.2G  0 disk 
└─sdm1    8:193  0 419.2G  0 part /
nvme0n1 259:0    0 372.6G  0 disk

6，重建journal
由于journal故障, 开机后无法正常启动osd. 需要重新创建journal，编辑脚本来生成最终执行的脚本。

#!/bin/bash
desc="create ceph journal part for specified osd."

type_journal_uuid=45b0969e-9b03-4f30-b4c6-b4b80ceff106
sgdisk=sgdisk
journal_size=30G  //分区设置大小
journal_dev=/dev/nvme0n1 //ssd磁盘名称
sleep=5

osd_uuids=$(grep "" /var/lib/ceph/osd/ceph-*/journal_uuid 2>/dev/null)
die(){ echo >&2 "$@"; exit 1; }
tip(){ printf >&2 "%b" "$@"; }

[ "$osd_uuids" ] || die "no osd uuid found."
echo "osd journal uuid:"
echo "$osd_uuids"
echo "now sleep $sleep"
sleep $sleep

journal_script="/dev/shm/ceph-journal.sh"
echo "ls -l /dev/nvme0n1p*" > "$journal_script"
echo "sleep 5" >> "$journal_script"
# 需要预先检测分区的位置. 然后才能成功设置名称和uuid之类的数据.
IFS=": "
while read osd_path uuid; do
  let d++
  [ "$osd_path" ] || continue
  osd_id=${osd_path#/var/lib/ceph/osd/ceph-}
  osd_id=${osd_id%/journal_uuid}
  journal_link=${osd_path%_uuid}
  [ ${osd_id:-1} -ge 0 ] || {
    echo "invalid osd id: $osd_id."; exit 11;
  }
  tip "create journal for osd $osd_id ... "
  $sgdisk --mbrtogpt --new=$d:0:+"$journal_size" \
    --change-name=$d:'ceph journal' \
   --typecode=$d:"$type_journal_uuid" \
   --partition-guid=$d:"$uuid" \
   "$journal_dev" || exit 1
  tip "part done.\n"
  ln -sfT /dev/disk/by-partuuid/"$uuid" "$journal_link" || exit 3
  echo "ceph-osd --mkjournal --osd-journal /dev/nvme0n1p"$d "-i "$osd_id >> "$journal_script"
  sleep 1
done << EOF
$osd_uuids
EOF

上述脚本仅用于生成最终的执行脚本. 其默认路径是
/dev/shm/ceph-journal.sh
请务必人工确认内容操作无误, 方可以root权限手动执行之
[root@ceph-11~]# bash /dev/shm/ceph-journal.sh
脚本内容：

[root@ceph-11 ~]# cat /dev/shm/ceph-journal.sh 
#!/bin/bash
ls -l /dev/nvme0n1p*
sleep 5
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p1 -i 87
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p2 -i 88
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p3 -i 89
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p4 -i 90
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p5 -i 91
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p6 -i 92
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p7 -i 93
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p8 -i 94
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p9 -i 95
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p10 -i 96
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p11 -i 97
ceph-osd --mkjournal --osd-journal /dev/nvme0n1p12 -i 98
[root@ceph-11 ~]#

7，journal跟换完毕，检查恢复服务
osd服务已恢复

[root@ceph-11 ~]# ceph osd tree
ID     WEIGHT    TYPE NAME        UP/DOWN REWEIGHT PRIMARY-AFFINITY 
-10008         0 root sas6t3                                        
-10007         0 root sas6t2                                        
-10006 130.94598 root sas6t1                                        
   -12  65.47299     host ceph-11                                   
    87   5.45599         osd.87        up  1.00000                0 
    88   5.45599         osd.88        up  0.79999                0 
    89   5.45599         osd.89        up  1.00000                0 
    90   5.45599         osd.90        up  1.00000                0 
    91   5.45599         osd.91        up  1.00000                0 
    92   5.45599         osd.92        up  1.00000                0 
    93   5.45599         osd.93        up  1.00000                0 
    94   5.45599         osd.94        up  1.00000                0 
    95   5.45599         osd.95        up  1.00000                0 
    96   5.45599         osd.96        up  1.00000                0 
    97   5.45599         osd.97        up  1.00000                0 
    98   5.45599         osd.98        up  0.89999                0

恢复osd flag，需要把干预期间的其他操作全部恢复
ceph osd unset noout

恢复osd优先级

[root@ceph-11 ~]# for osd in {87..98}; do ceph osd primary-affinity "$osd" 0.8; done
set osd.87 primary-affinity to 0.8 (8524282)
set osd.88 primary-affinity to 0.8 (8524282)
set osd.89 primary-affinity to 0.8 (8524282)
set osd.90 primary-affinity to 0.8 (8524282)
set osd.91 primary-affinity to 0.8 (8524282)
set osd.92 primary-affinity to 0.8 (8524282)
set osd.93 primary-affinity to 0.8 (8524282)
set osd.94 primary-affinity to 0.8 (8524282)
set osd.95 primary-affinity to 0.8 (8524282)
set osd.96 primary-affinity to 0.8 (8524282)
set osd.97 primary-affinity to 0.8 (8524282)
set osd.98 primary-affinity to 0.8 (8524282)
[root@ceph-11 ~]#

等待集群恢复
等待集群自动recovery恢复到 HEALHTH_OK 状态.
期间如果出现 HEALTH_ERROR 状态, 可以及时跟进, 搜索Google.

[root@ceph-11 ~]# ceph -s
    cluster 936a5233-9441-49df-95c1-01de82a192f4
     health HEALTH_WARN
            12 pgs degraded
            2 pgs recovering
            10 pgs recovery_wait
            12 pgs stuck unclean
            recovery 116/38259009 objects degraded (0.000%)
     monmap e5: 6 mons at {ceph-1=100.100.200.201:6789/0,ceph-2=100.100.200.202:6789/0,ceph-3=100.100.200.203:6789/0,ceph-4=100.100.200.204:6789/0,ceph-5=100.100.200.205:6789/0,ceph-6=100.100.200.206:6789/0}
            election epoch 406, quorum 0,1,2,3,4,5 ceph-1,ceph-2,ceph-3,ceph-4,ceph-5,ceph-6
      fsmap e94: 1/1/1 up {0=ceph-1=up:active}, 1 up:standby
     osdmap e73609: 111 osds: 108 up, 108 in
            flags sortbitwise,require_jewel_osds
      pgmap v85918476: 5064 pgs, 24 pools, 89195 GB data, 12454 kobjects
            261 TB used, 141 TB / 403 TB avail
            116/38259009 objects degraded (0.000%)
                5049 active+clean
                  10 active+recovery_wait+degraded
                   3 active+clean+scrubbing+deep
                   2 active+recovering+degraded
recovery io 22105 kB/s, 4 objects/s
  client io 55017 kB/s rd, 77280 kB/s wr, 944 op/s rd, 590 op/s wr
[root@ceph-11 ~]# 
[root@ceph-11 ~]# ceph -s
    cluster 936a5233-9441-49df-95c1-01de82a192f4
     health HEALTH_WARN
            1 pgs degraded
            1 pgs recovering
            1 pgs stuck unclean
            recovery 2/38259009 objects degraded (0.000%)
     monmap e5: 6 mons at {ceph-1=100.100.200.201:6789/0,ceph-2=100.100.200.202:6789/0,ceph-3=100.100.200.203:6789/0,ceph-4=100.100.200.204:6789/0,ceph-5=100.100.200.205:6789/0,ceph-6=100.100.200.206:6789/0}
            election epoch 406, quorum 0,1,2,3,4,5 ceph-1,ceph-2,ceph-3,ceph-4,ceph-5,ceph-6
      fsmap e94: 1/1/1 up {0=ceph-1=up:active}, 1 up:standby
     osdmap e73609: 111 osds: 108 up, 108 in
            flags sortbitwise,require_jewel_osds
      pgmap v85918493: 5064 pgs, 24 pools, 89195 GB data, 12454 kobjects
            261 TB used, 141 TB / 403 TB avail
            2/38259009 objects degraded (0.000%)
                5060 active+clean
                   3 active+clean+scrubbing+deep
                   1 active+recovering+degraded
  client io 81789 kB/s rd, 245 MB/s wr, 1441 op/s rd, 651 op/s wr
[root@ceph-11 ~]# ceph -s
    cluster 936a5233-9441-49df-95c1-01de82a192f4
     health HEALTH_OK
     monmap e5: 6 mons at {ceph-1=100.100.200.201:6789/0,ceph-2=100.100.200.202:6789/0,ceph-3=100.100.200.203:6789/0,ceph-4=100.100.200.204:6789/0,ceph-5=100.100.200.205:6789/0,ceph-6=100.100.200.206:6789/0}
            election epoch 406, quorum 0,1,2,3,4,5 ceph-1,ceph-2,ceph-3,ceph-4,ceph-5,ceph-6
      fsmap e94: 1/1/1 up {0=ceph-1=up:active}, 1 up:standby
     osdmap e73609: 111 osds: 108 up, 108 in
            flags sortbitwise,require_jewel_osds
      pgmap v85918494: 5064 pgs, 24 pools, 89195 GB data, 12454 kobjects
            261 TB used, 141 TB / 403 TB avail
                5061 active+clean
                   3 active+clean+scrubbing+deep
recovery io 7388 kB/s, 0 objects/s
  client io 67551 kB/s rd, 209 MB/s wr, 1153 op/s rd, 901 op/s wr
[root@ceph-11 ~]#

集群状态已经恢复正常。

【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
ceph KVM使用rbd做存储 SkTj
博客：https://blog.csdn.net/bobpen/article/details/40112939博客：http://www.aboutyun.com/thread-13195-1-1.html导言很多cepher都会使用RBD块存储功能，下面介绍qemu-kvm访问RBD的方法。操作目前Ubuntu14.04.x和CentOS7.1(如使用CentOS7建议升级到7.1，CentO
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
实习期佳佳_7150
能在广州CBD渡过实习3个星期，这个体验很特别。保利·克洛维平时在图书馆坐累了，喜欢到吸烟区站站，发发呆。吸烟区图片发自App学习状态实习第三天连journalclub是什么都不知道的我，第一次。相信第二次我会做的好些。虽然比同组同学来说我是认真的，但是自我评价还是不好。第一次journalclub最近经常被我霸占的公共区域。一坐三个小时，不上厕所，不动，不吃饭。公寓公共区域导师一直叫我们写反思日
Ubuntu 开机出现 recovering journal 无法进入图形界面解决流程(不通用，自用) Artintel 学习 ubuntu
远程连接进入命令行：rm-rf/etc/X11/xorg.confcp/etc/X11/xorg.conf.failsafe/etc/X11/xorg.confsudoservicelightdmstopsudoapt-getremovenvidia*cdjohn/qudong+cuda9.0\+\cudnn/sudochmoda+xnv.runsudo./nv.run-no-x-check-no
【mysql】mysql之优化向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
python 物理引擎摩擦力_Python物理引擎简单的艾伦 python 物理引擎摩擦力
Python的强大源自众多领域大牛的支持，例如物理引擎方面，就有N多模块支持PyODEPyODEisasetofopen-sourcePythonbindingsforTheOpenDynamicsEngine,anopen-sourcephysicsengine.PyMunkpymunkisaeasy-to-usepythonic2dphysicslibrarythatcanbeusedwhen
如何解决Docker启动时报Status: unknown flag: --graph问题满天点点星辰随手杂记 docker 容器
最近在进行Docker环境迁移时，用二制对Docker进行了重新安装，一切配置好之后，启动Docker时，服务启动不起来，使用journalctl-xe命令查看，报出以下错误：[root@appdocker]#journalctl-xe8月2514:25:46appdockerd[3269]:Status:unknownflag:--graph8月2514:25:46appdockerd[3269
linux 查看文本或者日志的命令 XMYX-0 Centos命令使用 linux 服务器
文章目录linux查看文本或者日志的命令`cat`命令示例：`tac`命令示例：`less`命令示例：`more`命令示例：`head`命令示例：`tail`命令示例：`grep`命令示例：`awk`和`sed`示例：使用`awk`提取日志中的时间和错误信息示例：使用`sed`查找并替换日志中的特定字符串`watch`命令示例：`dmesg`命令示例：`journalctl`命令示例：查看系统启动
k8s 存储(PV、PVC、SC、本地存储、NFS) 大江东去了吗 kubernetes java linux
存储持久化相关三个概念:PersistentVolume(PV)是对具体存储资源的描述，比如NFS、Ceph、GlusterFS等，通过PV可以访问到具体的存储资源;PersistentVolumeClaim(PVC)Pod想要使用具体的存储资源需要对接到PVC，PVC里会定义好Pod希望使用存储的属性，通过PVC再去申请合适的存储资源(PV)，匹配到合适的资源后PVC和PV会进行绑定，它们两者是
Linux RPC调用的介绍 airekans Linux 资料 linux reference
Reference:http://www.linuxjournal.com/article/2204?page=0,0
cephadm搭建ceph文件集群存储 L__liurs 服务器
一、基础配置1、配置主机名[root@ecs-cd34~]hostnamectlset-hostnamenode1[root@ecs-cd34~]execbash#主机名生效2、配置hosts解析（根据自己的服务器id修改）cat>>/etc/hosts/etc/docker/daemon.json<
存储集群消除pg数量过多的告警大大金 ceph
[root@xxxxxxxxxxxxxx~]#ceph-scluster334cfe7e-9ccc-483d-8d2c-218fde3a5fdehealthHEALTH_WARNtoomanyPGsperOSD(307>max300)nodeep-scrubflag(s)setmonmape1:3monsat{node1=100.88.28.11:6789/0,node2=100.88.28.12
linux搭建ceph集群浓黑的daidai linux ceph 服务器
linux三节点搭建ceph集群主机IP主机名称172.26.50.75node1172.26.50.112node2172.26.50.228node3ceph-mon，ceph-mgr，ceph-mds都搭建在node1上，node2和node3上搭建ceph-osd，每个机器1个osdCeph是一个分布式的存储系统，可以在统一的系统中提供唯一的对象、块和文件存储，Ceph的大致组件如下：1.
3. ceph-mimic版本部署 Martin_wjc 7 存储 ceph chrome 前端
ceph-mimic版本部署一、ceph-mimic版本部署1、环境规划2、系统基础环境准备2.1关闭防火墙、SELinux2.2确保所有主机时间同步2.3所有主机ssh免密2.4添加所有主机解析3、配置ceph软件仓库4、安装ceph-deploy工具5、ceph集群初始化6、所有ceph集群节点安装相关软件7、客户端安装ceph-common软件8、在ceph集群中创建cephmonitor组
upmap的存储池osd坏盘处理问题奋斗的松鼠 ceph
写在前面喜欢ceph的话欢迎关注奋斗的cepher微信公众号阅读更多好文！在《坏盘处理时osd为什么不要rm》文章中，松鼠哥对比了多组各种osd处理与数据的情况，有一个细节，那就是如果osd在重建前后要保持pg映射的一致性，那么存储池做均衡使用的是crush-compat模式，同时有读者老铁留言，说当存储池使用了upmap模式做存储池均衡的话，osd重建前后将不能保持相同的pg映射。因为松鼠哥对存
sqlite3 相关知识杨筱毅 sqlite 数据库 c++
WAL模式VS回滚模式特性WAL模式回滚模式（RollbackJournal）定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能；支持多读者和单写者。支持安全的事务回滚，但并发性较低。性能写入性能更好，尤其是读多写少的场景。写操作会造成较大的性能开销，尤其是在事务开始时。写入流程数据首先写入WAL文件，然后才从WAL刷新到主数据库。数据在开始事务时写入日志文件，完
面向可信和节能的雾计算医疗决策支持系统的优化微型机器学习与可解释人工智能神一样的老师论文阅读分享人工智能
这篇论文的标题为《OptimizedTinyMachineLearningandExplainableAIforTrustableandEnergy-EfficientFog-EnabledHealthcareDecisionSupportSystem》，发表在《InternationalJournalofComputationalIntelligenceSystems》2024年第17卷，由R.
Computers & Security 投稿时间线记录梦魇大英雄笔记
1、2024年8月22日SubmittedtoJournal2、2024年8月22日WithEditor3、2024年8月25日UnderReview
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十四）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十九）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十三）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ceph rgw：bucket policy实现牛牛Blog Ceph ceph rgw bucket policy实现
cephrgw：bucketpolicy实现相比于aws，rgw的bucketpolicy实现的还不是很完善，有很多细节都不支持，并且已支持的特性也在很多细节方面与s3不同，尤其是因为rgw不支持类似s3的accountuser结构，而使用tenant作为替代而导致的一些不同。并且在文档中还提及，为了修正这种不同，以及支持更多特性，在不久后会重写rgw的Authentication/Authori
ceph rgw java_ceph rgw multisite基本用法 weixin_39587113 ceph rgw java
Realm：Zonegroup：理解为数据中心，由一个或多个Zone组成，每个Realm有且仅有一个MasterZonegroup，用于处理系统变更，其他的称为SlaveZonegroup，元数据与MasterZonegroup保持一致；Zone:Zone是一个逻辑概念，包含一个或者多个RGW实例。每个Zonegroup有且仅有一个MasterZone，用于处理bucket和user等元数据变更。
一文读懂CEPH RGW基本原理 shichungang ceph 分布式大数据云计算
一文读懂CEPHRGW基本原理一、RGW简介二、RGW的组成结构三、Rgw用户信息四、BUCKET与对象索引信息五、RGW对象与RADOS对象的关系六、上传对象的处理流程七、RGW的双活机制八、RGW版本管理机制与CLS机制九、结语本文从RGW的基本原理出发，从整体上描述RGW的框架结构，突出关键结构之间的关联关系，从基础代码分析关键环节的实现细节，以达到清晰说明RGW模块“骨架”的效果。一、RG
mongodb 存引擎及配置阿兵云原生 mongo nosql 非关系型数据库后端 mongodb 数据库 nosql
上次我们分享到了wiredTiger引擎以及他对于以前默认的MMAPV1引擎的优势关于wiredTiger引擎配置这里补充一下：storage:journal:enabled: truedbPath: /data/xiaomotong/mongo1/directoryPerDB: trueengine: wiredTigerwiredTiger:engineConfig:cacheSizeGB:
全球排名前十的财经媒体世媒讯人工智能大数据 microsoft
本文为您介绍全球排名前十的财经新闻媒体，帮助您更好地选择适合自己品牌的新闻媒体平台。它们在财经领域享有广泛的知名度和影响力（排名不分先后）：1.TheWallStreetJournal（美国）《华尔街日报》（TheWallStreetJournal）是美国的一份主要商业和金融新闻报纸，由道琼斯公司（DowJones&Company）拥有和出版。《华尔街日报》被广泛认为是全球商业和金融领域最具权威和
HFM深入技术学习系列之四--调用API生成日记账 Flora_Fang HFM HFM java API SDK
概述本文描述使用HFM提供的SDK自动生成日记账介绍分为三个步骤1获得进入HFM的session2获得JournalOM3使用JournalOM保存日记账用到的包fmcommon.jarfm-web-objectmodel.jarhssutil.jar代码示例获取JournalOMISecurityManagertpMNG=HSSUtilManager.getSecurityManager();S
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

ceph节点journal盘更换

你可能感兴趣的:(ceph,journal,ceph)