运维面试题-1

基础
 1.你在上家公司都负责做什么?

 2.运维平时都做些什么?  日常工作都是做什么?配合开发做什么事?


 3.工作中常用到的Linux命令?
free -h/df -Th
uptime/w
top/htop/glances/iotop/iftop
tailf/tail -f
less/more/tail/head
awk/grep/sed/vim/find/rz/sz/tar/gzip/unzip/mv/mkdir/touch/cat/scp/cp等等。。

 4.Linux的状态如何查看及开启启动流程?
w/uptime/top
按电源---》开机bios自检查---》MBR引导---》Grub菜单选择---》加载内核---》启动第一个进程systemd---》选择运行级别---》显示tty登录界面

 5.你在工作中都写过什么脚本,详细几个脚本编写思路? Shell脚本如何加锁?
备份脚本、监控脚本、程序启动脚本、服务开机自启、代码上线脚本、模拟jumpserver跳板机功能、日志分析等

 6.生产碰到了什么问题,如何解决,如何规避。(处理了哪些故障)
案例一:线上数据库出现"Too many connections"
当时用户量约500人左右,在莫一天下午连续7个微信群全部反馈客户端登录出现“50016”,经过查看客户端日志发现db_errors字样,第一时间登录线上数据库,出现"Too many connections",心一凉,数据库链接数打满了,因数据库采用容器化部署,将链接数调整为3000,直接copy,重启sql容器,进去检查当时链接数不到300,这时客户端连接已正常,经过一系列排查日志分析,后端一个config模块出现疯狂连接db,这时联系研发将config二进制文件反馈后经过修复,一周后更新后台版本,目前暂无出现其他问题。

案例二:
 7.怎么查看两台服务器之间的网络是不是正常的,服务器是禁ping的?
telnet命令:https://www.cnblogs.com/davidwang456/p/11125111.html
nc
ssh

 8.网站数据量多大?
 9.你平时都做过哪些优化?
 10.给你一套环境,你会如何设计高可用、高并发的架构?(建议云和物理环境两个维度)
 11.说说你是怎么备份线上数据的,包括数据库备份?
 12.在做重大变更前,一般注意些什么? 
 13.你们公司服务器都运行了什么?有多少台服务器?
 14.现在希望外部人员能访问公司内部服务器,但内部没有任何公网IP,怎么办?
 15.Linux操作系统比较卡,查看哪些指标?什么原因导致的?用什么命令?
 16.当前cpu的使用率情况?
 17.查看当前机器上网络的数据流量?
 18.查看磁盘的读写IO情况?
 19.开发需要一套环境,你会做哪些初始化操作?有没有脚本可以做到?这个脚本里大概都有哪些内容?

Ansible
 1.你对Ansible了解吗?你在公司都用ansible做哪些事情?常用的模块是哪些?
 2.ansible有哪些使用技巧?
 3.为什么选择ansible而不是saltstack?
 4.你们对Ansible做过哪些优化?
 5.刚买来服务器怎么装的ansible?
 6.为什么选择asible不选择其他的部署工具?
 7.ansible如何执行playbook中的某一段TASK,不执行其他的TASK?
 8.Ansible中某个TASK执行时间非常长,需要耗费1小时,这种问题怎么处理呢?
 9.如何使用ansible批量修改200台主机的主机名称? (这道题主要是想考facts变量)

Nginx
 1.https在http的基础上添加了一个SSL层,使用https有哪些好处?
  全站HTTPS更安全、全站HTTPS更快速、全站HTTPS对搜索引擎更友好、全站HTTPS使网站显得更权威

 2.nginx ip_hash 解决会话保持,在内部IP访问会有问题?
  将客户端IPv4地址或整个IPv6地址的前三个八位字节用作哈希密钥。该方法确保来自同一客户端的请求将始终传递到同一服务器。
  那么如果使用内部局域网的话,局域网的IP取前三个八位字节的话,会出现不同的客户端主机始终传递到同一服务器。


Zabbix
 0.你们监控都监控了什么,监控是如何做的? 监控你们的告警是怎么做的,(分类,分级别);
 1.你们除了常规的监控项,有自定义的什么监控项吗?
 2.有没有处理过什么故障
 3.能不能跨网段发现主机呢?
 4.你们的告警收敛是怎样做的?(依赖)
 5.zabbix告警长时间运维不解决,有什么办法?
 6.zabbix经常出现网络抖动,出现误报,怎么办?
 7.zabbix如何修改监控的服务器内存阈值,比如正常内存80%报警,我想修改为60%报警?
 8.zabbix agent有几种工作模式?对应工作模式的原理是什么?哪种场景适合用于相应的工作模式?
  主动模式和被动模式都是针对zabbix-agent而言的,zabbix默认是被动模式,如果有100个监控项,被动模式需要zabbix-server找zabbix-agetn要100次,主动模式是zabbix-server给zabbix-agent发送一个任务清单,zabbix-agent根据任务清单,采集好100个监控项的值,主动汇报给zabbix-server,100个监控项,zabbix-agent主动模式只需要发送一次,大大提高了传输效率。
 10.zabbix分布式, proxy代理先把数据存放本地,然后传给server端, 这样做是为了防止网络波动,造成数据丢失, 那如何保证传输过程中网络的稳定啊?
  因为zabbixproxy与zabbixserver之间的连接是tcp,所以连接是可靠的,如果发生抖动丢包,tcp会有重传机制


Jenkins
 1.生产环境下如何批量升级?
 2.代码的发布和回滚,用jenkins又是怎么实现?

ELKStack
 1.你们的ELK总共有多少台服务器? ES为什么是3台呢?
 2.你们ELK的日志量多大?都采集哪些日志种类?
 3.你们的ES索引数据保留多久,如何定期清理?
 4.能否说一下ES集群路由原理(算法)、文档的创建原理?
 5.能说下ES集群的故障转移原理?

你可能感兴趣的:(运维面试题-1)