基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令

目录

    • 计算机网络
      • 网络分层⭐:应用层+传输层+网络层+数据链路层
        • 应用层=DNS+FTP+电子邮件协议+超文本传输协议
        • 运输层/传输层=UDP+TCP
        • 网络层:IP+ARP+ICMP+IGMP+路由选择协议
        • 数据链路层:PPP、CSMA/CD
        • 物理层:中继器和集线器
      • TCP⭐
        • UDP 和 TCP 的区别/详解TCP和UDP、运输层两种协议的不同⭐
        • TCP 报文结构
        • 自动重传请求 ARQ:停止等待协议、回退 N 步协议和选择重传协议
        • TCP 可靠原理 / 依赖自动重传协议中的滑动窗口协议GBN 和选择重传协议SR
        • 滑动窗口
        • 流量控制:接收窗口
        • 拥塞控制:慢启动、拥塞避免、快恢复
        • 三次握手:过程+原因⭐
        • 四次挥手:过程+原因⭐
      • HTTP ⭐
        • 非持续连接和持续连接
        • 报文格式:请求报文+响应报文 +状态码
        • GET和POST 的区别⭐
        • 输入一个 url 发生的事
        • cookie⭐:cookie与session区别
        • HTTPS⭐
      • 网络安全
        • 网络攻击:主动、被动攻击、恶意程序、拒绝服务、ARP欺骗
        • 密码技术⭐
        • 数字签名=报文鉴别+报文完整性+不可否认+合法⭐
        • 报文鉴别
        • 端点鉴别
        • 安全协议:网络层+运输层
        • 防火墙和入侵检测
      • 缓存⭐
        • 缓存更新策略:算法剔除 + 超时剔除 + 主动更新
      • 内容分发网络/CDN⭐
      • 负载均衡
    • 操作系统
      • 进程:火车,特征、状态、
        • 进程特征:动态、并发、独立和异步性
        • 进程状态:创建、就绪、运行、阻塞、结束
        • 进程控制:创建+终止+阻塞与唤醒+切换 的过程
        • 进程通信⭐:管道通信、消息队列、共享内存、信号量、套接字等
      • 线程
        • 线程和进程的区别⭐
        • 线程实现
      • 死锁⭐
        • 死锁的原因
        • 形成死锁的必要条件
        • 死锁处理:预防、避免、检测、解除
    • Java 基础
        • 语言特性及优点:平台无关⭐
        • JDK 和 JRE
        • 值调用和引用调用
        • 浅拷贝和深拷贝
        • 反射+Class类+注解+泛型
        • JDK8 新特性
        • 异常+Error和Exception区别
      • 数据类型
        • 基本数据类型+自动装箱、拆箱
        • String⭐:String、StringBuffer、StringBuilder
        • static关键字
      • 面向对象
        • 封装、继承、多态
        • 重载和重写
        • Object 类的基本方法⭐
        • 内部类:静态、成员、局部、匿名内部类
        • 访问权限控制符
        • 接口和抽象类
      • 集合
        • ArrayList⭐/数组
        • LinkedList⭐/链表
        • Set
        • TreeMap⭐
        • HashMap ⭐ :并发不安全的原因、扩容
      • Java共支持3种网络编程的I/O模型:BIO、NIO、AIO
      • IO流
      • 序列化
    • JVM
      • 内存区域划分/运行时数据区 ⭐:==程序计数器+Java虚拟机栈+本地方法栈==(线程私有)+==堆+方法区+运行时常量池==(线程共享)
        • 堆和栈的区别
        • 内存溢出和内存泄漏
        • OOM:堆内存不足+永久代+GC overhead + 方法栈溢出
        • StackOverFlowError/SOFE
      • 创建对象
        • 创建对象的过程⭐:1类加载检查+2分配内存+3初始化零值+4设置对象头+5执行init方法
        • 分配内存/内存分配
        • 内存布局:对象头+实例数据+对齐填充
      • 垃圾回收
        • 堆内存中对象分配与回收的基本策略:有限eden分配,大对象直接进入老年代,长期存活的对象将进入老年代
        • 为什么要分为新生代和老年代?回收效率
        • 判断垃圾/如何判断对象是否死亡/是否可回收/String废弃常量:引用计数和GC Roots
        • 引用类型:强引用+软引用+弱引用+虚引用
        • 垃圾回收算法/GC 算法:标记清楚+标记复制+标记整理
        • 垃圾收集器:Serial、ParNew、Parallel Scavenge、Serial Old、CMS、G1、ZGC
        • ZGC
        • 故障处理工具:jstack、jhat、jmap、jinfo、jstat、jps
      • Java 程序运行过程
        • 类初始化的情况
        • 不会触发类初始化情况:被动引用
        • 类加载的过程/类加载机制⭐
        • 类加载器:启动类加载器、平台类加载器、应用类加载器
        • 双亲委派模型
        • 判断两个类是否相等
    • 并发
      • JMM
        • JMM/Java内存模型⭐:可见性和有序性
        • happens-before/先行发生原则
        • 重排序
        • 原子性、可见性、有序性/并发等级?
        • volatile⭐
        • final、finally、finalize⭐
        • synchronized的了解及使用方法⭐
        • 锁优化策略/对synchronized优化:自适应自旋、锁消除、锁粗化、偏向锁和轻量级锁⭐
        • Lock⭐
        • synchronized 和 ReentrantLock 区别
        • 读写锁
        • AQS(源码)
      • 线程
        • 线程的状态/生命周期⭐:新建,阻塞、等待、限期等待,终止
        • 线程的创建方式⭐:继承Thread类、实现Runnable或Callable借口、线程池创建
        • 线程方法:start、run、sleep、wait、yiled、join、interrupt
        • 守护线程
        • 线程通信的方式⭐:volatile、synchronized、等待通知机制、管道IO流、ThreadLocal
        • 线程池好处
        • 线程池处理任务的流程/若线程池已满,此时再申请一个线程
        • 创建线程池:通过ThreadPoolExecutor四种方法创建不同种类的线程池,而不使用Executors工具类
        • 线程池的参数/7种:使用ThreadPoolExecutor类构造函数参数分析
        • 关闭线程池
        • 线程池的选择策略:任务性质、优先级、依赖性
        • 阻塞队列
        • ThreadLocal
        • 变量的线程安全分析 以及常见的线程安全类
      • JUC/java.util.concurrent
        • CAS
        • 原子类/atomic:AtomicInteger、AtomicBoolean、AtomicLong、AtomicReference
        • CountDownLatch
        • CyclicBarrier/循环屏障/循环栅栏
        • Semaphore/信号量
        • Exchanger
      • 并发容器
        • ConcurrentHashMap⭐
        • CopyOnWriteArrayList
        • 快速失败(fail-fast)和安全失败(fail-safe)
    • 框架
      • Spring框架:核心容器、数据访问\集成、Web、AOP、工具、消息和测试模块
        • 循环依赖问题解决:利用三级缓存、
      • Spring IoC⭐/Core Container
        • IoC /inverse of control
        • DI/容器实例化对象时主动为它注入依赖的类:构造方法、setter、注解
        • Bean:生命周期、作用域、创建方式:XML+注解
        • 注解配置文件
      • Spring AOP ⭐
        • 相关注解
        • 相关术语
      • Spring MVC ⭐
        • 组件:前端控制器、处理映射器、处理拦截器、适配器、视图解析
        • 相关注解
      • Spring Data JPA
        • ORM
        • JPA 的使用
        • 实体类相关注解
        • 对象导航查询
      • Mybatis⭐
        • XML 标签
        • 一级缓存
        • 二级缓存
        • `#{}` 和 `${}` 的区别
      • SpringBoot⭐
        • 优点
        • 注解+自动装配SpringBootApplication = SpringBootConfiguration + EnableAutoConfiguration + ComponentScan
    • 数据结构和算法
      • 数据结构 :二叉查找树、AVL树、红黑树、B树、B+树
      • 排序 ⭐
    • 设计模式
    • MySQL
      • 数据库概念:范式、SQL分类、连接
      • 逻辑架构
        • 三级模式两级映射[参考](https://blog.csdn.net/qq_43450920/article/details/110532224)
        • 锁⭐:分类及死锁问题解决
        • MVCC /多版本并发控制/时间戳/
        • 乐观锁和悲观锁
        • 事务⭐
        • 隔离级别⭐
      • 常见存储引擎
        • InnoDB ⭐:是否支持行及锁、安全恢复、外键、MVCC,如何实现事务:日志
        • MyISAM
        • Memory
        • MyISAM和Innodb底层存储结构
        • 查询执行流程
      • 数据类型
        • VARCHAR 和 CHAR 的区别⭐
        • DATETIME 和 TIMESTAMP 的区别
        • 数据类型优化策略
      • 索引⭐:优点、缺点
        • B-Tree 索引
        • Hash 索引
        • 空间索引
        • 全文索引
        • 聚簇索引和覆盖索引
        • 索引使用原则
        • 索引失效的情况/设置索引无法使用
      • 优化 ⭐/sql调优/数据库调优
        • 定位低效 SQL
        • EXPLAIN 的字段
        • 优化查询
      • 复制
        • 作用
        • 步骤
      • 存储过程、函数、触发器⭐
      • 自增主键记录删除后重新插入的编号问题
      • 日志
      • SQL注入
      • 回表
      • 跳表
    • Redis
      • 特点⭐
      • 内部编码
      • string ⭐
        • 命令
        • 应用场景:缓存、计数、共享session、限速
      • hash ⭐
        • 命令
        • 应用场景:缓存用户信息
      • list ⭐
        • 命令
        • 应用场景:消息队列、文章列表
      • set ⭐
        • 命令
        • 应用场景:标签
      • zset ⭐
        • 命令
        • 应用场景:点赞、关注
    • Bitmap、HyperLogLog
      • 键和数据库管理
        • 键重命名
        • 键过期
        • 键迁移
        • 切换数据库
        • 清除数据库
      • 持久化 ⭐
        • RDB 持久化
        • AOF 持久化
        • **混合持久化**
      • 缓存穿透、缓存击穿、缓存雪崩
      • redis渐进式rehash(hash字典扩容)
      • 过期策略
      • 内存淘汰机制
  • Linux常用命令

计算机网络

网络分层⭐:应用层+传输层+网络层+数据链路层

国际标准化组织提出了 OSI 七层模型,理论完善,但复杂且不实用。
实际使用TCP/IP 模型:应用层、运输层、网际层和网络接口层。
学习网络原理使用五层模型:应用层、运输层、网络层、数据链路层和物理层。
每层使用下层的服务来提供服务,对等层间的数据单位是协议数据单元 PDU,上下层间的数据单位是服务数据单元 SDU。
基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第1张图片


应用层=DNS+FTP+电子邮件协议+超文本传输协议

应用层(application-layer)的任务是通过应用进程间的交互来完成特定网络应用。
应用层协议是应用进程间通信和交互的规则。对于不同的网络应用需要不同的应用层协议。在互联网中应用层协议很多,如域名系统 DNS,支持万维网应用的 HTTP 协议,支持电子邮件的 SMTP 协议等等。把应用层交互的数据单元称为报文。

  • 域名解析系统 DNS
    域名系统(Domain Name System 缩写 DNS)是因特网的一项核心服务,它可以将域名和 IP 地址相互映射,是一个分布式数据库,能够使人更方便的访问互联网,而不用去记住没有逻辑复杂的IP 数串。(百度百科)例如:IBM 公司的域名是 www.ibm.com、Oracle 公司的域名是 www.oracle.com、Cisco 公司的域名是 www.cisco.com 等。
    域名解析过程:
    如果需要查询一个网站的IP地址,首先主机向本地域名服务器递归查询,若本地域名服务器不知道IP地址,就会以DNS客户的身份向其他根域名服务器发出迭代查询请求,根域名服务器会告知顶级域名服务器的地址,顶级域名服务器给出 IP 地址,或者告知下一步应该向哪个权限域名服务器进行查询。
    基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第2张图片

  • 文件传送协议FTP
    FTP 通过TCP 保证可靠运输,使用两个端口,控制端口 21 和数据端口 20,分别进行控制连接和数据连接。

  • 电子邮件协议
    用户代理把邮件传送到服务器,以及在服务器之间的传送使用 SMTP 协议。
    用户代理从服务器读取邮件时使用 POP3 或 IMAP 协议。

  • 超文本传输协议http:用于实现WWW服务
    是一个属于应用层的面向对象的协议,它是基于 TCP(Transfer Control Protocol, 传输控制协议)的可靠传输,采用的是客户端/服务器的工作模式。在 HTTP 通信过程中,首先由客户端向服务器发起建立链接的请求,通过 TCP三次握手来完成,然后客户端向服务器发出请求,告诉服务器想得到的信息。服务器通过响应返回客户端需要的信息。最后通过 TCP 四次握手关闭链接,从而完成一次基本的通信过程。


运输层/传输层=UDP+TCP

运输层负责向两台主机进程之间的通信提供通用的数据传输服务,应用进程利用该服务传送应用层报文。
由于一台主机可以同时运行多个进程,因此运输层具有复用和分用的功能,复用就是多个应用进程可以同时使用运输层发送数据,分用就是把运输层收到的数据交付给对应的应用进程。
运输层协议包括:

  • 用户数据报协议 UDP,提供无连接的、尽最大努力交付的数据传输服务,不保证可靠性,传输单位是用户数据报。
  • 传输控制协议 TCP,提供面向连接的数据传输服务、保证可靠性,传输单位是报文

网络层:IP+ARP+ICMP+IGMP+路由选择协议

网络层任务:① 为分组交换网上的主机提供通信服务,在发送数据时把运输层数据报封装成分组传送。② 选择合适路由,使源主机的分组通过路由器找到目的主机。
网络层协议包括网际协议IP,地址解析协议APR、路由选择协议、网际控制报文协议、网际组管理协议。

  • 网际协议 IP
    一般指 IPv4,与 IP 配套使用的还有 ARP、ICMP 和 IGMP。IP 数据报分为首部和数据两部分。首部前 20 字节是固定的,包含源地址、目的地址、总长度等,生存时间限制了 IP 数据报在网络中能经过的最大路由数,防止其兜圈子。
    要解决 IP 地址耗尽的问题,根本方法是采用具有更大地址空间的 IPv6(128 位)。

  • 地址解析协议 ARP
    由于 IP 使用了 ARP,因此把 ARP 归到网络层,但 ARP 的作用是通过一个高速缓存,存储本地局域网的各主机和路由器的 IP 地址到硬件地址的映射表,以从网络层的 IP 解析出数据链路层的硬件地址,因此也可以把 ARP 划归在数据链路层。
    与 ARP 对应的是 RARP 逆地址解析协议,作用是通过硬件地址找到 IP 地址,被 DHCP 协议取代。

  • 路由选择协议
    内部网关协议:

    • RIP:分布式的距离向量协议,适用于小型网络,按固定时间间隔与相邻路由器交换路由表信息。
    • OSPF:分布式的链路状态协议,适用于大型网络,只在链路状态变化时才向本自治系统中的所有路由器发送相邻路由器的信息。

    外部网关协议:

    • BGP-4:针对不同自治系统之间的路由器,目标是寻找一条能够到达目的网络且不兜圈子的路由。
  • 网际控制报文协议 ICMP
    ICMP 报文包括差错报文和询问报文,ICMP 报文作为 IP 数据报的数据,加上首部后组成 IP 数据报发送出去。ICMP 允许主机或路由器报告差错情况,提供有关异常情况的信息。ICMP 的重要应用是分组探测 PING,测试主机间的连通性。

  • 网际组管理协议 IGMP
    IGMP 的作用是让连接在本地局域网上的多播路由器知道本局域网上是否有主机的某个进程参加或退出了某个多播组。


数据链路层:PPP、CSMA/CD

数据链路层将网络层的分组封装成帧,在两个相邻结点间的链路上传输,每一帧包括数据和必要的控制信息(同步信息、地址信息、差错信息)。控制信息使接收端能够知道一个帧从哪个比特开始到哪个比特结束,从帧中提取出数据 上交 给网络层。控制信息还使接收端可以检测收到的帧有无差错,如果有差错就简单地丢弃,避免继续传送而浪费网络资源。

链路层协议包括点对点PPP协议、GSMA/CD协议:

  • 点对点协议 PPP
    在通信质量较差的年代使用高级数据链路控制 HDLC 作为数据链路层协议,目前使用最广泛的协议是 PPP。PPP 的特点是简单、只检测差错而不纠正、不使用序号也不进行流量控制、同时支持多种网络层协议。

  • CSMA/CD 协议
    以太网采用具有冲突检测的载波监听多点接入协议,特点是:发送前先监听、边发送边监听,一旦发现总线上出现了碰撞就立即停止发送,然后按退避算法等待一段随机时间后再次发送。


物理层:中继器和集线器

物理层尽可能屏蔽传输媒体和通信手段的差异,使数据链路层只需考虑本层协议和服务。
物理层的数据单位是比特,发送方和接收方发送和接收 1 或 0,因此物理层需要考虑用多大的电压代表 1 或 0,以及接收方如何识别发送方所发送的比特。此外物理层还要确定传输媒体规范,例如接线器形状、电缆电压范围等。


TCP⭐

UDP 和 TCP 的区别/详解TCP和UDP、运输层两种协议的不同⭐

运输层协议包括:

  • 用户数据报协议 UDP,提供无连接的、尽最大努力交付的数据传输服务,不保证可靠性,传输单位是用户数据报。
  • 传输控制协议 TCP,提供面向连接的数据传输服务、保证可靠性,传输单位是报文

TCP 是面向连接的,一个应用进程在向另一个进程发送数据前必须先建立连接,发送某些预备报文段。UDP 无连接,发送数据前不需要建立连接,减少了开销和时延。远地主机在收到 UDP 报文后,不需要给出任何确认。

TCP 提供全双工服务,允许通信双方的应用进程在任何时候发送数据。TCP 连接的两端都有发送缓存和接收缓存:发送时,应用程序把数据传送给 TCP 缓存后就可以做自己的事,TCP 在合适的时候发送;接收时,TCP 把收到的数据放入缓存,应用程序在合适的时候读取。

TCP 连接是点对点的,只能是单个发送方和单个接收方之间的连接。UDP 支持一对一、一对多和多对多通信*。

TCP 提供可靠的交付服务,通过 TCP 传送的数据是可靠的,无差错、不丢失、不重复,按序到达。面向连接的传输服务(TCP )的可靠体现在 TCP 在传递数据之前,会有三次握手来建立连接,而且在数据传递时,有确认、窗口、重传、拥塞控制机制,在数据传完后,还会断开连接用来节约系统资源,但这难以避免地增加了许多开销,如确认,流量控制,计时器以及连接管理等。这不仅使协议数据单元的首部增大很多,还要占用许多处理机资源。TCP 一般用于文件传输、发送和接收邮件、远程登录等场景。UDP 使用尽最大努力交付,不保证可靠性,主机不需要维持复杂的连接状态UDP 没有拥塞控制,网络拥塞不会降低源主机的发送速率,这对某些实时应用很重要,如: QQ 语音、 QQ 视频 、直播等等

TCP 是面向字节流的,流是指流入进程或从进程流出的字节序列。虽然应用程序和 TCP 的交互是每次一个数据块,但 TCP 把数据块仅看成一连串无结构的字节流。TCP 不保证接收方的数据块和发送方的数据块具有对应大小的关系,但接收方的字节流必须和发送方的字节流完全一样。应用程序必须有能力识别收到的字节流,把它还原成应用层数据。UDP 面向报文,UDP 对应用层报文添加首部后就交付 IP 层。

基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第3张图片


TCP 报文结构

TCP 报文段分为首部和数据两部分。首部的前 20 个字节固定,后面有 4n 字节根据需要增加。

字段 大小 说明
源端口和目的端口 2B 分别写入源端口号和目的端口号,TCP 的分用功能是通过端口实现的。
序号:seq 4B 本报文段所发数据第一个字节的序号,使用 mod 232 计算。
确认号:ack序号 4B 期望收到对方下一个报文段第一个字节的序号,确认号为 N 代表到 N-1 为止都已收到。
数据偏移 4B 指出了报文的数据起始处到报文起始处的距离。
标志位:FLAGS 6b URG:紧急,URG=1 时表示存在紧急数据,不再排队等待发送,需要和紧急指针配合使用。
ACK:确认,ACK=1 时表示成功接收了报文段。
SYN:同步,在建立连接时用来同步序号,SYN=1 表示一个连接请求或连接响应报文。
FIN:终止,用来释放连接,当 FIN=1 时表示发送方已发送完毕,并要求释放连接。
PSH:推送,PSH=1 时接收方不再等待整个缓存填满再交付数据,而是尽快交付数据。
RST:复位,当 RST=1 时表示 TCP 连接出现了严重错误,必须释放再重新建立连接。
接收窗口 2B 限制发送方的发送窗口,因为接收方的缓存有限。
检验和 2B 检验包括首部和数据两部分,如果接收方检测到差错会丢弃 TCP 报文。

ack、seq用于确认数据是否准确,是否正常通信;标志位:用于确认/更改连接状态


自动重传请求 ARQ:停止等待协议、回退 N 步协议和选择重传协议

ARQ 包括停止等待协议、回退 N 步协议和选择重传协议,后两种结合了窗口机制,属于连续 ARQ 协议。

停止等待协议
每发送完一个分组就停止发送,等待对方确认,在收到确认后再发送下一个分组。包括三种情况:无差错、出现差错、确认丢失和确认迟到。

  • 无差错
    A 发送分组 M1,发送完后暂停并等待 B 的确认;B 收到 M1 后向 A 发送确认;A 收到确认后再发送下一个分组 M2
  • 出现差错
    B 收到 M1 后检测到了差错,或者 M1 在传输过程中丢失,这两种情况下 B 都不会发送确认信息,解决方法是:A 只要超过一段时间没有收到确认,就进行超时重传,每发送完一个分组就设置超时计时器,如果在计时器到期前收到确认就撤销计时。
    注意:① 发送完分组后必须暂时保留副本,收到确认再清除。② 分组和确认分组都必须进行编号。③ 超时时间应当比分组传输的往返时间稍长,过短会产生不必要的重传,过长会降低通信效率。
  • 确认丢失和确认迟到
    B 发送的确认丢失,A 会超时重传,B 会丢弃重传分组并重新确认;B 发送的确认迟到,A 收到重复确认后将其丢弃。
    通常 A 最终总是可以收到对所有发出分组的确认,如果 A 不断重传分组但总收不到确认,就说明通信线路质量太差,不能通信。

停止等待协议的优点是简单,缺点是信道利用率低。为了提高传输效率,发送方可以连续发送多个分组,不必每发送完一个分组就停下来等待确认,使信道上一直有数据传送。但流水线传输可能会遇到差错,解决方法包括回退 N 步和选择重传。


回退 N 步协议GBN/滑动窗口协议
回退 N 步即 GBN 协议,允许发送方发送多个分组而不需要等待确认。GBN 中发送方 已发送但还未确认的序号 和 允许发送但还未发送的序号 可以被看作一个长度为 N 的窗口,随协议运行该窗口向前滑动,因此 GBN 也被称为滑动窗口协议。

GBN 采用累积确认的方式,对按序到达的最后一个分组发送确认,如果超时,发送方会重传所有已发送但还未确认的分组。例如发送了序号为 1~5 的五个分组,除了第三个全部收到了,那么确认序号就是 2,发送方将重传 3~5 的分组。

在 GBN 中,接收方丢弃所有失序分组,因为接收方必须按序交付数据。这种做法的优点是缓存简单,不需要缓存任何失序分组;缺点是对失序分组的重传可能出错而导致更多重传。


选择重传协议SR
GBN 中单个分组的差错就能引起大量分组重传,随着信道差错率的增加,流水线会被不必要重传的分组所充斥。

选择重传即 SR 协议,让发送方仅重传那些它怀疑接收出错的分组,避免不必要的重传。接收方将确认一个正确接收的分组而不管其是否按序,失序分组将被缓存直到收到所有丢失分组,此时将分组按序交付上层。


TCP 可靠原理 / 依赖自动重传协议中的滑动窗口协议GBN 和选择重传协议SR

TCP 的可靠传输依赖于很多机制:使用检验和检测传输中的比特错误、使用定时器超时重传、使用序号 检测丢失分组和冗余副本、使用确认号 告诉发送方确认的分组信息。

TCP 的发送方仅需维持已发送但未确认的最小序号,以及下一个要发送的序号,从这种角度看 TCP 像一个 GBN 协议。但 TCP 和 GBN 的区别是 TCP 会将正确接收但失序的报文缓存起来,当分组 n 丢失时,GBN 会重传 n 之后的所有分组,但 TCP 至多只会重传分组 n。TCP 允许接收方有选择地确认失序报文段,而不是累积确认最后一个正确接收的有序报文段,从这个角度看 TCP 又像 SR 协议。因此 TCP 的差错恢复机制是一种滑动窗口协议 GBN 和选择重传协议 SR 的结合体


滑动窗口

滑动窗口以字节为单位。
发送端有一个发送窗口,窗口中的序号是允许发送的序号,窗口的后沿是已发送且确认的序号,窗口的前沿是不允许发送的序号。
窗口的后沿当没有收到新的确认时不会移动,收到了新的确认会前移,但不可能撤销已经确认的数据,因此不会后移。
窗口的前沿一般是向前的,当没有收到新的请求或对方的接收窗口变小时不动,也可能收缩(TCP 强烈不建议这么做,因为发送端在收到通知前可能已经发送了很多数据,将产生错误)。
发送窗口根据接收窗口设置,但并不总是一样大,还要根据网络的拥塞情况调整。接收方必须有累积确认功能,既可以在合适的时候确认,也可以在发送数据时捎带确认,但不能过分推迟,一般不超过 0.5 秒。


流量控制:接收窗口

接收缓存 存放 按序到达但尚未被应用程序读取的数据和未按序到达的数据。
发送缓存 存放 应用程序传给 TCP 准备发送的数据和已发送但还未确认的数据;

TCP 通过流量控制解决接收缓存溢出问题(应用程序读取的速度较慢,发送方发送得太快,就会使接收缓存溢出)
TCP 通过接收窗口实现流量控制,接收窗口告诉发送方自己可用的缓存空间,发送方的发送窗口不能超过接收方的接收窗口。

当接收窗口=0 时就不再允许发送方发送数据,但可能存在一种情况:在发送零窗口报文不久后,接收方的接收缓存又有了存储空间,因此发送报文说明新的接收窗口,但该报文在传输中丢失。
发送方会一直等待接收方的非零窗口通知,而接收方也一直在等待发送方发送数据,形成死锁。 为解决该问题,TCP 为每个连接设有持续计时器,只要 TCP 连接的一方收到对方的零窗口通知,就启动该计时器,到期后发送一个零窗口探测报文,避免死锁。

有一种问题叫糊涂窗口综合症,当接收方处理数据很慢时,应用进程间传送的有效数据很小, 极端情况下有效数据只有 1B 但传输开销却有 40B(IP 首部及TCP 首部各占 20B) ,导致通信效率极低。为解决该问题,可以等到接收方有足够空间容纳一个最长报文段,或接收缓存已有一半空间再发送;发送方也不要发送太小的报文,而是把数据积累成足够大的报文,或达到接收方缓存一半时才发送。


拥塞控制:慢启动、拥塞避免、快恢复

网络中对资源的需求超过可用量的情况就叫拥塞,当吞吐量明显小于理想吞吐量时就出现了轻度拥塞。拥塞控制就是减少注入网络的数据,减轻路由器和链路的负担,这是一个全局性问题,涉及网络中的所有路由器和主机,而流量控制是一个端到端的问题。

根据网络层是否为拥塞控制提供显式帮助,将拥塞控制分为:端到端拥塞控制网络辅助的拥塞控制。TCP 使用端到端的拥塞控制,因为 IP 层不会向端系统提供显式的拥塞反馈。TCP 让发送方根据拥塞程度限制发送速率。如果发送方感知到没什么拥塞会增加发送速率,否则会降低发送速率。限制发送速率通过拥塞窗口实现,判断拥塞通过超时或连续接收到 3 个冗余 ACK 实现。

TCP 的拥塞控制算法包括了慢启动、拥塞避免和快恢复。慢启动和拥塞避免是 TCP 的强制部分,差异在于对收到的 ACK 做出反应时拥塞窗口增加的方式,慢启动比拥塞避免增加得更快。快恢复是推荐部分,对 TCP 发送方不是必须的。

1. 慢启动
拥塞窗口 cwnd(congestion window)以一个 MSS 最大报文段开始,每当传输的报文段首次被确认就增加一个 MSS。因此每经过一个 RTT 往返时间,拥塞窗口就会翻倍,发送速率也会翻倍。

结束慢启动的情况:① 发生超时事件,发送方将 cwnd 设为 1,重新开始慢启动,并将慢启动阈值设置为 cwnd/2。② 当拥塞窗口达到慢启动阈值时就结束慢启动而进入拥塞避免模式。③ 如果检测到三个冗余的 ACK,TCP 就会执行快重传并进入快恢复状态。

2. 拥塞避免
一旦进入拥塞避免状态,cwnd 值大约是上次拥塞时的 1/2,距离拥塞并不遥远。因此 TCP 不会每经过一个 RTT 就将 cwnd 翻倍,而是较为保守地在每个 RTT 后将 cwnd 加 1。

发生超时事件时,拥塞避免和慢启动一样,将 cwnd 设为 1,并将慢启动阈值设置为 cwnd/2。

3. 快恢复
有时个别报文段丢失,但网络中并没有出现拥塞,如果使用慢启动会降低传输效率。这时应该使用快重传来让发送方尽早知道出现了个别分组的丢失,快重传要求接收端不要等待自己发送数据时再捎带确认,而是要立即发送确认。即使收到了乱序的报文段也要立即发出对已收到报文段的重复确认。当发送方连续收到三个冗余 ACK 后就知道出现了报文段丢失的情况,会立即重传并进入快恢复状态。

在快恢复中,会调整慢启动阈值为 cwnd/2,并进入拥塞避免状态。


三次握手:过程+原因⭐

TCP 是全双工通信,任何一方都可以发起连接请求,当客户端向服务器发起连接请求时:

  • 初始 客户端 和 服务器 均处于 CLOSED 状态表示无连接关系,服务器 会创建传输进程控制块(TCB) 并进入监听LISTEND状态,监听端口是否收到连接请求。

  • 当 客户端 要发送数据时,就向 服务器 发送连接请求报文,SYN=1,ACK=0,SYN 不可以携带数据,但要消耗一个序号(假设 seq=x)。发送后 客户端 进入同步已发送(SYN-SENT )状态,。

  • 当 服务器 收到 客户端 的连接请求报文后,进入同步已接收状态/回复( SYN-RCVD ),如果同意建立连接就会发送给 客户端 一个连接响应报文,其中 SYN=1,ACK=1,ack=x+1,seq=y。ack 的值为 客户端 发送的序号加 1,ACK 可以携带数据,如果不携带的话则不消耗序号。

  • 当 客户端 收到 服务器 的确认后,还要对该确认再进行一次确认,报文的 ACK=1,ack=y+1,seq=x+1,发送后 客户端 进入稳定连接 ESTABLISHED 状态,当 服务器 接收到该报文后也进入ESTABLISHED状态,客户端会稍早于服务器端建立连接。

三次握手的原因:

  • 从信息对等的角度看,服务器 和 客户端 分别确认自己和对方的发送和接收能力正常时候才能确立可靠连接。在第二次握手后,客户端 还不能确定自己的发送能力和 服务端 的接收能力,只有在第三次握手后才能确认。

  • 报文的生存时间 往往会超过 TCP 请求的超时时间,客户端 的某个超时连接请求 可能会在双方释放连接后到达 服务器,服务器 会误以为是 客户端 创建了新的连接请求,然后发送确认报文创建连接。由于 客户端 的状态不是同步已发送 SYN_SENT,将直接丢弃 服务器 的确认数据。如果是两次握手,连接建立,服务器资源被白白浪费;如果是三次握手,服务器 由于长时间没有收到确认,最终超时导致连接失败,不会出现脏连接。


四次挥手:过程+原因⭐

  • 当 客户端 没有要发送的数据时就会向 服务器 发送终止连接报文,其中断开连接标志位FIN=1,seq=u,u 的值为之前 客户端 发送的最后一个序号加 1,发送后 客户端 进入 FIN-WAIT-1 状态。

  • 服务器 收到后响应给 客户端 一个确认报文,ACK=1,ack=u+1,seq=v,v 的值为 服务器 之前发送的最后一个序号加 1。此时 客户端 进入 FIN-WAIT-2 状态,服务器 进入 CLOSE-WAIT 状态,但连接并未完全释放,服务器 会通知应用进程结束 客户端 到 服务器 方向的连接,此时 TCP 处于半关闭状态。

  • 当 服务器 也准备释放连接时就向 客户端 发送连接终止报文,FIN=1,同时还要重发 ACK=1,ack=u+1,seq=w,seq 改变的原因是在半关闭状态 服务器 可能又发送了数据,之后 服务器 进入 LAST-ACK 状态。

  • 客户端 收到连接终止报文后还要再进行一次确认,确认报文中 ACK=1,ack=w+1,seq=u+1,发送完后进入 TIME-WAIT 状态,等待2倍最大报文段寿命 2MSL 后进入 CLOSED状态。服务器 收到该确认后进入 CLOSED 状态,服务器端会稍早于客户端释放连接。

四次挥手的原因:
TCP 是全双工通信,两个方向的连接需要单独断开。看到有一个很好的比喻就是打电话的时候和对方说我要挂电话了,对方确认过后继续说完自己的东西,才说挂电话。

等待 2MSL 的原因:

  • 保证被动关闭方可以进入 CLOSED 状态。MSL 是最大报文段寿命,等待 2MSL 可以保证 客户端 发送的最后一个确认报文被 服务器 接收,如果该报文丢失,服务器 会超时重传之前的 FIN+ACK 报文,而如果 客户端 在发送确认报文后立即释放连接就无法收到 服务器 可能超时重传的报文,也不会再次发送确认报文段,服务器 就无法正常进入 CLOSED 状态。

  • 2MSL 时间后,本连接中的所有报文就都会从网络中消失,防止已失效连接的请求数据包与正常连接的请求数据包混淆而发生异常。

除此之外,TCP 还设有一个保活计时器,用于解决客户端故障问题,服务器每收到一次数据就重新设置保活计时器,如果 2 小时内没有收到数据就间隔 75 秒发送一次探测报文,连续 10 次没有响应后关闭连接。

TIME-WAIT状态
在高并发短连接的 TCP 服务器上,服务器处理完请求后立刻主动关闭连接,该场景下大量 socket 处于 TIME-WAIT 状态。TIME-WAIT 状态无法真正释放句柄资源,socket 使用的本地端口在默认情况下不能再被使用,会限制有效连接数量,成为性能瓶颈。

解决:调小 tcp_fin_timeout 的值、将 tcp_tw_reuse 设为 1 开启重用,将 tcp_tw_recycle 设为 1 开启快速回收。


HTTP ⭐

HTTP 超文本传输协议,由 客户程序 和 服务器程序 实现,客户程序和服务器程序通过交换 HTTP 报文进行会话。HTTP 定义了这些报文的结构以及报文交换的方式,当用户请求一个 Web 页面时,浏览器向服务器发出对该页面中所包含对象的 HTTP 请求报文,服务器接收请求并返回包含这些对象的 HTTP 响应报文。

HTTP 使用 TCP 作为运输协议,HTTP 客户首先发起一个与服务器的 TCP 连接,一旦连接建立,浏览器和服务器进程就可以通过套接字访问 TCP。客户向它的套接字接口发送请求报文,服务器从它的套接字接口接收请求报文。

HTTP 是一种无状态的协议,服务器不存储任何关于该客户的状态信息。假如某个客户在短时间内连续两次请求同一个对象,服务器并不会因为刚刚为该客户做出了响应就不再响应,而是重新进行响应。


非持续连接和持续连接

非持续连接必须为每个请求维护一个连接,对于每个连接,在客户和服务器中都要分配 TCP 缓冲区,给服务器造成很大负担。每次请求到响应大约需要花费两个 RTT 加上服务器传输文件的时间,RTT 指分组从客户到服务器再返回客户的时间 。三次握手的前两部分占用一个 RTT,第三部分向服务器发送请求报文,服务器收到后做出响应,占用另一个 RTT。

HTTP1.1 使用持续连接 ,服务器响应后保持连接打开。在相同客户与服务器之间,后续的请求和响应报文能够通过相同的连接进行传送。


报文格式:请求报文+响应报文 +状态码

请求报文:请求报文包括请求行、首部行和实体

  • 请求行 包括请求方法、URL 和 HTTP 版本。方法包括了 GET、POST、HEAD、PUT 和 DELETE 等。HEAD 类似于 GET,当服务器收到一个 HEAD 请求时,会用一个 HTTP 报文进行响应,但并不返回请求对象,通常使用 HEAD 进行调试;PUT 常用于上传对象到 Web 服务器;DELETE 用于删除 Web 服务器上的对象。
  • 首部行可以携带信息,例如 Connection:close 可以告诉服务器不要使用持续连接;User-agent 可以指明浏览器类型,服务器可以为不同类型的用户代理发送对象的不同版本。
  • 在首部行后有一个空行,后面跟着的是实体。使用 GET 时实体为空,而使用 POST 时才会使用实体。

响应报文:响应报文包括状态行、首部行和实体。

  • 状态行包括协议版本、状态码和对应的状态信息。
  • 首部行中,Date 是服务器发送响应报文的时间;Server 指明了服务器类型,类似于请求报文中的 User-agent
  • 实体是报文的主要部分,即所请求的对象本身。

GET和POST 的区别⭐

  • GET 读取一个资源,可以将 GET 数据缓存在浏览器、代理或服务端。反复 GET 不应该对访问有副作用,即幂等性。** POST 不是幂等的,意味着不能随意多次执行,因此不能缓存,如果尝试重新执行 POST 请求,浏览器会弹出提示框询问是否重新提交表单。

  • GET 请求由 url 触发,想携带参数就只能在 url 后附加。 POST 请求来自表单提交,表单数据被浏览器编码到 HTTP 请求报文的请求体中。主要有两种编码格式,一种是 application/..,用来传输简单数据;另一种是 multipart/form-data格式,用来传输文件,对二进制数据传输效率高。

  • 攻击的角度/安全性说,无论 GET 还是 POST 都不安全,因为 HTTP 是明文协议。

  • GET 长度受限于 url,而 url 的长度由浏览器和服务器决定。POST 没有大小限制,起限制作用的是服务器的处理能力。


输入一个 url 发生的事

  1. 首先,判断 url 是否合法,如果不合法会使用默认的搜索引擎进行搜索。如果输入的是一个域名,默认会加上一个 http 前缀。

  2. 先检查浏览器的 DNS 缓存,没有则检查本地 hosts 文件的缓存,如果仍然没有会向本地 DNS 服务器发送请求,最终本地 DNS 服务器得到域名和 IP 地址的映射关系,把结果返回给用户并进行缓存。

  3. 获取 IP 地址后,通过 TCP 三次握手建立连接,发送请求报文。

  4. 服务器收到请求报文后进行响应,主进程进行监听,创建子进程处理,先判断是否是重定向,如果是重定向则返回重定向地址。如果是静态资源则直接返回,否则通过 REST URL 在代码层面处理,最后返回响应报文。

  5. 浏览器收到 HTTP 响应报文后进行解析,首先查看响应报文的状态码,根据不同的状态码做不同处理。之后解析 HTML、CSS、JS 等文件(构建 DOM 树,渲染树,重绘)。最后将像素发送 GPU 进行渲染,将渲染结果返回给用户并进行缓存。

  6. 通过 TCP 的四次挥手断开连接,如果是 HTTP1.1 则会将连接保持一小段时间。


cookie⭐:cookie与session区别

HTTP 的无状态性简化了服务器设计,提高了性能,使其可以同时处理大量 TCP 连接。但无状态也导致服务器不能识别用户,为解决该问题 HTTP 使用 cookie 客户端会话技术对用户进行追踪。

工作流程
① 当客户通过浏览器第一次访问站点时,该站点将产生一个唯一识别码,并以此作为索引,在后端数据库中产生一个表项。
② 服务器用一个包含Set-cookie 首部的 HTTP 响应报文对浏览器进行响应 ,浏览器收到后将其添加到自己管理的 cookie 文件。
③ 在下次访问该站点时,请求报文的首部行会包括这个识别码,尽管浏览器不知道客户是谁,但可以确定是同一个客户。

cookie 和 session 的区别
① cookie 只能存储 ASCII 码,而 session 可以存储任何类型的数据。
② session 存储在服务器,而 cookie 存储在客户浏览器中,容易被恶意查看。。
③ session 的运行依赖 session id,而 session id 存在 cookie 中,叫做 JSESSIONID。如果浏览器禁用了 cookie ,同时 session 也会失效(可以通过其它方式实现,比如在 url 中传递 session_id)。


HTTPS⭐

HTTP 存在的问题
没有加密,无法保证通信内容不被窃听。
没有报文完整性验证,无法确保通信内容在传输中不被改变。
没有身份鉴别,无法让通信双方确认对方身份。

HTTPS 原理
HTTP over SSL,在 HTTP 传输上增加了 SSL 安全套接字层,通过机密性、数据完整性、身份鉴别为 HTTP 事务提供安全保证。SSL 会对数据进行加密并把加密数据送往 TCP 套接字,在接收方,SSL 读取 TCP 套接字的数据并解密,把数据交给应用层。HTTPS 采用混合加密机制,使用非对称加密传输对称密钥保证传输安全,使用对称加密保证通信效率。

HTTPS 流程:
① 客户发送它支持的算法列表以及一个不重数。不重数就是在协议的生存期只使用一次的数,用于防止重放攻击,每个 TCP 会话使用不同的不重数,可以使加密密钥不同,重放记录无法通过完整性检查。
② 服务器从该列表中选择一种对称加密算法(例如 AES),一种公钥加密算法(例如 RSA)和一种报文鉴别码算法,然后把它的选择、证书,一个不重数返回给客户。
③ 客户通过 CA 提供的公钥验证证书,成功后提取服务器的公钥,生成一个前主密钥 PMS 并发送给服务器。
④ 客户和服务器独立地从 PMS 和不重数中计算出仅用于当前会话的主密钥 MS,然后通过 MS 生成密码和报文鉴别码密钥。此后客户和服务器间发送的所有报文均被加密和鉴别。


网络安全

网络攻击:主动、被动攻击、恶意程序、拒绝服务、ARP欺骗

被动攻击指攻击者从网络上窃听他人的通信内容,只是分析协议数据单元 PDU 而不干扰信息流。
主动攻击包括篡改、恶意程序、拒绝服务DOS、ARP欺骗。对于被动攻击可以采用数据加密技术,对于主动攻击则需要将加密技术与鉴别技术相结合。

  • 篡改:攻击者篡改网络上传输的报文、中断报文的传送、或者把完全伪造的报文发给接收端。

  • 恶意程序
    ① 计算机病毒,修改其他程序来把自身的变种复制进去。② 计算机蠕虫,通过网络通信把自己从一个节点发往另一个节点,并自动启动。③ 特洛伊木马,它执行的功能并非声称的功能,而是恶意程序。④ 逻辑炸弹,当运行环境满足某种条件时就会执行某种功能。⑤ 后门入侵,利用系统漏洞通过网络入侵。

  • 拒绝服务DoS
    DoS 攻击使网络、主机不能由合法用户使用,电子邮件服务器、DNS 服务器和机构都可能成为攻击目标。

    DoS 包括:① 弱点攻击,向目标主机上运行的易受攻击的应用程序或操作系统发送精细制作的报文。② 带宽洪泛,攻击者向目标主机发送大量分组,使其接入链路变得阻塞导致分组无法到达服务器。③ 连接洪泛,在目标主机创建大量 TCP 连接,主机因这些伪造的连接而陷入阻塞。
    补充:洪泛攻击,是DOS拒绝服务攻击的一种
    在TCP三次握手时客户端首先会发送一个SYN报文段,服务器端为了响应收到的SYN报文段,会回送一个ACK报文段并分配和初始化连接变量与缓存。这时服务器端会等待来自客户端的ACK响应,如果客户端迟迟不发送ACK报文段,那么最后服务器端将终止该半开连接并将已分配的资源回收。
    这种TCP连接管理协议为Dos攻击即SYN洪范攻击提供了环境。在这种攻击过程中,攻击者发送大量的TCP SYN报文段,但是却不完成三次握手的步骤。因为发送了大量的SYN报文段,服务器收到后不断回送ACK报文段并为这些半开连接分配资源,这就导致服务器的连接资源被消耗的所剩无几。这种SYN洪范攻击是被记载的众多Dos攻击中的第一种。
    对于上述问题我们现在有一种有效的防御系统,称为SYN cookie。主要以下列方式工作。
    (1)当服务器收到一个SYN报文段时,它并不知道此报文段是来自一个合法的用户,还是来自一个SYN洪范攻击。因此这时服务器不会为该报文段生成一个半开连接。而是会生成一个初始的TCP序列号,这个序列号是收到的SYN报文段的源和目的地IP地址与端口号以及一个复杂函数。此复杂函数是只有该服务器知道的一个秘密数。上述TCP初始序号被成为cookie。服务器会发送带有这种初始序号的SYN ACK报文段。服务器并不记忆该cookie或任何对应于SYN的其它状态信息。
    (2)如果是合法的客户就会返回一个ACK报文段。当服务器收到该ACK,需要验证该ACK与前面发送的SYN报文段是相对应的。但是上文提到过服务器并不记忆该cookie或任何对应于SYN的其它状态信息。通俗来说就是它不记得与收到的ACK报文段相对应的SYN报文段。那么它是怎么验证的呢?其实是借助了cookie。若返回的ACK报文段是由合法的客户端所发出,那么返回的ACK确认字段中的值等于服务器发送的SYN ACK报文段中的值加1。注意SYN ACK报文段中的值就是cookie值。服务器则将使用在SYN ACK报文段中的源和目的地IP地址与端口号以及秘密数运行相同的散列函数。通俗的说就是算出刚刚发送给客户端的cookie值。对比收到的ACK确认字段中的值,如果确认字段中的值正好是cookie值加1,那么就可以确认该ACK报文段确实和此前发送的SYN ACK报文段相对应。这时确认了该客户是合法的,服务器就会生成一个具有套接字的全开的连接。
    (3)如果客户没有返回一个ACK报文段,则初始的SYN并没有对服务器产生危害,因为服务器没有为它分配任何资源。

  • ARP欺骗
    攻击者向以太网交换机发送大量伪造的源 MAC 地址,以太网交换机把虚假的 MAC 地址填入到交换表中,导致交换机无法正常工作。

安全的计算机网络特性包括机密性、报文完整性、端点鉴别以及运行安全性:

  • 机密性: 仅有通信双方能理解传输内容,报文必须加密使截获者无法理解。
  • 报文完整性:通信内容在传输过程中需要确保未被篡改。
  • 端点鉴别:通信双方都能证实另一方的身份。
  • 运行安全性:几乎所有机构都与互联网相连,需要通过访问控制确保安全性,防火墙位于机构和公共网络之间,控制通过网络的分组;入侵检测系统执行分组检查任务,检测可疑活动。

密码技术⭐

密码技术使发送方可以伪装数据,入侵者不能从截获到的数据中获得有效信息。

对称密钥密码体制
使用相同的加密密钥和解密密钥,运算速度快,但安全性差。使用对称密钥时,在通信信道上可以进行一对一的双向保密通信,每一方既可以用该密钥加密明文,也可以解密密文。这种保密通信仅限于持有此密钥的双方。

公开密钥密码体制
使用公钥进行加密,私钥进行解密,公钥是任何人都可以得知的,而私钥是通信双方独有的。运算速度慢,但是安全性好。最常见的公钥加密算法是 RSA,它使用两个大素数 p 和 q 生成密钥,pq 的值越大破解难度越大,但耗时也越长。使用公开密钥时,在通信信道上是多对一的单向保密通信,可以同时有很多客户利用公钥对报文加密后发送给服务器,服务器利用其私钥可以对收到的密文一一解密,但如果是反方向则行不通,例如网购时很多客户都向同一网站发送各自的信用卡信息。


数字签名=报文鉴别+报文完整性+不可否认+合法⭐

作用
报文鉴别:接收者可以确认报文发送方的身份。
报文完整性:接收者可以确信报文内容没有被篡改过。
不可否认:发送者事后不能抵赖对报文的签名。

实现原理
用私钥对报文进行 D 运算得到密文,接收方会利用发送方的公钥进行 E 运算还原出明文。

  • 报文鉴别:除了发送方外没有人持有其私钥,无法产生发送方才能产生的密文。
  • 报文完整性:如果其他人篡改过密文,解密出的明文就会不可读。
  • 不可否认:如果发送方抵赖发送过报文,接收方可以把初始报文和密文发送给公证的第三者,第三者通过公钥进行验证。

公钥认证 CA证书
攻击者可能会发送使用自己私钥加密的密文和自己的公钥来伪造发送方的身份,该问题通过 CA 解决,发送方在发送数据时也会发送 CA 签署的证书,接收方会利用 CA 的公钥核实发送方证书的合法性并提取发送方的公钥。

CA 即认证中心,将公钥与特定的实体绑定, 职责是使识别和发行证书合法化。CA 认证一个实体的真实身份,生成一个将其身份和实体的公钥绑定起来的证书,证书包含了这个公钥和公钥所有者全局唯一的身份标识信息(例如一个人名或一个 IP)。


报文鉴别

报文鉴别就是鉴别收到的报文确实是期望的发送方发送的,而不是别人伪造的。
数字签名可以实现报文鉴别,但缺点是对较长报文进行签名时需要长时间的运算。有一种相对简单的报文鉴别方式,即密码散列函数,要找到两个不同的报文,它们具有相同的密码散列函数输出,在计算上是不可行的。

使用散列函数进行报文鉴别
通信双方共享一个密钥 k ,发送方生成报文 m,用 k 级联 m 生成 m+k,并使用 SHA-1 或 MD5 这样的散列函数计算 m+k 的散列值 h,这个散列值就被称为报文鉴别码 MAC。发送方会利用 MAC 生成扩展报文并发送给接收方。接收方收到后,由于知道共享密钥 k,因此可以计算出 MAC,如果和 h 相等就可以得出一切正常的结论。


端点鉴别

端点鉴别主要通过鉴别协议 ap 实现,鉴别协议通常在两个通信实体运行其他协议之前运行,仅当鉴别完成后各方才继续下面的工作。
ap1.0:发送方直接发送报文说明身份,攻击者可以任意伪造。
ap2.0:接收方验证 IP 数据报的源地址和发送方常用地址是否匹配来进行鉴别。存在 IP 欺骗的可能性,攻击者可以伪造源 IP 地址。
ap3.0:接收方会要求发送方提供口令进行验证,但依旧不安全,因为攻击者能通过嗅探获得口令并不断重放。
ap4.0:重放攻击主要是由于接收方并不知道此时发送方是否活跃,ap4.0 通过不重数防止重放攻击。接收方会向发送方发送一个不重数,发送方将其加密后发回给接收方,接收方通过验证这个数字来判断发送方是否活跃。


安全协议:网络层+运输层

网络层:IPsec
IPsec 是能够为两个网络实体提供通信安全的协议族,没有限定用户必须使用的加密算法,许多机构都使用 IPsec 保证 VPN 的安全性。
IPsec 有两个主要协议:鉴别首部 AH 和封装安全有效载荷 ESP。AH 提供源鉴别和数据完整性服务,而 ESP 除了这两种服务外还提供机密性服务,因此使用比 AH 广泛。使用 AH 或 ESP 的 IP 数据报称为 IP 安全数据报,IP 安全数据报有两种工作方式:① 运输方式,在整个运输层报文段的前后分别加上控制信息,再加上 IP 首部。② 隧道方式,在原始 IP 数据报的前后分别加上控制信息,这种方式使用较多。

运输层:SSL、TLS(SSL3.0)
运输层的安全协议主要是 SSL 和 TLS ,TLS 是 SSL3.0 的修改版本。SSL 主要作用在端系统的 HTTP 和运输层之间,在 TCP 上建立起一个安全通道,为 TCP 传输数据提供安全保障。
SSL 提供的安全服务包括:服务器鉴别,允许用户证实服务器的身份,支持 SSL 的客户端通过验证来自服务器的证书鉴别服务器的身份并取得服务器的公钥;客户鉴别,SSL 可选的安全服务,允许服务器验证用户的身份;加密的 SSL 会话,对客户和服务器发送的所有报文进行加密,检测报文是否被篡改。


防火墙和入侵检测

在计算机网络中,当通信流量进出网络时要执行安全检查、记录、丢弃或转发,这些工作由防火墙和入侵检测系统完成。
防火墙:防火墙严格控制进出网络的分组,禁止任何不必要通信,从外部到内部和从内部到外部的所有流量都必须经过防火墙。
防火墙分为三种:
① 基于分组过滤,分组过滤器独立地检查每个数据报,然后基于特定规则决定该数据报应当通过还是丢弃,过滤因素包括 IP 地址、TCP 或 UDP 的端口等。
② 基于状态过滤,利用一张连接表跟踪 TCP 连接,通过跟踪信息决定。
应用程序网关,一个应用程序特定的服务器,所有数据都必须通过它。

入侵检测系统 IDS
防火墙不能阻止所有入侵,入侵检测系统作为第二道防线,对网络分组进行深度分析与检测从而发现异常行为。

  • 基于特征的 IDS
    维护一个攻击特征数据库,每个特征是一个与入侵活动关联的规则集,基于特征的 IDS 嗅探通过它的每个分组,将分组中的数据与数据库中的特征进行比较,如果匹配将产生一个警告,缺点是无法应对新型攻击。

  • 基于异常的 IDS
    观察正常运行的网络流量,学习正常流量的统计特性和规律,当检测到网络中流量的某种统计规律不符合正常情况时则认为可能发生了入侵行为,区分正常流量和统计异常流量非常困难 ,大多数 IDS 都是基于特征的。


缓存⭐

当需要频繁访问用户信息等热数据时,为了加快响应速度往往会把数据缓存在内存中,这样再次访问数据时直接从内存中获取即可,降低了后端的负载。

  • 处理写请求时先将数据写入数据库,然后写入缓存。
  • 处理读请求时首先尝试从缓存获取,如果失败则从数据库查询并将结果缓存。

缓存更新策略:算法剔除 + 超时剔除 + 主动更新

缓存数据会和真实数据有一段时间的不一致,需要利用某种策略进行更新。低一致性业务建议配置最大内存并使用算法剔除,高一致性业务可以结合超时剔除和主动更新,即使主动更新出错也能保证数据过期后删除脏数据。

1 算法剔除:剔除算法常用于缓存使用量超过预设最大值时对现有数据进行剔除,数据一致性最差。

  • FIFO 先进先出
    1)判断存储时间,离当前时间最远的数据优先淘汰。
    2)新数据插入队列尾部,数据在队列中顺序移动;淘汰队列头部的数据。
  • LRU 最近最少使用
    1)判断最近使用时间,离当前时间最远的数据优先被淘汰。
    2)新数据插入到队列头部;每当缓存命中则将数据移到队列头部;当队列满的时候,将队列尾部的数据丢弃。
  • LFU 最不经常使用
    1)在一段时间内,被使用次数最少的数据优先淘汰。LFU 的每个数据块都有一个引用计数,所有数据块按照引用计数排序,具有相同引用计数的数据块按时间排序。
    2)新数据插入到队列尾部;数据被访问后引用计数增加,队列重新排序;当需要淘汰数据时,将队列尾部数据删除。

2 超时剔除
通过给缓存设置过期时间实现,例如 Redis 的 expire 命令。如果业务可以容忍一段时间内缓存数据和真实数据不一致,可以为其设置过期时间,在数据过期后再从数据源获取数据,更新缓存并设置过期时间。数据一致性较差。

3 主动更新
在真实数据更新后立即更新缓存,可以利用消息系统实现。数据一致性强,但如果主动更新出错会导致脏数据,建议结合超时剔除使用。


内容分发网络/CDN⭐

CDN 内容分发网络,指基于部署在各地的服务器,通过中心平台的负载均衡、内容分发,使用户就近获取所需内容,降低网络延迟。

关键技术:

  • 内容发布:借助缓存、组播等技术,将内容发布到网络上距离用户最近的中心机房。
  • 内容路由:通过内容路由器中的重定向机制,在多个中心机房的服务器上负载均衡用户的请求。
  • 内容交换:根据内容可用性、服务器可用性及用户背景,在缓存服务器上利用应用层交换、流分裂等技术,平衡负载流量。
  • 性能管理:通过监控系统,获取网络信息,测量内容发布的端到端性能(延时、包丢失、平均带宽等),保证网络处于最佳状态。

特点:

  • 缓存加速:将用户经常访问的数据缓存在本地,提升响应速度。
  • 镜像服务:消除不同运营商之间的网络差异,实现跨运营商的网络加速。
  • 远程加速:利用负载均衡为用户选择高质量服务器,加快访问速度。
  • 带宽优化:自动生产服务器的远程镜像缓存,分担流量,降低原站点负载。

负载均衡


操作系统

进程:火车,特征、状态、

进程是系统进行资源分配和调度的一个独立单位,目的是为了更好地描述和控制程序的并发执行。

  • 进程是程序的一次执行过程,进程可以视为程序的一个实例。大部分程序可以同时运行多个实例进程(例如记事本、画图、浏览器 等),也有的程序只能启动一个实例进程(例如网易云音乐、360 安全卫士等)
  • 程序由指令和数据组成,但这些指令要运行,数据要读写,就必须将指令加载到CPU,数据加载至内存。在指令运行过程中还需要用到磁盘、网络等设备。进程就是用来加载指令、管理内存、管理 IO 的。
  • 当一个程序被运行,从磁盘加载这个程序的代码至内存,这时就开启了一个进程。

进程结构及说明


进程特征:动态、并发、独立和异步性

特征 说明
动态性 进程最基本的特征,进程是程序的一次执行,具有一定的生命周期。
并发性 多个进程可以同时存在于内存中,在一段时间内同时运行。
独立性 进程是一个能独立运行、独立接受调度的单位。
异步性 进程按不可预知的速度推进。

进程状态:创建、就绪、运行、阻塞、结束

状态 说明
创建态 进程正在被创建,尚未转到就绪态。
就绪态 进程已处于准备运行的状态,获得了除处理机外的一切资源。
运行态 进程正在处理机上运行。
阻塞态 进程正在等待某一事件而暂停运行,如等待某资源可用或等待 IO 流完成。
结束态 进程正常结束或中断退出。

进程控制:创建+终止+阻塞与唤醒+切换 的过程

进程的创建
过程:

  • 为新进程分配一个唯一的进程标识号,并申请一个空白的 PCB(进程控制块),若申请失败则创建失败。
  • 为新进程的程序和数据分配内存空间,若资源不足会进入阻塞态。
  • 初始化 PCB,主要包括标志信息、处理机状态信息、以及设置进程优先级等。
  • 若进程就绪队列未满,就将新进程插入就绪队列,等待被调度运行。

进程的终止:正常结束、异常结束、外界干预结束
进程终止包括:正常结束,表示进程已经完成并准备退出;异常结束,表示进程在运行时发生异常,程序无法继续运行,例如非法指令,IO 故障等;外界干预,指进程因为外界请求而终止,例如操作系统干预等。
过程:

  • 根据被终止进程的标识符,检索 PCB,读出该进程的状态。
  • 若被终止的进程处于执行状态,终止执行,将处理机资源分配给其他进程。
  • 若进程还有子进程,将所有子进程终止。
  • 将该进程的全部资源归还给父进程或操作系统,并将 PCB 从队列删除。

进程的阻塞与唤醒
正在执行的进程由于等待的事件未发生,由系统执行阻塞原语,由运行态变为阻塞态。

阻塞过程:

  • 找到将要被阻塞进程的 PCB。
  • 如果进程为运行态,保护现场并转为阻塞态,停止运行。
  • 把 PCB 插入相应事件的等待队列,当被阻塞进程期待的事件发生时,由相关进程调用唤醒原语,将进程唤醒。

唤醒过程:

  • 在该事件的等待队列中找到进程对应的 PCB。
  • 将其从等待队列中移除,设置状态为就绪态。
  • 将 PCB 插入就绪队列,等待调度程序调度。

进程切换
进程切换是指处理机从一个进程的运行转到另一个进程上运行。
过程:

  • 保存处理机上下文,包括程序计数器和其他寄存器。
  • 更新 PCB 信息,并把 PCB 移入相应的阻塞队列。
  • 选择另一个进程执行并更新其 PCB。
  • 更新内存管理的数据结构,恢复处理机上下文。

进程通信⭐:管道通信、消息队列、共享内存、信号量、套接字等

管道通信:管道是一种半双工的通信方式,数据只能单向流动,而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系

Linux 里的 | 就是一个管道,功能是将前一个命令的输出作为后一个命令的输入。

管道通信中存储空间是内核缓冲区,只允许一边写、另一边读,只要缓冲区有数据,进程就能读出。写进程会先将缓冲区写满才让读进程读,当缓冲区还有数据时,写进程不会往缓冲区写数据。因此管道是半双工通信,效率低,不适合进程间频繁交换数据。

消息队列:消息队列是保存在内核中的消息链表,消息的发送方和接收方要约定好消息体的数据类型,每个消息体都是固定大小的存储块,不像管道是无格式的字节流。如果进程从消息队列中读取了消息体,内核就会把这个消息体删除。消息队列的通信效率高于管道,进程发送消息时,把数据放在消息队列后就可以正常返回。

消息队列不适合较大数据的传输,因为内核中每个消息体都有最大长度限制。此外,消息队列通信存在数据拷贝开销,进程写数据到消息队列时,会发生从用户态拷贝数据到内核态的过程,读取数据时,会发生从内核态拷贝数据到用户态的过程。

共享内存:共享内存就是映射一段能被其他进程所访问的内存,这段共享内存由一个进程创建,但多个进程都可以访问

共享内存解决了消息队列中用户态与内核态间的数据拷贝问题,将虚拟地址空间映射到相同的物理内存,当某个进程写数据时,另一个进程马上就能看到,不需要拷贝,提高通信效率。

有名管道 (named pipe) : 有名管道也是半双工的通信方式,但是它允许无亲缘关系进程间的通信。

信号量( semophore ) : 信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它常作为一种锁机制,防止某进程正在访问共享资源时,其他进程也访问该资源。因此,主要作为进程间以及同一进程内不同线程之间的同步手段。

信号 ( sinal ) : 信号是一种比较复杂的通信方式,用于通知接收进程某个事件已经发生。

套接字( socket ) : 套解口也是一种进程间通信机制,与其他通信机制不同的是,它可用于不同及其间的进程通信


线程

线程是进程中的一个实体,由线程 ID、程序计数器、寄存器集合和堆栈组成。引入线程是为了减少程序并发执行的开销,进一步提高操作系统的并发性能。

线程和进程的区别⭐

调度: 进程是分配资源的基本单位,而线程是独立调度的基本单位。
资源: 进程拥有系统资源,而线程只有一点运行必需的资源。如果线程也是分配资源的单位,切换就需要较大开销,引入没有意义。
开销: 进程切换涉及当前 CPU 环境的保存和设置,成本高,但线程切换只需要保存和设置少量的寄存器容量,成本低。
地址空间: 进程的地址空间互相独立,同一进程的线程共享进程资源,进程内的线程对其他进程不可见。
通信: 进程通信需要同步和互斥手段的辅助,保证数据一致性。同一台计算机进程通信称为IPC。不同计算机进程通信就用到例如http。线程可以直接读写进程数据段(全局变量)来进行通信,也就是共享进程内的内存。


线程实现

操作系统中线程实现


死锁⭐

死锁就是指多个进程因为互相竞争资源而造成的一种互相等待的僵局,若无外力作用,这些进程都无法继续向前推进。

死锁的原因

通常系统中拥有的不可剥夺资源,其数量不足以满足多个进程运行的需要,使得进程在运行过程中,会因争夺资源而陷入僵局,如磁带机、打印机等。只有对不可剥夺资源的竞争才可能产生死锁,对可剥夺资源的竞争是不会引起死锁的。
进程请求和释放资源的顺序不当,例如进程 P1 和 P2 分别占用资源 R1 和 R2,而此时 P1 和 P2 又分别申请资源 R2 和 R1。
信号量的使用不当,进程间彼此互相等待对方发来的消息,也会使进程无法推进。

形成死锁的必要条件

互斥条件: 进程对资源的占有具有排它性,如果进程请求的资源已被占用,请求就会被阻塞。
不可剥夺条件: 进程获得的资源没有使用完成前,不能被其它进程强行获取,只能由占有它的进程主动释放。
请求和保持条件: 进程已经保持了至少一个资源,但又提出了新的资源请求,而该资源已被其它进程占有,此时请求被阻塞,但进程也不会释放自己已经占有的资源。
循环等待条件: 存在一个进程资源的循环等待链,链中每个进程已经占有的资源同时是其他进程请求的资源。


死锁处理:预防、避免、检测、解除

预防

  • 破坏互斥条件:允许系统资源共享,但有的资源不可能同时访问,如打印机等临界资源。
  • 破坏不可剥夺条件:允许剥夺其他进程已占有的资源,但释放已获得的资源可能会造成前一段工作的失效。
  • 破坏请求和保持条件:采用预先资源分配法,在进程运行前一次性分配它需要的所有资源,缺点是有些资源可能仅在运行初期或快结束时才使用。
  • 破坏循环等待条件:采用顺序资源分配法, 给系统资源编号,规定每个进程必须按编号递增的顺序请求资源。

避免:同样属于事先预防,但并不是事先采取某种限制措施,而是动态地根据情况处理。

  • 系统安全状态
    不安全状态可能会导致死锁,如果一次分配不会导致系统进入不安全状态,则将资源分配给进程,否则就让进程等待。

    安全状态是指系统能按照某种进程推进顺序为每个进程分配资源,直到满足每个进程对资源的需求。

  • 银行家算法
    把操作系统视为银行家,资源视为资金,进程向操作系统申请资源相当于用户向银行家贷款。操作系统按照规则为进程分配资源,当进程首次申请资源时,要测试系统现存资源能否满足其最大需求量,可以则按申请量分配,否则推迟分配。

    当进程在执行中继续申请资源时,先测试该进程已占有的资源数与申请的资源数之和是否超过该进程对资源的最大需求量,如果超过则拒绝分配,否则再测试系统现存的资源能否满足该进程尚需的最大资源量,如果满足则按申请量分配,否则推迟分配。


检测
系统死锁可用资源分配图描述,圆圈表示进程,框表示资源。从进程到资源的有向边是请求边,从资源到进程的边是分配边。

简化资源分配图可以检测系统状态是否为死锁状态。在资源分配图中,找出既不阻塞也不孤立的进程,消去它的所有请求边和分配边,使之成为孤立的点。如果系统状态不可被完全简化,那么代表死锁。


解除

  • 资源剥夺法:挂起某些死锁进程,抢占其资源,分配给其它死锁进程。
  • 撤销进程法: 强制撤销部分甚至全部死锁进程,可以按进程优先级和撤销代价进行。
  • 进程回退法:让一个或多个进程回退到足以避免死锁的地步,要求系统保持进程的历史信息,设置还原点。

Java 基础

语言特性及优点:平台无关⭐

① 平台无关,摆脱硬件束缚,“一次编写,到处运行”。
JVM: 编译器生成与计算机体系结构无关的字节码,字节码文件不仅能在任何机器解释执行,还能动态转换成本地机器码,转换由 JVM 实现。JVM 是平台相关的,屏蔽了不同操作系统的差异。
语言规范: 基本数据类型大小有明确规定,如 int 永远 32 位,而 C/C++ 可能是 16 位、32 位,或编译器开发商指定的其他大小。数值类型有固定字节数,字符串用标准 Unicode 格式。
② 安全的内存管理和访问机制,避免大部分内存泄漏和指针越界。
③ 热点代码检测和运行时编译优化,程序随运行时长获得更高性能。
④ 完善的应用程序接口,支持第三方类库。


JDK 和 JRE

JDK: Java Development Kit,开发工具包。提供了编译运行 Java 程序的各种工具,包括编译器、JRE 及常用类库,是 JAVA 核心。
JRE: Java Runtime Environment,运行时环境,运行 Java 程序的必要环境,包括 JVM、核心类库、核心配置工具。


值调用和引用调用

按值调用指方法接收调用者提供的值,按引用调用指方法接收调用者提供的变量地址。
Java 总是按值调用,方法得到的是参数的副本,传递对象时实际上传递的是对象引用的副本。

  • 方法不能修改基本数据类型的参数,例如传递了一个 int 值 ,改变 int 值不会影响实参。
  • 方法可以改变对象参数的状态,但不能让对象参数引用新的对象。例如传递了一个 int 数组,改变数组内容会影响实参,而改变其引用并不会让实参引用新的数组对象。

浅拷贝和深拷贝

浅拷贝只复制当前对象的基本数据类型及引用变量,没有复制引用变量指向的实际对象。修改克隆对象可能影响原对象。

深拷贝完全拷贝基本数据类型和引用数据类型,修改克隆对象不会影响原对象。


反射+Class类+注解+泛型

在运行状态中,对于任意一个都能知道它的所有属性和方法,对于任意一个对象都能调用它的任意属性和方法,这种动态获取信息及调用对象方法的功能称为反射,缺点是破坏了封装性及泛型约束。

问题:反射是否破坏了封装? 没有,因为:
1.用户通过反射机制获取了所使用的类中私有成员的存取权限,这是毫无意义的,大多数的这些成员是依附于其它public方法而存在的,基本上都是为了服务这些public成员的。
2.就算用户拿到了private成员的存取权限,而且还“恶意”的修改类的私有成员,那么这么做的目的何在呢?这将大概率导致类的功能无法正常提供,是无意义行为。=

Class 类
在程序运行期间,Java 运行时系统为所有对象维护一个运行时类型标识,这个信息会跟踪每个对象所属的类,虚拟机利用运行时类型信息选择要执行的正确方法,保存这些信息的类就是 Class,这是一个泛型类。

获取 Class 对象:① 类名.class 。② 对象的 getClass方法。③ Class.forName(类的全限定名)

注解⭐
注解是一种标记,使类或接口附加额外信息,帮助编译器和 JVM 完成一些特定功能,例如 @Override 标识一个方法是重写方法。

元注解是自定义注解的注解,例如:
@Target:约束作用位置,值是 ElementType 枚举常量,包括 METHOD 方法、VARIABLE 变量、TYPE 类/接口、PARAMETER 方法参数、CONSTRUCTORS 构造方法和 LOACL_VARIABLE 局部变量等。
@Rentention:约束生命周期,值是 RetentionPolicy 枚举常量,包括 SOURCE 源码、CLASS 字节码和 RUNTIME 运行时。
@Documented:表明注解应该被 javadoc 记录。

泛型
泛型本质是参数化类型,解决不确定对象具体类型的问题。

泛型的好处:① 类型安全,不存在 ClassCastException。② 提升可读性,编码阶段就显式知道泛型集合、泛型方法等处理的数据类型。

泛型用于编译阶段,编译后的字节码文件不包含泛型类型信息,因为虚拟机没有泛型类型对象,所有对象都属于普通类。例如定义 ListList,在编译后都会变成 List


JDK8 新特性

lambda 表达式: 允许把函数作为参数传递到方法,简化匿名内部类代码。
函数式接口: 使用 @FunctionalInterface 标识,有且仅有一个抽象方法,可被隐式转换为 lambda 表达式。
方法引用: 可以引用已有类或对象的方法和构造方法,进一步简化 lambda 表达式。
接口: 接口可以定义 default 修饰的默认方法,降低了接口升级的复杂性,还可以定义静态方法。
注解: 引入重复注解机制,相同注解在同地方可以声明多次。注解作用范围也进行了扩展,可作用于局部变量、泛型、方法异常等。
类型推测: 加强了类型推测机制,使代码更加简洁。
Optional 类: 处理空指针异常,提高代码可读性。
Stream 类: 引入函数式编程风格,提供了很多功能,使代码更加简洁。方法包括 forEach 遍历、count 统计个数、filter 按条件过滤、limit 取前 n 个元素、skip 跳过前 n 个元素、map 映射加工、concat 合并 stream 流等。
日期: 增强了日期和时间 API,新的 java.time 包主要包含了处理日期、时间、日期/时间、时区、时刻和时钟等操作。
JavaScript: 提供了一个新的 JavaScript 引擎,允许在 JVM上运行特定 JavaScript 应用。


异常+Error和Exception区别

所有异常都是 Throwable 的子类,分为 Error 和 Exception。

Error 是 Java 运行时系统的内部错误和资源耗尽错误,例如 StackOverFlowError 和 OutOfMemoryError,这种异常程序无法处理。

Exception 分为受检异常和非受检异常,受检异常要显式处理,否则编译出错,非受检异常是运行时异常,继承 RuntimeException。

checked Exception受检异常:① 无能为力型,如字段超长导致的 SQLException。② 力所能及型,如未授权异常 UnAuthorizedException,程序可跳转权限申请页面。常见受检异常还有 FileNotFoundException、ClassNotFoundException、IOException等。

unchecked Exception非受检异常:① 可预测异常,例如 IndexOutOfBoundsException、NullPointerException、ClassCastException 等,这类异常应该提前处理。② 需捕捉异常,例如进行 RPC 调用时的远程服务超时,这类异常客户端必须显式处理。③ 可透出异常,指框架或系统产生的且会自行处理的异常,例如 Spring 的 NoSuchRequestHandingMethodException,Spring 会自动将异常自动映射到合适的状态码。


数据类型

基本数据类型+自动装箱、拆箱

数据类型 内存大小 默认值 取值范围
byte 1 B (byte)0 -128 ~ 127
short 2 B (short)0 -215 ~ 215-1
int 4 B 0 -231 ~ 231-1
long 8 B 0L -263 ~ 263-1
float 4 B 0.0F ±3.4E+38(有效位数 6~7 位)
double 8 B 0.0D ±1.7E+308(有效位数 15 位)
char 英文 1B,中文 UTF-8 占 3B,GBK 占 2B。 ‘\u0000’ ‘\u0000’ ~ ‘\uFFFF’
boolean 单个变量 4B / 数组 1B false true、false

JVM 没有 boolean 的字节码指令,单个 boolean 变量用 int 代替,boolean f = false 就是用 ICONST_0 即常数 0 赋值。boolean 数组会编码成 byte 数组。

自动装箱是将基本数据类型包装为一个包装类对象,例如向一个泛型为 Integer 的集合添加 int 元素;自动拆箱是将一个包装类对象转换为基本数据类型,例如将一个 Integer 对象赋值给一个 int 变量。比较两个包装类数值要用 equals


String⭐:String、StringBuffer、StringBuilder

String 类和其存储数据的 value 字节数组都是 final 修饰的。对 String 对象的任何修改实际都是创建新对象再引用,并没有修改原对象。

字符串拼接方式

① 直接用 + ,底层用 StringBuilder 实现。只适用小数量,如果在循环中使用 + 拼接,相当于不断创建新的 StringBuilder 对象再转换成 String 对象,效率极差。

② 使用 String 的 concat 方法,该方法使用 Arrays.copyOf 创建一个新的字符数组 buf 并将当前字符串 value 数组的值拷贝到 buf,之后调用 getChars 方法用 System.arraycopy 将拼接字符串的值也拷贝到 buf,最后用 buf 作为构造参数 new 一个新的 String 对象返回。效率稍高于直接使用 +

③ 使用 StringBuilder 或 StringBuffer,两者的 append 方法都继承自 AbstractStringBuilder,该方法首先使用 Arrays.copyOf 确定新的字符数组容量,再调用 getChars 方法用 System.arraycopy 将新的值追加到数组。StringBuilder 是 JDK5 引入的,效率高但线程不安全,StringBuffer 使用 synchronized 保证线程安全。


static关键字

  1. static修饰成员方法
    static修饰的方法一般称作静态方法,由于静态方法不依赖于任何对象就可以进行访问,因此对于静态方法来说,是没有this的,因为它不依附于任何对象,既然都没有对象,就谈不上this了。并且由于这个特性,在静态方法中不能访问类的非静态成员变量和非静态成员方法,因为非静态成员方法/变量都必须依赖具体的对象才能够被调用。
  2. static修饰成员变量
    static修饰的变量也称为静态变量,静态变量和非静态变量的区别是:静态变量被所有对象共享,在内存中只有一个副本,它当且仅当在类初次加载时会被初始化。而非静态变量是对象所拥有的,在创建对象的时候被初始化,存在多个副本,各个对象拥有的副本互不影响。
    static成员变量的初始化顺序按照定义的顺序进行初始化。
  3. static修饰代码块
    static关键字还有一个比较重要的作用就是用来形成静态代码块以优化程序性能。static块可以置于类中的任何地方,类中可以有多个static块。在类初次被加载的时候,会按照static块的顺序来依次执行每个static块,并且只会执行一次。
    static块可以优化程序性能,是因为它的特性:只会在类被初次加载的时候执行一次。

面向对象

封装、继承、多态

面向过程是过程化思维,代码松散,强调流程化,开发时软件维护困难,耦合严重;面向对象更适合解决大规模问题,强调高内聚、低耦合,先抽象模型定义共性行为,再解决问题。

封装是对象功能内聚的表现形式,在抽象基础上决定信息是否公开及公开等级。主要任务是对属性、数据、敏感行为实现隐藏,使对象关系变得简单,降低耦合。
继承用来扩展类,子类可继承父类的部分属性和行为,使模块具有复用性。
多态以封装和继承为基础,根据运行时对象实际类型使同一行为具有不同表现形式。多态指在编译层面无法确定最终调用的方法体,在运行期由 JVM 动态绑定,调用合适的重写方法。由于重载属于静态绑定,本质上重载结果是完全不同的方法,因此多态一般专指重写。


重载和重写

重载指方法名称相同,但参数列表不同,是行为水平方向不同实现。对编译器来说,方法名称和参数列表组成了一个唯一键,称为方法签名,JVM 通过方法签名决定调用哪种重载方法。不管继承关系多复杂,重载在编译时可以确定调用哪个方法,因此属于静态绑定。重载顺序:① 精确匹配。② 基本数据类型自动转换成更大表示范围。③ 自动拆箱与装箱。④ 子类向上转型。⑤ 可变参数。

重写指子类实现接口或继承父类时,保持方法签名完全相同,实现不同方法体,是行为垂直方向不同实现。元空间有一个方法表保存方法信息,如果子类重写父类的方法,方法表中的方法引用会指向子类。重写方法访问权限不能变小,返回类型和抛出的异常类型不能变大。


Object 类的基本方法⭐

方法 说明
equals 检测对象是否相等,默认使用 == 比较,可以重写该方法自定义规则。规范:自反性、对称性、传递性、一致性、对于任何非空引用 x,x.equals(null) 返回 false。
hashCode 每个对象都有默认散列码,值由对象存储地址得出。字符串散列码由内容导出,值可能相同。为了在集合中正确使用,一般需要同时重写 equals 和 hashCode,要求 equals 相同 hashCode 必须相同,hashCode 相同 equals 未必相同。
toString 默认打印表示对象值的一个字符串。
clone 默认声明为 protected,只能由本类对象调用,且是浅拷贝。一般重写 clone 方法需要实现 Cloneable 接口并声明为 public,如果没有实现 Cloneable 接口会抛出 CloneNotSupport 异常。
finalize GC 判断垃圾时,如果对象没有与 GC Roots 相连会被第一次标记,之后判断对象是否有必要执行 finalize 方法,有必要则由一条低调度优先级的 Finalizer 线程执行。虚拟机会触发该方法但不保证结束,防止方法执行缓慢或发生死循环。只要对象在 finalize 方法中重新与引用链相连,就会在第二次标记时移出回收集合。由于运行代价高且具有不确定性,在 JDK9 标记为过时方法。
getClass 返回对象所属类的 Class 对象。
wait 阻塞持有该对象锁的线程。
notify 唤醒持有该对象锁的线程,notify 随机唤醒一个线程,notifyAll 唤醒全部线程。

内部类:静态、成员、局部、匿名内部类

内部类可对同一包中其他类隐藏,内部类方法可以访问定义这个内部类的作用域中的数据,包括 private 数据。

内部类是一个编译器现象,与虚拟机无关。编译器会把内部类转换成常规的类文件,用 $ 分隔外部类名与内部类名,其中匿名内部类使用数字编号,虚拟机对此一无所知。
静态内部类: 属于外部类,只加载一次。作用域仅在包内,可通过 外部类名.内部类名 直接访问,只能访问外部类所有静态属性和方法。HashMap 的 Node 节点,ReentrantLock 中的 Sync 类都是静态内部类。

成员内部类: 属于外部类的每个对象,随对象一起加载。不可以定义静态成员和方法,可访问外部类的所有内容。

局部内部类: 定义在方法内,不能声明访问修饰符,只能定义实例成员变量和实例方法,作用范围仅在声明类的代码块中。

匿名内部类: 只用一次的没有名字的类,可以简化代码,创建的对象类型相当于 new 的类的子类类型。用于实现事件监听和其他回调。


访问权限控制符

访问权限控制符 本类 包内 包外子类 任何地方
public
protected ×
× ×
private × × ×

接口和抽象类

接口和抽象类对实体类进行更高层次的抽象,仅定义公共行为和特征。

语法维度 抽象类 接口
成员变量 无特殊要求 默认 public static final 常量
构造方法 有构造方法,不能实例化 没有构造方法,不能实例化
方法 抽象类可以没有抽象方法 默认 public abstract,JDK8 支持默认/静态方法,JDK9 支持私有方法。
继承 单继承 多继承

抽象类是 is-a 关系,接口是 can-do 关系。与接口相比,抽象类通常是对同类事物相对具体的抽象。

抽象类是模板式设计,包含一组具体特征,例如汽车的底盘、控制电路等是抽象出来的共同特征,但内饰、显示屏、座椅可以根据不同级别配置存在不同实现。

接口是契约式设计,是开放的,定义了方法名、参数、返回值、抛出的异常类型,谁都可以实现它,但必须遵守约定。例如所有车辆都必须实现刹车这种强制规范。

接口是顶级类,抽象类在接口下面的第二层,对接口进行组合,然后实现部分接口。当纠结定义接口和抽象类时,推荐定义为接口,遵循接口隔离原则,按维度划分成多个接口,再利用抽象类去实现,方便扩展和重构。


集合

ArrayList⭐/数组

  • 1.ArrayList 是容量可变列表,使用数组实现,扩容时会创建更大的数组,把原有数组复制到新数组。
  • 2.支持对元素的随机访问,但插入与删除速度慢。
  • 3.ArrayList 实现了 RandomAcess 接口,如果类实现了该接口,使用索引遍历比迭代器更快
  • 4.elementData 是 ArrayList 的数据域,被 transient 修饰,序列化时调用 writeObject 写入流,反序列化时调用 readObject 重新赋值到新对象的 elementData。
  • 原因是 elementData 容量通常大于实际存储元素的数量,所以只需发送真正有值的元素。
  • 5.modCount 记录了 ArrayList 结构性变化的次数,继承自 AbstractList;expectedModCount 是迭代器初始化时记录的 modCount 值,
  • 每次访问新元素时都会检查 modCount 是否等于 expectedModCount,不等将抛出异常。这种机制叫 fail-fast,所有集合类都有。
  • 6.ArrayList的大小,指的是ArrayList中元素的个数,小于等于容量
  • 默认容量10,扩容为原来1.5倍

LinkedList⭐/链表

LinkedList 本质是双向链表,与 ArrayList 相比增删速度更快,但随机访问慢。除继承 AbstractList 外还实现了 Deque 接口,该接口具有队列和栈的性质。成员变量被 transient 修饰,原理和 ArrayList 类似。

包含三个重要的成员:size、first 和 last。size 是双向链表中节点的个数,first 和 last 分别指向首尾节点。

优点:可以将零散的内存单元通过附加引用的方式关联起来,形成按链路顺序查找的线性结构,内存利用率高。


Set

Set 元素不重复且无序,常用实现有 HashSet、LinkedHashSet 和 TreeSet。

HashSet 通过 HashMap 实现,HashMap 的 Key 即 HashSet 存储的元素,所有 Key 都使用相同的 Value ,一个 Object 类型常量。使用 Key 保证元素唯一性,但不保证有序性。HashSet 判断元素是否相同时,对于包装类型直接按值比较,对于引用类型先比较 hashCode,不同则代表不是同一个对象,相同则比较 equals,都相同才是同一个对象。

LinkedHashSet 继承自 HashSet,通过 LinkedHashMap 实现,使用双向链表维护元素插入顺序。

TreeSet 通过 TreeMap 实现的,添加元素到集合时按照比较规则将其插入合适的位置,保证插入后的集合仍然有序。


TreeMap⭐

TreeMap 基于红黑树实现,增删改查的平均和最差时间复杂度均为 O(log2n) ,最大特点是 Key 有序。Key 必须实现 Comparable 接口或 Comparator 接口,所以 Key 不允许为 null。

TreeMap 依靠 Comparable 或 Comparator 排序,如果实现了 Comparator 就会优先使用 compare 方法,否则使用 Comparable 的 compareTo 方法,两者都不满足会抛出异常。

TreeMap 通过 putdeleteEntry 实现增加和删除树节点。插入新节点的规则有三个:① 需要调整的新节点总是红色的。② 如果插入新节点的父节点是黑色的,不需要调整。③ 如果插入新节点的父节点是红色的,由于红黑树不能出现相邻红色,进入循环判断,通过重新着色或左右旋转来调整。


HashMap ⭐ :并发不安全的原因、扩容

JDK8 前底层使用数组加链表,JDK8 改为数组加链表/红黑树,节点从 Entry 变为 Node。主要成员变量包括 table 数组、元素数量 size、加载因子 loadFactor,其中初始化容量为16,扩容容量必须是2的幂次方,默认加载因子为0.75。

table 数组记录 HashMap 的数据,每个下标对应一条链表,所有哈希冲突的数据都会被存放到同一条链表,Node/Entry 节点包含四个成员变量:key、value、next 和 hash。

数据以键值对的形式存在,键对应的 hash 值用来计算数组下标,如果两个元素 key 的 hash 值一样,就会发生哈希冲突,被放到同一个链表上,为使查询效率尽可能高,键的 hash 值要尽可能分散。


并发情况下的HashMap不安全的原因: 多线程并发情况下
#1.在jdk1.7中,在多线程环境下,扩容时会造成环形链或数据丢失、覆盖。
#2.在jdk1.8中,在多线程环境下,会发生数据覆盖的情况。

具体原因结合源码分析:
JDK8 前底层用数组加链表,在数据添加时使用的是头插入,HashMap 扩容会导致旧 HashMap 的节点会依次转移到新 HashMap 中,旧 HashMap 转移的顺序是 A、B、C,而新 HashMap 使用的是头插法,所以最终在新 HashMap 中的顺序是 C、B、A。容易导致死循环。头插法 + 链表 + 多线程并发 + HashMap 扩容,这几个点加在一起就形成了 HashMap 的死循环。
在jdk8中对HashMap进行了优化,在发生hash碰撞,不再采用头插法,而是直接插入链表尾部,因此不会出现环形链表的情况,但是在多线程的情况下仍然不安全。这是jdk1.8中HashMap中put操作的主函数, 如果没有hash碰撞则会直接插入元素。如果线程A和线程B同时进行put操作,刚好这两条不同的数据hash值一样,并且该位置数据为null,所以这线程A、B都会进入没有哈希碰撞的情况中。假设一种情况,线程A进入后还未进行数据插入时挂起,而线程B正常执行,从而正常插入数据,然后线程A获取CPU时间片,此时线程A不用再进行hash判断了,问题出现:线程A会把线程B插入的数据给覆盖,发生线程不安全。
可用 ConcurrentHashMap 或 Collections.synchronizedMap 包装同步集合。

**扩容为什么是2的幂次方:**当数组长度为2的n次幂的时候,不同的key算得得index相同的几率较小,那么数据在数组上分布就比较均匀,也就是说碰撞的几率小,相对的,查询的时候就不用遍历某个位置上的链表,这样查询效率也就较高了。
基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第4张图片


Java共支持3种网络编程的I/O模型:BIO、NIO、AIO

BIO
BIO 是同步阻塞式 IO,JDK1.4 前的 IO 模型。服务器实现模式为一个连接请求对应一个线程,服务器需要为每一个客户端请求创建一个线程,如果这个连接不做任何事会造成不必要开销。可以通过线程池改善,称为伪异步 IO。适用连接数目少且服务器资源多的场景。


NIO
NIO 是 JDK1.4 引入的同步非阻塞 IO。服务器实现模式为多个连接请求对应一个线程,客户端连接请求会注册到一个多路复用器 Selector ,Selector 轮询到连接有 IO 请求时才启动一个线程处理。适用连接数目多且连接时间短的场景。

同步是指线程还是要不断接收客户端连接并处理数据,非阻塞是指如果一个管道没有数据,不需要等待,可以轮询下一个管道。
核心组件


AIO
AIO 是 JDK7 引入的异步非阻塞 IO。服务器实现模式为一个有效请求对应一个线程,客户端的 IO 请求都是由操作系统先完成 IO 操作后再通知服务器应用来直接使用准备好的数据。适用连接数目多且连接时间长的场景。

异步是指服务端线程接收到客户端管道后就交给底层处理IO通信,自己可以做其他事情,非阻塞是指客户端有数据才会处理,处理好再通知服务器。

实现方式包括通过 Future 的 get 方法进行阻塞式调用以及实现 CompletionHandler 接口,重写请求成功的回调方法 completed 和请求失败回调方法 failed


IO流

主要分为字符流和字节流,字符流一般用于文本文件,字节流一般用于图像或其他文件。

字符流包括了字符输入流 Reader 和字符输出流 Writer,字节流包括了字节输入流 InputStream 和字节输出流 OutputStream。

字符流和字节流都有对应的缓冲流,字节流也可以包装为字符流,缓冲流带有一个 8KB 的缓冲数组,可以提高流的读写效率。除了缓冲流外还有过滤流 FilterReader、字符数组流 CharArrayReader、字节数组流 ByteArrayInputStream、文件流 FileInputStream 等。


序列化

Java 对象在 JVM 退出时会全部销毁,如果需要将对象持久化就要通过序列化实现,将内存中的对象保存在二进制流中,需要时再将二进制流反序列化为对象。对象序列化保存的是对象的状态,因此属于类属性的静态变量不会被序列化。
常见的序列化有三种:

  • Java 原生序列化
    实现 Serializabale 标记接口,兼容性最好,但不支持跨语言,性能一般。

    序列化和反序列化必须保持序列化 ID 的一致,一般使用 private static final long serialVersionUID 定义序列化 ID,如果不设置编译器会根据类的内部实现自动生成该值。

  • Hessian 序列化
    支持动态类型、跨语言,对象序列化的二进制流可以被其它语言反序列化。特性:① 自描述序列化类型,不依赖外部描述文件。② 语言无关,支持脚本语言。③ 协议简单,比 Java 原生序列化高效。

  • JSON 序列化
    JSON 序列化就是将数据对象转换为 JSON 字符串,在序列化过程中抛弃了类型信息,反序列化时只有提供类型信息才能准确进行。相比前两种方式可读性更好,方便调试。

序列化通常使用网络传输对象,容易遭受攻击,Jackson 和 fastjson 都出现过反序列化漏洞,因此不需要进行序列化的敏感属性应加上 transient 关键字。transient 的作用是把变量生命周期仅限于内存,不会写到磁盘,变量会被设为对应数据类型的零值。


JVM

内存区域划分/运行时数据区 ⭐:程序计数器+Java虚拟机栈+本地方法栈(线程私有)+堆+方法区+运行时常量池(线程共享)

程序计数器
程序计数器是一块较小的内存空间,可以看作当前线程执行字节码的行号指示器,是唯一没有内存溢出的区域。字节码解释器工作时通过改变计数器的值选取下一条执行指令。
如果线程正在执行 Java 方法,计数器记录正在执行的虚拟机字节码指令地址。如果是本地方法,计数器值为 Undefined。


Java 虚拟机栈
Java 虚拟机栈描述 Java 方法执行的内存模型。当有新线程创建时会分配一个栈空间,栈中元素用于支持虚拟机进行方法调用,每个方法在执行时都会创建一个 栈帧 存储方法的局部变量表、操作栈和方法出口等信息。每个方法从调用到执行完成,就是栈帧从入栈到出栈的过程。
线程请求的栈深度大于虚拟机允许的深度抛出 StackOverflowError;如果 JVM 栈允许动态扩展,栈扩展无法申请足够内存抛出 OutOfMemoryError(HotSpot 不可动态扩展)。


本地方法栈
本地方法栈与虚拟机栈作用相似,不同的是虚拟机栈为 Java 方法服务,本地方法栈为本地方法(Native方法)服务。
如果线程请求的栈深度大于虚拟机所允许的深度,也会抛出 StackOverflowError,例如一个递归方法不断调用自己。该异常有明确错误堆栈可供分析,容易定位问题。
HotSpot 不支持虚拟机栈扩展,所以除非在创建线程申请内存时就因无法获得足够内存而出现 OOM,否则在线程运行时是不会因为扩展而导致溢出的。



堆是虚拟机管理的内存中最大的一块,被所有线程共享,在虚拟机启动时创建。堆用来存放对象实例,Java 里几乎所有对象都在堆分配内存。
堆可以处于物理上不连续的内存空间,但对于数组这样的大对象,多数虚拟机出于简单高效的考虑会要求连续的内存空间。
堆既可以被实现成固定大小,也可以是可扩展的,通过 -Xms-Xmx 设置堆的最小和最大容量,主流 JVM 都按照可扩展实现。
补充: 但是随着JIT编译期的发展与逃逸分析技术逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化,所有的对象都分配到堆上也渐渐变得不那么绝对了。从jdk7开始已经默认开启逃逸分析,如果某些方法中的对象引用没有被返回或者未被外面使用(即未逃逸出去),那么对象可以直接在栈上分配内存。


方法区
方法区用于存储被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等数据。

JDK8 前使用永久代实现方法区,容易内存溢出,因为永久代有 -XX:MaxPermSize 上限,即使不设置也有默认大小。
JDK7 把放在永久代的字符串常量池、静态变量等移出,JDK8 时永久代完全废弃,改用在本地内存中实现的元空间代替,把 JDK7 中永久代剩余内容(主要是类型信息)全部移到元空间。
虚拟机规范对方法区的约束宽松,除和堆一样不需要连续内存、可选择固定大小、可扩展外,还可以不实现垃圾回收。垃圾回收在方法区出现较少,主要针对常量池和类型卸载。


运行时常量池
运行时常量池是方法区的一部分,Class 文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池表,用于存放编译器生成的各种字面量与符号引用,一般除了保存 Class 文件中描述的符号引用外,还会把符号引用翻译的直接引用也存储在运行时常量池。

在 JDK6 及之前常量池分配在永久代, 因此可以通过 -XX:PermSize-XX:MaxPermSize 限制永久代大小,间接限制常量池。在 while 死循环中调用 intern 方法导致运行时常量池溢出。在 JDK7 后不会出现该问题,因为存放在永久代的字符串常量池已经被移至堆中。

运行时常量池相对于 Class 文件常量池的一个重要特征是动态性,Java 不要求常量只有编译期才能产生,例如 String 的 intern 方法。

intern 方法是一个本地方法,作用是如果字符串常量池中已包含一个等于此 String 对象的字符串,则返回池中这个字符串的 String 对象的引用,否则将此 String 对象包含的字符串添加到常量池并返回此 String 对象的引用。


堆和栈的区别

1) 管理方式不同: 栈由操作系统自动分配和释放,无需我们手动控制。堆的申请和释放工作由程序员控制,容易产生内存泄露。
2)空间大小不同: 栈的大小要远远小于堆的大小,堆的分配与回收容易产生内存碎片。
3)存放内容不同: 栈存放的内容:函数的返回地址、局部变量表和寄存器内容。:对象的实例、常量池。

内存溢出和内存泄漏

内存溢出 OutOfMemory,指程序在申请内存时,没有足够的内存空间供其使用。
内存泄露 Memory Leak,指程序在申请内存后,无法释放已申请的内存空间,内存泄漏最终将导致内存溢出。


OOM:堆内存不足+永久代+GC overhead + 方法栈溢出

  1. 堆内存不足: 1)代码中可能存在大对象分配 2)可能存在内存泄露,导致在多次GC之后,还是无法找到一块足够大的内存容纳当前对象。
    java.lang.OutOfMemoryError: Java heap space
    解决方法: 1、检查是否存在大对象的分配,最有可能的是大数组分配 2、通过jmap命令,把堆内存dump下来,使用mat工具分析一下,检查是否存在内存泄露的问题 3、如果没有找到明显的内存泄露,使用 -Xmx 加大堆内存 4、还有一点容易被忽略,检查是否有大量的自定义的 Finalizable 对象,也有可能是框架内部提供的,考虑其存在的必要性

  2. 永久代/元空间溢出: /方法区 永久代是 HotSot 虚拟机对方法区的具体实现,存放了被虚拟机加载的类信息、常量、静态变量、JIT编译后的代码等。JDK8后,元空间替换了永久代,元空间使用的是本地内存,还有其它细节变化:字符串常量由永久代转移到堆中,和永久代相关的JVM参数已移除。出现永久代或元空间的溢出的原因可能有如下几种:1、在Java7之前,频繁的错误使用String.intern方法 2、生成了大量的代理类,导致方法区被撑爆,无法卸载。3、应用长时间运行,没有重启
    java.lang.OutOfMemoryError: PermGen space, java.lang.OutOfMemoryError: Metaspace
    解决方法: 1、检查是否永久代空间或者元空间设置的过小 2、检查代码中是否存在大量的反射操作 3、dump之后通过mat检查是否存在大量由于反射生成的代理类 4、放大招,重启JVM

  3. GC overhead limit exceeded: 这个是JDK6新加的错误类型,一般都是堆太小导致的。 Sun 官方对此的定义:超过98%的时间用来做GC并且回收了不到2%的堆内存时会抛出此异常。
    java.lang.OutOfMemoryError:GC overhead limit exceeded
    解决方法: 1、检查项目中是否有大量的死循环或有使用大内存的代码,优化代码。 2、添加参数-XX:-UseGCOverheadLimit 禁用这个检查,其实这个参数解决不了内存问题,只是把错误的信息延后,最终出现 java.lang.OutOfMemoryError: Java heap space。 3、dump内存,检查是否存在内存泄露,如果没有,加大内存。

  4. 方法栈溢出: 出现这种异常,基本上都是创建的了大量的线程导致的。
    解决方法: 1、通过 *-Xss *降低的每个线程栈大小的容量 2、线程总数也受到系统空闲内存和操作系统的限制,检查是否该系统的某些限制情况。

内存溢出的原因以及解决方法
1.内存中加载的数据量过于庞大,如一次从数据库取出过多数据;
2.集合类中有对对象的引用,使用完后未清空,使得JVM不能回收;
3.代码中存在死循环或循环产生过多重复的对象实体;
4.使用的第三方软件中的BUG;
5.启动参数内存值设定的过小
内存溢出的解决方案:
第一步,修改JVM启动参数,直接增加内存。(-Xms,-Xmx参数一定不要忘记加。)
第二步,检查错误日志,查看“OutOfMemory”错误前是否有其它异常或错误。
第三步,对代码进行走查和分析,找出可能发生内存溢出的位置。

重点排查以下几点:
1.检查对数据库查询中,是否有一次获得全部数据的查询。一般来说,如果一次取十万条记录到内存,就可能引起内存溢出。这个问题比较隐蔽,在上线前,数据库中数据较少,不容易出问题,上线后,数据库中数据多了,一次查询就有可能引起内存溢出。因此对于数据库查询尽量采用分页的方式查询。
2.检查代码中是否有死循环或递归调用。
3.检查是否有大循环重复产生新对象实体。
4.检查List、MAP等集合对象是否有使用完后,未清除的问题。List、MAP等集合对象会始终存有对对象的引用,使得这些对象不能被GC回收。
5.使用内存查看工具动态查看内存使用情况

StackOverFlowError/SOFE

JVM 线程栈存储了方法的执行过程、基本数据类型、局部变量、对象指针和返回值等信息,这些都需要消耗内存。一旦线程栈的大小增长超过了允许的内存限制,就会抛出 java.lang.StackOverflowError 错误。
引发 StackOverFlowError 的常见原因有以下几种:

  • 无限递归循环调用(最常见)。
  • 执行了大量方法,导致线程栈空间耗尽。
  • 方法内声明了海量的局部变量。
  • native 代码有栈上分配的逻辑,并且要求的内存还不小,比如java.net.SocketInputStream.read0 会在栈上要求分配一个 64KB 的缓存(64位 Linux)。
  • 除了程序抛出 StackOverflowError 错误以外,还有两种定位栈溢出的方法:
    1)进程突然消失,但是留下了 crash 日志,可以检查 crash 日志里当前线程的 stack 范围,以及 RSP 寄存器的值。如果 RSP 寄存器的值超出这个 stack 范围,那就说明是栈溢出了。如果没有 crash 日志,那只能通过 coredump 进行分析。在进程运行前,先执行 ulimit -c unlimited,当进程挂掉之后,会产生一个 core.[pid] 的文件,然后再通过 jstack $JAVA_HOME/bin/java core.[pid] 来看输出的栈。如果正常输出了,那就可以看是否存在很长的调用栈的线程,当然还有可能没有正常输出的,因为 jstack 的这条从 core 文件抓栈的命令其实是基于 Serviceability Agent 实现的,而 SA 在某些版本里有 Bug。

常见的解决方法包括以下几种:

  • 修复引发无限递归调用的异常代码, 通过程序抛出的异常堆栈,找出不断重复的代码行,按图索骥,修复无限递归 Bug。
  • 排查是否存在类之间的循环依赖。
  • 排查是否存在在一个类中对当前类进行实例化,并作为该类的实例变量。
  • 通过 JVM 启动参数 -Xss 增加线程栈内存空间, 某些正常使用场景需要执行大量方法或包含大量局部变量,这时可以适当地提高线程栈空间限制,例如通过配置 -Xss2m 将线程栈空间调整为 2 mb。

创建对象

创建对象的过程⭐:1类加载检查+2分配内存+3初始化零值+4设置对象头+5执行init方法

① 当 JVM 遇到字节码 new 指令时,首先检查能否在常量池中定位到一个类的符号引用,并检查该类是否已被加载解析初始化过,否则必须先执行类加载过程。
② 在类加载检查通过后虚拟机将为新生对象分配内存。有指针碰撞和空闲列表两种分配方式。
③ 内存分配完成后虚拟机将成员变量设为零值,保证对象的实例字段可以不赋初值就使用。
④ 设置对象头,包括哈希码、GC 信息、锁信息、对象所属类的类元信息等。
⑤ 执行 init 方法,初始化成员变量,执行实例化代码块,调用类的构造方法,并把堆内对象的首地址赋值给引用变量。


分配内存/内存分配

分配内存相当于把一块确定大小的内存块从 Java 堆划分出来。
指针碰撞: 假设 Java 堆内存规整,利用一个指针将内存分为两部分,分配内存就是把指针向空闲方向挪动一段与对象大小相等的距离。
空间列表: 如果 Java 堆内存不规整,虚拟机维护一个列表记录可用内存,分配时从列表中找到一块足够的空间划分给对象并更新列表。

选择哪种分配方式由堆是否规整决定,堆是否规整由垃圾收集器是否有空间压缩能力决定。使用 Serial、ParNew 等收集器时,系统采用指针碰撞;使用 CMS 时,采用空间列表。
分配内存并发问题:
修改指针位置是线程不安全的,存在正给对象分配内存,指针还没来得及修改,其它对象又使用指针分配内存的情况。解决方法:① CAS 加失败重试,原子性。② 把内存分配按线程划分在不同空间,叫做本地线程分配缓冲 TLAB,哪个线程要分配内存就在对应的 TLAB 分配。


内存布局:对象头+实例数据+对齐填充

对象头
占 12B,包括对象标记和类型指针。对象标记存储对象自身的运行时数据,如哈希码、GC 分代年龄、锁标志、偏向线程 ID 等,这部分占 8B,称为 Mark Word。Mark Word 被设计为动态数据结构,以便在极小的空间存储更多数据,根据对象状态复用存储空间。类型指针是对象指向它的类型元数据的指针,占 4B,JVM 通过该指针来确定对象是哪个类的实例。

实例数据
对象真正存储的有效信息,即本类对象的实例成员变量和所有可见的父类成员变量。存储顺序会受到虚拟机分配策略参数和字段在源码中定义顺序的影响。

对齐填充
仅起占位符作用。虚拟机的内存管理系统要求任何对象的大小必须是 8B 的倍数,如果没有对齐需要对齐填充补全。


垃圾回收

堆内存中对象分配与回收的基本策略:有限eden分配,大对象直接进入老年代,长期存活的对象将进入老年代

Java自动内存管理主要针对对象内存的回收和对象内存的分配。同时,Java自动内存管理最核心的功能是堆内存中对象的分配与回收,因此Java堆也被称为GC堆。从垃圾回收角度,现在的收集器基本都采用分代垃圾算法,所以Java堆可以细分为:新生代、老年代:再细致一点有eden,from survivor,to survivor空间等。

对象优先在 Eden 区分配
大多数情况下对象在新生代 Eden 区分配,当 Eden 没有足够空间时将发起一次 Minor GC。

大对象直接进入老年代
大对象指需要大量连续内存空间的对象,例如很长的字符串或大数组,容易导致内存还有不少空间就提前触发 GC 以获得足够连续空间。

HotSpot 提供了 -XX:PretenureSizeThreshold 参数,大于该值的对象直接在老年代分配,避免在 Eden 和 Survivor 间来回复制。

长期存活对象进入老年代
虚拟机给每个对象定义了一个对象年龄计数器,存储在对象头。如果经历过第一次 Minor GC 仍然存活且能被 Survivor 容纳,该对象就会被移动到 Survivor 中并将年龄设置为 1。对象在 Survivor 中每熬过一次 Minor GC 年龄就加 1 ,当增加到一定程度(默认15)就会被晋升到老年代。对象晋升老年代的阈值可通过 -XX:MaxTenuringThreshold 设置。

动态对象年龄判定
为了适应不同内存状况,虚拟机不要求对象年龄达到阈值才能晋升老年代,如果在 Survivor 中相同年龄所有对象大小的总和大于 Survivor 的一半,年龄不小于该年龄的对象就可以直接进入老年代。

空间分配担保
MinorGC 前虚拟机必须检查老年代最大可用连续空间是否大于新生代对象总空间,如果满足则说明这次 Minor GC 确定安全。

如果不满足,虚拟机会查看 -XX:HandlePromotionFailure 参数是否允许担保失败,如果允许会继续检查老年代最大可用连续空间是否大于历次晋升老年代对象的平均大小,如果满足将冒险尝试一次 Minor GC,否则改成一次 FullGC。

冒险是因为新生代使用复制算法,只用一个 Survivor,大量对象在 Minor GC 后仍然存活时需要老年代接收 Survivor 无法容纳的对象。

为什么要分为新生代和老年代?回收效率


判断垃圾/如何判断对象是否死亡/是否可回收/String废弃常量:引用计数和GC Roots

引用计数
在对象中添加一个引用计数器,如果被引用计数器加 1,引用失效时计数器减 1,如果计数器为 0 则被标记为垃圾。简单高效,但在 Java 中很少使用,因为存在对象循环引用的问题,导致计数器无法清零。

可达性分析
通过一系列称为 GC Roots 的根对象作为起始节点集,从这些节点开始根据引用关系向下搜索,搜索过程走过的路径称为引用链,如果某个对象到 GC Roots 没有任何引用链相连则会被标记为垃圾。可作为 GC Roots 的对象包括:虚拟机栈和本地方法栈中引用的对象、类静态属性引用的对象、常量引用的对象。


引用类型:强引用+软引用+弱引用+虚引用

JDK1.2 后对引用进行了扩充,按强度分为四种。
强引用: 最常见的引用,例如使用 new 创建对象。只要对象有强引用指向且 GC Roots 可达,即使濒临内存耗尽也不会回收。
软引用: 弱于强引用,描述非必需对象。系统发生内存溢出前,会把软引用关联的对象加入回收范围。
弱引用: 弱于软引用,描述非必需对象。弱引用关联的对象只能生存到下次 YGC 前,GC 时无论内存是否足够都会回收。
虚引用: 最弱的引用,无法通过引用获取对象。唯一目的是在对象被回收时收到一个系统通知,必须与引用队列配合。


垃圾回收算法/GC 算法:标记清楚+标记复制+标记整理

标记清除
分为标记和清除阶段,首先从每个 GC Roots 出发依次标记有引用关系的对象,最后清除没有标记的对象。如果堆包含大量对象且大部分需要回收,必须进行大量标记清除,效率低。

缺点:存在内存空间碎片化问题,分配大对象时容易触发 Full GC。

标记复制
为解决内存碎片,将可用内存按容量划分为大小相等的两块,每次只使用其中一块,主要用于新生代。

缺点:对象存活率高时要进行较多复制操作,效率低。如果不想浪费空间就需要有额外空间分配担保,老年代一般不使用此算法。

HotSpot 把新生代划分为一块较大的 Eden 和两块较小的 Survivor,每次分配内存只使用 Eden 和其中一块 Survivor。垃圾收集时将 Eden 和 Survivor 中仍然存活的对象一次性复制到另一块 Survivor 上,然后直接清理掉 Eden 和已用过的那块 Survivor。HotSpot 默认Eden 和 Survivor 的大小比例是 8:1,每次新生代中可用空间为整个新生代的 90%。

标记整理
老年代使用标记整理算法,标记过程与标记清除算法一样,但不直接清理可回收对象,而是让所有存活对象都向内存空间一端移动,然后清理掉边界以外的内存。

标记清除与标记整理的区别:前者是一种非移动式算法,后者是移动式的。如果移动存活对象,尤其是在老年代这种每次回收都有大量对象存活的区域,开销很大,而且移动必须暂停用户线程;如果不移动会导致空间碎片问题。


垃圾收集器:Serial、ParNew、Parallel Scavenge、Serial Old、CMS、G1、ZGC

Serial
最基础的收集器,使用复制算法、单线程工作,进行垃圾收集时必须暂停其他线程。

Serial 是客户端模式的默认新生代收集器,对于处理器核心较少的环境,由于没有线程开销,可获得最高的单线程收集效率。


ParNew
Serial 的多线程版本,ParNew 是虚拟机在服务端模式的默认新生代收集器,一个重要原因是除了 Serial 外只有它能与 CMS 配合。从 JDK9 开始,ParNew 加 CMS 不再是官方推荐的解决方案,官方希望它被 G1 取代。


Parallel Scavenge
基于复制算法、多线程工作的新生代收集器。

它的目标是高吞吐量,吞吐量就是处理器用于运行用户代码的时间与处理器消耗总时间的比值。


Serial Old
Serial 的老年代版本,使用整理算法。

Serial Old 是客户端模式的默认老年代收集器,用于服务端有两种用途:① JDK5 前与 Parallel Scavenge 搭配。② 作为 CMS 失败预案。


Parellel Old
Parallel Scavenge 的老年代版本,支持多线程,基于整理算法。JDK6 提供,注重吞吐量可考虑 Parallel Scavenge 加 Parallel Old 组合。


CMS
以获取最短回收停顿时间为目标,基于清除算法,过程分为四个步骤:

  • 初始标记:标记 GC Roots 能直接关联的对象,速度很快。

  • 并发标记:从 GC Roots 的直接关联对象开始遍历整个对象图,耗时较长但不需要停顿用户线程。

  • 重新标记:修正并发标记期间因用户程序运作而导致标记产生变动的记录。

  • 并发清除:清理标记阶段判断的已死亡对象,不需要移动存活对象,该阶段也可与用户线程并发。

缺点:① 对处理器资源敏感,并发阶段虽然不会导致用户线程暂停,但会降低吞吐量。② 无法处理浮动垃圾,有可能出现并发失败而导致 Full GC。③ 基于清除算法,会产生空间碎片。


G1
开创了面向局部收集的设计思路和基于 Region 的内存布局,主要面向服务端,最初设计目标是替换 CMS。

G1 可面向堆任何部分来组成回收集进行回收,衡量标准不再是分代,而是哪块内存中垃圾的价值最大。价值即回收所获空间大小以及回收所需时间的经验值,G1 在后台维护一个优先级列表,每次根据用户设定允许的收集停顿时间优先处理回收价值最大的 Region。

G1 运作过程:

  • 初始标记:标记 GC Roots 能直接关联到的对象,让下一阶段用户线程并发运行时能正确地在可用 Region 中分配新对象。需要 STW 但耗时很短,在 Minor GC 时同步完成。
  • 并发标记:从 GC Roots 开始对堆中对象进行可达性分析,递归扫描整个堆的对象图。耗时长但可与用户线程并发,扫描完成后要重新处理 SATB 记录的在并发时有变动的对象。
  • 最终标记:对用户线程做短暂暂停,处理并发阶段结束后仍遗留下来的少量 SATB 记录。
  • 筛选回收:对各 Region 的回收价值排序,根据用户期望停顿时间制定回收计划。必须暂停用户线程,由多条收集线程并行完成。

优点:1.基于标记-整理算法,不产生内存碎片。2.可以非常精确的控制停顿时间,在不牺牲吞吐量的前提下,实现低停顿垃圾回收。3.G1垃圾回收器避免了全区域的垃圾收集,它把堆划分成大小固定的几个独立区域,并且跟踪这些区域的垃圾回收进度,G1 收集器在后台维护了一个优先列表,每次根据允许的收集时间,优先回收垃圾最多的区域。确保G1可以在有限时间内获得最高的垃圾回收效率。

ZGC

JDK11 中加入的具有实验性质的低延迟垃圾收集器,目标是尽可能在不影响吞吐量的前提下,实现在任意堆内存大小都可以把停顿时间限制在 10ms 以内的低延迟。

基于 Region 内存布局,不设分代,使用了读屏障、染色指针和内存多重映射等技术实现可并发的标记整理。ZGC 的 Region 具有动态性,是动态创建和销毁的,并且容量大小也是动态变化的。


故障处理工具:jstack、jhat、jmap、jinfo、jstat、jps

jps:虚拟机进程状况工具
列出正在运行的虚拟机进程,使用 Windows 的任务管理器或 UNIX 的 ps 命令也可以查询,但如果同时启动多个进程,必须依赖 jps。

jstat:虚拟机统计信息监视工具
监视虚拟机各种运行状态信息,显示本地或远程虚拟机进程中的类加载、内存、垃圾收集、即时编译器等运行时数据。

jinfo:Java 配置信息工具
查看虚拟机各项参数,使用 jps -v 可查看虚拟机启动时显式指定的参数,但如果想知道未显式指定的参数只能使用 jinfo -flag

jmap:Java 内存映像工具
用于生成堆转储快照,还可以查询 finalize 执行队列、Java 堆和方法区的详细信息,如空间使用率,当前使用的是哪种收集器等。

jhat:虚拟机堆转储快照分析工具
JDK 提供 jhat 与 jmap 搭配使用分析堆转储快照。jhat 内置微型的 HTTP/Web 服务器,堆转储快照的分析结果后可以在浏览器查看。

jstack:Java 堆栈跟踪工具
用于生成虚拟机当前时刻的线程快照,定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间挂起等。


Java 程序运行过程

首先通过 Javac 编译器将 .java 文件转为 JVM 可加载的 .class 字节码文件。
编译过程分为:
① 词法解析,通过空格分割出单词、操作符、控制符等信息,形成 token 信息流,传递给语法解析器。
② 语法解析,把 token 信息流按照 Java 语法规则组装成语法树。
③ 语义分析,检查关键字使用是否合理、类型是否匹配、作用域是否正确等。
④ 字节码生成,将前面各个步骤的信息转换为字节码。

之后通过即时编译器 JIT 把字节码文件编译成本地机器码。Java 程序最初都是通过解释器进行解释执行的,当虚拟机发现某个方法或代码块的运行特别频繁,就会认定其为热点代码,热点代码的检测主要有采样和计数器两种方式,

为了提高热点代码的执行效率,虚拟机会把它们编译成本地机器码。


类初始化的情况

① 遇到 newgetstaticputstatic 字节码指令时。例如 new 实例化对象、设置静态字段、调用静态方法。
② 对类反射调用时。
③ 初始化类时,其父类还未初始化。(接口初始化时不要求父接口初始化,只有在真正使用父接口时才会初始化,如引用接口常量)
④ 虚拟机启动时,会先初始化包含 main 方法的主类。
⑤ 接口定义了默认方法,如果接口的实现类初始化,接口要在其之前初始化。

不会触发类初始化情况:被动引用

被动引用举例:① 子类使用父类的静态字段时,只有父类被初始化。② 通过数组定义使用类。③ 常量在编译期会存入调用类的常量池,不会初始化定义常量的类。
基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第5张图片


类加载的过程/类加载机制⭐

Class 文件中的信息需要加载到虚拟机后才能使用。JVM 把描述类的数据从 Class 文件加载到内存,并对数据进行校验、解析和初始化,最终形成可以被虚拟机直接使用的 Java 类型,这个过程称为虚拟机的类加载机制。JVM 类加载机制分为五个部分:加载,验证,准备,解析,初始化,其中验证、解析和初始化三部分称为连接。加载、验证、准备、初始化的顺序是确定的,是在运行期间完成的,解析则不一定:可能在初始化后再开始,这是为了支持 Java 的动态绑定。

加载 :通过一个类的全限定类名获取对应的二进制字节流,将 流 所代表的 静态存储结构转化为方法区的运行时数据区,然后在内存中生成对应该类的 Class 实例,作为方法区中这个类的数据访问入口。

验证 :确保 Class 文件的字节流符合约束。保证不会载入有错误或恶意企图的字节流而导致系统受攻击。验证主要包含:文件格式验证、元数据验证、字节码验证、符号引用验证。验证通过后对程序运行期没有任何影响。如果代码已被反复使用和验证过,在生产环境就可以考虑关闭大部分验证缩短类加载时间。

准备 :为类静态变量分配内存并设置零值,该阶段进行的内存分配仅包括类变量,不包括实例变量。如果变量被 final 修饰,编译时 Javac 会为变量生成 ConstantValue 属性,准备阶段虚拟机会将变量值设为代码值。

解析 :将常量池内的符号引用替换为直接引用。
符号引用 以一组符号描述引用目标,可以是任何形式的字面量,只要使用时能无歧义地定位目标即可,引用目标不一定已经加载到虚拟机内存;
直接引用 是可以直接指向目标的指针、相对偏移量或能间接定位到目标的句柄,引用目标必须已在虚拟机的内存中存在。

初始化
直到该阶段 JVM 才开始执行类中编写的代码。准备阶段时变量赋过零值,初始化阶段会根据程序员的编码去初始化类变量和其他资源。初始化阶段就是执行类构造方法中的 方法,该方法是 Javac 自动生成的。


类加载器:启动类加载器、平台类加载器、应用类加载器

启动类加载器
在 JVM 启动时创建,负责加载最核心的类,例如 Object、System 等。无法被程序直接引用,如果需要把加载委派给启动类加载器,直接使用 null 代替即可,因为启动类加载器通常由操作系统实现,并不存在于 JVM 体系。

平台类/扩展类加载器
从 JDK9 开始从扩展类加载器更换为平台类加载器,负载加载一些扩展的系统类,比如 XML、加密、压缩相关的功能类等。

应用类加载器
也称系统类加载器,负责加载用户类路径上的类库,可以直接在代码中使用。如果没有自定义类加载器,一般情况下应用类加载器就是默认的类加载器。自定义类加载器通过继承 ClassLoader 并重写 findClass 方法实现。


双亲委派模型

双亲委派模型要求除了顶层的启动类加载器外,其余类加载器都应该有自己的父加载器。

一个类加载器收到了类加载请求,不会自己去尝试加载,而将该请求委派给父加载器,每层的类加载器都是如此,因此所有加载请求最终都应该传送到启动类加载器,只有当父加载器反馈无法完成请求时,子加载器才会尝试。

类跟随它的加载器一起具备了有优先级的层次关系,确保某个类在各个类加载器环境中都是同一个,保证程序的稳定性。


判断两个类是否相等

任意一个类都必须由类加载器和这个类本身共同确立其在虚拟机中的唯一性。两个类只有由同一类加载器加载才有比较意义,否则即使两个类来源于同一个 Class 文件,被同一个 JVM 加载,只要类加载器不同,这两个类就必定不相等。


并发

JMM

JMM/Java内存模型⭐:可见性和有序性

Java 线程的通信由 JMM 控制,JMM 定义了变量的访问规则。JMM 规定所有变量都存储在主内存,每条线程有自己的工作内存,工作内存中保存变量的主内存副本,线程对变量的所有操作都必须在工作内存进行,不能直接读写主内存。但是这就容易造成多线程情况下数据不一致的问题。使用volatile指示JVM这个变量是共享且不稳定的,需要到主存中读取而不在本地内存中读取,保证变量的可见性。

变量包括实例字段、静态字段,但不包括局部变量、方法参数这些线程私有的值。
JMM 基本原则:只要不改变程序执行结果,编译器和处理器怎么优化都行,例如某个锁只会单线程访问就消除锁,某个 volatile 变量只会单线程访问就当作普通变量。

关于主内存与工作内存的交互,即变量如何从主内存拷贝到工作内存、从工作内存同步回主内存,JMM 定义了 8 种原子操作:

操作 作用范围 作用
lock 主内存 把变量标识为锁定状态
unlock 主内存 释放锁定状态的变量
read 主内存 把变量值从主内存读到工作内存
load 工作内存 把 read 值加载到工作内存
use 工作内存 把 load 值传给执行引擎
assign 工作内存 把 use 值赋给工作内存变量
store 工作内存 把 assign 值传到主内存
write 主内存 把 store 值写回主内存变量

happens-before/先行发生原则

先行发生原则,指两项操作间的偏序关系。JMM 存在一些天然的 happens-before 关系,如果两个操作的关系不在此列且无法从中推导,虚拟机就可以对其重排序:

  • 一个线程内写在前面的操作先行发生于后面的。
  • unlock 先行发生于后面对同一个锁的 lock。
  • 对 volatile 变量的写先行发生于后面的读。
  • 线程的 start 方法先行发生于线程的每个动作。
  • 线程中所有操作先行发生于对线程的终止检测。
  • 对象的初始化先行发生于 finalize 方法。
  • 如果 A 先行发生于 B,B 先行发生于 C,那么 A 先行发生于 C 。

as-if-serial 保证单线程程序的执行结果不变,happens-before 保证正确同步的多线程程序的执行结果不变。这两种语义的目的都是为了在不改变程序执行结果的前提下尽可能提高程序并行度。


重排序

为了提高性能,编译器和处理器通常会对指令进行重排序,重排序指从源代码到指令序列的重排序,分为三种:
① 编译器重排序,编译器在不改变单线程程序语义的前提下可以重排语句的执行顺序。
② 处理器重排序,如果不存在数据依赖性,处理器可以改变语句对应机器指令的执行顺序。
③ 内存系统的重排序。


原子性、可见性、有序性/并发等级?

原子性
原子性指操作要么全部成功,要么全部失败。基本数据类型的访问都具备原子性,例外就是 long 和 double,虚拟机将没有被 volatile 修饰的 64 位数据操作划分为两次 32 位操作。

可见性
可见性指当一个线程修改了共享变量时,其他线程能够立即得知修改。
volatile:保证新值能立即同步到主内存以及每次使用前立即从主内存刷新。

synchronized:对一个变量执行 unlock 前必须先把此变量同步回主内存,即先执行 store 和 write。

final:final 字段在构造方法中一旦初始化完成,并且构造方法没有把 this 引用传递出去,其他线程就能看到 final 字段的值。

有序性
volatile 和 synchronized 保证有序性,volatile 本身就包含禁止指令重排序的语义,而 synchronized 保证一个变量在同一时刻只允许一条线程对其进行 lock 操作。


volatile⭐

volatile 变量特性:

  • 保证变量对所有线程可见
    当一条线程修改了变量值,新值对于其他线程来说立即可见。但 Java 运算并非原子操作,导致 volatile 变量运算在并发下仍不安全。

  • 禁止指令重排序优化
    使用 volatile 变量进行写操作,汇编指令带有 lock 前缀,相当于一个内存屏障,后面的指令不能重排到屏障之前。

    lock 引发两件事:① 将当前处理器缓存行的数据写回系统内存。②使其他处理器的缓存无效。相当于对缓存变量做了一次 store 和 write 操作,让 volatile 变量的修改对其他处理器立即可见。

静态变量 i++ 的不安全问题
自增语句由 4 条字节码指令构成的,依次为 getstaticiconst_1iaddputstatic,当 getstatic 把 i 取到操作栈顶时,volatile 保证了 i 值在此刻正确,但在执行 iconst_1iadd 时,其他线程可能已经改变了 i 值,操作栈顶的值就变成了脏数据,所以 putstatic 后就可能把较小的值同步回了主内存。

适用场景:运算结果不依赖变量的当前值;一写多读,只有单一的线程修改变量值。

内存语义
写 volatile 变量时,把该线程工作内存中的值刷新到主内存;读 volatile 变量时,把该线程工作内存值置为无效,从主内存读取。

在旧的内存模型中,不允许 volatile 变量间重排序,但允许 volatile 变量与普通变量重排序,可能导致内存不可见问题。JSR-133 严格限制编译器和处理器对 volatile 变量与普通变量的重排序,确保 volatile 的写-读和锁的释放-获取具有相同的内存语义。


final、finally、finalize⭐

final
java中的关键字,修饰符。
如果一个类被声明为final,就意味着它不能再派生出新的子类,不能作为父类被继承。因此,一个类不能同时被声明为abstract抽象类的和final的类。
如果将变量或者方法声明为final,可以保证它们在使用中不被改变.
 1)被声明为final的变量必须在声明时给定初值,而在以后的引用中只能读取,不可修改。
 2)被声明final的方法只能使用,不能重载。
内存语义

  • 编译器会在 final 域的写后,构造方法的 return 前插入一个 Store Store 屏障,确保对象引用为任意线程可见前其 final 域已初始化。
  • 编译器在读 final 域操作的前面插入一个 Load Load 屏障,确保在读一个对象的 final 域前一定会先读包含这个 final 域的对象引用。

finally
java的一种异常处理机制。
  finally是对Java异常处理模型的最佳补充。finally结构使代码总会执行,而不管无异常发生。使用finally可以维护对象的内部状态,并可以清理非内存资源。特别是在关闭数据库连接这方面,如果程序员把数据库连接的close()方法放到finally中,就会大大降低程序出错的几率。

finalize
Java中的一个方法名。
Java技术使用finalize()方法在垃圾收集器将对象从内存中清除出去前,做必要的清理工作。这个方法是由垃圾收集器在确定这个对象没被引用时对这个对象调用的。它是在Object类中定义的,因此所的类都继承了它。子类覆盖finalize()方法以整理系统资源或者执行其他清理工作。finalize()方法是在垃圾收集器删除对象之前对这个对象调用的。


synchronized的了解及使用方法⭐

synchronized关键字解决的是多个线程之间访问资源的同步性,synchronized关键字可以保证被它修饰的方法或者代码块在任意时刻只能有一个线程执行。
每个 Java 对象都有一个关联的 monitor,JVM 会根据 monitor 的状态进行加解锁的判断,monitor 在被释放前不能被其他线程获取。但monitor依赖于底层操作系统的Mutex lock来实现的,Java线程是映射到操作系统的原生线程之上的。如果要挂起或唤醒一个线程,都需要操作系统帮忙完成。属于重量级锁,效率比较低。synchronized 修饰的同步块是可重入的,并且持有锁的线程释放锁前会阻塞其他线程。

使用方法:
同步块使用 monitor entermonitor exit 字节码指令获取和释放 monitor。
这两个指令都需要一个引用类型的参数指明锁对象,对于普通方法/实例方法,锁是当前实例对象;对于静态方法,锁是当前类的 Class 对象;对于方法块/代码块,锁是 synchronized 括号里的对象。

执行 monitorenter 指令时,首先尝试获取对象锁。如果这个对象没有被锁定,或当前线程已经持有锁,就把锁的计数器加 1,执行 monitorexit 指令时会将锁计数器减 1。一旦计数器为 0 锁随即就被释放。

而修饰方法没有使用这两个指令,取而代之的是ACC_SYNCHRONIZED标识。但本质一样也是获取对象监视器monitor。

不公平性
假设有两个线程 A、B 竞争锁,当 A 竞争到锁时会将 monitor 中的 owner 设置为 A,把 B 阻塞并放到等待资源的 ContentionList 队列。ContentionList 中的部分线程会进入 EntryList,EntryList 中的线程会被指定为 OnDeck 竞争候选者,如果获得了锁资源将进入 Owner 状态,释放锁后进入 !Owner 状态。

所有收到锁请求的线程首先自旋,如果通过自旋也没有获取锁将被放入 ContentionList,该做法对于已经进入队列的线程不公平。

为了防止 ContentionList 队列尾部的元素被大量线程 CAS 访问影响性能,Owner 线程会在释放锁时将队列的部分线程移动到 EntryList 并指定某个线程为 OnDeck 线程。


锁优化策略/对synchronized优化:自适应自旋、锁消除、锁粗化、偏向锁和轻量级锁⭐

JDK 6 对 synchronized 做了很多优化,引入了自适应自旋、锁消除、锁粗化、偏向锁和轻量级锁等提高锁的效率,锁一共有 4 个状态,级别从低到高依次是:无锁、偏向锁、轻量级锁和重量级锁,状态会随竞争升级,但不能降级。


自适应自旋
许多锁定时间很短,为了这段时间去挂起和恢复线程并不划算。如果机器有多个处理器核心,可以让后面请求锁的线程稍等一会,但不放弃处理器的执行时间,看看锁是否很快会被释放,这就是自旋锁。

自旋锁在 JDK1.4 引入,默认关闭,在 JDK6 默认开启。如果自旋超过限定次数仍然没有成功,就应挂起线程,自旋默认限定次数是 10。

JDK6 对自旋锁进行了优化,自旋时间不再固定,而是由前一次的自旋时间及锁拥有者的状态决定。

如果在同一个锁上,自旋刚刚成功获得过锁且持有锁的线程正在运行,虚拟机会认为这次自旋也很可能成功,允许自旋持续更久。如果自旋很少成功,以后获取锁时将可能直接省略掉自旋,避免浪费处理器资源。


锁消除
锁消除指即时编译器对检测到不可能存在共享数据竞争的锁进行消除。如果堆上的所有数据都只被一个线程访问,就当作栈上的数据对待,认为它们是线程私有的而无须同步。


锁粗化
原则上需要将同步块的作用范围限制得尽量小,只在共享数据的实际作用域进行同步,使等待锁的线程尽快拿到锁。

但如果一系列的连续操作都对同一个对象反复加锁和解锁,即使没有线程竞争也会导致不必要的性能消耗。因此如果虚拟机探测到有一串零碎的操作都对同一个对象加锁,会把同步范围扩展到整个操作序列的外部。


偏向锁
偏向锁是为了在没有竞争的情况下减少锁开销,锁会偏向于第一个获得它的线程,如果在执行过程中锁一直没有被其他线程获取,则持有偏向锁的线程将不需要同步。

当锁对象第一次被线程获取时,虚拟机会将对象头中的偏向模式设为 1,同时使用 CAS 把获取到锁的线程 ID 记录在对象的 Mark Word 中。如果 CAS 成功,持有偏向锁的线程以后每次进入锁相关的同步块都不再进行任何同步操作。

一旦有其他线程尝试获取锁,偏向模式立即结束,根据锁对象是否处于锁定状态决定是否撤销偏向,后续同步按照轻量级锁的步骤执行。


轻量级锁
轻量级锁是为了在没有竞争的前提下减少重量级锁的性能消耗。

在代码即将进入同步块时,如果同步对象没有被锁定,虚拟机将在当前线程的栈帧中建立一个锁记录空间,存储锁对象目前 Mark Word 的拷贝。然后使用 CAS 尝试把对象的 Mark Word 更新为指向锁记录的指针,如果更新成功代表该线程拥有了锁,锁标志位将转变为 00,表示轻量级锁状态。

如果更新失败就意味着存在线程竞争。虚拟机检查对象的 Mark Word 是否指向当前线程的栈帧,如果是则说明当前线程已经拥有了锁,直接进入同步块继续执行,否则说明锁已被其他线程抢占。如果出现两条以上线程竞争锁,轻量级锁将膨胀为重量级锁,锁标志状态变为 10,此时Mark Word 存储的就是指向重量级锁的指针,后面等待锁的线程将阻塞。

解锁同样通过 CAS 进行,如果对象 Mark Word 仍然指向线程的锁记录,就用 CAS 把对象当前的 Mark Word 和线程复制的 Mark Word 替换回来。假如替换成功同步过程就完成了,否则说明有其他线程尝试过获取该锁,就要在释放锁的同时唤醒被挂起的线程。


偏向锁、轻量级锁和重量级锁的区别
偏向锁的优点是加解锁不需要额外消耗,和执行非同步方法比仅存在纳秒级差距,适用只有一个线程访问同步代码块的场景。

轻量级锁的优点是程序响应速度快,缺点是如果线程始终得不到锁会自旋消耗 CPU,适用追求响应时间、同步代码块执行快的场景。

重量级锁的优点是线程竞争不使用自旋不消耗CPU,缺点是线程会阻塞,响应时间慢,适应追求吞吐量、同步代码块执行慢的场景。


Lock⭐

Lock 是 juc 包的顶层接口,摆脱了语言特性束缚,在类库层面实现同步,利用了 volatile 的可见性。
重入锁 ReentrantLock 是 Lock 最常见的实现,与 synchronized 一样可重入,不过它增加了一些功能:

  • 等待可中断: 持有锁的线程长期不释放锁时,正在等待的线程可以选择放弃等待而处理其他事情。
  • 公平锁: synchronized 是非公平的,ReentrantLock 默认是非公平的,可以通过构造方法指定公平锁。
  • 锁绑定多个条件: 一个 ReentrantLock 可以同时绑定多个 Condition。synchronized 中锁对象的 waitnotify 只可以实现一个隐含条件,而 ReentrantLock 可以调用 newCondition 创建多个条件。

synchronized 和 ReentrantLock 区别

共同点:
\1. 都是用来协调多线程对共享对象、变量的访问
\2. 都是可重入锁,同一线程可以多次获得同一个锁
\3. 都保证了可见性和互斥性

不同点:
\1. ReentrantLock 显示的获得、释放锁,是API级别的,synchronized 隐式获得释放锁,是JVM级别的。
\2.等待可中断: 持有锁的线程长期不释放锁时,正在等待的线程可以选择放弃等待而处理其他事情。
\3.公平锁: synchronized 是非公平的,ReentrantLock 默认是非公平的,可以通过构造方法指定公平锁。
\4.锁绑定多个条件: 一个 ReentrantLock 可以同时绑定多个 Condition。synchronized 中锁对象的 waitnotify 只可以实现一个隐含条件,而 ReentrantLock 可以调用 newCondition 创建多个条件。
\5. 底层实现不一样, synchronized 是同步阻塞,使用的是悲观并发策略,lock 是同步非阻
塞,采用的是乐观并发策略
\6. Lock 是一个接口,而 synchronized 是 Java 中的关键字,synchronized 是内置的语言
实现。
\7. synchronized 在发生异常时,会自动释放线程占有的锁,因此不会导致死锁现象发生;
而 Lock 在发生异常时,如果没有主动通过 unLock()去释放锁,则很可能造成死锁现象,
因此使用 Lock 时需要在 finally 块中释放锁。
\8. Lock 可以让等待锁的线程响应中断,而 synchronized 却不行,使用 synchronized 时,
等待的线程会一直等待下去,不能够响应中断。
\9. 通过 Lock 可以知道有没有成功获取锁,而 synchronized 却无法办到。
\10. Lock 可以提高多个线程进行读操作的效率,既就是实现读写锁等

一般优先考虑 synchronized:① synchronized 是语法层面的同步,足够简单。② Lock 必须手动在 finally 释放锁,而synchronized 可以由 JVM 来确保即使出现异常也能正常释放锁。③ 尽管 JDK5 时 ReentrantLock 的性能优于 synchronized,但 JDK6 锁优化后二者的性能基本持平。 JVM 更可能针对synchronized 优化,因为 JVM 可以在线程和对象的元数据中记录锁的相关信息。


ReentrantLock 的可重入实现
以非公平锁为例,通过 nonfairTryAcquire 方法获取锁,如果是持有锁的线程再次请求则增加同步状态值并返回 true。

释放同步状态时将减少同步状态值。如果锁被获取了 n 次,那么前 n-1 次 tryRelease 方法必须都返回 fasle,只有同步状态完全释放才能返回 true,并将锁占有线程设置为null。

公平锁使用 tryAcquire 方法,该方法与非公平锁的区别是:判断条件中多了对同步队列中当前节点是否有前驱节点的判断,如果该方法返回 true 表示有线程比当前线程更早请求锁,因此需要等待前驱线程。


读写锁

读写锁在同一时刻允许多个读线程访问,在写线程访问时,所有的读写线程均阻塞。

读写锁依赖 AQS 实现,在一个 int 变量上维护读线程和写线程的状态,将变量切分成了两个部分,高 16 位表示读,低 16 位表示写。

写锁是可重入排他锁,如果当前线程已经获得了写锁则增加写状态,如果当前线程在获取写锁时,读锁已经被获取或者该线程不是已经获得写锁的线程则等待。写锁的释放与 ReentrantLock 的释放类似,每次释放减少写状态,当写状态为 0 时表示写锁已被释放。

读锁是可重入共享锁,能够被多个线程同时获取。如果当前线程已经获取了读锁,则增加读状态。如果当前线程在获取读锁时,写锁已被其他线程获取则进入等待。读锁每次释放会减少读状态,减少的值是 1<<16,读锁的释放是线程安全的。

锁降级指把持住当前写锁再获取读锁,随后释放先前拥有的写锁。
锁降级中读锁的获取是必要的,这是为了保证数据可见性,如果当前线程不获取读锁而直接释放写锁,假设另一个线程 A 获取写锁修改数据,当前线程无法感知线程 A 的数据更新。


AQS(源码)

AQS全称为(AbstractQueuedSynchroizer),在Java.util.concurrent.locks包下。是构建锁和同步器的基础框架。如reentranlock、semaphore等。
AQS 队列同步器是用来构建锁或其他同步组件的基础框架,使用一个 volatile int 变量作为共享同步状态,如果线程获取状态失败,则进入同步队列等待;如果成功就执行临界区代码,释放状态时会通知同步队列中的等待线程。

同步器的主要使用方式是继承,子类通过继承同步器并实现它的抽象方法来管理同步状态,对同步状态进行更改需要使用同步器提供的 3个方法 getStatesetStatecompareAndSetState ,它们保证状态改变是安全的。

每当有新线程请求同步状态时都会进入一个等待队列,等待队列通过双向链表实现,线程被封装在链表的 Node 节点中,Node 的等待状态包括:CANCELLED(线程已取消)、SIGNAL(线程需要唤醒)、CONDITION (线程正在等待)、PROPAGATE(后继节点会传播唤醒操作,只作用于共享模式)。

两种模式

独占模式下锁只会被一个线程占用,其他线程必须等持有锁的线程释放锁后才能获取锁。

获取同步状态时,调用 acquire 方法的 tryAcquire 方法安全地获取同步状态,获取失败的线程会被构造同步节点并通过 addWaiter 方法加入到同步队列的尾部,在队列中自旋。之后调用 acquireQueued 方法使得节点以死循环的方式获取同步状态,如果获取不到则阻塞,被阻塞线程的唤醒依靠前驱节点的出队或中断。后继节点的线程被唤醒后需要检查自己的前驱节点是否是头节点,目的是维护同步队列的 FIFO 原则,节点之间在循环检查的过程中基本不通信,而是简单判断自己的前驱是否为头节点。

释放同步状态时,同步器调用 tryRelease 方法释放同步状态,然后调用 unparkSuccessor 方法唤醒头节点的后继节点,使后继节点重新尝试获取同步状态。

共享模式下多个线程可以获取同一个锁。

获取同步状态时,调用 acquireShared 方法的 tryAcquireShared 方法,返回值为 int 类型,值不小于 0 表示能获取同步状态。

释放同步状态时,调用 releaseShared 方法,释放后会唤醒后续处于等待状态的节点。它和独占式的区别在于 tryReleaseShared 方法必须确保同步状态安全释放,通过循环 CAS 保证。


线程

线程的状态/生命周期⭐:新建,阻塞、等待、限期等待,终止

NEW:新建状态,线程被创建且未启动,还未调用 start 方法。
RUNNABLE:Java 将操作系统中的就绪和运行两种状态统称为 RUNNABLE,此时线程有可能在等待时间片,也有可能在执行。

BLOCKED:阻塞状态,可能由于锁被其他线程占用、调用了 sleepjoin 方法、执行了 wait 方法等。

WAITING:等待状态,该状态线程不会被分配 CPU 时间片,需要其他线程通知或中断。可能由于调用了无参的 waitjoin 方法。

TIME_WAITING:限期等待状态,可以在指定时间内自行返回。导可能由于调用了带参的 waitjoin 方法。

上面3种状态都是对阻塞状态的细分。

TERMINATED:终止状态,表示当前线程已执行完毕或异常退出。


线程的创建方式⭐:继承Thread类、实现Runnable或Callable借口、线程池创建

1.继承 Thread 类并重写 run 方法。实现简单,但不符合里氏替换原则,不可以继承其他类。使用继承方式的好处是,在run()方法内获取当前线程直接使用this就可以了,无须使用Thread.currentThread()方法;不好的地方是Java不支持多继承,如果继承了Thread类,那么就不能再继承其他类。另外任务与代码没有分离,当多个线程执行一样的任务时需要多份任务代码。开发效率低。

2.实现 Runnable 接口并重写 run 方法(推荐)。避免了单继承局限性,实现解耦。可以用lambda表达式简化。

3.实现 Callable 接口并重写 call 方法。可以获取线程执行结果的返回值,并且可以抛出异常。

4.线程池创建:
(1)使用Executors类中的newFixedThreadPool(int num)方法创建一个线程数量为num的线程池
(2)调用线程池中的execute()方法执行由实现Runnable接口创建的线程;调用submit()方法执行由实现Callable接口创建的线程
(3)调用线程池中的shutdown()方法关闭线程池


线程方法:start、run、sleep、wait、yiled、join、interrupt

start和run方法:被创建的Thread对象直接调用重写的run方法时, run方法是在主线程中被执行的,而不是在我们所创建的线程中执行。所以如果想要在所创建的线程中执行run方法,需要使用Thread对象的start方法 start()方法用来,开启线程,但是线程开启后并没有立即执行,他需要获取cpu的执行权才可以执行
run()方法是由jvm创建完本地操作系统级线程后回调的方法,不可以手动调用(否则就是普通方法)

sleep 方法导致当前线程进入睡眠状态,与 wait 不同的是该方法不会释放锁资源,进入的是 TIME-WAITING 状态。其他线程可以用interrupt方法打断正在睡眠的线程,这时sleep方法会抛异常。

yiled 方法使当前线程让出 CPU 时间片给优先级相同或更高的线程,回到 RUNNABLE 就绪状态,与其他线程重新竞争 CPU 时间片。具体的实现依赖于操作系统的任务调度器。

join 方法用于等待其他线程运行终止,如果当前线程调用了另一个线程的 join 方法,则当前线程进入阻塞状态,当另一个线程结束时当前线程才能从阻塞状态转为就绪态,等待获取CPU时间片。如在主线程中调用ti.join(),则是主线程等待t1线程结束。底层使用 wait,也会释放锁。

interrupt方法用于打断阻塞(sleep wait join…)的线程。 处于阻塞状态的线程,CPU不会给其分配时间片。

  • 如果一个线程在在运行中被打断,打断标记会被置为true。
  • 如果是打断因sleep wait join方法而被阻塞的线程,会将打断标记置为false

不推荐使用的打断方法:

  • stop方法 停止线程运行(可能造成共享资源无法被释放,其他线程无法使用这些共享资源)
  • suspend(暂停线程)/resume(恢复线程)方法

守护线程

守护线程是一种支持型线程,可以通过 setDaemon(true) 将线程设置为守护线程,但必须在线程启动前设置。

当JAVA进程中有多个线程在执行时,只有当所有非守护线程都执行完毕后,JAVA进程才会结束。但当非守护线程全部执行完毕后,守护线程无论是否执行完毕,也会一同结束

守护线程用于完成支持性工作,但在 JVM 退出时守护线程中的 finally 块不一定执行,因为 JVM 中没有非守护线程时需要立即退出,因此不能靠在守护线程使用 finally 确保关闭资源。

守护线程的应用

  • 垃圾回收器线程就是一种守护线程
  • Tomcat 中的 Acceptor 和 Poller 线程都是守护线程,所以 Tomcat 接收到 shutdown 命令后,不会等 待它们处理完当前请求

线程通信的方式⭐:volatile、synchronized、等待通知机制、管道IO流、ThreadLocal

Java 采用共享内存模型,线程间的通信总是隐式进行,整个通信过程对程序员完全透明。

volatile 告知程序任何对变量的读需要从主内存中获取,写必须同步刷新回主内存,保证所有线程对变量访问的可见性。

synchronized 确保多个线程在同一时刻只能有一个处于方法或同步块中,保证线程对变量访问的原子性、可见性和有序性。

等待通知机制指一个线程 A 调用了对象的 wait 方法进入等待状态,另一线程 B 调用了对象的 notify/notifyAll 方法,线程 A 收到通知后结束阻塞并执行后序操作。对象上的 waitnotify/notifyAll 完成等待方和通知方的交互。

如果一个线程执行了某个线程的 join 方法,这个线程就会阻塞等待执行了 join 方法的线程终止,这里涉及等待/通知机制。join 底层通过 wait 实现,线程终止时会调用自身的 notifyAll 方法,通知所有等待在该线程对象上的线程。

管道 IO 流用于线程间数据传输,媒介为内存。PipedOutputStream 和 PipedWriter 是输出流,相当于生产者,PipedInputStream 和 PipedReader 是输入流,相当于消费者。管道流使用一个默认大小为 1KB 的循环缓冲数组。输入流从缓冲数组读数据,输出流往缓冲数组中写数据。当数组已满时,输出流所在线程阻塞;当数组首次为空时,输入流所在线程阻塞。

ThreadLocal 是线程共享变量,但它可以为每个线程创建单独的副本,副本值是线程私有的,互相之间不影响。


线程池好处

  1. 降低资源消耗,复用已创建的线程,降低开销、控制最大并发数。
  2. 隔离线程环境,可以配置独立线程池,将较慢的线程与较快的隔离开,避免相互影响。
  3. 实现任务线程队列缓冲策略和拒绝机制。
  4. 实现某些与时间相关的功能,如定时执行、周期执行等。

线程池处理任务的流程/若线程池已满,此时再申请一个线程

① 核心线程池未满,创建一个新的线程执行任务,此时 workCount < corePoolSize。
② 如果核心线程池已满,工作队列未满,将线程存储在工作队列,此时 workCount >= corePoolSize。
③ 如果工作队列workQueue已满,线程数小于最大线程数就创建一个新线程处理任务,此时 workCount < maximumPoolSize,这一步也需要获取全局锁。
④ 如果超过大小线程数,按照拒绝策略来处理任务,此时 workCount > maximumPoolSize。
线程池会将线程封装成工作线程 Worker,Worker 在执行完任务后会循环获取工作队列中的任务来执行。


创建线程池:通过ThreadPoolExecutor四种方法创建不同种类的线程池,而不使用Executors工具类

参考文章
可以通过 Executors 的静态工厂方法创建线程池:
newFixedThreadPool,固定大小的线程池,核心线程数也是最大线程数,不存在空闲线程,keepAliveTime = 0。使用的工作队列是无界阻塞队列 LinkedBlockingQueue,适用于负载较重的服务器。允许请求的队列长度
newSingleThreadExecutor,使用单线程,相当于单线程串行执行所有任务,适用于需要保证顺序执行任务的场景。
newCachedThreadPool,最大线程数是 Integer 最大值,使用的工作队列是没有容量的 SynchronousQueue,如果主线程提交任务的速度高于线程处理的速度,线程池会不断创建新线程,极端情况下会耗尽 CPU 和内存资源。适用于执行很多短期异步任务的小程序或负载较轻的服务器。
newScheduledThreadPool:最大线程数是Integer 最大值,存在 OOM 风险。支持定期及周期性任务执行,适用需要多个后台执行任务,同时限制线程数量的场景。相比 Timer 更安全,功能更强,与 newCachedThreadPool 的区别是不回收工作线程。


线程池的参数/7种:使用ThreadPoolExecutor类构造函数参数分析

corePoolSize: 常驻核心线程数,设置过大会浪费资源,过小会导致线程的频繁创建与销毁。
maximumPoolSize: 线程池能够容纳同时执行的线程最大数,必须大于 0。
keepAliveTime: 线程空闲时间,线程空闲时间达到该值后会被销毁,直到线程数等于 corePoolSize 为止,避免浪费内存资源。
unit: keepAliveTime 的时间单位。
workQueue: 工作队列,当线程请求数大于等于 corePoolSize 时线程会进入队列。
threadFactory: 线程工厂,用来生产一组相同任务的线程。可以给线程命名,有利于分析错误。
handler: 四种拒绝策略,默认使用 AbortPolicy 丢弃任务并抛出异常,其余三种拒绝策略:CallerRunsPolicy 重新尝试提交任务,DiscardOldestPolicy 抛弃队列里等待最久的任务并把当前任务加入队列,DiscardPolicy 丢弃任务但不抛出异常。


关闭线程池

可以调用 shutdownshutdownNow 方法关闭线程池,原理是遍历线程池中的工作线程,逐个调用 interrupt 方法中断线程。

区别是 shutdownNow 首先将线程池的状态设为 STOP,然后尝试停止正在执行或暂停任务的线程,并返回等待执行任务的列表。而 shutdown 只是将线程池的状态设为 SHUTDOWN,然后中断没有正在执行任务的线程。

通常调用 shutdown 来关闭线程池,如果任务不一定要执行完可调用 shutdownNow


线程池的选择策略:任务性质、优先级、依赖性

  • 任务性质:CPU 密集型、IO 密集型和混合型。
    性质不同的任务用不同规模的线程池处理,CPU 密集型任务应配置尽可能少的线程;IO 密集型任务应配置尽可能多的线程;混合型任务,如果可以拆分,将其拆分为一个 CPU 密集型任务和一个 IO 密集型任务,只要两个任务执行时间相差不大,那么分解后的吞吐量将高于串行执行的吞吐量,如果相差太大则没必要分解。

  • 任务优先级/执行时间。
    使用优先级队列让优先级高或执行时间短的任务先执行。

  • 任务依赖性:是否依赖其他资源,如数据库连接。
    依赖数据库连接池的任务,由于线程提交 SQL 后需要等待数据库返回的结果,等待的时间越长 CPU 空闲的时间就越长,因此线程数应该尽可能地设置大一些,提高 CPU 的利用率。


阻塞队列

阻塞队列支持阻塞插入和移除,当队列满时,阻塞生产线程直到队列不满。当队列为空时,消费线程会被阻塞直到队列非空。阻塞生产者主要通过 LockSupport 的 park 方法实现,不同操作系统中实现方式不同,在 Linux 下使用的是系统方法 pthread_cond_wait 实现。

Java 中的阻塞队列
ArrayBlockingQueue,由数组组成的有界阻塞队列,默认情况下不保证线程公平。

LinkedBlockingQueue,由链表组成的有界阻塞队列,队列的默认和最大长度为 Integer 最大值。

PriorityBlockingQueue,支持优先级的无界阻塞队列,默认情况下元素按升序排序。可自定义 compareTo 方法指定排序规则,或者初始化时指定 Comparator 排序,不能保证同优先级元素的顺序。

DelayQueue,支持延时获取元素的无界阻塞队列,使用优先级队列实现。创建元素时可以指定多久才能从队列中获取当前元素,只有延迟期满时才能从队列中获取元素,适用于缓存和定时调度。

SynchronousQueue,不存储元素的阻塞队列,每一个 put 必须等待一个 take。默认使用非公平策略,适用于传递性场景,吞吐量高。

LinkedBlockingDeque,链表组成的双向阻塞队列,可从队列的两端插入和移出元素,多线程同时入队时减少了竞争。


ThreadLocal

ThreadLoacl 是线程共享变量,主要用于线程内跨类、方法传递数据。ThreadLoacl 有一个静态内部类 ThreadLocalMap,其 Key 是 ThreadLocal 对象,值是 Entry 对象,Entry 中只有一个 Object 类的 vaule 值。ThreadLocal 是线程共享的,但 ThreadLocalMap 是每个线程私有的。ThreadLocal 主要有 set、get 和 remove 三个方法。

set 方法
首先获取当前线程,然后再获取当前线程对应的 ThreadLocalMap 类型的对象 map。如果 map 存在就直接设置值,key 是当前的 ThreadLocal 对象,value 是传入的参数。

如果 map 不存在就通过 createMap 方法为当前线程创建一个 ThreadLocalMap 对象再设置值。

get 方法
首先获取当前线程,然后再获取当前线程对应的 ThreadLocalMap 类型的对象 map。如果 map 存在就以当前 ThreadLocal 对象作为 key 获取 Entry 类型的对象 e,如果 e 存在就返回它的 value 属性。

如果 e 不存在或 map 不存在,就调用 setInitialValue 方法为当前线程创建一个 ThreadLocalMap 对象然后返回默认的初始值 null。

remove 方法
首先通过当前线程获取其对应的 ThreadLocalMap 类型的对象 m,如果 m 不为空,就解除 ThreadLocal 这个 key 及其对应的 value 值的联系。

存在的问题
线程复用会产生脏数据,由于线程池会重用 Thread 对象,因此与 Thread 绑定的 ThreadLocal 也会被重用。如果没有调用 remove 清理与线程相关的 ThreadLocal 信息,那么假如下一个线程没有调用 set 设置初始值就可能 get 到重用的线程信息。

ThreadLocal 还存在内存泄漏的问题,由于 ThreadLocal 是弱引用,但 Entry 的 value 是强引用,因此当 ThreadLocal 被垃圾回收后,value 依旧不会被释放。因此需要及时调用 remove 方法进行清理操作。

变量的线程安全分析 以及常见的线程安全类

成员变量和静态变量是否线程安全?

  • 如果它们没有共享,则线程安全
  • 如果它们被共享了,根据它们的状态是否能够改变,又分两种情况
    • 如果只有读操作,则线程安全
    • 如果有读写操作,则这段代码是临界区,需要考虑线程安全

局部变量是否线程安全?

  • 局部变量是线程安全的——每个方法都在对应线程的栈中创建栈帧,不会被其他线程共享
  • 但局部变量引用的对象则未必 (要看该对象是否被共享且被执行了读写操作)
    • 如果该对象没有逃离方法的作用范围,它是线程安全的
    • 如果该对象逃离方法的作用范围,需要考虑线程安全

常见线程安全类

  • String 不可变类 replace,substring 创建了一个新的对象
  • Integer 不可变类
  • StringBuffer
  • Random
  • Vector (List的线程安全实现类)
  • Hashtable (Hash的线程安全实现类)
  • java.util.concurrent 包下的类参考文章
    这里说它们是线程安全的是指,多个线程调用它们同一个实例的某个方法时,是线程安全的
  • 它们的每个方法是原子的(都被加上了synchronized)
  • 但注意它们多个方法的组合不是原子的,所以可能会出现线程安全问题

JUC/java.util.concurrent

CAS

CAS 表示比较并交换,需要三个操作数,内存位置 V、旧的预期值 A 和准备设置的新值 B。CAS 执行时,当且仅当 V=A 时,处理器才会用 B 更新 V 的值。不管是否更新都会返回 V 的旧值,处理过程是原子操作,期间不会被其他线程打断。

JDK5 开始使用 CAS 操作,该操作由 Unsafe 类里的 compareAndSwapInt 等几个方法提供。HotSpot 在内部对这些方法做了特殊处理,即时编译的结果是一条平台相关的处理器 CAS 指令。Unsafe 类不是给用户程序调用的类,因此 JDK9 前只有 Java 类库可以使用 CAS,譬如 AtomicInteger 类中 compareAndSet 等方法都使用了 Unsafe 类的 CAS 操作实现。

CAS 存在一个漏洞:如果初次读取和准备赋值时都满足 V=A,依旧不能说明值没有被其他线程更改过,因为存在 V 先改为 B 又改回 A 的情况,这个漏洞称为 ABA 问题。juc 包提供了一个 AtomicStampedReference 类,通过控制变量值的版本来解决 ABA 问题。


原子类/atomic:AtomicInteger、AtomicBoolean、AtomicLong、AtomicReference

JDK5 提供了 atomic 包,包中的原子操作类提供了简单高效、线程安全地更新变量的方式。到 JDK8 该包共有17个类,依据作用分为四种:原子更新基本类型、原子更新数组、原子更新引用、原子更新字段,atomic 包里的类基本都使用 Unsafe 实现,Unsafe 只提供三种 CAS 方法:compareAndSwapIntcompareAndSwapLongcompareAndSwapObject,例如原子更新 Boolean 是先转成整形再使用 compareAndSwapInt

  • AtomicInteger 原子更新整形、 AtomicLong 原子更新长整型、AtomicBoolean 原子更新布尔类型。AtomicInteger 的 getAndIncrement 调用 Unsafe 类的 getAndAddInt 方法以原子方式将当前的值加 1,该方法调用 compareAndSwapInt 更新值。

  • AtomicIntegerArray 原子更新整形数组、 AtomicLongArray 原子更新长整型数组、 AtomicReferenceArray 原子更新引用数组。

  • AtomicReference 原子更新引用、AtomicMarkableReference 原子更新带有标记的引用,AtomicStampedReference 原子更新带有版本号的引用,关联一个整数值作为版本号,解决 ABA 问题。

  • AtomicIntegerFieldUpdater 原子更新整形字段、 AtomicLongFieldUpdater 原子更新长整形字段、AtomicReferenceFieldUpdater 原子更新引用类型字段。


CountDownLatch

CountDownLatch 是基于执行时间的同步类,允许一个或多个线程等待其他线程完成操作,构造方法接收一个 int 参数作为计数器。每次调用 countDown 方法时计数器减 1,await 方法会阻塞当前线程直到计数器变为 0。


CyclicBarrier/循环屏障/循环栅栏

循环屏障是基于同步到达某个点的信号量触发机制,作用是让一组线程到达一个屏障时被阻塞,直到最后一个线程到达屏障才会解除。构造方法中的参数表示拦截线程数量,每个线程调用 await 方法表示自己已到达屏障,然后被阻塞。支持在构造方法中传入一个 Runnable 任务,当线程到达屏障时会优先执行该任务。适用于多线程计算数据,最后合并计算结果的应用场景。

CountDownLacth 的计数器只能用一次,而 CyclicBarrier 的计数器可用 reset 方法重置,所以 CyclicBarrier 能处理更为复杂的业务。


Semaphore/信号量

信号量用来控制同时访问特定资源的线程数量,通过协调各个线程以保证合理使用公共资源。信号量可以用于流量控制,特别是公共资源有限的应用场景,比如数据库连接。

Semaphore 的构造方法参数接收一个 int 值,表示可用的许可数量即最大并发数。使用 acquire 方法获得一个许可证,使用 release 方法归还许可,还可以用 tryAcquire 尝试获得许可。


Exchanger

交换者是用于线程间协作的工具类,用于进行线程间的数据交换。它提供一个同步点,在这个同步点两个线程可以交换彼此的数据。

两个线程通过 exchange 方法交换数据,第一个线程执行 exchange 方法后会阻塞等待第二个线程执行该方法,当两个线程都到达同步点时这两个线程就可以交换数据,将本线程生产出的数据传递给对方,可用于校对工作等场景。


并发容器

参考文献

ConcurrentHashMap⭐

ConcurrentHashMap 用于解决 HashMap 的线程安全和 HashTable 的低效问题,HashTable 效率低是因为所有线程都必须竞争同一把锁,假如容器有多把锁,每把锁只锁部分数据,那么多线程访问不同数据段时就不会存在竞争,JDK8前ConcurrentHashMap 使用锁分段,将数据分成 Segment 数据段,给每个数据段配一把锁,当一个线程占用锁访问某段数据时,其他数据段也能被其他线程访问。

get 实现简单高效,先经过一次再散列得到一个 hash 值,再用这个 hash 值定位到 Segment,最后通过散列算法定位到元素。get 方法中将共享变量定义为 volatile,由于只需要读所以不用加锁。

put 必须加锁,首先定位到 Segment,然后进行插入操作,第一步判断是否需要对 Segment 里的 HashEntry 数组进行扩容,第二步定位添加元素的位置,然后将其放入数组。

size 方法用于统计数量,必须统计每个 Segment 的大小然后求和,在统计结果累加的过程中,之前累加过的 count 变化几率很小,因此先尝试两次不加锁统计结果,如果统计过程中容器大小发生了变化,再加锁统计。判断容器是否发生变化根据 modCount 确定。

JDK8后① 取消分段锁机制,降低冲突概率。② 同一个哈希槽上的元素个数超过阈值后,链表改为红黑树结构。③ 使用优化方式统计元素数量,在涉及元素总数的更新和计算时都避免了锁,使用 CAS 代替。

get 同样不需要同步,put 时如果没有出现哈希冲突,就使用 CAS 添加元素,否则使用 synchronized 添加元素。

当某个槽内的元素个数达到 7 且 table 容量不小于 64 时,链表转为红黑树。

当某个槽内的元素减少到 6 时,由红黑树重新转为链表。在转化过程中,使用同步块锁住当前槽的首元素,防止其他线程对当前槽进行增删改操作,转化完成后利用 CAS 替换原有链表。由于 TreeNode 节点也存储了 next 引用,因此红黑树转为链表很简单,只需从 first 元素开始遍历所有节点,并把节点从 TreeNode 转为 Node 类型即可,当构造好新链表后同样用 CAS 替换红黑树。


CopyOnWriteArrayList

可以使用 CopyOnWriteArrayList 代替 ArrayList,它实现了读写分离。写操作复制一个新的集合,在新集合内添加或删除元素,修改完成后再将原集合的引用指向新集合。这样做的好处是可以高并发地进行读写操作而不需要加锁,因为当前集合不会添加任何元素。使用时注意尽量设置容量初始值,使用批量添加或删除,避免多次扩容,防止只增加一个元素却复制整个集合。

适合读多写少的场景,单个添加时效率极低。CopyOnWriteArrayList 是 fail-safe 的,并发包的集合都是这种机制,fail-safe 在安全的副本上遍历,集合修改与副本遍历没有任何关系,缺点是无法读取最新数据。这也是 CAP 理论中 C(一致性) 和 A(可用性) 的矛盾。


快速失败(fail-fast)和安全失败(fail-safe)

Java快速失败(fail-fast)和安全失败(fail-safe)

框架

Spring框架:核心容器、数据访问\集成、Web、AOP、工具、消息和测试模块

基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第6张图片

循环依赖问题解决:利用三级缓存、

对于Spring循环依赖的情况总结如下:

  1. 不能解决的情况:
    \1. 构造器注入循环依赖
    \2. prototype field属性注入循环依赖
  2. 能解决的情况:
    \1. field属性注入(setter方法注入)循环依赖

对Bean的创建最为核心三个方法解释如下:
createBeanInstance:实例化,其实也就是调用对象的构造方法实例化对象
populateBean:填充属性,这一步主要是对bean的依赖属性进行注入(@Autowired)
initializeBean:回到一些形如initMethod、InitializingBean等方法
从对单例Bean的初始化可以看出,循环依赖主要发生在第二步(populateBean),也就是field属性注入的处理。

Spring的循环依赖的理论依据基于Java的引用传递,当获得对象的引用时,对象的属性是可以延后设置的。(但是构造器必须是在获取引用之前,毕竟你的引用是靠构造器给你生成的,儿子能先于爹出生?哈哈)

利用三级缓存解决:就是三个Map

// 从上至下 分表代表这“三级缓存”
	private final Map<String, Object> singletonObjects = new ConcurrentHashMap<>(256); //一级缓存
	private final Map<String, Object> earlySingletonObjects = new HashMap<>(16); // 二级缓存
	private final Map<String, ObjectFactory<?>> singletonFactories = new HashMap<>(16); // 三级缓存

singletonObjects:用于存放完全初始化好的 bean,从该缓存中取出的 bean 可以直接使用
earlySingletonObjects:提前曝光的单例对象的cache,存放原始的 bean 对象(尚未填充属性),用于解决循环依赖
singletonFactories:单例对象工厂的cache,存放 bean 工厂对象,用于解决循环依赖。

解决流程:
先从一级缓存singletonObjects中去获取。(如果获取到就直接return)
如果获取不到或者对象正在创建中(isSingletonCurrentlyInCreation()),那就再从二级缓存earlySingletonObjects中获取。(如果获取到就直接return)
如果还是获取不到,且允许singletonFactories(allowEarlyReference=true)通过getObject()获取。就从三级缓存singletonFactory.getObject()获取。(如果获取到了就从singletonFactories中移除,并且放进earlySingletonObjects。其实也就是从三级缓存移动(是剪切、不是复制哦~)到了二级缓存)
加入singletonFactories三级缓存的前提是执行了构造器,所以构造器的循环依赖没法解决

getSingleton()从缓存里获取单例对象步骤分析可知,Spring解决循环依赖的诀窍:就在于singletonFactories这个三级缓存。这个Cache里面都是ObjectFactory,它是解决问题的关键。

Spring解决过程实例版:
1.使用context.getBean(A.class),旨在获取容器内的单例A(若A不存在,就会走A这个Bean的创建流程),显然初次获取A是不存在的,因此走A的创建之路~
2.实例化A(注意此处仅仅是实例化),并将它放进缓存(此时A已经实例化完成,已经可以被引用了)
3.初始化A:@Autowired依赖注入B(此时需要去容器内获取B)
4.为了完成依赖注入B,会通过getBean(B)去容器内找B。但此时B在容器内不存在,就走向B的创建之路~
5.实例化B,并将其放入缓存。(此时B也能够被引用了)
6.初始化B,@Autowired依赖注入A(此时需要去容器内获取A)
7.此处重要:初始化B时会调用getBean(A)去容器内找到A,上面我们已经说过了此时候因为A已经实例化完成了并且放进了缓存里,所以这个时候去看缓存里是已经存在A的引用了的,所以getBean(A)能够正常返回
8.B初始化成功(此时已经注入A成功了,已成功持有A的引用了),return(注意此处return相当于是返回最上面的getBean(B)这句代码,回到了初始化A的流程中~)。
9.因为B实例已经成功返回了,因此最终A也初始化成功
10.到此,B持有的已经是初始化完成的A,A持有的也是初始化完成的B,完美~
站的角度高一点,宏观上看Spring处理循环依赖的整个流程就是如此。希望这个宏观层面的总结能更加有助于小伙伴们对Spring解决循环依赖的原理的了解,同时也顺便能解释为何构造器循环依赖就不好使的原因。

Spring IoC⭐/Core Container

IoC /inverse of control

IoC 是一种把原本在程序中手动创建对象的控制权交给Spring框架管理的设计思想。控制反转,把对象创建、依赖反转给容器实现,需要创建一个容器和一种描述让容器知道对象间的依赖关系,Spring 通过 IoC 容器管理对象及其依赖关系。IoC 的主要实现方式是 DI,对象不是从容器中查找依赖的类,而是容器实例化对象时主动为它注入依赖的类。

基于 XML 的 IoC 初始化
当创建 ClassPathXmlApplicationContext 时,调用父类 AbstractApplicationContext 的 refresh 方法启动整个 IoC 容器对 Bean 定义的载入过程,在创建 IoC 容器前如果已有容器存在,需要销毁,保证使用的是新创建的容器。

容器创建后通过 loadBeanDefinitions 方法加载 Bean 配置资源,首先解析配置文件路径,读取配置文件内容,然后通过 XML 解析器将配置信息转换成文档对象,之后按照 Bean 的定义规则解析文档对象。

IoC 容器中注册的 Bean 信息存放在一个 HashMap 中,key 是字符串,值是 BeanDefinition。当配置信息中的 Bean 被解析且被注册到 IoC 容器后,初始化就算完成了。


DI/容器实例化对象时主动为它注入依赖的类:构造方法、setter、注解

  • 构造方法注入

    IoC 容器会检查对象的构造方法,取得它的依赖对象列表,当对象实例化完成时依赖的属性也会成功注入,可以直接使用。缺点是当依赖对象较多时,可能需要多个构造方法。

  • setter 方法注入

    只需要为依赖对象的属性添加 setter 方法,在描述性上要比构造方法注入强,缺点是无法在对象构造完成后就进入就绪状态。IoC 容器会先实例化 Bean 对象,然后通过反射调用 setter 方法注入属性。

  • 注解注入

    @Autowired:自动按类型注入,如果有多个匹配则按照指定 Bean 的 id 查找,需要搭配 @Qualifier
    @Resource :按照 Bean 的 id 注入,如果找不到则会按类型注入。
    @Value :用于注入基本数据类型和 String。


Bean:生命周期、作用域、创建方式:XML+注解

生命周期:从创建、注入到销毁的过程
在 IoC 容器的初始化时会对 Bean 定义完成资源定位,加载读取配置并解析,最后将解析的 Bean 信息放在一个 HashMap 集合中。当 IoC 容器初始化后,会创建 Bean 实例并完成依赖注入,注入对象依赖的各种属性值,在初始化时可以指定自定义的初始化方法。经过一系列初始化操作后 Bean 达到可用状态,当使用完成后会调用 destroy 方法进行销毁,此时也可以指定自定义的销毁方法,最终 Bean 被销毁且从容器中移除。

通过配置 bean 标签或注解中的 init-Method 和 destory-Method 属性指定自定义初始化和销毁方法。

  1. Spring 启动,查找并加载需要被 Spring 管理的 Bean,进行 Bean 的实例化;
  2. Bean 实例化后,对 Bean 的引入和值注入到 Bean 的属性中;
  3. 如果 Bean 实现了 BeanNameAware接口的话,Spring 将 Bean 的 Id 传递给setBeanName() 方法;
  4. 如果 Bean 实现了 BeanFactoryAware 接口的话,Spring 将调用 setBeanFactory() 方法,将 BeanFactory 容器实例传入;
  5. 如果 Bean 实现了 ApplicationContextAware 接口的话,Spring 将调用 Bean 的 setApplicationContext() 方法,将 Bean 所在应用上下文引用传入进来;
  6. 如果 Bean 实现了 BeanPostProcessor 接口,Spring 就将调用它们的postProcessBeforeInitialization() 方法;
  7. 如果 Bean 实现了 InitializingBean 接口,Spring 将调用它们的 afterPropertiesSet() 方法。类似地,如果 Bean 使用 init-method 声明了初始化方法,该方法也会被调用;
  8. 如果 Bean 实现了 BeanPostProcessor 接口,Spring 就将调用它们的 postProcessAfterInitialization() 方法;
  9. 此时,Bean 已经准备就绪,可以被应用程序使用了。它们将一直驻留在应用上下文中,直到应用上下文被销毁;
  10. 如果 Bean 实现了 DisposableBean 接口,Spring 将调用它的 destory() 接口方法,同样,如果 Bean 使用了 destory-method 声明销毁方法,该方法也会被调用。

作用域
通过 scope 属性指定作用域。

范围 作用域 备注
所有 Spring 应用 singleton 默认作用域,每个容器中只有一个唯一的 Bean 实例。
prototype 每次 Bean 请求都会创建一个新的实例。
Spring Web 应用 request 为每个请求创建一个新的实例。
session 为每个会话创建一个新的实例。
global session 为全局 session 创建一个新的实例。

创建 一个bean

  • XML

    默认无参构造方法,只需指明 bean 标签中的 id 和 class 属性,如果没有无参构造方法会报错。
    静态工厂方法,通过 bean 标签的 class 属性指明工厂,factory-method 属性指明方法。
    实例工厂方法,通过 bean 标签的 factory-bean 属性指明工厂,factory-method 属性指明方法。

  • 注解
    @Component 把当前类对象存入 Spring 容器,相当于在 xml 中配置一个 bean 标签。value 属性指定 bean 的 id,默认使用当前类首字母小写的类名。
    @Controller @Service @Repository 都是 @Component 的衍生注解,作用及属性都一模一样,只是提供了更明确的语义,@Controller 用于表现层,@Service用于业务层,@Repository用于持久层。
    如果想注入第三方类又没有源码,就没法使用 @Component,需要用 @Bean。被 @Bean 注解的方法返回值是一个对象,这个对象由 Spring 的 IoC 容器管理,name 属性用于给对象指定一个名称。


BeanFactory、FactoryBean 和 ApplicationContext 的区别
BeanFactory 是一个 Bean 工厂,使用简单工厂模式,是 Spring IoC 容器顶级接口,必须要遵循严格的生命周期流程,较复杂。作用是管理 Bean,包括实例化、定位、配置对象及维护对象间的依赖。BeanFactory 属于延迟加载,适合多例模式。

FactoryBean 是一个工厂 Bean,使用工厂方法模式,作用是生产其他 Bean 实例,可以通过实现该接口来自定义实例 Bean 的逻辑。如果一个 Bean 实现了这个接口,那么它就是创建对象的工厂 Bean,而不是 Bean 实例本身。

ApplicationConext 是 BeanFactory 的子接口,扩展了 BeanFactory 的功能,提供了支持国际化文本消息,统一的资源文件读取方式等功能。Bean 的依赖注入在容器初始化时就已经完成,属于立即加载,适合单例模式。


注解配置文件

@Configuration 指定当前类是一个 Spring 配置类,创建容器时会从该类上加载注解,value 属性指定配置类的字节码。
@ComponentScan 开启组件扫描,basePackages 属性指定要扫描的包。
@PropertySource 用于加载 properties 文件中的配置。
@Import 导入其他配置类,有 @Import 的是父配置类,引入的是子配置类,value 属性指定其他配置类的字节码。


Spring AOP ⭐

AOP 面向切面编程,将代码中重复的部分抽取出来,使用动态代理技术,在不修改源码的基础上对方法进行增强。

如果目标对象实现了接口,默认采用 JDK 动态代理,也可以强制使用 CGLib;如果目标对象没有实现接口,采用 CGLib 的方式。

常用场景包括权限认证、自动缓存、错误处理、日志、调试和事务等。


相关注解

@Aspect:声明被注解的类是一个切面 Bean。
@Before:前置通知,指在某个连接点之前执行的通知。
@Pointcut:切入点。表示需要切入的位置,比如某些类或者某些方法,也就是先定一个范围。
@After:后置通知,指某个连接点退出时执行的通知(不论正常返回还是异常退出)。
@AfterReturning:返回后通知,指某连接点正常完成之后执行的通知,返回值使用 returning 属性接收。
@AfterThrowing:异常通知,指方法异常退出时执行的通知,和 @AfterReturning 只会有一个执行,异常使用 throwing 属性接收。
参考文章


相关术语

Aspect:切面,一个关注点的模块化,这个关注点可能会横切多个对象。
Joinpoint:连接点,程序执行过程中的某一行为,即业务层中的所有方法。
Advice:通知,指切面对于某个连接点所产生的动作,包括前置通知、后置通知、返回后通知、异常通知和环绕通知。
Pointcut:切入点,指被拦截的连接点,切入点一定是连接点,但连接点不一定是切入点。
Proxy:代理,Spring AOP 中有 JDK 动态代理和 CGLib 代理,目标对象实现接口时采用 JDK 动态代理,反之采用 CGLib 代理。
Target:代理的目标对象,指一个或多个切面所通知的对象。
Weaving :织入,指把增强应用到目标对象来创建代理对象的过程。


Spring MVC ⭐

Web 容器启动时初始化 IoC 容器,加载 Bean 的定义信息并初始化所有单例 Bean,遍历容器中的 Bean,获取每个 Controller 中的所有方法访问的 URL,将 URL 和对应的 Controller 保存到一个 Map 集合中。

所有的请求会转发给 DispatcherServlet 处理,DispatcherServlet 会请求 HandlerMapping 找出容器中被 @Controler 修饰的 Bean 以及被 @RequestMapping 修饰的方法和类,生成 Handler 和 HandlerInterceptor 并以一个 HandlerExcutionChain 链的形式返回。

DispatcherServlet 使用 Handler 找到对应的 HandlerApapter,通过 HandlerApapter 调用 Handler 的方法,将请求参数绑定到方法的形参上,执行方法处理请求并得到逻辑视图 ModelAndView。

使用 ViewResolver 解析 ModelAndView 得到物理视图 View,进行视图渲染,将数据填充到视图中并返回给客户端。


组件:前端控制器、处理映射器、处理拦截器、适配器、视图解析

DispatcherServlet:前端控制器,整个流程控制的核心,负责接收请求并转发给对应的处理组件。
Handler:处理器,完成具体业务逻辑。
HandlerMapping:处理器映射器,完成 URL 到 Controller 映射。
HandlerInterceptor:处理器拦截器,如果需要完成拦截处理可以实现该接口。
HandlerExecutionChain:处理器执行链,包括 Handler 和 HandlerInterceptor。
HandlerAdapter:处理器适配器,DispatcherServlet 通过 HandlerAdapter 来执行不同的 Handler。
ModelAndView:逻辑视图,装载模型数据信息。
ViewResolver:视图解析器,将逻辑视图解析为物理视图。


相关注解

@RequtestMapping:将 URL 请求和方法映射起来,在类和方法定义上都可以添加。value 属性指定 URL 请求的地址。method 属性限制请求类型,如果没有使用指定方法请求 URL,会报 405 错误。params 属性限制必须提供的参数。

@RequestParam:如果 Controller 方法的形参和 URL 参数名不一致可以使用该注解绑定。value 属性表示 HTTP 请求中的参数名,required 属性设置参数是否必要,默认false。defaultValue 属性指定没有给参数赋值时的默认值。

@PathVariable:Spring MVC 支持 RESTful 风格 URL,通过 @PathVariable 完成参数绑定。


Spring Data JPA

ORM

Object-Relational Mapping ,表示对象关系映射,映射的不只是对象的值还有对象之间的关系,通过 ORM 就可以把对象映射到关系型数据库中。操作实体类就相当于操作数据库表,可以不再重点关注 SQL 语句。


JPA 的使用

只需要持久层接口继承 JpaRepository 即可,泛型参数列表中第一个参数是实体类类型,第二个参数是主键类型。

运行时通过 JdkDynamicAopProxyinvoke 方法创建了一个动态代理对象 SimpleJpaRepositorySimpleJpaRepository 中封装了 JPA 的操作,通过 hibernate 完成数据库操作。


实体类相关注解

@Entity:表明当前类是一个实体类。
@Table :关联实体类和数据库表。
@Column :关联实体类属性和数据库表中字段。
@Id :声明当前属性为数据库表主键对应的属性。
@GeneratedValue: 配置主键生成策略。
@OneToMany :配置一对多关系,mappedBy 属性值为主表实体类在从表实体类中对应的属性名。
@ManyToOne :配置多对一关系,targetEntity 属性值为主表对应实体类的字节码。
@JoinColumn:配置外键关系,name 属性值为外键名称,referencedColumnName 属性值为主表主键名称。


对象导航查询

通过 get 方法查询一个对象的同时,通过此对象可以查询它的关联对象。

对象导航查询一到多默认使用延迟加载, 关联对象是多个对象,使用立即加载可能浪费资源;对象导航查询多到一默认使用立即加载。

实体类注解的 fetch 属性表示加载方式,LAZY 是延迟加载,EAGER 是立即加载。


Mybatis⭐

XML 标签

selectinsertupdatedelete 标签分别对应查询、添加、更新、删除操作。

parameterType 属性表示参数的数据类型,包括基本数据类型和对应的包装类型、String 和 Java Bean 类型,当有多个参数时可以使用 #{argn} 的形式表示第 n 个参数。除了基本数据类型都要以全限定类名的形式指定参数类型。

resultType 表示返回的结果类型,包括基本数据类型和对应的包装类型、String 和 Java Bean 类型。还可以使用把返回结果封装为复杂类型的 resultMap


一级缓存

一级缓存是 SqlSession 级别,默认开启。

SqlSession 对象中有一个 HashMap 缓存数据,不同 SqlSession 间缓存数据互不影响。同一个 SqlSession 中执行两次相同的 SQL 语句时,第一次执行完毕会将结果保存在缓存中,第二次查询直接从缓存中获取。

如果 SqlSession 执行了 DML 操作(insert、update、delete),Mybatis 必须将缓存清空保证数据有效性。


二级缓存

二级缓存是Mapper 级别,默认关闭。

相比于一级缓存,缓存范围更大,多个 SqlSession 可以共用二级缓存,作用域是 Mapper 的同一个 namespace,不同 SqlSession 两次执行相同的 namespace 下的 SQL 语句,参数也相等,则第一次执行成功后会将数据保存在二级缓存中。

需要在全局配置文件中配置 ,并在对应的映射文件中配置 标签。


#{}${} 的区别

使用 ${} 相当于使用字符串拼接,存在 SQL 注入的风险。

使用 #{} 相当于使用占位符,可以防止 SQL 注入,不支持使用占位符的地方就只能使用 ${} ,典型情况就是动态参数。


SpringBoot⭐

优点

简化开发:它的作用就是快速搭建 Spring 框架。

简化配置:比如要创建一个 web 项目,在使用 Spring 的时候,需要在 pom 文件中添加多个依赖,而在 SpringBoot 中只需要添加一个 starter-web 依赖即可。

简化部署:使用 Spring 时需要部署 tomcat,然后把项目打成 war 包。而 SpringBoot 内嵌了 tomcat,只需要将项目打成 jar 包即可。


注解+自动装配SpringBootApplication = SpringBootConfiguration + EnableAutoConfiguration + ComponentScan

@SpringBootApplication:自动给程序进行必要配置,这个配置等同于:@SpringBootConfiguration@EnableAutoConfiguration@ComponentScan 三个配置。

@EnableAutoConfiguration:允许 SpringBoot 自动配置注解,开启后 SpringBoot 就能根据当前类路径下的包或者类来配置 Bean。

@SpringBootConfiguration:组合了 @Configuration 注解,实现配置文件的功能。

@ComponentScan:Spring组件扫描。


数据结构和算法

数据结构 :二叉查找树、AVL树、红黑树、B树、B+树

二叉查找树/二叉排序树/二叉搜索树
使用中序遍历来访问一棵二叉搜索树上的所有结点时,最后得到的访问序列恰好是所有结点关键字的升序序列。

查找:迭代和递归,根据特点根结点、左孩子结点、右孩子的大小关系很容易得到查找结果
最小、最大关键字:一直遍历左/右子树直到为空
前驱、后驱:即中序遍历的前后某个结点。
插入:要找到插入结点的父亲,同时也要指定是父亲的左孩子还是有孩子
删除

AVL 树⭐
当数据有序或者接近有序时,使用二叉搜索树进行存储时,得到的二叉搜索树是一颗单支树,其搜索的时间复杂度退化为O(logN)。所以提出了AVL树,AVL树是一颗特殊的二叉搜索树,向AVL树中插入一个节点后,树的所有节点的左右孩子节点的高度差的绝对值小于等于1。并且它的左右子树也是一颗AVL树。AVL 树是平衡二叉查找树,增加和删除节点后通过旋转重新达到平衡,旋转包括左旋和右旋。左旋是以某节点为中心,将它沉入当前左子节点的位置,而让当前的右子节点作为新树的根节点,称为逆时针旋转,右旋同理。


红黑树⭐
每个节点上有一个颜色属性,是红色或黑色。红黑树通过重新着色和左右旋转,高效地实现了平衡调整。

红黑树本质上是二叉查找树,额外引入了 5 个约束条件:
① 节点只能是红色或黑色。
② 根节点必须是黑色。
③ 所有 NIL 节点都是黑色的。
④ 一条路径上不能出现相邻的红色节点。
⑤ 在任何递归子树中,根节点到叶子节点的所有路径上包含相同数目的黑色节点。
这五个条件保证了红黑树增删查的最坏时间复杂度均为 O(log2n)。红黑树的任何旋转在 3 次之内均可完成。

红黑树的平衡性不如 AVL 树,它维持的只是一种大致的平衡,不严格保证左右子树的高度差不超过 1。节点数相同的情况下,红黑树的高度可能更高,平均查找次数会高于 AVL 树。

在插入时,红黑树和 AVL 树都能在至多两次旋转内恢复平衡,在删除时由于红黑树只追求大致平衡,因此至多三次旋转可以恢复平衡,而 AVL 树最多需要 O(logn) 次。面对频繁地插入与删除红黑树更加合适。


B 树⭐
B 树 又叫多路平衡搜索树,一颗 m 叉的 B 树:

  • 树中每个节点最多包含 m 个子节点。
  • 除根节点与叶子节点外,每个节点至少有 ceil(m/2) 个子节点。
  • 所有的叶子节点都在同一层。
  • 每个非叶子节点由 n 个 key 与 n+1 个指针组成,其中 ceil(m/2)-1 <= n <= m-1

B 树和二叉树相比,查询效率更高,因为 B 树的层级结构比二叉树小(深度小,需要遍历的次数少)。


B+ 树⭐
B 树中每个节点同时存储 key 和 data,而 B+ 树中只有叶子节点才存储 data,非叶子节点只存储 key。InnoDB 对 B+ 树进行了优化,在每个叶子节点上增加了一个指向相邻叶子节点的链表指针,形成了带有顺序指针的 B+ 树,提高区间访问的性能。

B+ 树的优点:

  • 由于 B+ 树在非叶子节点上不含数据信息,因此在内存中能够存放更多的 key,数据存放得更紧密,利用率更高。
  • B+ 树的叶子节点都是相连的,对整棵树的遍历只需要对叶子节点进行一次线性遍历,而 B 树则需要每层递归遍历,相邻元素可能在内存中不相邻,缓存命中率没有 B+ 树好。
  • B 树的优点是,由于每个节点都包含 key 和 value,经常访问的元素可能离根节点更近,访问也更迅速。

图⭐
图表示多对多关系,根据边的属性分为有向图和无向图。
存储结构:

  • 邻接矩阵:一个一维数组存储图的顶点信息,一个二维数组存储图的边/弧信息。无向图中 1 表示两个顶点连通,0 表示不连通;有向图中 1 表示存在弧,0 表示不存在弧。
  • 邻接表:邻接表是一种链式存储结构,结合了数组与链表。将顶点存储在一个一维数组中,同时在顶点信息中存储用于指向第一个邻接点的指针。图中每个顶点的所有邻接点构成了一个线性表,由于邻接点个数不定,所以用单向链表存储。

遍历:

  • 广度优先:类似树的层次遍历,在访问某顶点后依次访问该顶点的各个未访问的邻接点。
  • 深度优先:类似树的先序遍历,在访问某顶点后,按深度优先访问其邻接点。

排序 ⭐

参考链接


设计模式

参考链接


MySQL

数据库概念:范式、SQL分类、连接

范式
范式是数据库设计规范,范式越高则数据库冗余越小,但查询也更复杂,一般只需满足第三范式。

范式 含义
第一范式 每列都是不可再分的数据单元。
第二范式 在第一范式的基础上消除部分依赖,非主键列必须完全依赖于主键列。
第三范式 在第二范式的基础上消除传递依赖,非主键列只依赖于主键列。

阿姆斯特朗公理:函数依赖推理的公理体系,包括自反律、增广律和传递律。设 U为关系模式R的属性集总体,F是U上的一组函数依赖。则对于关系模式R是否为F所蕴含,推理规则如下:①自反律。若Y⊆X⊆U,则X→Y为F所蕴含。②增广律。若X→Y为F所蕴含,且Z⊆U,则XZ→YZ为F所蕴含。③传递律。若X→Y及Y→Z为F所蕴含,则X→Z为F 所蕴含。


SQL

类型 含义
DQL 数据查询语言。通常是由 SELECT、FROM、WHERE 组成的语句。
DML 数据操纵语言。包括 INSERT、UPDATE、DELETE 语句。
DCL 数据控制语言。通过 GRANT 和 REVOKE,设置用户或用户组的访问权限。
DDL 数据定义语言。常用的有 CREATE 和 DROP,用于创建、删除表和索引等。

连接

类型 含义
左外连接 以左表为主表,可以查询左表存在而右表为 null 的记录。
右外连接 以右表为主表,可以查询右表存在而左表为 null 的记录。
内连接 查询左右表同时满足条件的记录,两边都不可为 null。

逻辑架构

第一层是服务器层,主要提供连接处理、授权认证、安全等功能。

第二层实现了 MySQL 核心服务功能,包括查询解析、分析、优化、缓存以及日期和时间等内置函数。

第三层是存储引擎层,负责数据的存储和提取。服务器通过 API 与存储引擎通信,这些接口屏蔽了不同存储引擎的差异。除了会解析外键定义的 InnoDB 外,存储引擎不会解析 SQL,不同存储引擎之间也不会相互通信,只是简单响应服务器请求。

三级模式两级映射参考


锁⭐:分类及死锁问题解决

按类型
分为共享锁(S 锁)和排它锁(X 锁),也叫读锁和写锁。读锁是共享的,相互不阻塞,多个客户在同一时刻可以读取同一资源。写锁是排他的,会阻塞其他的写锁和读锁,确保在给定时间内只有一个用户能执行写入。
写锁比读锁有更高的优先级,一个写锁请求可能会被插入到读锁队列的前面,但读锁不能插入到写锁前面。

按范围
表锁会锁定整张表,开销小,不会出现死锁,但锁冲突概率高、并发度低。

行锁可以最大程度地支持并发,锁冲突概率低,但开销大,会出现死锁。行锁只在存储引擎层实现,InnoDB 实现了行锁。


MVCC /多版本并发控制/时间戳/

多版本并发控制,在很多情况下避免加锁,大都实现了非阻塞读,写也只锁定必要行。
InnoDB 通过在每行记录保存两个隐藏列来实现,这两个列分别保存了行的创建和过期时间,但不是实际时间而是系统版本号,每开始一个新的事务系统版本号会自动递增,事务开始时的系统版本号会作为事务版本号,用来和查询到的每行记录的版本号比较。

MVCC 只能在提交读和可重复读两个级别工作,因为未提交读总是读取最新的数据行,而不是符合当前事务版本的数据行,而可串行化则会对所有读取的行都加锁。


数据库死锁
当多个事务以不同顺序锁定资源,或者同时锁定同一个资源时都可能产生死锁。
解决:

  • InnoDB 会自动检测,并使一个事务回滚,另一个事务继续。
  • 设置超时等待参数 innodb_local_wait_timeout

避免:

  • 不同业务并发访问多个表时,约定以相同的顺序访问。
  • 在事务中,如果要更新记录,使用排它锁。

乐观锁和悲观锁

乐观锁的实现机制:CAS、MVCC
悲观锁的实现机制:加锁,加锁既可以在代码层面(比如Java中的synchronized关键字),也可以在数据库层面(比如MySQL中的排他锁)。
参考文字

事务⭐

事务是一组原子性的 SQL 语句,当有任何一条语句因崩溃或其他原因无法执行时,所有语句都不会执行。事务内的语句要么全部执行成功,要么全部执行失败。
原子性: 一个事务在逻辑上是必须不可分割的最小单元,整个事务中的所有操作要么全部成功,要么全部失败。
一致性: 数据库总是从一个一致性的状态转换到另一个一致性的状态。
隔离性: 针对并发事务而言,要隔离并发运行的多个事务之间的影响,数据库提供了多种隔离级别。
持久性: 一旦事务提交成功,其修改就会永久保存到数据库中,此时即使系统崩溃,修改的数据也不会丢失。


隔离级别⭐

未提交读 READ UNCOMMITTED
事务中的修改即使没有提交,对其他事务也是可见的。事务可以读取其他事务修改完但未提交的数据,这种问题称为脏读。这个级别还存在不可重复读和幻读,很少使用。
提交读 READ COMMITTED
多数数据库的默认隔离级别,事务只能看见已提交事务的修改。存在不可重复读,两次执行同样的查询可能会得到不同结果。
可重复读 REPEATABLE READ(MySQL默认的隔离级别)
解决了不可重复读,保证同一个事务中多次读取同样的记录结果一致,InnoDB 通过 MVCC 解决。但无法解决幻读,幻读指当某个事务在读取某个范围内的记录时,会产生幻行。
可串行化 SERIALIZABLE
最高隔离级别,通过强制事务串行执行避免幻读。在读取的每一行数据上都加锁,可能导致大量的超时和锁争用的问题。实际很少使用,只有非常需要确保数据一致性时考虑。


常见存储引擎

InnoDB ⭐:是否支持行及锁、安全恢复、外键、MVCC,如何实现事务:日志

MySQL5.1 开始的默认引擎,相比其它引擎最大的优点是支持事务和外键。InnoDB 的性能和自动崩溃恢复特性使它在非事务型需求中也很流行,一般优先考虑使用 InnoDB。

InnoDB 的底层存储结构是 B+ 树,B+ 树的每个节点都对应 InnoDB 的一个页,页的大小是固定的,一般为 16 KB。非叶子节点只有 key 值,叶子节点包含完整的数据。

InnoDB 支持行锁,采用 MVCC 支持高并发,实现了四个标准的隔离级别。默认级别是 REPEATABLE READ,通过间隙锁防止幻读,间隙锁就是在范围查询时对范围内不存在的记录加锁。
InnoDB 表基于聚簇索引,对主键查询有很高的性能,不过它的二级索引中必须包含主键列,如果主键很大的话其他索引都会很大,因此表上索引较多的话主键应当尽可能小。

InnoDB 内部做了很多优化,包括在内存中创建加速读操作的自适应哈希索引、加速插入操作的缓冲区等。

InnoDB存储引擎对ACID的实现方式/InnoDB对事务的实现方式
利用回滚日志(undo log) 和 重做日志(redo log) 两种表实现事务,并实现 MVCC (多版本并发控制);

在执行事务的每条SQL时,会先将数据原值写入undo log 中, 然后执行SQL对数据进行修改,最后将修改后的值写入redo log中。

redo log 重做日志包括两部分:1 是内存中的重做日志缓冲 ;2 是重做日志文件。在事务提交时,必须先将该事务的所有日志写入到重做日志文件进行持久化,待事务commit操作完成才算完成。

当一个事务中的所有SQL都执行成功后,会将redo log 缓存中的数据刷入磁盘,然后提交。

如果发生回滚,会根据undo log 恢复数据。


MyISAM

MySQL5.1及之前的默认引擎,提供的特性包括全文索引、空间函数等,但不支持事务、行锁和外键,最大的缺陷是崩溃后无法恢复,在插入和更新数据时需要锁定整张表,效率低。对于只读的数据或者表比较小、可以忍受修复操作的情况可以使用 MyISAM。

MyISAM 的特点是执行读操作的速度快,占用内存和存储资源少。它在设计时就假设数据被组织成固定长度的记录,并且是按顺序存储的。在查找数据时,MyISAM 直接查找文件的 offset,定位比 InnoDB 快,因为 InnoDB 寻址时要先映射到块,再映射到行。


Memory

如果需要快速访问数据且这些数据不会被修改,重启以后丢失也没有关系,可以使用 Memory 表。Memory 表的数据保存在内存,不需要磁盘 IO,表的结构在重启后会保留,数据会丢失,支持哈希索引,查找速度快。

使用表锁,并发性能低。

如果 MySQL 在查询过程中需要使用临时表保存中间结果,会使用 Memory 表。如果中间结果太大超出了 Memory 表的限制,或者含有 BLOB 或 TEXT 字段,会转换成 MyISAM 表。

MyISAM和Innodb底层存储结构

参考文章


查询执行流程

① 客户端发送一条查询给服务器。
② 服务器先检查查询缓存,如果命中了缓存则立刻返回存储在缓存中的结果,否则进入下一阶段。
③ 服务器端进行 SQL 解析、预处理,再由优化器生成对应的执行计划。
④ MySQL 根据优化器生成的执行计划,调用存储引擎的 API 来执行查询。
⑤ 将结果返回给客户端。


数据类型

VARCHAR 和 CHAR 的区别⭐

VARCHAR 存储可变字符串,比 CHAR 更节省空间。VARCHAR 需要 1 或 2 个额外字节记录字符串长度,不会删除末尾空格。
适用场景:字符串列的最大长度比平均长度大很多、列的更新很少、使用了 UTF-8 这种复杂字符集。

CHAR 是定长的,根据定义的字符串长度分配空间, 会删除末尾空格。
CHAR 适合存储很短的字符串,或所有值都接近同一个长度。对于非常短的列,CHAR 在存储空间上更有效率,例如存储只有 Y 和 N 的值只需要一个字节,但 VARCHAR 需要两个字节(一个字节记录长度)。


DATETIME 和 TIMESTAMP 的区别

DATETIME 能保存大范围的值,从 1001~9999 年,精度为秒。把日期和时间封装到了一个整数中,与时区无关,使用 8 字节存储空间。

TIMESTAMP 和 UNIX 时间戳相同,只使用 4 字节的存储空间,范围比 DATETIME 小得多,只能表示 1970 ~2038 年,并且依赖于时区。


数据类型优化策略

更小的通常更好
尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常也更快,因为它们占用更少的磁盘、内存和 CPU 缓存。

尽可能简单
简单数据类型的操作需要更少的 CPU 周期,例如应该使用 date、time 或 datetime 而不是字符串来存储日期和时间。

尽量避免 NULL
通常情况下最好指定列为 NOT NULL,除非需要存储 NULL值。因为如果查询中包含可为 NULL 的列更难优化,可为 NULL 的列使索引、索引统计和值比较都更复杂,并且会使用更多存储空间。


索引⭐:优点、缺点

索引也叫键,是帮助存储引擎快速找到记录的一种数据结构。
在 MySQL 中,首先在索引中找到对应的值,然后根据匹配的索引记录找到对应的数据行。索引可以包括一个或多个列的值,如果索引包含多个列,那么列的顺序也十分重要,因为 MySQL 只能使用索引的最左前缀。

优点

  • 大大减少服务器需要扫描的数据量、帮助服务器避免排序和临时表、将随机 IO 变成顺序 IO。
  • 通过索引列对数据排序可以降低 CPU 开销。

缺点

  • 实际上索引也是一张表,保存了主键与索引字段,并指向实体类的记录,也要占用空间。
  • 降低了更新表的速度,因为更新表时 MySQL 不仅要保存数据,还要保存索引文件。
  • 对于非常小的表,大部分情况下会采用全表扫描。对于中到大型的表,索引非常有效。

B-Tree 索引

大多数 MySQL 引擎都支持这种索引,但底层可能使用不同结构,例如 NDB 使用 B-Tree,InnoDB 使用 B+ Tree。

B-Tree 意味着所有的值都是顺序存储的,并且每个叶子页到根的距离相同。B-Tree 索引能够加快访问数据的速度,存储引擎不再需要进行全表扫描来获取数据,而是从索引的根节点开始搜索。根节点的槽中存放了指向子节点的指针,存储引擎根据这些指针向下层查找。叶子节点的指针指向的是被索引的数据,而不是其他节点页。

B-Tree 限制:

  • 必须按照索引的最左列开始查找。
  • 不能跳过索引中的列,例如索引为 (id,name,sex),不能只使用 id 和 sex 而跳过 name。
  • 如果查询中有某个列的范围查询,则其右边的所有列都无法使用索引。

Hash 索引

哈希索引基于哈希表实现,只有精确匹配索引所有列的查询才有效。对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码,哈希索引将哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。索引自身只需存储对应的哈希值,所以索引结构十分紧凑,这让哈希索引的速度非常快。

限制:

  • 数据不是按照索引值顺序存储的,无法排序。
  • 不支持部分索引匹配查找,因为哈希索引是使用索引列的全部内容来计算哈希值的。
  • 只支持等值比较查询,不支持范围查询。

自适应哈希索引
自适应哈希索引是 InnoDB 的一个特殊功能,当它注意到某些索引被使用得很频繁时,会在内存中创键哈希索引,让 B-Tree 索引也具有哈希索引的一些优点。


空间索引

空间索引是 MyISAM 的一个特殊索引类型,用作地理数据存储。会从所有维度索引数据,查询时可以有效地使用任意维度来组合查询。


全文索引

全文索引是 MyISAM 的一个特殊的 B-Tree 索引,一共有两层。第一层是所有关键字,然后对于每一个关键字的第二层,包含的是一组相关的文档指针。全文索引不会索引文档对象中的所有词语,它会根据规则过滤掉一些词语,例如停用词列表中的词都不会被索引。

适用场景:如果希望通过关键字匹配进行查询,就需要基于相似度的查询,而不是精确的数值比较,全文索引就是为这种场景设计的。


聚簇索引和覆盖索引

聚簇索引不是一种索引类型,而是一种数据存储方式。InnoDB 的聚簇索引实际上在同一个结构中保存了 B 树索引和数据行。当表有聚簇索引时,它的行数据实际上存放在索引的叶子页中,由于无法同时把数据行存放在两个不同的地方,所以一个表只能有一个聚簇索引。

优点:可以把相关数据保存在一起;将索引和数据保存在同一个 B 树中,获取数据比非聚簇索引要更快。

缺点:如果数据全部在内存中会失去优势;更新代价高,强制每个被更新的行移动到新位置;插入行或主键更新时,可能导致页分裂,占用更多磁盘空间。

覆盖索引指一个索引包含所有需要查询字段的值,不再需要根据索引回表查询。

优点:① 索引条目通常远小于数据行大小,如果只需要读取索引可以减少数据访问量。② 索引按照列值顺序存储,对于 IO 密集型的范围查询会比随机从磁盘读取每行数据的 IO 少得多。③ 由于 InnoDB 的聚簇索引,覆盖索引对 InnoDB 很有帮助。InnoDB 的二级索引在叶子节点保存了行的主键值,如果二级主键能覆盖查询那么可以避免对主键索引的二次查询。


索引使用原则

控制数量
索引数量不是越多越好,索引越多,维护索引的代价自然也就越高。对于 DML 操作比较频繁的表,索引过多会导致很高的维护代价。

使用短索引
索引使用硬盘存储,假如构成索引的字段长度比较短,那么在储块内就可以存储更多的索引,提升访问索引的 IO 效率。

建立索引尽量为经常需要排序、分组、联合操作的字段和常常作为查询条件的字段建立索引
对查询频次较高且数据量比较大的表建立索引。索引字段的选择,最佳候选列应当从 WHERE 子句的条件中提取,如果 WHERE 子句中的组合比较多,应当挑选最常用、过滤效果最好的列的组合。业务上具有唯一特性的字段,即使是多个字段的组合,也必须建成唯一索引。

使用前缀索引
对于 BLOB、TEXT 或很长的 VARCHAR 列必须使用前缀索引,MySQL 不允许索引这些列的完整长度。前缀索引是一种能使索引更小更快的有效方法,缺点是 MySQL 无法使用前缀索引做 ORDER BY 和 GROUP BY 以及覆盖扫描。

选择合适的索引顺序
当不需要考虑排序和分组时,将选择性最高的列放在前面。索引的选择性是指不重复的索引值和数据表的记录总数之比,索引的选择性越高则查询效率越高,
唯一索引的选择性是 1,因此也可以使用唯一索引提升查询效率。

删除重复索引
MySQL 允许在相同列上创建多个索引,重复索引需要单独维护,重复索引是指在相同的列上按照相同顺序创建的同类型的索引,应该避免创建。如果创建了索引 (A,B) 再创建索引 (A) 就是冗余索引,因为这只是前一个索引的前缀索引,对于 B-Tree 索引来说是冗余的。解决重复索引和冗余索引的方法就是删除这些索引。

索引失效的情况/设置索引无法使用

① 隐式类型转换,常见情况是在 SQL 的 WHERE 条件中字段类型为字符串,其值为数值,如果没有加引号那么 MySQL 不会使用索引。
② 如果条件中 OR 只有部分列使用了索引,索引会失效。不要在索引上做任何操作(计算,函数,自动(匹配单字符不加‘’)or手动类型转换),会导致索引失效转向全表扫描。

③ MySQL 不能在索引中执行 LIKE 操作,这是底层存储引擎 API 的限制,最左匹配会被转换为比较操作,但如果以通配符开头,存储引擎就无法做比较,MySQL 只能提取数据行的值而不是索引值来做比较。

④ 如果查询中的列不是独立的,则 MySQL 不会使用索引。独立的列是指索引列不能是表达式的一部分,也不能是函数的参数。

⑤ 对于多个范围条件查询,MySQL 无法使用第一个范围列后面的其他索引列,对于多个等值查询则没有这种限制。

⑥ 如果 MySQL 判断全表扫描比使用索引查询更快,则不会使用索引。


优化 ⭐/sql调优/数据库调优

定位低效 SQL

可以通过慢查询日志定位到已经执行完毕的 SQL 语句。还可以使用 SHOW PROCESSLIST 命令查看正在执行的线程,包括线程状态、是否锁表等,可以实时查看 SQL 的执行情况,同时对一些锁表操作进行优化。

定位到低效语句后,就可以通过 EXPLAIN 或 trace 进一步处理。

MySQL5.6 提供了对 SQL 语句的跟踪功能,可以通过 trace 进一步获知优化器是如何选择执行计划的,使用时需要先打开设置,然后执行一次 SQL,查看 information_schema.optimizer_trace 表的内容,该表为临时表,每次查询后返回的都是最近一次执行的 SQL 语句。


EXPLAIN 的字段

执行计划是 SQL 调优的重要依据,可以通过 EXPLAIN 命令查看 SQL 语句的执行计划,如果作用在表上,那么该命令相当于 DESC。EXPLAIN 的指标及含义如下:

指标名 含义
id SELECT 子句或操作表的顺序,执行顺序从大到小执行,当 id 一样时,执行顺序从上往下。
select_type 查询中每个 SELECT 子句的类型,例如 SIMPLE 表示简单查询,PRIMARY 表示复杂查询的最外层查询。
type 访问类型,性能由差到好:ALL、index、range(至少达到)、ref(要求)、const、system、NULL。
possible_keys 查询时可能用到的索引,列出大量可能索引时意味着备选索引太多。
key 查询时实际使用的索引,没有则为 NULL。
key_len 所用索引字段的长度,对于确认索引有效性以及多列索引中用到的列数目很重要。
ref 表的连接匹配条件,即哪些列或常量被用于查找索引列上的值。
rows 估算找到所需记录所需要读取的行数。
Extra 额外信息,例如 Using temporary 表示需要使用临时表存储结果集;Using index 表示只需使用索引就可满足查询要求,说明表正在使用覆盖索引。

优化查询

  • 避免全表扫描
    考虑在 WHERE 和 ORDER BY 涉及的列上建立索引,IN 和 NOT IN 也要慎用,尽量用 BETWEEN 取代。

  • 优化 COUNT 查询
    COUNT 可以统计列的数量,统计列值时要求列非空;COUNT 还可以统计行数,当 MySQL 确定括号内的表达式不可能为 NULL 时,实际上就是在统计行数。当使用 COUNT(*) 时,会忽略所有列而直接统计行数。

    某些业务场景不要求完全精确的 COUNT 值,此时可以使用近似值来代替,EXPLAIN 估算的行数就是一个不错的近似值。

  • 避免子查询
    在 MySQL5.5 及以下版本避免子查询,因为执行器会先执行外部的 SQL 再执行内部的 SQL,可以用关联查询代替。

  • 禁止排序
    当查询使用 GROUP BY 时,结果集默认会按照分组的字段进行排序,如果不关心顺序,可以使用 ORDER BY NULL 禁止排序。

  • 优化分页
    在偏移量非常大的时候,需要查询很多条数据再舍弃,代价非常高。最简单的优化是尽可能地使用覆盖索引扫描,而不是查询所有的列,然后做关联操作再返回所需的列。还有一种方法是从上一次取数据的位置开始扫描,避免使用 OFFSET。

  • 优化 UNION
    MySQL 通过创建并填充临时表的方式来执行 UNION 查询,除非确实需要消除重复的行,否则使用 UNION ALL,如果没有 ALL 关键字,MySQL 会给临时表加上 DISTINCT 选项,对整个临时表的数据做唯一性检查,代价非常高。

  • 使用用户自定义变量
    用户自定义变量是一个用来存储内容的临时容器,在连接 MySQL 的整个过程中都存在,可以在任何可以使用表达式的地方使用自定义变量,避免重复查询刚刚更新过的数据。


复制

作用

复制是为了让一台服务器的数据与其他服务器保持同步。

MySQL 支持两种复制方式:基于行的复制和基于语句的复制,基于语句的复制也称为逻辑复制。这两种方式都是通过在主库上记录二进制日志、在备库重放日志的方式来实现异步的数据复制,因此同一时刻备库可能与主库存在数据不一致。

MySQL 复制大部分是向后兼容的,老版本服务器不能作为新版本服务器的备库,因为它可能无法解析新版本所用的语法。


步骤

每次准备提交事务前,主库将数据更新的事件记录到日志中。MySQL 会按事务提交顺序而非语句执行顺序来记录日志。

备库将主库的二进制日志复制到其本地的中继日志中。备库会启动一个工作的 IO 线程,IO 线程跟主库建立连接,然后在主库上启动一个线程,这个线程会读取主库上二进制日志中的事件。

备库的 SQL 线程从中继日志中读取事件并在备库执行,从而实现备库数据的更新。当 SQL 线程追赶上 IO 线程时,中继日志通常已经在系统缓存中,所以中继日志的开销很低。


存储过程、函数、触发器⭐

存储过程
存储过程是由流控制和 SQL 语句组成的程序,经过编译和优化后存储在数据库服务器中,使用时只需要调用即可。
好处

  • 使用流控制语句编写,具有较强的灵活性。
  • 保证数据安全性,使没有权限的用户间接存取数据库。
  • 保证数据完整性,使一组相关动作在一起执行。
  • 调用存储过程前,数据库已经对其进行了语法分析,并给出优化执行方案,可以改善 SQL 语句的性能。
  • 降低网络通信量,减小负载。

函数
由一个或多个 SQL 语句组成的子程序,可用于封装代码以便重新使用。
和存储过程的区别:

  • 存储过程的参数有 in,out,inout 三种,存储过程声明时不需要返回类型;函数参数只有 in,需要描述返回类型,且函数中必须包含一个有效的 return 语句。
  • 存储过程可以有 0 或多个返回值,适合做批量插入、更新;函数有且仅有一个返回值,针对性更强。
  • 存储过程可以返回参数,如记录集,函数只能返回值或者表对象。
  • 存储过程一般作为独立部分执行,而函数可以作为查询语句的一个部分来调用,由于函数可以返回一个表对象,所以在查询中位于from 关键字后面,SQL 语句中不可以含有存储过程。

触发器
触发器是一段能自动执行的程序,和存储过程的区别是,触发器主要是通过事件执行触发而被执行的,而存储过程可以通过存储过程名称而直接调用。触发器在对某一个表或者数据进行操作时触发,例如进行 UPDATE、INSERT、DELETE 操作时,系统会自动调用和执行该表对应的触发器。触发器一般用于数据变化后需要执行一系列操作的情况,比如对系统核心数据的修改需要通过触发器来存储操作日志的信息等。


自增主键记录删除后重新插入的编号问题

日志

参考文章


SQL注入

SQL 注入(SQL Injection)是发生在 Web 程序中数据库层的安全漏洞,是网站存在最多也是最简单的漏洞。主要原因是程序对用户输入数据的合法性没有判断和处理,导致攻击者可以在 Web 应用程序中事先定义好的 SQL 语句中添加额外的 SQL 语句,在管理员不知情的情况下实现非法操作,以此来实现欺骗数据库服务器执行非授权的任意查询,从而进一步获取到数据信息。

简而言之,SQL 注入就是在用户输入的字符串中加入 SQL 语句,如果在设计不良的程序中忽略了检查,那么这些注入进去的 SQL 语句就会被数据库服务器误认为是正常的 SQL 语句而运行,攻击者就可以执行计划外的命令或访问未被授权的数据。
参考文章

下面是在开发过程中可以避免 SQL 注入的一些方法。

  1. 避免使用动态SQL
    避免将用户的输入数据直接放入 SQL 语句中,最好使用准备好的语句和参数化查询,这样更安全。
  2. 不要将敏感数据保留在纯文本中
    加密存储在数据库中的私有/机密数据,这样可以提供了另一级保护,以防攻击者成功地排出敏感数据。
  3. 限制数据库权限和特权
    将数据库用户的功能设置为最低要求;这将限制攻击者在设法获取访问权限时可以执行的操作。
  4. 避免直接向用户显示数据库错误
    攻击者可以使用这些错误消息来获取有关数据库的信息。

回表

回表这里我们举一个常见的例子。从刚接触代码起,我们就已经开始写登录注册了。那么我们登录的时候账号,密码是如何设置的呢?

数据量小还好,一旦数据量起来的肯定是要添加索引的。问题来了,索引如何建立!
如果只给账号设置索引的话就碰到了回表操作。MySQL底层是B+树。如果给账号设置索引的话,账号这个字段就成了一个节点树。而我们查询的时候会查询账号+密码。密码不在这颗树上,所以就需要回表去查询密码这个字段然后拼凑在一起。

如何避免
回表意味着增加磁盘IO的开销,所以避免回表也是优化MySQL的一种方式。还是举登录这个例子,账号密码属于高频查询。给账号+密码创建一个联合索引就可以避免回表了。

剩下的就根据各自的业务场景需求啦。比如软件设计师官网的登录。利用的是身份证+密码。每一种都不一样。

跳表

跳表 也是为了 快速查找 而提出的一种数据结构。我们在链表中查询数据的时候,时间复杂度是O(n),为了解决效率问题,跳表就产生了。它本质上是一种多级链表,通过增加数据的冗余来换取查找的时间复杂度,属于空间换时间的思想。不过呢,其实空间也不会消耗太多,因为冗余的只是节点指针。

优点分析
相比红黑树来说,跳表实现简单,而且插入和删除的操作也不难。红黑树里面大量的自旋操作常常让人迷惑。
数据是自排序的,这点和MYSQL里面的B+树很像,默认是从小到大排序的。利用这一点就是快速进行范围查找,而不用真正地排序。
跳表的主要思想就是这样逐渐建立索引,加速查找与插入。从最上层开始,如果key小于或等于当层后继节点的key,则平移一位;如果key更大,则层数减1,继续比较。最终一定会到第一层
基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第7张图片

Redis

特点⭐

特点 说明
KV 数据库 值包括多种数据结构:字符串、哈希、列表、集合、有序集合,在字符串基础上演变出 Bitmaps 和 HyperLogLog。
功能丰富 键过期(缓存);发布订阅(消息系统);支持 Lua 脚本(创造 Redis 命令);简单事务;流水线(减少网络开销)。
简单 单线程模型,服务端处理模型和客户端开发简单;不依赖底层操作系统的类库,自己实现了事件处理的相关功能。
持久化 Redis 提供了两种持久化方式 RDB 和 AOF 将内存数据保存到硬盘。
高性能 将所有数据放在内存;Redis 使用非阻塞 IO 模型 epoll;单线程避免了线程切换和竞争消耗。

内部编码

可以使用 type 命令查看键的数据结构,包括:string、hash、list、set、zset,这些是 Redis 对外的数据结构。实际上每种数据结构都有底层的内部编码,Redis 根据场景选择合适的内部编码,可以使用 object encoding

数据类型 内部编码
string int:8B 整形。
embstr:value <= 39B
raw:value > 39B
hash ziplist:field <= 512 且 value <= 64B
hashtable:field > 512 或 value > 64B,此时 ziplist 的读写效率下降,而 hashtable 的读写时间复杂度都为 O(1)。
list ziplist:key <= 512 且 value <= 64B
linkedlist:key > 512 或 value > 64B
Redis 3.2 提供了 quicklist,是以一个 ziplist 作为节点的 linkedlist,结合了两者的优势。
set intset:key <= 512 且 element 是整数
hashtable:key > 512 或 element 不是整数
zset ziplist:key <= 128 且 member <= 64B
skiplist:key > 128 或 member > 64B

ziplist 的特点

  • 内部是数据紧凑排列的一块连续内存数组,可以大幅降低内存占用。
  • 可以模拟双向链表,以 O(1) 时间复杂度出队和入队。
  • 新增删除需要内存重新分配或释放,涉及复杂的指针移动,最坏时间复杂度 O(n2)。
  • 适合存储小对象和长度有限的数据。

string ⭐

字符串类型是 Redis 最基础的数据结构,键是字符串,值可以是字符串(简单的字符串、复杂的字符串如 JSON、XML)、数字(整形、浮点数)、二进制(图片、音频、视频),但最大不能超过 512 MB。

命令

命令 含义
set 设置指定 key 的值。
setex 为键设置秒级过期时间。
setnx 键必须不存在才能设置成功,由于 Redis 的单线程命令处理机制,多个客户端同时执行只有一个能设置成功,可用作分布式锁的一种实现。如果返回 0 说明锁正被占用,返回 1 则成功获取锁。
get 获取指定 key 的值。
mset 批量设置值。
mget 批量获取值,批量操作可以提高效率,假如没有 mget,执行 n 次 get 命令需要 n 次网络时间 + n 次命令时间,使用 mget 只需要 1 次网络时间 + n 次命令时间。
incr 将存储在 key 的数字值加 1。值不是整数返回错误;值是整数,返回自增后的结果;值不存在,按照值为 0 自增,返回 1。
decr 将存储在 key 的数字值减 1。

应用场景:缓存、计数、共享session、限速

缓存
Redis 作为缓存层,MySQL 作为存储层,首先从 Redis 获取数据,如果失败就从 MySQL 获取并将结果写回 Redis 并添加过期时间。

计数
Redis 可以实现快速计数功能,例如视频每播放一次就用 incr 把播放数加 1。

共享 Session
一个分布式 Web 服务将用户的 Session 信息保存在各自服务器,但会造成一个问题,出于负载均衡的考虑,分布式服务会将用户的访问负载到不同服务器上,用户刷新一次可能会发现需要重新登陆。为解决该问题,可以使用 Redis 将用户的 Session 进行集中管理,每次用户更新或查询登录信息都直接从 Redis 获取。

限速
例如为了短信接口不被频繁访问,限制用户每分钟获取验证码的次数,或者网站限制一个 IP 地址不能在一秒内访问超过 n 次。可以使用键过期策略和自增计数实现。


hash ⭐

哈希类型指键值本身又是一个键值对结构,哈希类型中的映射关系叫 field-value, value 是指 field 对应的值而不是键对应的值。

命令

命令 含义
hset 为指定 key 的指定 field 设置值。
hget 获取指定 key 的指定 field 的值。
hdel 删除 key 的一个或多个 filed,返回成功删除的个数。
hlen 计算 key 的 field 个数。
hmset 批量设置值。
hmget 批量获取值。
hexists 判断 key 的 field 是否存在,存在返回 1,否则返回 0。
hkeys 获取 key 的所有 field。
hvals 获取 key 的所有 value。
hgetall 获取 key 的所有 field 和 value。

应用场景:缓存用户信息

缓存用户信息,每个用户属性使用一对 field-value,但只用一个键保存。

优点:简单直观,如果合理使用可以减少内存空间使用。

缺点:要控制哈希在 ziplist 和 hashtable 两种内部编码的转换,hashtable 会消耗更多内存。


list ⭐

list 存储多个有序字符串,每个字符串称为元素,一个列表最多可以存储 232-1 个元素。可以对列表两端插入和弹出,还可以获取指定范围的元素列表、获取指定索引的元素等。列表是一种比较灵活的数据结构,可以充当栈和队列,在实际开发中有很多应用场景。

list 有两个特点:① 元素有序,可以通过索引获取某个元素或某个范围的元素。② 元素可以重复。


命令

命令 含义
rpush/lpush 从右边/左边插入元素。
lrange 从左到右获取列表指定范围的元素。
lindex 从左到右根据索引获取列表的元素。
llen 计算列表元素个数。
lpop/rpop 从列表左侧/右侧弹出元素。
blpop/brpop 从列表左侧/右侧阻塞式地弹出元素。
lrem 从左到右删除列表中指定个数的元素。
lset 从左到右设置列表中指定索引元素的值。

应用场景:消息队列、文章列表

消息队列
Redis 的 lpush + brpop 即可实现阻塞队列,生产者客户端使用 lpush 从列表左侧插入元素,多个消费者客户端使用 brpop 命令阻塞式地抢列表尾部的元素,多个客户端保证了消费的负载均衡和高可用性。

文章列表
每个用户有属于自己的文章列表,现在需要分页展示文章列表,就可以考虑使用列表。因为列表不但有序,同时支持按照索引范围获取元素。每篇文章使用哈希结构存储。

lpush + lpop = 栈、lpush + rpop = 队列、lpush + ltrim = 优先集合、lpush + brpop = 消息队列。


set ⭐

集合类型也是用来保存多个字符串元素,和列表不同的是集合不允许有重复元素,并且集合中的元素是无序的,不能通过索引下标获取元素。一个集合最多可以存储 232-1 个元素。Redis 除了支持集合内的增删改查,还支持多个集合取交集、并集、差集。

命令

命令 含义
sadd 添加元素,返回结果为添加成功的元素个数。
srem 删除元素,返回结果为删除加成功的元素个数。
scard 计算元素个数。
sismember 判断元素是否在集合中,存在返回 1,否则返回 0。
srandmember 随机从集合中返回指定个数的元素。
spop 随机从集合中弹出一个元素。
smembers 获取集合中的所有元素。
sinter/sunion/sdiff 求多个集合的交集/并集/差集。

应用场景:标签

set 比较典型的使用场景是标签,例如一个用户可能与娱乐、体育比较感兴趣,另一个用户可能对例时、新闻比较感兴趣,这些兴趣点就是标签。这些数据对于用户体验以及增强用户黏度比较重要。

sadd = 标签、spop/srandmember = 生成随机数,比如抽奖、sadd + sinter = 社交需求。


zset ⭐

有序集合保留了集合不能有重复成员的特性,不同的是可以排序。但是它和列表使用索引下标作为排序依据不同的是,他给每个元素设置一个分数(score)作为排序的依据。有序集合提供了获取指定分数和元素查询范围、计算成员排名等功能。

命令

命令 含义
zadd 添加成员,返回添加成功的个数。Redis 3.2 为 zadd 命令添加了 nx、xx、ch、incr 四个选项:nx:member 必须不存在才可以设置成功,用于添加;xx:member 必须存在才能设置成功,用于更新;ch:返回此次操作后,有序集合成员和分数变化的个数;incr:对 score 做增加,相当于 zincrby。
zcard 计算元素个数。
zscore 计算某个成员的分数。
zrank/zrevrank 计算成员排名,从低到高/从高到低。
zrem 删除成员,返回删除成功的个数。
zrange/zrevrange 返回指定排名范围的成员,从低到高/从高到低。
zrangebyscore/zrevrangebyscore 返回指定分数范围的成员,从低到高/从高到低。
zcount 返回指定分数范围成员的个数。
zinter/zunion 求多个有序集合的交集/并集。计算后,分值可以按和、最小值、最大值汇总,默认 sum。

应用场景:点赞、关注

有序集合的典型使用场景就是排行榜系统,例如用户上传了一个视频并获得了赞,可以使用 zadd 和 zincrby。如果需要将用户从榜单删除,可以使用 zrem。如果要展示获取赞数最多的十个用户,可以使用 zrange。


Bitmap、HyperLogLog

基础总结:计算机网络、操作系统、Java基础、JVM、JUC、SSM框架、数据结构和算法、MySQL、Redis技术栈、Linux常用命令_第8张图片

键和数据库管理

键重命名

rename key newkey,如果 rename 前键已经存在,那么它的值会被覆盖。为了防止强行覆盖,Redis 提供了 renamenx 命令,确保只有 newkey 不存在时才被覆盖。

由于重命名键期间会执行 del 命令删除旧的键,如果键对应值比较大会存在阻塞的可能。


键过期

expire key seconds:键在 seconds 秒后过期,如果过期时间为负值,键会被立即删除。

对于字符串类型键,执行 set 命令会去掉过期时间,set 命令对应的函数 setKey 最后执行了 removeExpire 函数去掉了过期时间。setex 命令作为 set + expire 的组合,不单是原子执行并且减少了一次网络通信的时间。

键过期策略:

  • 惰性删除

    客户端访问某个 key 时,Redis 检查该 key 是否过期,若过期则删除。存在不访问的 key 占用内存的问题。

  • 定期扫描

    默认每秒执行 10 次过期扫描,从过期字典中随机选择 20 个 key 并删除其中过期的 key,如果过期 key 超过 25% 则循环该过程。


键迁移

move 命令用于在 Redis 内部进行数据迁移,move key db 把指定的键从源数据库移动到目标数据库中。


dumprestore 可以实现在不同的 Redis 实例之间进行数据迁移,分为两步:

  • dump key ,在源 Redis 上,dump 命令会将键值序列化,格式采用 RDB 格式。

  • restore key ttl value,在目标 Redis 上,restore 命令将序列化的值进行复原,ttl 代表过期时间, ttl=0 表示没有过期时间。

整个迁移并非原子性的,而需要通过两个客户端完成。


migrate,实际上 migrate 命令就是将 dump、restore、del 三个命令进行组合,从而简化操作流程。migrate 具有原子性,支持多个键的迁移,有效提高了迁移效率。实现过程和 dump + restore 类似,有三点不同:

  • 整个过程是原子执行,不需要在多个 Redis 实例开启客户端。

  • 数据传输直接在源 Redis 和目标 Redis 完成。

  • 目标 Redis 完成 restore 后会发送 OK 给源 Redis,源 Redis 接收后根据 migrate 对应选项来决定是否在源 Redis 上删除对应键。


切换数据库

select dbIndex,Redis 中默认配置有 16 个数据库,例如 select 0 将切换到第一个数据库,数据库之间的数据是隔离的。


清除数据库

flushdb 只清除当前数据库,flushall 会清除所有数据库。

如果当前数据库键值数量比较多,flushdb/flushall 存在阻塞 Redis 的可能性。


持久化 ⭐

RDB 持久化

RDB 持久化是把当前进程数据生成快照保存到硬盘的过程,

优点:RDB 是一个紧凑压缩的二进制文件,体积小,因此在传输速度上比较快,因此适合灾难恢复,Redis 加载 RDB 恢复数据远远快于 AOF。RDB 可以最大化Redis 的性能:父进程在保存RDB 文件时唯一要做的就是fork出一个子进程,然后这个子进程就会处理接下来的所有保存工作,父进程无须执行任何磁盘I/O 操作。

缺点:RDB 无法做到实时持久化,因为 bgsave 每次运行都要执行 fork 操作创建子进程,会阻塞父进程,如果再大量数据的情况下,这个fork操作会非常耗CPU资源的,也无法完整的保存所以数据,尤其在数据量比较大时候,一旦出现故障丢失的数据将更多;RDB 文件使用特定二进制格式保存,存在老版本无法兼容新版本的问题。

触发 RDB 分为手动触发和自动触发。

触发类型 命令
手动触发 save:阻塞服务器直到 RDB 过程完成,对于内存较大的实例会造成长时间阻塞,线上环境不建议使用。
bgsave:执行 fork 操作创建子进程负责 RDB 持久化,阻塞只发生在 fork 阶段,一般时间很短,优化了 save。
自动触发 save m n,表示 m 秒内数据存在 n 次修改时,自动触发 bgsave
执行 debug reload 命令重新加载 Redis 时自动触发 save
默认情况下执行 shutdown 命令时,如果没有开启 AOF 持久化则自动触发 bgsave

bgsave 流程

  • Redis 父进程判断当前是否存在 RDB/AOF 子进程,如果存在 bgsave 命令直接返回。

  • 父进程执行 fork 操作创建子进程,fork 过程中父进程会阻塞。

  • 父进程 fork 完成后,bgsave 命令返回并不再阻塞父进程。

  • 子进程创建 RDB 文件,根据父进程内存生成临时快照文件,对原文件进行原子替换。

  • 子进程发送信号给父进程表示完成,父进程更新统计信息。


AOF 持久化

AOF 持久化以独立日志的方式记录每次写命令,重启时再重新执行 AOF 文件中的命令恢复数据。AOF 解决了 RDB 不能实时持久化的问题,是 Redis 持久化的主流方式。开启 AOF 需要设置:appendonly yes,默认不开启。

优点:数据更完整,秒级数据丢失(取决于设置fsync策略);兼容性较高,由于是基于redis通讯协议而形成的命令追加方式,无论何种版本的redis都兼容,再者aof文件是明文的,可阅读性较好。

缺点:数据文件体积较大,即使有重写机制,但是在相同的数据集情况下,AOF文件通常比RDB文件大。相对RDB方式,AOF速度慢于RDB,并且在数据量大时候,恢复速度AOF速度也是慢于RDB。由于频繁地将命令同步到文件中,AOF持久化对性能的影响相对RDB较大,但是对于我们来说是可以接受的。

混合持久化

如果数据的安全可靠性并不是首要考虑范围内,那么单独只使用RDB就可以了。否则使用混合持久化。

优点:混合持久化结合了RDB持久化 和 AOF 持久化的优点, 由于绝大部分都是RDB格式,加载速度快,同时结合AOF,增量的数据以AOF方式保存了,数据更少的丢失。

缺点:兼容性差,一旦开启了混合持久化,在4.0之前版本都不识别该aof文件,同时由于前部分是RDB格式,阅读性较差。

命令写入
所有的写命令会追加到缓冲区中,写入的内容直接是文本协议格式,文本协议具有很好的兼容性,方便直接修改和处理。


文件同步
Redis 提供了多种 AOF 同步策略,AOF 缓冲区根据对应的策略向硬盘做同步操作。

策略 说明
always 每次写入都要同步,性能低,不建议配置。
everysec 同步操作每秒调用一次,是默认配置,兼顾性能和数据安全。
no 不同步,同步由操作系统负责,由于操作系统同步周期不可控,虽然提升了性能,但安全性无法保证。

文件重写
随着 AOF 文件越来越大,需要定期重写,把 Redis 进程内的数据转化为写命令同步到新 AOF 文件,降低文件占用空间。

AOF 重写分为手动触发和自动触发,手动触发直接调用 bgrewriteaof 命令,自动触发根据 auto-aof-rewrite-min-sizeauto-aof-rewrite-percentage 参数确定时机。

  • 执行 AOF 重写请求,如果进程正在执行 AOF 重写,请求不执行并返回,如果进程正在执行 bgsave 操作则延迟重写。
  • 父进程执行 fork 创建子进程,之后继续响应其他命令,所有修改命令依然写入 AOF 缓冲区并同步到硬盘。
  • 子进程根据内存快照,按命令合并规则写入新的 AOF 文件。
  • 新 AOF 文件写入完成后,子进程发送信号给父进程,父进程更新统计信息。
  • 父进程把 AOF 重写缓冲区的数据写入到新的 AOF 文件并替换旧文件。

重启加载

当服务器重启时,可以加载 AOF 文件进行数据恢复。

  • AOF 持久化开启且存在 AOF 文件时,优先加载 AOF 文件。
  • AOF 关闭时且存在 RDB 文件时,加载 RDB 文件。
  • 加载 AOF/RDB 文件成功后,Redis 启动成功。
  • AOF/RDB 文件存在错误导致加载失败时,Redis 启动失败并打印错误信息。

缓存穿透、缓存击穿、缓存雪崩

1.缓存穿透:
1).描述:大量查询不存在的数据,使得请求直达存储层,导致负载过大,甚至宕机。如发起为id为“-1”的数据或id为特别大不存在的数据。这时的用户很可能是攻击者,攻击会导致数据库压力过大。
2).解决方案:
​ 1)无效的key设置到redis中并设置过期时间/缓存,这时也可以将key-value对写为key-null,缓存有效时间可以设置短点,如30秒(设置太长会导致正常情况也没法使用)。这样可以防止攻击用户反复用同一个id暴力攻击
​ 2)布隆过滤器把所有可能存在的请求的值都存放在布隆过滤器中,当用户请求过来,先判断用户发来的请求的值是否存在于布隆过滤器中。不存在的话,直接返回请求参数错误信息给客户端,存在的话才会走下面的流程。

2.缓存击穿:
1).描述:对于高使用、高访问量的数据,在缓存失效的瞬间,会有大量的请求直达存储层,导致服务崩溃
2).解决方案:
​ 1)设置热点数据永远不过期。
​ 2)加互斥锁(分布式锁),获取锁成功了才能去数据库中查询数据(当然这是简化处理,理论上如果能根据key值加锁就更好了,就是线程A从数据库取key1的数据并不妨碍线程B取key2的数据)

3.缓存雪崩:
1).描述缓存:雪崩是指缓存中热点数据大批量到过期时间、或某些原因缓存层无法服务,引起数据库压力过大甚至down机。(举个例子 :秒杀开始 12 个小时之前,我们统一存放了一批商品到 Redis 中,设置的缓存过期时间也是 12 个小时,那么秒杀开始的时候,这些秒杀的商品的访问直接就失效了。导致的情况就是,相应的请求直接就落到了数据库上,就像雪崩一样可怕。)
2).解决方案:
针对 Redis 服务不可用的情况:
​ 1)采用 Redis 集群,避免单机出现问题整个缓存服务都没办法使用。
​ 2)限流,避免同时处理大量的请求。

针对热点缓存失效的情况:
​ 1)设置不同的失效时间比如随机设置缓存的失效时间。
​ 2)缓存永不失效。

redis渐进式rehash(hash字典扩容)

​ 解决hash冲突用的是用链地址法。哈希冲突太多后,需要对哈希表(中的数组)进行扩容。

​ 因为数据太多,避免rehash对服务器性能造成影响,所以分为多次。用两个hash表来完成,一个为原来旧hash表,一个是渐进式rehash的扩容后的hash表。字典的“删改查”会同时在两个hash表上进行,“增”只会在新的hash表上。

​ 因为使用两个hash表,所以redis占用的内存使用量会瞬间增加。

过期策略

定期删除+惰性删除

定期删除:指的是 redis 默认是每隔 100ms 就随机抽取一些设置了过期时间的 key,检查其是 否过期,如果过期就删除。定期删除可能会导致很多过期 key 到了时间并没有被删除掉。所以还需要惰性删除。

惰性删除:在你获取某个 key 的时候,redis 会检查一下 ,这个 key 如果设置了过期时间那么是否过期了?如果过期了此时就会删除,不会给你返回任何东西。

即使如此仍然存在过期key没有被删除,导致OOM。此时的解决办法:内存淘汰机制

内存淘汰机制

noeviction: 当内存不足以容纳新写入数据时,新写入操作会报错,这个一般没人用。

allkeys-lru:当内存不足以容纳新写入数据时,在键空间中,移除最近最少使用的 key(这个是最常用的)。

allkeys-random:当内存不足以容纳新写入数据时,在键空间中,随机移除某个 key,这个一般没人用,为啥要随机,肯定是把最近最少使用的 key 给干掉啊。

volatile-lru:当内存不足以容纳新写入数据时,在设置了过期时间的键空间中,移除最近最少使用的 key(这个一般不太合适)。

volatile-random:当内存不足以容纳新写入数据时,在设置了过期时间的键空间中,随机移除某个key。

volatile-ttl:当内存不足以容纳新写入数据时,在设置了过期时间的键空间中,有更早过期时间的 key 优先移除。


Linux常用命令

你可能感兴趣的:(java,面试,java)