物联网为什么用MQTT不用 HTTP 或 UDP？工程师焱记物联网 http udp 硬件架构嵌入式硬件开源协议网络
先来两个代码对比，上传温度数据给服务器。MQTT代码示例//MQTT客户端连接到MQTT服务器mqttClient.connect("mqtt://broker.server.com:8883",clientId)//订阅特定主题mqttClient.subscribe("sensor/data",qos=1)//发布消息到主题mqttClient.publish("sensor/data","t
学习使用 Git 和 GitHub 开发项目的教程推荐 vortex5 学习 git github
Git和GitHub是现代软件开发中不可或缺的工具，无论你是个人开发者还是团队成员，掌握它们都能极大提升效率。本文精选了一系列优质教程资源，涵盖从基本Git命令到进阶多人协作的内容。这些教程既有文字形式，也有视频或交互式资源，适合不同学习风格的人。一、为何要学习Git和GitHub？Git是一个分布式版本控制系统，让你追踪代码变更、回滚错误并与他人协作；GitHub则将其扩展为一个云端平台，支持代
JQ实现异步请求的几种方法 CsharpDev-奶豆哥开发语言 javascript
在jQuery中，实现异步请求（AJAX）有多种方法。以下是几种常见的实现方式及其示例代码。1.$.ajax()方法$.ajax()是jQuery中最通用的AJAX方法，支持高度定制化。示例$.ajax({url:'你的请求地址',//请求URLmethod:'GET',//请求方法dataType:'json',//预期返回的数据类型success:function(response){cons
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
嵌入式硬件篇---Keil51中的关键字 Ronin-Lotus 嵌入式硬件篇程序代码篇上位机知识篇嵌入式硬件 c Keil 单片机关键字
文章目录前言1.存储类型关键字1.1code作用地址范围用途示例1.2data作用地址范围用途示例1.3idata作用地址范围用途示例1.4xdata作用地址范围用途示例1.5pdata作用地址范围用途示例1.6volatile作用用途示例2.其他常用关键字2.1bit作用示例2.2sbit作用示例2.3sfr/sfr16作用示例2.4reentrant作用示例2.5interrupt作用示例2.
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
10 分钟学会SpringValidation数据校验和全局异常处理 ohn.yu spring spring boot java
以下是一个使用Spring开发的简单RESTAPI小程序，通过对一张user表进行操作，代码演示如何RestAPI开发中实现数据校验、全局异常处理和返回Json格式数据。使用的核心框架包括SpringBootSpringWebSpringDataJPABeanValidation（JSR-303）Lombok1.项目依赖（pom.xml）创建一个Maven项目，添加以下依赖："xmlns:xsi=
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
若依框架入门指南：快速上手SpringBoot+前后端分离版小小鸭程序员 spring java spring boot 后端 intellij-idea
若依（RuoYi）是一款基于SpringBoot的快速开发平台，集成了权限管理、代码生成、监控管理等功能。本文将以SpringBoot+Vue前后端分离版本为例，带你快速上手若依框架。一、环境准备基础环境：JDK1.8+MySQL5.7+Redis5.0+Maven3.6+Node.js14+（前端）下载项目：#后端项目gitclonehttps://gitee.com/y_project/Ruo
Java面试八股之Redis集群Cluster 天哥不爱学习 Java面试八股文 java 面试 redis
Redis集群ClusterRedisCluster是一种基于数据分片（Sharding）的分布式缓存和存储系统，它实现了数据的水平扩展、高可用性和自动故障转移。以下是对RedisCluster模式详细实现流程的描述：1.初始化与配置部署节点：在不同的服务器上部署多个Redis节点，每个节点既可以作为主节点也可以作为从节点。配置集群模式：为每个节点启用Cluster模式，指定Cluster所需的端
【unity&Node.js篇】多人联机游戏开发代码规范雅鸦 unity node.js 代码规范
多人联机游戏前端（Unity）与后端（Node.js）代码规范说明书这份代码规范旨在帮助多人联机游戏的开发团队建立一致性和高质量的代码标准，涵盖前端（Unity）和后端（Node.js）开发部分。无论是游戏逻辑的实现、多人同步机制、网络通信还是错误处理，都需要清晰的规范来确保代码的可维护性、可扩展性与高效性。1.Unity前端代码规范1.1命名规范变量、函数命名：使用PascalCase（大驼峰）
NestJS Bull 和 BullMQ 模块：高效、可扩展的后端应用框架严微海
NestJSBull和BullMQ模块：高效、可扩展的后端应用框架bullBullmoduleforNestframework(node.js):cow:项目地址:https://gitcode.com/gh_mirrors/bul/bull项目介绍NestJS是一个基于Node.js的渐进式框架，专为构建高效且可扩展的服务器端应用程序而设计。NestJSBull和BullMQ模块是其生态系统中的
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
鸿蒙API14开发【@ohos.account.distributedAccount (分布式账号管理)】短距通信服务移动开发技术栈鸿蒙开发 harmonyos 分布式华为鸿蒙系统鸿蒙通信
本模块提供管理分布式账号的一些基础功能，主要包括查询和更新账号登录状态。说明本模块首批接口从APIversion7开始支持。后续版本的新增接口，采用上角标单独标记接口的起始版本。导入模块import{distributedAccount}from'@kit.BasicServicesKit';distributedAccount.getDistributedAccountAbilitygetDis
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
pipost 如何提升团队协作效率 [特殊字符] Kairo_01 postman
开发团队中的沟通障碍在许多开发团队中，前端工程师、后端工程师和QA测试人员之间的同步往往会浪费大量时间。不断的会议和对齐会话减慢了整个过程，严重影响了生产力。以下是一些常见的痛点：前端和后端团队需要不断对API接口进行同步。测试人员必须反复确认API行为。产品经理必须确保每个人都对项目需求达成一致。这些沟通障碍导致开发周期延长、团队士气下降和项目发布推迟。通过Apipost提高协作效率1.精简的A
uniapp接口请求封装api(超简单) 不法 uniapp javascript 前端 json uni-app
最下面有使用方法进阶点击查看进阶封装根目录创建api.jsconstcommoneUrl="http://192.168...";//公共路径//post请求封装functionpostRequest(url,data){varpromise=newPromise((resolve,reject)=>{varpostData=data;uni.request({url:commoneUrl+url
Fastdfs-V5.11使用docker部署集群(X86) 礁之 Linux系列 dfs java docker
文章目录一、Fastdfs介绍二、部署信息三、步骤tracker/storage机器的compose内容storage机器的composetracker与storage启动目录层级与配置文件client.confstorage.conf查看集群信息测试测试集群扩容与缩减nginx配置一、Fastdfs介绍FastDFS是一款高性能的分布式文件系统，特别适合用于存储和管理大量的文件二、部署信息使用d
uniapp中使用webview并与原页面通信数学分析分析什么？ uni-app
uniapp中使用webview并与原页面通信1.接收数据主要使用@message与@onPostMessage接收原页面数据，且两个方法只能在APP中使用，其他平台均不支持。/***接收页面返回参数*@param{Object}item*/htmlMessage(item){console.log('收到的消息',item)letdata=item.detail...},2.发送数据（调用原页面
使用 request 的 axios 状态码分析 fridayCodeFly 前端 servlet
request.interceptors.response.use(function(response){},function(error){})后端返回结果code===400不经过response,直接跳到error。当后端返回状态码为400时直接进入error回调而不经过response回调，这是因为axios默认会将状态码不在200-299范围内的响应视为错误。解决1.修改validate
基于oracle linux的 DBI/DBD 标准化安装文档(三) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
policy_does_not_allow_file_overwrite 前端uniapp云存储
uniapp云开发阿里云上传文件uniapp的出现，让前端人员和后端人员实现了“全栈”的小梦想，当然，真正跨端开发的时候，还是会遇到不少的问题，比如今天我们的主角，uniCloud.uploadFile,一般来说，这个api文件名动态生成，云端返回文件存储的链接即可，但是，假如我们的产品是针对用户存储的，即用户的头像、私有文件、图片等具有唯一性，要单独开个目录存放的时候，同样的文件名上传会存在无法
数据库管理-第303期数据库相关硬件文章汇总（20250319）胖头鱼的鱼缸（尹海文）数据库数据库
数据库管理303期2025-03-19数据库管理-第303期数据库相关硬件文章汇总（20250319）1CPU&内存2SSD3RDMA4存储5CXL6硬件采购7数据库一体机总结数据库管理-第303期数据库相关硬件文章汇总（20250319）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19
数据库管理-第304期业绩？有绩无业！（20250320）胖头鱼的鱼缸（尹海文）数据库数据库 oracle
数据库管理304期2025-03-20数据库管理-第304期业绩？有绩无业！（20250320）1词解2跑偏3活动预告总结数据库管理-第304期业绩？有绩无业！（20250320）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19c、MySQL8.0OCP、Exadata、CDP等认证墨天
使用LangSmith Chat Datasets微调模型 scaFHIO python 人工智能机器学习
在这篇文章中，我们将探讨如何通过LangSmithChatDatasets轻松微调模型。这一过程分为三个简单的步骤：创建聊天数据集。使用LangSmithDatasetChatLoader加载示例。微调你的模型。微调后，您可以在LangChain应用中使用微调过的模型。在深入探讨之前，我们需要安装一些前置条件。前置条件确保您已经安装了langchain>=0.0.311并准备好LangSmithA
【后端】【django】Django 自带的用户系统与 RBAC 机制患得患失949 django知识数据库 sqlite django
Django自带的用户系统与RBAC机制Django自带的用户系统（django.contrib.auth）提供了身份验证（Authentication）和权限管理（Authorization），能够快速实现用户管理、权限控制、管理员后台等功能，同时具备RBAC（基于角色的访问控制，Role-BasedAccessControl）的基本实现。本文将详细介绍Django用户系统的功能、管理员账号创建
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
Redis两种客户端：lettuce和Jedis的区别 Darren i redis spring
springboot2的spring-boot-starter-data-redis中，默认使用的是lettuce作为redis客户端，它与jedis的主要区别如下：Jedis是同步的，不支持异步，Jedis客户端实例不是线程安全的，需要每个线程一个Jedis实例，所以一般通过连接池来使用JedisJedis常用APILettuce是基于Netty框架的事件驱动的Redis客户端，其方法调用是异步
005 Redis 都有哪些数据类型？分别在哪些场景下使用比较合适？专注_每天进步一点点 08Redis Redis String list hash set
读读Redis的官网，学第一手的资料：Redid官方文档地址Redis中国-文档网址：Redis中国-文档地址或者看看书《Redis深度历险：核心原理和应用实践》1、Redis官网中介绍各种数据类型官方地址：RedisdatatypesRedisisnotaplainkey-valuestore,itisactuallyadatastructuresserver,supportingdiffere
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

SakamataZ

来点八股文(一) 分布式理论及应用

由6.824和Hadoop技术资料整理，持续更新中

文章目录

6.824
- GFS
- VM-FT
- raft
- zookeeper
- EBS
- Aurora
- Frangipani
- 链复制与分布式事务
- Spanner
- Farm与乐观并发控制
- memcache与缓存一致性
Spark
- 架构
- RDD算子
- - 转换算子
  - 执行算子
- SparkSQL
- Scala
- Use-site variance与Declaration-site variance/universal type 与existential type
- 类型系统

6.824

GFS

什么是CAP？
一致性可用性分区容错性
分区容错是必然要提供的一个特性，如果要保证一致性，那么可用性不能得到保障。
云服务厂商一般提供5个9的可用性保障。
简述一下GFS的一致性策略？
元数据的写入是加锁串行的
无并发写一个chunk的时候，当三个副本全部写成功的时候才会返回成功，否则返回失败
这将导致GFS系统中文件的不一致性
有并发的时候由primary决定写的顺序，所有的副本按照这个顺序执行，保证最终一致
注意！串行成功是一致已定义的，并行成功是一致未定义的
master恢复
master的历史信息使用快照存储，最近的操作使用日志存储
GFS如何进行快照？
首先master取消对当前chunk的租约，保证对chunk的修改通过master进行
之后创建快照维护对于chunk的引用计数
后续计数>2，则分开独立访问
GFS文件系统结构？
GFS组织成树的结构，修改文件需要获得父亲节点的读锁和子节点的读写锁
文件惰性删除，文件重命名为包含时间戳的隐藏文件名，在例行的文件空间扫描中才会删除
这样删除更加可靠，cpu使用更加平衡，为人为的误操作兜底
GFS如何保证高可用？
服务快速拉起，master和chunk server都设计成秒级启动
chunk复制策略，保证数据不丢
master节点建设主备，client操作在主master和从master全部落盘后才返回，外部监控进程监控master状态并在master故障后选择新的master升主
GFS如何保证数据完整性？
chunk server将chunk切成64KB大小的块，并为每个块维护一个32位的checksum。对读操作，数据返回client之前会检查checksum。对写操作，需要对写范围有覆盖的第一个64KB块和最后一个先进行校验，防止原来存在损坏的数据被本次写隐藏了，然后进行实际写入并重新计算checksum。chunk server空闲时会对所有chunk做整体扫描，尤其针对一个不活动的chunk，防止master认为chunk已经有足够的副本数量了但是实际上副本内容已经损坏。
状态备份的两种方式？
状态转移（State transfer）持续增量同步 Primary 的状态到 Backup，包括CPU、内存、IO设备等等；但是这些状态通常所占带宽很大，尤其是内存变化。
冗余状态机（Replicated State Machine）将服务器看作是一个具有确定性状态的状态机，只要给定相同初始状态和同样顺序的确定输入，就能保持同样的状态。同步的是外部的事件/操作/输入；同步的内容通常较小，但是依赖主机的一些特性：比如指令执行的确定性（deterministic）。而在物理机上保证确定性很难，但是在 VM 上就简单的多，由于 hypervisor 有对 VM 有完全的控制权，因此可以通过某些手段来额外同步某些不确定性输入（比如类似随机数、系统时钟等）。

VM-FT

如何解决复制状态机中primary和backup不一致的问题？
控制输出，保证状态一致后响应成功
VM-FT如何解决重复输出的问题？
TCP栈序列号/检验重复的机制
VM-FT如何解决split brain？
三方机构Test-and-Set，Test-and-Set服务就是一个仲裁官，决定了两个副本中哪一个应该上线通过标志位实现

raft

raft 如何进行leader选举？
使用随机计时器
为什么要有raft？它用来解决什么问题？
raft是一个一致性算法，
复制状态机（replicated state machines）用于对有单个集群leader的大型系统进行leader选举和配置信息的存储。复制状态机通常使用复制日志实现，一致性算法的任务是保证复制日志的一致性。
共识算法的特性有哪些？
1.在网络延迟、分区和包丢失、复制和重排序条件下保证安全性（永远返回正确的结果）
2.只要大多数服务器可操作、可通信那么就是完全可用的
3.不依赖时间来保证一致性
4.少数速度较慢的服务器不影响整体系统性能
※raft如何实现一致性？
首先选举一位leader leader有管理复制日志的责任，接受来自客户的日志条目，在其它服务器上复制它们。
主要是通过log的read和commit的顺序来实现的
这样就把一致性问题分为了三个子问题：leader选举，日志复制与一致性，安全性
brain split如何解决？
在raft中，使用过半票决的方式解决。
如果系统中有2*F+1个服务器，那么，最多可以接受F个服务器出现故障
raft实际上更加依赖于过半服务，因为raft的每一个操作的过半服务器，必然有一个处于上一个操作的过半服务器中，新的过半服务器就会知道旧的过半服务器的term
raft在分布式数据库中的角色是什么？
中间层，构建多副本日志。只有过半服务器拷贝了操作的副本，才能够继续执行数据库操作
raft应用层调用流程？
客户端通过Start函数将请求存放在log中，commit之后，raft通过channel（ApplyCh）通知客户端成功。
包括Log位置，term number等等信息。
raft中旧的leader发送消息时故障了，或者新的leader当选之后马上故障了，log如何做恢复？
必须假定所有槽位上的请求都被commit了
哪些数据需要持久化存储？
log currentterm votefor
持久化votefor是为了防止脑裂的情况
持久化currentTerm是为了保证一个任期内只有一个leader
如何确定raft代码的持久化操作成功了？
使用unix的fsync系统调用
raft日志快照怎么做？
日志快照是通过key-value表单对于log的压缩

zookeeper

什么叫做线性一致？标准是什么？线性一致的代价是什么？
线性一致就是强一致性
任何一个客户端读取到了新值之后，之后所有的查询也必然会返回新值
什么是zookeeper？
zookeeper是一个通用的协调服务，负责与客户端交互
下面的一层则是与raft类似的管理多副本的Zab
zookeeper如何通过修改read的方法来保证线性一致的？
实际上，zookeeper不是严格的读线性一致，而保证严格的写线性一致
并且对于单个客户端的请求是线性一致的
如果与客户端交互的副本故障了，新的可用副本对于这个故障副本之前的状态仍然是可见的，并且新的读一定在旧的读之后执行
每个log条目都会被leader打上zxid的标签，就是log对应的条目号，客户端会记住最高的zxid并且在请求中带上这个参数
zookeeper如何来弥补它的非线性一致性的？
zookeeper提供了sync来保证下一次读请求看到sync对应的状态，这个状态合理的被认为是最新的，但是这是一个代价很高的操作。
zookeeper的配置更新过程是什么样的？
zk用ready-file标志配置可读性，需要更新配置时，首先删除ready-file。
如果客户端在读所有通知之前，如果对于配置有了新的更改，zk使用watch保证在收到删除ready file的通知之前，看到的都是配置更新前的数据
zookeeper被期望用来解决什么问题？
1.test-and-set
2.发布其它服务器使用的配置信息
3.选举master
说一下zookeeper的组织形式和API组成？
zookeeper的组织形式类似于一种文件系统，包含了三种类型的znode，
第一种：regular znodes 一旦创建，就永久存在，除非被删除
第二种：Ephemeral znodes 如果zookeeper认为客户端挂了，就会被删除
第三种：Sequential znodes 递增的文件
暴露的api如下：
create(path,data,flag) 不存在则创建返回true，存在则返回false flag表明文件类型
delete(path,version) 符合版本号则删除
exist(path,watch) watch用于检测文件是否发生了变化
getdata(path,watch)
setdata(path,data,version)
list(path) 列出目录下文件
如何用zookeeper实现计数器？
WHILE TRUE:
X, V = GETDATA(“F”)
IF SETDATA(“f”, X + 1, V):
BREAK
这里是用版本号实现顺序一致的
上面的方案有什么问题？
1.请求的复杂度是nlogn
2.数据存储在内存中，如果大于内存容量，就会出现很多问题
3.这是一个mini-transaction 不是完整的数据库事务，而是一个简单的提供原子性的事务
如何使用zookeeper实现非扩展锁？

WHILE TRUE:
    IF CREATE("f", data, ephemeral=TRUE): RETURN
    IF EXIST("f", watch=TRUE):
        WAIT

将exist函数加上watch=true来监测文件的删除

如果在exist执行中文件被删除了，会发生什么？
1.如果在两个写请求之间执行，那么副本会在watch表单中增加一条记录，之后delete 副本会发给exist请求一个通知
2.delete之后执行则会返回false
非扩展锁意味着什么？
意味着要受到惊群效应的影响，锁争用很重
如何用zookeeper实现可扩展锁？

CREATE("f", data, sequential=TRUE, ephemeral=TRUE)
WHILE TRUE:
    LIST("f*")
    IF NO LOWER #FILE: RETURN
    IF EXIST(NEXT LOWER #FILE, watch=TRUE):
        WAIT

为什么这种方式能防止惊群？
因为只会等待上一个序列号
什么叫CRAQ？
Chain Replication with Apportioned Queries 是对于链复制的改进方案，能够在任意副本执行读请求的前提下，保证线性一致性。
链复制将服务器组织成链的形式，从head写入，从tail读出
当请求未到达tail时，请求不会commit
chanin replication既不能抵御网络分区，也不能抵御脑裂
它需要一个外部的权威确保谁是活的和死的，这个权威称为configuration manager 配置管理器
如果有节点挂了，那么将会送出新的配置，这个服务是容错的，不否认自己，当有网络分区时不会出现脑裂（基于raft或者paxos）
CRAQ的一个重要特性就是减轻了leader的负担，而如果有一个慢的副本时，CR就会有性能的问题，因为CR需要经过所有的副本
这时候用raft或者paxos更好

EBS

什么是EBS？它有什么问题？
EBS是Amazon之前提供的云产品服务。
EC2实例运行一个标准操作系统，在操作系统上运行应用程序，并分配一个硬盘
Amazon为用户提供链复制的EBS来作为EC2的数据库服务
每一个EBS volume只能被一个EC2实例所使用
如果你在EBS上运行一个数据库，那么最终会有大量的数据通过网络来传递，网络负载在这里非常重要
另一个问题是EBS的容错性不是很好，Amazon总是将EBS volume的两个副本存放在同一个数据中心。
Amazon RDS架构是怎么样的?有什么问题？
基于开源的MySql redo log构建的关系型数据库
其data page和WAL log存储在EBS中，每一次写操作，除了发送给AZ1的两个EBS副本之外，还需要通过网络发送到位于AZ2的副数据库
问题在于需要传输拷贝的数据量太大，造成性能低。

Aurora

Aurora架构是怎么样的？
在替代EBS的位置，有6个数据的副本，位于3个AZ，每个AZ有两个副本。网络只传递log条目（和RDS不同）。
只要Quorum形成了，也就是任意4个副本确认写入了，数据库就可以继续执行操作。可以忽略最慢的两个服务器。
R+W>N
Aurora如何做数据分片？如何做数据恢复？
使用protection Group
之后将数据做sharding
如果有修改，则查找对应的PG，之后只发送给对应的6个存储服务器
进行数据恢复时，找到对应的n个（每一个PG对应的块数）服务器，每一个服务器负责分配一个块的数据
Aurora 只读数据库了解吗？
只读数据库使用log日志更新，不会看到未commit的数据，会等到数据commit之后再应用。
只读数据库使用微事务和VDL/VCL 将log序列以原子性展示，不显示事务的中间状态

Frangipani

Frangipani是什么？它的架构是怎么样的？
Frangipani是一个分布式的文件系统，其文件内容、目录、inode、目录文件列表、块的空闲状态都存放在一个叫做Petal的共享虚拟磁盘服务中
Frangipani是如何解决缓存一致性问题的？
Fg中除了工作站和petal之外存在第三种服务器：锁服务器
锁服务器中有一个表单 locks 每一个锁以文件名命名
锁和缓存的规则包括：
工作站不允许持有缓存的数据，除非同时持有与数据相关的锁
只有将修改的数据写回petal之后，才能将锁归还给服务器
Frangipani的缓存一致性协议包括以下几种信息：
Request消息，用于获取锁
Frangipani的锁策略是怎么样的？
1.工作站不主动释放锁，而是通过服务器revoke申请释放锁
2.当工作站在创建文件时，锁的状态是busy，而当创建完成时，状态为idle
3.Fg有共享的读锁和排他的写锁，
务器revoke申请释放锁
2.当工作站在创建文件时，锁的状态是busy，而当创建完成时，状态为idle
3.Fg有共享的读锁和排他的写锁，
fg如何做故障恢复?
预写式日志
在执行写操作之前，必须先追加log条目
只有当log条目完整存在于petal中的时候，才能执行写操作
log在每一个工作站中都存在一份，并且是半私有的，保存在petal中，工作站以环形的方式存储log，并且存储其递增的序列号
log会存储其块号，序列号和修改内容
可以只写入涉及修改的log，其余异步写入

链复制与分布式事务

什么叫事务的可序列化？
指的是并行的执行一些事务所获得的结果，与串行的顺序来执行这些事务得到的结果一致。
通过与其他尝试使用相同数据的并发事务进行隔离，就可以实现可序列化
※如何实现分布式事务？（两阶段提交的过程？）
两阶段提交
每个持有数据的服务器会维护一个锁的表单，用来记录锁被哪个事务所持有。所以对于事务，需要有事务ID（Transaction ID），简称为TID
ID在事务开始的时候，由事务协调器来分配。这样事务协调器会发出消息说：这个消息是事务95的。同时事务协调器会在本地记录事务95的状态，对事务的参与者（例如服务器S1，S2）打上事务ID的标记。
事务协调者会等待来自于每一个参与者的这些Yes/No投票。如果所有的参与者都回复Yes，那么事务可以提交，不会发生错误。之后事务协调者会发出一个Commit消息，给每一个事务的参与者，之后，事务参与者通常会回复ACK
分布式事务如何做到故障恢复？
恢复yes之前崩溃可以重启并且重新接收事务协调者的请求
在prepare之前，需要将事务中间状态保存，记住所有要做的修改，记住事务所持有的锁，在磁盘上持久化
对于事务协调者，在commit之前，必须先将事务的信息写入到自己的log
commit或者abort是在一个单一的实例，也就是事务协调者中完成的，这保证构建了一个可靠的两阶段提交系统。
缺点在于有block的时间。
如果数据分片在多台服务器上并且需要在事务中支持多条数据，那么就必须支持两阶段提交

Spanner

Spanner是什么？
Google的全球分布式可扩展多版本的负载均衡数据库，底层基于paxos算法
它支持wide-area事务
spanner的快照隔离基于同步时钟
读写事务基于两阶段提交和锁，只读数据使用快照隔离版本化
Spanner如何实现快速的只读事务的？
使用快照隔离（类似MVCC）
每个事务都会带上时间戳，只读事务将会带上时间戳请求数据
时间戳如何影响spanner只读事务的正确性？
如果时间戳太大了，那么事务将会等待更长时间
如果太小，则会影响外部一致性和正确性
使用类似ntp的技术可以处理分布式时间服务器所带来的时延
spanner使用间隔时间来放松对于时间精度的要求

Farm与乐观并发控制

请说明以下Farm如何实现百倍于spanner的性能的？
farm是一个高性能的nosql数据库
1.NVRAM（非易失的RAM）
2.RDMA 远程直接内存访问访问网络接口卡而不中断（使用kernel bypass，应用可以直接访问mic网络接口卡而不经过内核）
3.可充电电源
4.kernel bypass
5.OCC 乐观并发控制
Farm的OCC过程？
分为Execute phase和Commit phase两个部分
第一个部分依靠one-side RDMA 在主节点中进行读取，每次读取5ms左右
第二个部分是一个两阶段提交
1.由client发送字段的version和value日志到主节点进行lock（日志起到锁的作用），主节点向客户端进行投票
投票基于version和是否已经锁定 primary使用原子操作对版本号和锁进行位检查
2.第一步成功后进行验证
3.第二步成功之后进行备份
4.提交事务
5.更新所有primary
两个x+1的事务在OCC中同时执行，什么样的结果是可能的？（X=0）
0，1，2
什么是spark？它比map-reduce好在哪里？
mapreduce的扩展
1.map阶段被narrow替代，通过内存的stream读，避免了map阶段对于GFS数据的读取写入的时间
2.reduce阶段被wide转换替代，wide阶段之前的数据被spark按键分区，因此网络通信被避免了
RDD编程模型
分析以下pagerank.scala代码

     val lines = spark.read.textFile("in").rdd
     //map并转换tuple
     val links1 = lines.map{ s =>
       val parts = s.split("\\s+")
       (parts(0), parts(1))
     }
     //去重
     val links2 = links1.distinct()
     //
     val links3 = links2.groupByKey()
     val links4 = links3.cache()
     var ranks = links4.mapValues(v => 1.0)

     for (i <- 1 to 10) {
           val jj = links4.join(ranks)
           val contribs = jj.values.flatMap{
                case (urls, rank) =>
                urls.map(url => (url, rank / urls.size))
            }
            ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _)
    }

     val output = ranks.collect()
     output.foreach(tup => println(s"${tup._1} has rank:  ${tup._2} ."))

memcache与缓存一致性

memcache-fb（https://pdos.csail.mit.edu/6.824/papers/memcache-fb.pdf）

Facebook面对的负载压力？采用的优化方法？
大约是单机DB的10000倍
加载一个界面在memcache中平均要查询521项

优化方法：
减少延迟

使用有向无环图DAG减少请求频率
使用无状态客户机、代理接口mcrouter
封装的udp
滑动窗口
减少负载

MC如何解决陈旧数据集和惊群问题(thundering herds)

使用租约防止stale sets
delete请求会使令牌无效租约能够减轻10倍以上的数据库压力
租约也可以缓解thundering herds问题,每个key每十秒发出一次令牌，再次请求key就会触发等待
对非敏感数据使用陈旧值
mc pool对代价小的key使用小池，对代价高的key使用大池
池内复制需要保持多副本一致
使用Cold Cluster Warmup 做快速缓存加热

MC如何做错误处理（服务器失效时候的缓存不命中）
使用一个Gutter pool做二次缓存
MC如何对在复制中保持数据库一致？
使用McSqueal守护进程，在commit log中提取删除字段，提交到mc中，McSqueal通过批处理删除提高了18倍速度
使用守护进程可以减少数据包，当错误出现时不需要重启整个mc的infra
※MC如何保证跨地域副本一致的？

保证最终一致性的同时确保性能和可用性使用mcsqueal守护进程防止更新流和无效流的竞争
对于用户从非主地域获取数据防止过时的方法：
remote marker 标记表明本地数据过时
当server要更新数据时： 1. 无效位置位 2. 写入sql 3. 在本地集群delete k
和数据库删除共享相同的信道

MC如何针对单个服务器做性能和缓存优化的？

自动扩展散列
全局锁多线程
每个线程分配单独udp接口
自适应的内存分配器，采用LRU策略
基于过期时间的自动缓存逐出策略
共享内存实现热更新

什么是MC？
Memcached Memcached是一个自由开源的，高性能，分布式内存对象缓存系统。
MC和redis的区别是什么？
网站如何应对不断增大的用户量？

single machine w/ web server + application + DB
DB provides persistent storage, crash recovery, transactions, SQL
application queries DB, formats HTML, &c
but: as load grows, application takes too much CPU time
many web FEs, one shared DB
an easy change, since web server + app already separate from storage
FEs are stateless, all sharing (and concurrency control) via DB
stateless -> any FE can serve any request, no harm from FE crash
but: as load grows, need more FEs, soon single DB server is bottleneck
many web FEs, data sharded over cluster of DBs
partition data by key over the DBs
app looks at key (e.g. user), chooses the right DB
good DB parallelism if no data is super-popular
painful – cross-shard transactions and queries probably don’t work
hard to partition too finely
but: DBs are slow, even for reads, why not cache read requests?
many web FEs, many caches for reads, many DBs for writes
cost-effective b/c read-heavy and memcached 10x faster than a DB
memcached just an in-memory hash table, very simple
complex b/c DB and memcacheds can get out of sync
fragile b/c cache misses can easily overload the DB
(next bottleneck will be DB writes – hard to solve)

Spark

架构

spark架构
计算引擎：
Driver 负责整个集群的作业任务调度
Executor 负责任务的实际执行
资源调度：（spark独立部署的环境）
master
worker
服务调度：
ApplicationMaster 负责在计算引擎和资源调度之间协调
Spark三大数据结构
RDD 弹性分布式数据集
累加器分布式共享只写变量
广博变量分布式共享只读变量
FileInputStream InputStreamReader和bufferedInputStream的区别在哪里？
fileInputStream、InputStreamReader和BufferedReader
经过装饰者模式被包装到一起
HadoopRDD的结构是怎么样的？
HadoopRDD负责读取文件内容
HadoopRDD继承MapPartitionsRDD
MapPartitionsRDD负责扁平化以及 map
MapPartitionsRDD继承自ShuffledRDD
ShuffledRDD负责统计map结果
RDD中间数据不进行存储
RDD（弹性分布式数据集）的创建方式有几种？

内部创建：parallelize() makeRDD(数据，分区数量)
文件创建：textFile() wholeTextFile()(读取结果是一个元组，包括文件路径，文件内容)

spark如何持久化？
cache()
persist()可以指定存储级别
checkpoint() 检查点文件作业完成后不会被删除会执行一遍work来持久化，需要和cache结合使用
持久化操作必须在持久化算子执行时执行
持久化会增加新的依赖，出现问题可以重新读取数据
checkpoint重新建立了新的血缘关系
spark如何自定义分区？
partitionBy（自定义分区继承Partitioner）
为什么需要累加器分布式共享只写变量
因为序列化传递给executor的是一个数据闭包没有返回
longAccumulator累加器一般放在行动算子中操作
自定义累加器
继承AccumulatorV2
广播变量
broadcast（变量名）

RDD算子

转换算子

RDD之间转换
map() 类型或值的映射转换对于单个分区内执行是有序的，不同分区是无序的，对每一个分区的每一个数据每次运行一次
map后的元素数量不会改变
mapPartitions() 类型或值的映射转换取出单个分区的所有数据之后，进行转换存在对象的引用，不能用于内存较小的情况
可以增减元素个数，传递一个迭代器并且返回一个迭代器
mapPartitionsWithIndex() 对特定分区做操作，参数为迭代器以及分区数
flatMap() 对每个元素进行操作之后扁平化，进行操作之后的结果只要是可以迭代的集合即可
glom() 将同一分区的数据转换为内存进行处理
groupby()会将数据会被打乱重新组合，一个组的数据放在同一个分区中，称之为shuffle
filter() 数据过滤
sample
从数据源中抽取数据
参数(是否放回，每条数据可能被抽取的概率，种子)
distinct
去重
coalesce
用于缩减数据后，减少分区数量
第二个参数是shuffle，用于将分区数据打乱重新组合
repartition
扩大分区
相当于更大的coalesce+shuffle
mkstring 将集合转化为字符串
交集，并集，补集
拉链(产生两个数据的区间)
reducebykey
分组后，对kv两两聚合
存在shuffle，能够预聚合，性能较高
经过预聚合(shuffle之前在内存中聚合)，之后shuffle能够提高性能
groupbykey
只能分组，不能聚合
也存在shuffle，不能预聚合，性能较低
aggregatebykey
柯里化函数
用于界定分区内和分区间不同的数据
第一个参数列表:
当碰见第一个key的时候，和value做分区内计算
第二个参数列表:
第一个参数表示分区内计算规则，第二个参数表示分区间计算规则
foldbykey
柯里化函数
用于分区内和分区间相同时计算
combinebykey
三个参数，第一个用于类型转换
join leftjoin rightjoin
将相同key的value结合成tuple
不交的key去掉
多个相同，两两匹配
cogroup
先分组再连接

执行算子

collect()方法
reduce
collect
会将不同分区的数据按照分区顺序采集到driver内存中
count
数据源中数据的数量
first
数据源中数据的第一个
take
取n个数据
aggregate
定义分区内和分区间计算并且获取值
foreach
发送给executor端执行
注意此处有序列化的问题，要使用kryo进行轻量级序列化

rdd容错机制?
rdd记录算子操作的关系并且保存起来，用于数据容错和恢复

rdd依赖分类?
宽依赖(shuffle依赖)
窄依赖(onetoone依赖)

窄依赖时分区数=任务数
宽依赖时任务数=操作数*分区数

application
job:一个action算子就会生成一个job
stage:stage等于宽依赖(shuffle次数)的个数+1
task:一个stage中最后一个rdd分区的个数就是task

SparkSQL

SparkSQL
1.DataFrame
spark的DSL，封装了select set等操作
也可以直接写sql
可以和RDD相互转换
DataFrame是泛型的DataSet
2.DataSet
DataSet是DataFrame的ORM 可以和dataframe相互转换
3.以上三者之间可以相互转换
在涉及到DataFrame时，如果涉及到转换操作，需要引入转换规则
spark和hive的关系？
hive是sql化的map-reduce
spark中UDAF函数的作用是什么？
在sql中自定义函数，还可以自定义强类型和弱类型的聚合函数
spark数据读取
默认格式是parquet
spark和hive什么关系？spark on hive和hive on spark什么关系？
hive是hadoop提供的hdfs的sql计算
hive on spark模式下，数据以table形式存储在hive中，用户处理和分析数据使用的是hive语法规范的hql（hive sql）
提交计算时则会编译以spa
rk作业的形式来运行
spark on hive模式下，以spark来处理存储在hive中的数据
可以使用spark或者hive的api

Scala

Use-site variance与Declaration-site variance/universal type 与existential type

像C#，使用in标识协变，使用out标识逆变，放置在定义的位置，称之为Declaration-site variance

interface IProducer // Covariant
{
    T produce();
}
 
interface IConsumer // Contravariant
{
    void consume(T t);
}
 
IProducer producerOfB = /*...*/;
IProducer producerOfA = producerOfB;  // now legal
// producerOfB = producerOfA;  // still illegal
 
IConsumer consumerOfA = /*...*/;
IConsumer consumerOfB = consumerOfA;  // now legal
// consumerOfA = consumerOfB;  // still illegal

而像Java，使用? extends和? super定义variance，定义在使用时，则称之为Use-site variance

Producer<B> producerOfB = /*...*/; Producer<? extends A> producerOfA = producerOfB; // legal A a = producerOfA.produce(); // producerOfB = producerOfA; // still illegal Consumer<A> consumerOfA = /*...*/; Consumer<? super B> consumerOfB = consumerOfA; // legal consumerOfB.consume(new B()); // consumerOfA = consumerOfB; // still illegal

java的泛型是call-site variance，wildcard的本质是通过existential type实现的bounded polymorphism
universal type 提供所有类型可用的外部接口（我不知道）

void copy<T>(List<T> source, List<T> dest) { ... }

existential type 提供适配所有外界类型的接口（你不知道）

interface VirtualMachine<B> { B compile(String source); void run(B bytecode); } // Now, if you had a list of VMs you wanted to run on the same input: void runAllCompilers(List<∃B:VirtualMachine<B>> vms, String source) { for (∃B:VirtualMachine<B> vm : vms) { B bytecode = vm.compile(source); vm.run(bytecode); } }

类型系统

scala的类型系统和haskell很类似，代表kinds
对于String 其kind为A，A即为invariant 类型为
List 其kind则为F[+A]，List为co-variant类型