N刻后告诉你

[学习笔记]黑马程序员Spark全套视频教程，4天spark3.2快速入门到精通，基于Python语言的spark教程

文章目录

视频资料：
思维导图
一、Spark基础入门（环境搭建、入门概念）
第二章：Spark环境搭建-Local
- 2.1 课程服务器环境
- 2.2 Local模式基本原理
- 2.3 安装包下载
- 2.4 Spark Local模式部署
第三章：Spark环境搭建-StandAlone
- 3.1 StandAlone的运行原理
- 3.2 StandAlone环境安装操作
- 3.3 StandAlone程序测试
- 3.4 Spark程序运行层次结构
- 3.5 总结
第四章：Spark环境搭建-StandAlone-HA
- 4.1 StandAlone HA运行原理
- 4.2 基于Zookeeper实现HA
spark配置双master时一直处于standby的情况
- 4.3 总结
第五章：Spark环境搭建-Spark On YARN
- 5.1 Spark On YARN的运行原理
- 5.2 Spark On YARN部署和测试
- 5.3 部署模式DeployMode
- 5.4 两种部署模式的演示和总结
- 5.5 两种模式任务提交流程
- 5.6 总结
第六章：PySpark库
- 6.1 框架 VS 类库
- 6.2 PySpark类库介绍
- 6.3 PySpark安装
- 6.4 总结
第七章：本机开发环境搭建
- 7.1 本机配置Python环境
- 7.2 PyCharm本地和远程解释器配置
- 7.3 编程入口SparkContext对象以及WordCount演示
- 7.4 WordCount代码流程解析
- 7.5 提交WordCount到Linux集群运行
- 7.6 总结
第八章：分布式代码执行分析
- 8.1 Spark运行角色回顾
- 8.2 分布式代码执行分析
- 8.3 Python On Spark执行原理
- 8.4 总结
2.Spark核心
- 学习目标
第一章：RDD详解
- 1.1 什么是RDD
- 1.2 RDD五大特性-特性1
- 1.3 RDD五大特性-特性2
- 1.4 RDD五大特性-特性3
- 1.5 RDD五大特性-特性4
- 1.6 RDD五大特性-特性5
- 1.7 WordCount结合RDD特性进行执行分析
- 1.8 第一章总结
第二章：RDD编程入门
- 2.1 程序执行入口SparkContext对象
- 2.2 RDD的创建
- - 方式一：通过并行化集合创建（本地对象转分布式RDD）
  - 方式二：读取外部数据源
- 2.3 RDD算子概念和分类
- 2.4 常用转换算子
- - 转换算子-map
  - 转换算子-flatMap
  - 转换算子-reduceByKey
  - 转换算子-mapValues
  - WordCount案例回顾
  - 转换算子-groupBy
  - 转换算子-filter
  - 转换算子-distinct
  - 转换算子-union
  - 转换算子-join
  - 转换算子-intersection
  - 转换算子-glom
  - 转换算子-groupByKey
  - 转换算子-sortBy
  - 转换算子-sortByKey
  - RDD算子-案例
  - RDD算子-案例-提交到YARN执行
- 2.5 常用Action算子
- - Action算子-countByKey
  - Action算子-collect
  - Action算子-reduce
  - Action算子-fold-了解
  - Action算子-first
  - Action算子-take
  - Action算子-top
  - Action算子-count
  - Action算子-takeSample
  - Action算子-takeOrdered
  - Action算子-foreach
  - Action算子-saveAsTextFile
- 2.6 分区操作算子
- - 转换算子-mapPartitions
  - Action算子-foreachPartition
  - 转换算子-partitionBy
  - 转换算子-repartition
  - 面试题：groupByKey和reduceByKey的区别
- 2.7 第二章总结
第三章：RDD的持久化
- 3.1 RDD的数据是过程数据
- 3.2 RDD缓存
- 3.3 RDD CheckPoint
- 3.4 第三章总结
第四章：Spark案例练习
- 4.1 搜索引擎日志分析案例
- 4.2 提交到集群运行
- 4.3 第四章作业和总结
- - 作业
  - 总结
第五章：共享变量
- 5.1 广播变量
- 5.2 累加器
- 5.3 广播变量累加器综合案例
- 5.4 第五章总结
第六章：Spark内核调度（重点理解）
- 6.1 DAG
- 6.2 DAG的宽窄依赖和阶段划分
- 6 .3 内存迭代计算
- 6.4 Spark并行度
- 6.5 Spark任务调度
- - DAG调度器
  - Task调度器
- 6.6 拓展-Spark概念名称大全
- 6.7 第六章总结
3.SparkSQL
- 学习目标
第一章：SparkSQL快速入门
- 1.1 什么是SparkSQL
- 1.2 为什么要学习SparkSQL
- 1.3 SparkSQL特点
- 1.4 SparkSQL发展历史
- 1.5 第一章总结
第二章：SparkSQL概述
- 2.1 SparkSQL和Hive的异同
- 2.2 SparkSQL的数据抽象
- 2.3 SparkSQL数据抽象的发展
- 2.4 DataFrame数据抽象
- 2.5 SparkSession对象
- 2.6 SparkSQL HelloWorld
- 2.7 第二章总结
第三章：DataFrame入门
- 3.1 DataFrame的组成
- 3.2 DataFrame的代码构建
- - 基于RDD方式1-通过createDataFrame方法
  - 基于RDD方式2-通过StructType对象
  - 基于RDD方式3-使用toDF方法
  - 基于Pandas的DataFrame
  - 读取外部数据
  - - 读取Text文件
    - 读取json文件
    - 读取csv文件
    - 读取parquet文件
- 3.3 DataFrame的入门操作
- - DSL风格
  - SQL风格
- 3.4 词频统计案例
- 3.5 电影数据分析
- - - 遇到问题：
- 3.6 SparkSQL Shuffle 分区数目
- 3.7 SparkSQL 数据清洗API
- 3.8 DataFrame数据写出
- 3.9 DataFrame通过JDBC读写数据库(MySQL示例)
- 3.10 第三章总结
第四章：SparkSQL函数定义
- 4.1 SparkSQL定义UDF函数
- - sparksession.udf.register()
  - pyspark.sql.functions.udf
  - 注册一个ArraryType返回类型的UDF
  - 注册一个字典返回类型的UDF
  - 拓展-通过RDD代码模拟UDAF效果
- 4.2 SparkSQL使用窗口函数
- 4.3 第四章总结
第五章：SparkSQL的运行流程
- 5.1 SparkRDD的执行流程回顾
- 5.2 SparkSQL的自动优化
- 5.3 Catalyst优化器
- 5.4 SparkSQL的执行流程
- 5.5 第五章总结
第六章：Spark On Hive
- 6.1 原理
- 6.2 配置
- 6.3 在代码中集成
- 6.4 第六章总结
第七章：分布式SQL执行引擎
- 7.1 概念
- 7.2 客户端工具连接
- - 配置
  - 数据库工具连接ThriftServer
- 7.3 代码JDBC连接
- - Pycharm软件连接ThriftServer
- 7.4 第七章总结
4.Spark综合案例
需求分析
- 需求1：
- 需求2：
- 需求3：
- 需求4：
5.Spark新特性+核心回顾
- 学习目标
第一章：Spark Shuffle
- 1.1 Spark Shuffle
- 1.2 HashShuffleManager
- 1.3 SortShuffleManager
- 1.4 第一章总结
第二章：Spark3.0新特性
- 2.2 Adaptive Query Execution自适应查询（SparkSQL）
- AQE总结
- 2.3 Dynamic Partition Pruning动态分区裁剪（SparkSQL）
- 2.4 增强的Python API：PySpark和Koalas
- 2.5 Koalas入门演示-Koalas DataFrame构建

视频资料：

黑马程序员Spark全套视频教程，4天spark3.2快速入门到精通，基于Python语言的spark教程

思维导图

一、Spark基础入门（环境搭建、入门概念）

学习目标：

1.[了解]Spark诞生背景

2.[了解]Saprk的应用场景

3.[掌握]Spark环境的搭建

4.[掌握]Spark的入门案例

5.[了解]Spark的基本原理

第一章：Spark框架概述

1.1 Spark是什么

定义：Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

1.2 Spark风雨十年

1.3 扩展阅读：Spark VS Hadoop

1.4 Spark四大特点

1.5 Spark框架模型-了解

1.6 Spark运行模式

1.7 Spark架构角色

Spark解决什么问题？

海量数据的计算，可以进行离线批处理、实时流计算、机器学习计算、图计算、通过SQL完成结构化数据的处理。

Spark有哪些模块？

核心SparkCore、SQL计算（SparkSQL支持离线批处理，其上面也有structured streaming支持实时流计算）、流计算（SparkStreaming，有缺陷）、图计算（GraphX）、机器学习（MLlib）

Spark特点有哪些？

速度快、使用简单、通用性强、多种模式运行。

Spark的运行模式？

本地模式（Local模式，在一个
集群模式（StandAlone、YARN、K8S）
云模式

Spark的运行角色（对比YARN）？

Master：集群资源管理（类同ResourceManager）

Worker：单机资源管理（类同NodeManager）

Driver：单任务管理者（类同ApplicationMaster）

Executor：单任务执行者（类同YARN容器内的Task）

第二章：Spark环境搭建-Local

2.1 课程服务器环境

2.2 Local模式基本原理

2.3 安装包下载

PS：软连接与硬链接，参考资料：https://www.bilibili.com/video/BV1CZ4y1v7SR/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=c1627e67b359df87544f502955497bf7

配置环境变量：

2.4 Spark Local模式部署

Local模式的运行原理？

Local模式就是以一个独立进程配合其内部线程来提供完成Spark运行时环境。Local模式可以通过spark-shell/pyspark/spark-submit等来开启。

bin/pyspark是什么程序？

是一个交互式的解释器执行环境，环境启动后就得到了一个Local Spark环境，可以运行Python代码去进行Spark计算，类似Python自带解释器。

Spark的4040端口是什么？

Spark的任务在运行后，会在Driver所在机器绑定到4040端口，提供当前任务的监控页面供查看。

PS：如果有多个Local模式下的Spark任务在一台机器上执行，则绑定的端口会依次顺延。

第三章：Spark环境搭建-StandAlone

3.1 StandAlone的运行原理

3.2 StandAlone环境安装操作

详看视频

3.3 StandAlone程序测试

3.4 Spark程序运行层次结构

3.5 总结

StandAlone的原理？

Master和Worker角色以独立进程的形式存在，并组成Spark运行时环境（集群）

Spark角色在StandAlone中的分布？

Master角色：Master进程

Worker角色：Worker进程

Driver角色：以线程运行在Master中

Executor角色：以线程运行在Worker中

StandAlone如何提交Spark应用？

bin/spark-submit --master spark://server:7077

4040\8080\18080分别是什么？

4040是单个程序运行的时候绑定的端口可供查看本任务运行情况（4040和Driver绑定，也和Spark的应用程序绑定）。

8080是Master运行的时候默认的WebUI端口（Master进程是守护进程）。

18080是Spark历史服务器的端口，可供我们查看历史运行程序的运行状态。

Job\State\Task的关系？

一个Spark应用程序会被分成多个子任务（Job）运行，每一个Job会分成多个Stage（阶段）来运行，每一个Stage内会分出来多个Task（线程）来执行具体任务。

第四章：Spark环境搭建-StandAlone-HA

4.1 StandAlone HA运行原理

Spark Standalone集群存在Master单点故障（SPOF）的问题。

4.2 基于Zookeeper实现HA

spark配置双master时一直处于standby的情况

4.3 总结

StandAloneHA的原理

基于Zookeeper做状态的维护，开启多个Master进程，一个作为活跃，其他的作为备份，当活跃进程宕机，备份的Master进行接管。

第五章：Spark环境搭建-Spark On YARN

5.1 Spark On YARN的运行原理

5.2 Spark On YARN部署和测试

详见视频

5.3 部署模式DeployMode

5.4 两种部署模式的演示和总结

Cluster模式

bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --num-executors 3 --total-executor-cores 3 /export/server/spark/examples/src/main/python/pi.py 100

需要通过下面命令打开Yarn的历史服务器（JobHistoryServer）

mapred --daemon start historyserver

Client模式

bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --num-executors 3 --total-executor-cores 3 /export/server/spark/examples/src/main/python/pi.py 100

5.5 两种模式任务提交流程

5.6 总结

SparkOnYarn本质？

Master由ResourceManager代替

Worker由NodeManager代替

Driver可以运行在容器内（Cluster模式）或客户端进程中（Client模式）

Executor全部运行在YARN提供的容器内

Why Spark On YARN？

提供资源利用率，在已有YARN的场景下让Spark收到YARN的调度可以更好的管控资源提高利用率并方便管理。

第六章：PySpark库

6.1 框架 VS 类库

6.2 PySpark类库介绍

6.3 PySpark安装

详见视频

6.4 总结

PySpark是什么？和bin/pyspark程序有何区别？

PySpark是一个Python的类库，提供Spark的操作API

bin/pyspark是一个交互式的程序，可以提供交互式编程并执行Spark计算

本课程的Python运行环境由什么来提供？

由Anaconda提供，并使用虚拟环境，环境名称叫做：pyspark

第七章：本机开发环境搭建

7.1 本机配置Python环境

7.2 PyCharm本地和远程解释器配置

详见视频

7.3 编程入口SparkContext对象以及WordCount演示

PS：解决WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform…警告

找了好几个都不行。

PS：解决

参考资料https://blog.csdn.net/weixin_51951625/article/details/117452855

https://blog.csdn.net/OWBY_Phantomhive/article/details/123088763

https://blog.csdn.net/qq_20540901/article/details/123499540

需要配置环境变量

7.4 WordCount代码流程解析

7.5 提交WordCount到Linux集群运行

通过spark-submit yarn提交到集群的py文件中的地址，集群会默认去hdfs里面找。

在yarn模式或者standalone这样的集群下，访问的文件路径，要么是网络地址，要么是hdfs，这样每台机器都能访问到。

7.6 总结

Python语言开发Spark程序步骤？

主要是获取SparkContext对象，基于SparkContext对象作为执行环境入口。

如何提交Spark应用？

将程序代码上传到服务器上，通过spark-submit客户端工具进行提交。

1.在代码中不要设置master，如果设置了，会以代码为准，spark-submit工具的设置就无效了。

2.提交程序到集群中的时候，读取的文件一定是各个机器都能访问到的地址。比如HDFS。

第八章：分布式代码执行分析

8.1 Spark运行角色回顾

8.2 分布式代码执行分析

8.3 Python On Spark执行原理

8.4 总结

分布式代码执行的重要特征是什么？

代码在集群上运行，是被分布式运行的。

在Spark中，非任务处理部分，由Driver执行（非RDD代码）。

任务处理部分由Executor执行（RDD代码）。

Executor的数量很多，所以任务的计算是分布式在运行的。

简述PySpark的架构体系。

Python On Spark：Driver端由JVM执行，Executor端由JVM做命令转发，底层由Python解释器进行工作。

2.Spark核心

学习目标

了解RDD产生背景
掌握RDD的创建
掌握RDD的重要算子
掌握RDD的缓存和检查点机制
熟悉Spark执行的基本原理

第一章：RDD详解

1.1 什么是RDD

1.2 RDD五大特性-特性1

1.3 RDD五大特性-特性2

1.4 RDD五大特性-特性3

1.5 RDD五大特性-特性4

1.6 RDD五大特性-特性5

1.7 WordCount结合RDD特性进行执行分析

1.8 第一章总结

如何正确理解RDD？

不可变、可分区、并行计算的弹性分布式数据集，分布式计算的实现载体（数据抽象）

RDD五大特点分别是？

RDD有分区；RDD的方法会作用在所有分区上；RDD之间有依赖关系；KV型的RDD是有分区器的；RDD的分区规划，会尽量靠近数据所在服务器。

第二章：RDD编程入门

2.1 程序执行入口SparkContext对象

2.2 RDD的创建

方式一：通过并行化集合创建（本地对象转分布式RDD）

在local[*]方法下，parallelize方法，没有给定分区数的情况下，默认分区数是根据CPU核心数来定。

方式二：读取外部数据源

2.3 RDD算子概念和分类

2.4 常用转换算子

转换算子-map

转换算子-flatMap

转换算子-reduceByKey

PS：报错：UserWarning: Please install psutil to have better support with spilling

参考资料：https://blog.csdn.net/sqlserverdiscovery/article/details/102936203

PS：未正确退出conda环境，会报错

参考资料：https://blog.csdn.net/weixin_44211968/article/details/122483304

conda deactivate

转换算子-mapValues

WordCount案例回顾

转换算子-groupBy

转换算子-filter

转换算子-distinct

转换算子-union

转换算子-join

转换算子-intersection

转换算子-glom

转换算子-groupByKey

groupByKey只保留同组的值，而groupBy还保留key。

转换算子-sortBy

注意：如果选择多个分区来进行排序，那么就意味着有多个excutor，每个excutor只能保证局部有序。所以如果要全局有序，排序分区的并行任务数请设置为1

转换算子-sortByKey

RDD算子-案例

RDD算子-案例-提交到YARN执行

2.5 常用Action算子

Action算子-countByKey

Action算子-collect

Action算子-reduce

Action算子-fold-了解

Action算子-first

Action算子-take

Action算子-top

Action算子-count

Action算子-takeSample

Action算子-takeOrdered

Action算子-foreach

Action算子-saveAsTextFile

rdd有几个分区，写出的数据就有几个"part-xxxx"文件

2.6 分区操作算子

转换算子-mapPartitions

mapPartitions并没有节省CPU执行层面的东西，但节省了网络管道IO开销，所以他的性能比map好。

Action算子-foreachPartition

转换算子-partitionBy

转换算子-repartition

shuffle是有状态计算，有状态计算涉及到状态的获取，就会导致性能下降。而没有shuffle，大部分都是无状态计算，可以并行执行，效果很快。

coalesce有安全机制，当增加分区但没有设置shuffle参数为True时，分区并不会增加

repartition底层调用的是coalesce，只是参数shuffle默认设置为True

面试题：groupByKey和reduceByKey的区别

2.7 第二章总结

RDD创建有哪几种方法？

通过并行化集合的方式（本地集合转分布式集合）

或者读取数据的方式创建（TextFile\WholeTextFile）

RDD分区数如何查看？

通过getNumPartitions API查看，返回Int

Transformation和Action的区别?

转换算子的返回值100%是RDD，而Action算子的返回值100%不是RDD。

转换算子是懒加载的，只有遇到Action才会执行。Action就是转换算子处理链条的开关。

哪两个Action算子的结果不经过Driver，直接输出？

foreach和saveAsTextFile直接由Executor执行后输出，不会将结果发送到Driver上去（foreachPartition也是）

reduceByKey和groupByKey的区别？

reduceByKey自带聚合逻辑，groupByKey不带

如果做数据聚合reduceByKey的效果更好，因为可以先聚合后shuffle再最终聚合，传输的IO小

mapPartitions和foreachPartition的区别？

mapPartitions带有返回值，是个转换算子；foreachPartition不带返回值，是个Action算子

对于分区操作有什么要注意的地方？

尽量不要增加分区，可能破坏内存迭代的计算管道

第三章：RDD的持久化

3.1 RDD的数据是过程数据

3.2 RDD缓存

PS：linux下kill -9不能强制杀死spark-submit进程

参考资料：https://blog.csdn.net/intersting/article/details/84492999（原因分析）

https://blog.csdn.net/qq_41870111/article/details/126068306

https://blog.csdn.net/agonysome/article/details/125722926（如何清理僵尸进程）

3.3 RDD CheckPoint

3.4 第三章总结

Cache和Checkpoint区别

Cache是轻量化保存RDD数据，可存储在内存和硬盘，是分散存储，设计上数据是不安全的（保留RDD血缘关系）

CheckPoint是重量级保存RDD数据，是集中存储，只能存储在硬盘（HDFS）上，设计上是安全的（不保留RDD血缘关系）

Cache和CheckPoint的性能对比？

Cache性能更好，因为是分散存储，各个Executor并行，效率高，可以保存到内存中（占内存），更快

CheckPoint比较慢，因为是集中存储，涉及到网络IO，但是存储在HDFS上更加安全（多副本）

第四章：Spark案例练习

4.1 搜索引擎日志分析案例

4.2 提交到集群运行

4.3 第四章作业和总结

作业

总结

案例中使用的分词库是？

jieba库

为什么要在全部的服务器安装jieba库？

因为YARN是集群运行，Executor可以在所有服务器上执行，所以每个服务器都需要有jieba库提供支撑

如何尽量提高任务计算的资源？

计算CPU核心和内存量，通过–executor-memory指定executor内存，通过–executor-cores指定executor的核心数

通过–num-executors指定总executor数量

第五章：共享变量

5.1 广播变量

5.2 累加器

5.3 广播变量累加器综合案例

5.4 第五章总结

广播变量解决了什么问题？

分布式集合RDD和本地集合进行关联使用的时候，降低内存占用以及减少网络IO传输，提高性能。

累加器解决了什么问题？

分布式代码执行中，进行全局累加。

第六章：Spark内核调度（重点理解）

6.1 DAG

6.2 DAG的宽窄依赖和阶段划分

6 .3 内存迭代计算

6.4 Spark并行度

6.5 Spark任务调度

DAG调度器

如果一台服务器内开多个executor，会进行进程间的通信（所以建议一台服务器就开一个executor）

Task调度器

6.6 拓展-Spark概念名称大全

6.7 第六章总结

DAG是什么有什么用？

DAG有向无环图，用以描述任务执行流程，主要作用是协助DAG调度器构建Task分配用以做任务管理。

内存迭代/阶段划分?

基于DAG的宽窄依赖划分阶段，阶段内部都是窄依赖可以构建内存迭代的管道。

DAG调度器是？

构建Task分配用以做任务管理。

3.SparkSQL

学习目标

了解SparkSQL框架模块的基础概念和发展历史
掌握SparkSQL DataFrame API开发
理解SparkSQL的运行流程
掌握SparkSQL和Hive的集成

第一章：SparkSQL快速入门

1.1 什么是SparkSQL

1.2 为什么要学习SparkSQL

1.3 SparkSQL特点

1.4 SparkSQL发展历史

1.5 第一章总结

第二章：SparkSQL概述

2.1 SparkSQL和Hive的异同

2.2 SparkSQL的数据抽象

2.3 SparkSQL数据抽象的发展

2.4 DataFrame数据抽象

2.5 SparkSession对象

2.6 SparkSQL HelloWorld

2.7 第二章总结

第三章：DataFrame入门

3.1 DataFrame的组成

3.2 DataFrame的代码构建

基于RDD方式1-通过createDataFrame方法

基于RDD方式2-通过StructType对象

基于RDD方式3-使用toDF方法

基于Pandas的DataFrame

读取外部数据

读取Text文件

读取json文件

读取csv文件

读取parquet文件

3.3 DataFrame的入门操作

DSL风格

SQL风格

3.4 词频统计案例

3.5 电影数据分析

遇到问题：

1.dataframe对象经过多次.之后，IDE无法自动补全得到withColumnRenamed方法？

仍未解决。

其他解决方案：使用AI代码补全插件

2.需要安装pytest模块

解决方案：在虚拟环境中安装pytest

3.6 SparkSQL Shuffle 分区数目

可以看出，速度变快了

3.7 SparkSQL 数据清洗API

3.8 DataFrame数据写出

3.9 DataFrame通过JDBC读写数据库(MySQL示例)

3.10 第三章总结

DataFrame在结构层面上由StructField组成列描述，由StructType构造表描述。在数据层面上，Column对象记录列数据，Row对象记录行数据。
DataFrame可以从RDD转换、Pandas DF转换、读取文件、读取JDBC等方法构建
spark.read.format()和df.write.format()是DataFrame读取和写出的统一化标准API
SParkSQL默认在Shuffle阶段200个分区，可以修改参数获得最好性能
dropDuplicates可以去重，dropna可以删除缺失值、fillna可以填充缺失值
SparkSQL支持JDBC读写，可用标准API对数据库进行读写操作

第四章：SparkSQL函数定义

4.1 SparkSQL定义UDF函数

sparksession.udf.register()

pyspark.sql.functions.udf

注册一个ArraryType返回类型的UDF

注册一个字典返回类型的UDF

拓展-通过RDD代码模拟UDAF效果

4.2 SparkSQL使用窗口函数

4.3 第四章总结

SparkSQL支持UDF和UDAF定义，但在Python中，暂时只能定义UDF

UDAF可以通过rdd的mapPartitions算子模拟实现

UDTF可以通过返回array或者dict类型来模拟实现

UDF定义支持2种方式，1：使用SparkSession对象构建。2：使用functions包种提供的UDF API构建。要注意，方式1可用DSL和SQL风格，方式2仅可用DSL风格
SparkSQL支持窗口函数使用，常用SQL中的窗口函数均支持，如聚合窗口\排序窗口\NTILE分组窗口等

第五章：SparkSQL的运行流程

5.1 SparkRDD的执行流程回顾

5.2 SparkSQL的自动优化

5.3 Catalyst优化器

5.4 SparkSQL的执行流程

5.5 第五章总结

第六章：Spark On Hive

6.1 原理

6.2 配置

nohup /export/server/hive/bin/hive --service metastore 2>&1 >> /export/server/hive/metastore.log &

PS：2>&1的含义：将标准错误输出重定向到标准输出。

https://blog.csdn.net/icanlove/article/details/38018169

6.3 在代码中集成

6.4 第六章总结

第七章：分布式SQL执行引擎

7.1 概念

7.2 客户端工具连接

配置

数据库工具连接ThriftServer

7.3 代码JDBC连接

Pycharm软件连接ThriftServer

通过yum命令安装依赖

yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make gcc-c++ python-devel cyrus-sasl-devel cyrus-sasl-devel cyrus-sasl-plain cyrus-sasl-gssapi -y

切换到pyspark虚拟环境，通过pip命令安装

pip install pyhive pymysql sasl thrift thrift_sasl

7.4 第七章总结

4.Spark综合案例

需求分析

需求1：

PS:

遇到问题：

解决方案：https://blog.csdn.net/debimeng/article/details/113101894

# 1.查看数据库和表的编码
SHOW CREATE DATABASE mydb;
# 2.修改数据库和表的编码
ALTER DATABASE mydb DEFAULT CHARACTER SET utf8;
3.检查数据库和表的编码
SHOW CREATE DATABASE mydb;

需求2：

需求3：

需求4：

5.Spark新特性+核心回顾

学习目标

掌握Spark的Shuffle流程
掌握Spark3.0新特性
理解并复习Spark的核心概念

第一章：Spark Shuffle

1.1 Spark Shuffle

1.2 HashShuffleManager

1.3 SortShuffleManager

1.4 第一章总结

第二章：Spark3.0新特性

2.2 Adaptive Query Execution自适应查询（SparkSQL）

AQE总结

2.3 Dynamic Partition Pruning动态分区裁剪（SparkSQL）

2.4 增强的Python API：PySpark和Koalas

2.5 Koalas入门演示-Koalas DataFrame构建

略

你可能感兴趣的:(数据分析师,spark,学习,python)

PennyLane 开源项目教程龚翔林Shannon
PennyLane开源项目教程pennylanePennyLaneisacross-platformPythonlibraryfordifferentiableprogrammingofquantumcomputers.Trainaquantumcomputerthesamewayasaneuralnetwork.项目地址:https://gitcode.com/gh_mirrors/pe/pen
PennyLane: 探索量子计算的新里程戴艺音
PennyLane:探索量子计算的新里程项目地址:https://gitcode.com/gh_mirrors/pe/pennylane项目简介是一个开源软件框架，专注于混合量子和经典计算。由PennyLaneAI团队开发，该项目提供了一个直观且灵活的方式来设计、训练和优化涉及量子硬件的机器学习模型。其目标是让研究人员和开发者能够轻松地在本地或云端的量子计算机上进行实验。技术分析PennyLane
五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的开源库（一）由数入道深度学习开源人工智能
在开发中，有一些开源库可以实现不同类型的推理，包括逻辑推理、概率推理、图推理、基于深度学习的推理等。以下是五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的现成开源库，它们各自的功能、特点和适用场景的详细介绍，并进行对比分析。1.逻辑推理推理：PyDatalog库介绍：PyDatalog是一个Python的逻辑编程库，它将逻辑编程的功能引入到Python中，提供了在Python中进行规则
python openpyxl三行代码将列表数据依次加入excel单元格并生成图表轩哥啊哈OvO Python #openpyxl python pygame numpy scrapy pip
OpenPyXLOpenPyXl几乎可以实现所有的Excel功能，而且接口清晰，文档丰富，学习成本相对较低。安装用pip安装pipinstallopenpyxl使用使用python的openpyxl模块，可以非常方便的将列表或元组数据依次加入excel单元格，可竖排也可横排，以下代码为最简单的横排：fromopenpyxlimportWorkbookl=123,154,165,144,265,36
vscode python pylint 问题汇总解决嘉禾天成
目录一、问题类型：二、解决问题2.1、Unabletoimport'xxx'pylint2.2、Noname'xxx'inmoudle'xxx'2.3、Accesstomemberxxxbeforedefinitionpylint!!!!本文章长期更新!!!!一、问题类型：1、Unabletoimport'xxx'pylint2、Noname'xxx'inmoudle'xxx'3、Accessto
主流编程语言的优劣分析及学习建议我的青春不太冷学习 java 开发语言 android 经验分享笔记
不同语言的特性主流编程语言的优劣分析及学习建议1.Python优点缺点学习建议适用于哪些人？2.JavaScript优点缺点学习建议适用于哪些人？3.Java优点缺点学习建议适用于哪些人？4.C++优点缺点学习建议适用于哪些人？5.Swift优点缺点学习建议适用于哪些人？结论主流编程语言的优劣分析及学习建议对于年轻人或者即将开始编程学习的人来说，选择一门合适的编程语言至关重要。不同的编程语言有各自
「Python系列」Python random模块、hashlib模块 ·零落· Python入门到掌握 python 开发语言 random
文章目录一、Pythonrandom模块1.`random.random()`2.`random.uniform(a,b)`3.`random.randint(a,b)`4.`random.randrange(start,stop,step)`5.`random.choice(seq)`6.`random.shuffle(seq)`7.`random.sample(seq,k)`8.`random
课前准备---多样本ATAC联合分析（封装版）追风少年ii 单细胞 ATAC 数据分析聚类
作者，EvilGenius大家好，我们的课程已经在进行中了，需要分享给大家很多的分析资料，大家好好学习，资料很珍贵，好好保存。ATAC的主流分析内容1）Readfilteringandalignment2）Barcodecounting3）Identificationoftransposasecutsites4）Detectionofaccessiblechromatinpeaks5）Cellca
python round函数_python中round函数如何使用 weixin_39823017 python round函数
round函数很简单，对浮点数进行近似取值，保留几位小数。比如>>>round(10.0/3,2)3.33>>>round(20/7)3第一个参数是一个浮点数，第二个参数是保留的小数位数，可选，如果不写的话默认保留到整数。这么简单的函数，能有什么坑呢？1、round的结果跟python版本有关我们来看看python2和python3中有什么不同：$pythonPython2.7.8(default
python中round的用法_python中如何使用round函数 weixin_39754831 python中round的用法
在python3中，round（1.0/2.0）得到的是1，而在python2中，round（1.0/2.0）得到的是0$pythonPython2.7.8(default,Jun182015,18:54:19)[GCC4.9.1]onlinux2Type"help","copyright","credits"or"license"formoreinformation.>>>round(0.5)1
python实现先来先服务_Python基础并发编程——进程 weixin_39568653 python实现先来先服务
一、进程的基础知识1、理论基础知识顾名思义，进程即正在执行的一个过程。进程是对正在运行程序的一个抽象。进程的概念起源于操作系统，是操作系统最核心的概念，也是操作系统提供的最古老也是最重要的抽象概念之一。操作系统的其他所有内容都是围绕进程的概念展开的。PS：即使可以利用的cpu只有一个（早期的计算机确实如此），也能保证支持（伪）并发的能力。将一个单独的cpu变成多个虚拟的cpu（多道技术：时间多路复
python round函数用法 ncst Python python
round()方法返回x的小数点四舍五入到n个数字。语法以下是round()方法的语法：round(x[,n])参数x–这是一个数值表达式n–这也是一个数值表达式返回值该方法返回x的小数点四舍五入到n个数字例子下面的例子显示了round()方法的使用print“round(80.23456,2):“,round(80.23456,2)print“round(100.000056,3):“,roun
MySQL系列之(一)---MySQL使用方法总结(不断更新) Frodo先生 MySQL 不断更新系列
MySQL的使用方法总结在这里先标注上个人认为其他朋友总结的最好的MySQL的学习笔记:这个网站是一大佬博客,名字叫格物,特别值得学习,还有资料可以学习一千行MySQL学习笔记MySQL复习笔记(实例全)1.数据库的介绍数据库就是存储和管理数据的仓库，数据按照一定的格式进行存储，用户可以对数据库中的数据进行增加、修改、删除、查询等操作。2.数据库的分类关系型数据库非关系型数据库关系型数据库:是指采
Python Excel页眉页脚设置详解 nuclear2011 Python Excel python Excel页眉和页脚 Excel奇偶页不同页眉和页脚 Excel第一页不同页眉和页脚插入图片到Excel页眉和页脚添加页码到Excel表格
目录什么是Excel中的页眉和页脚？使用工具使用Python在Excel中插入页眉和页脚使用Python在Excel中为页眉和页脚添加图片使用Python在Excel中为奇偶页插入不同的页眉和页脚使用Python在Excel中为第一页插入不同的页眉和页脚本文介绍如何使用Python在Excel中设置和自定义页眉和页脚。内容包括插入基础页眉和页脚、在页眉和页脚中添加图片、为奇偶页设置不同的页眉和页脚
Python入门进阶：68 个 Python 内置函数详解 Ndk开发校长程序员 python windows 开发语言
3.数学运算abs()返回绝对值divmode()返回商和余数round()四舍五入pow(a,b)求a的b次幂,如果有三个参数.则求完次幂后对第三个数取余sum()求和min()求最小值max()求最大值print(abs(-2))#绝对值:2print(divmod(20,3))#求商和余数:(6,2)print(round(4.50))#五舍六入:4print(round(4.51))#5p
使用Python中的random模块生成随机数 code_welike python 开发语言 Python
随机数在计算机编程中经常被用到，可以用于模拟实验、生成随机数据等各种场景。Python提供了random模块，其中包含了生成随机数的函数和方法。本文将介绍random模块的基本用法，并提供一些示例代码。首先，我们需要导入random模块，可以使用以下代码实现：importrandom一旦导入了random模块，我们就可以使用其中的函数和方法来生成随机数了。下面是一些常用的函数和方法：random.
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
random（随机数） MoRanzhi1203 python
random（随机数）Python的random库是用于生成随机数的标准库。它提供了各种功能，可以产生伪随机数、随机选择元素、打乱序列等。importrandom该模块实现了各种分布的伪随机数生成器。对于整数，从范围中有统一的选择。对于序列，存在随机元素的统一选择、用于生成列表的随机排列的函数、以及用于随机抽样而无需替换的函数。在实数轴上，有计算均匀、正态（高斯）、对数正态、负指数、伽马和贝塔分布
Python 内置函数 round() 详解嘻嘻爱编码 Python从入门到放弃 1024程序员节 python 开发语言
在Python编程中，round()函数是一个非常实用的内置函数，用于对数字进行四舍五入。无论是在数据处理、财务计算还是科学计算中，round()函数都能帮助我们得到所需的精确值。本文将详细介绍round()函数的用法和注意事项。1.round()函数的基本语法round(number,ndigits=None)参数说明number:要四舍五入的数字，可以是整数或浮点数。ndigits:可选参数，
LeetCode刷题 | Day 2 最长严格递增或递减子列表（Longest Increasing or Decreasing SubList）上坤 LeetCode刷题 leetcode 算法最长递增子列表动态规划 Python C++dynamic programming
LeetCode刷题|Day2最长严格递增或递减子列表（LongestIncreasingDecreasingSubList）文章目录LeetCode刷题|Day2最长严格递增或递减子列表（LongestIncreasingDecreasingSubList）前言一、题目概述二、解题方法2.1动态规划思想2.1.1思路讲解2.1.2伪代码+逐步输出示例2.1.3Python代码如下2.1.4C++
python资本市场财务数据分析_Python对股票财务数据进行可视化分析 weixin_39834984
对股票财务数据进行分析是非常必要，但因股票数据量很大，单凭浏览网页或在软件客户端查看是非常浪费精力的一件事，通过Python进行网页数据提取，将财务数据图表化会更加直观。以下代码在Python3.6环境下通过：注：使用注意，将此代码保存为一个文本文件扩展名为.py，在这个文件同目录下建立二个子目录：数据-分析、数据-下载，也可以更改代码中的路径，否则运行时会报错。importmatplotlib.
Python虚拟环境介绍 weixin_34150224 python 操作系统
在使用Python语言的时候我们使用pip来安装第三方包，但是由于pip的特性，系统中只能安装每个包的一个版本。但是在实际项目开发中，不同项目可能需要第三方包的不同版本，Python的解决方案就是虚拟环境。顾名思义，虚拟环境就是虚拟出来的一个隔离的Python环境，每个项目都可以有自己的虚拟环境，用pip安装各自的第三方包，不同项目之间也不会存在冲突。创建虚拟环境需要一些工具，本文将会介绍这些工具
全面掌握React：2025年学习路径指南 chenNorth。前端 react react.js 学习前端
文章目录第一步：Web开发的基石——JavaScript与TypeScript第二步：Web设计的核心——HTML与CSS第三步：进入React的世界第四步：用TailwindCSS进行样式设计第五步：用Shadcn/UI增强你的UI第六步：用ReactHookForm处理表单第七步：用Next.js提升你的技能第八步：用Remix掌握全栈开发第九步：ReactNative+Expo：轻松开发移动
【面试常问之python】python中的面试常考知识点欢喜躲在眉梢里-柚子面试经验分享 servlet
目录1、list（列表）和tuple（元组）的区别？2、什么是pep8，pep8能说出几点？3、Python内存管理4、Python常用模块有哪些能不能说一下怎么使用用来干过什么？5.Python中的多进程和多线程都使用什么模块？6.Python的GIL是什么7.什么是协程8.Flask和django的区别9.项目相关流程虚拟环境requestsss对象使用模块10.深浅拷贝原理现象11.Pyth
python报错：No pyvenv.cfg file 云边的快乐猫 Bug大全解决 python 开发语言 python解释器空切换python解释器新建项目
目录一、遇到问题二、出现问题的原因三、解决步骤一、遇到问题新建python项目运行的时候发现了报错这个，之前运行或者给别人运行就没问题，排除了是代码报错，那就只有可能是环境问题了。这个翻译就是缺失这个文件，项目如下Nopyvenv.cfgfile项目还有这个.venv文件.venv文件：这个是创建这个项目时候选择的环境隔离，你这里添加的各种环境包只在这个项目生效，不影响其他项目二、出现问题的
Linux系统python虚拟环境及HanLP部署段智华
在Linux系统中运行HanLP，要安装部署一个Python的虚拟环境，实现Python2与Python3的版本共存，Python虚拟环境与JavaJVM虚拟机的共存，HanLP是面向生产环境的多语种NLP工具包，HanLp的标记是一只蝴蝶，蝴蝶象征着蝴蝶效应、非线性与混沌理论——虽然微小，但足以改变世界！（《自然语言处理入门》图书作者何晗）Linuxopenssl、libssl-dev等模块安装
ollama把huggingface下载下来的模型转换为gguf abments 人工智能语言模型
说明ollama导入从huggingface下载下来的模型在ollama的说明文档中有详细的介绍,大家可以按照文档说明进行操作。importing-pytorch–safetensors。既然官方已经给出了明确的操作步骤，那么我写这篇博客的意义又是什么呢？主要有两个目的：1.我的操作可能更适合中国宝宝体质2.方便后期自己查看要求建议使用conda管理python环境建议使用linux或mac环境，
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
vscode 和 pycharm哪个更适合开发挺住. 人工智能经验分享笔记
在选择Python开发环境时，VisualStudioCode(VSCode)和PyCharm是两个最受欢迎的选择。两者都有强大的功能，但它们的设计理念、用户体验和功能集有所不同。是对两者的详细比较，帮助你选择更适合Python开发的工具。1.概述VisualStudioCode(VSCode)：由微软开发，是一个轻量级、开源的代码编辑器，支持多种编程语言。通过扩展插件，VSCode可以扩展为功能
venv 文件夹的作用和使用方法张biubiu python pycharm 编辑器
在代码库中发现的venv文件夹通常表示一个Python虚拟环境。这个文件夹用于管理该项目的依赖和环境设置，确保项目在独立的、隔离的环境中运行，避免与其他项目或系统全局的Python环境发生冲突。venv文件夹的作用：创建独立的环境：它包含了项目所需的Python解释器和库，而不会干扰到系统或其他项目中的环境。隔离依赖：项目中所有的包和库都被安装在venv目录中，不会影响到其他项目或全局环境。版本控
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(