charie411

pyspark DataFrame进行ETL

pyspark DataFrame进行ETL

参考
ETL的流程
为什么选择用Pyspark进行ETL
详细介绍Pyspark进行ETL

1. 初始化
2. ETL的第一步是从数据源抽取数据**Extract**
3. ETL的第二步是转换数据**Transform**

pySpark进行转换数据的特点
基本操作对象
基本操作分类
示例汇总：==多列合并或计算、筛选、聚合==

4. ETL的第三步是加载数据到数据库**Load**

参考

Spark DataFrame ETL教程
Spark Python API Docs
数据清洗

ETL的流程

ETL的流程：抽取-转换-加载，在实际工作中是以批处理脚本的形式将一系列数据转化成目标形式。

Created with Raphaël 2.2.0 取数(Extract) 数据清洗/规整(Transform) 是否达到条件？存储(Load) yes no

为什么选择用Pyspark进行ETL

对于大数据量级的批处理更得力。python pandas可以完成单机范围的数据清洗工作.
可以以DataFrame形式操作数据，用过pandas或者R后再上手十分顺畅.

详细介绍Pyspark进行ETL

1. 初始化

SparkContext是Spark功能的主要入口点，提供了spark的运行环境。
在Spark2.0中，SparkSession作为数据集合、DataFrame的API，可用于创建 DataFrame，在tables上进行SQL查询等，而在Spark1.0中， HiveContext或者SQLContext作为数据源的入口。

"""初始化pySpark"""
from pyspark import SparkContext, HiveContext
sc = SparkContext(appName="extract")
spark = SparkSession(sc)

2. ETL的第一步是从数据源抽取数据Extract

直接读取spark.read()
数据源包括但不限于csv表、table或者jdbc
我也不会从ODPS或者HIVE直接获取数据，逼不得已先把ODPS的表to_pandas存为DataFrame，然后用pySpark创建DataFrame。ε≡٩(๑>₃<)۶
从phoenix中获取数据的方法

def readTable(tb,sp):
    rdf = sp.read\
    .format("org.apache.phoenix.spark")\
    .option("***", ***)\
    .option("***", "***:***")\
    .load()
    return rdf

3. ETL的第二步是转换数据Transform

首先啰嗦pySpark进行转换数据部分的特点，然后从基本操作对象切入介绍DataFrame有多重要，基本操作分类及部分重要操作的示例来展现DataFrame的pySpark操作有多简单方便。

pySpark进行转换数据的特点

操作很多，划重点
数据转换过程根据不同的需求有不同的处理方法，基本操作包括但不限于多列合并或计算、筛选、聚合。
条条大路通罗马
既可以选择用pyspark.sql里的代码拼凑实现【最近的项目常规使用select+when,filter,withColumn,groupBy，用来用去还是这些居多】，也可以在tables上进行SQL查询精简代码【pyspark倒腾不出来的时候试试SQL】。
向量化编程

Spark是分布式执行的，数据分散在各个机器上，背后有一套调度系统来控制数据计算负载。如果用for循环来处理，就是把负载都加在了执行脚本的机器上，一般来说执行脚本的机器都是不储存数据的master，实际上这一过程就会导致需要把数据从slave传到master上，无谓地增加了网络负担。所以，在Spark脚本里，严禁使用原生的python for循环来处理SparkData Frame，即使要用，也应该使用Spark提供的API接口。

向量化编程就是对列进行操作。之前用pandas的DataFrame时，选择用apply+自定义函数的方式优化for循环逐条处理行数据，运行时间从110+s缩短到5s，在pySpark里可以选择用map+自定义函数的方式逐条处理行数据。

"""pySpark逐条处理行数据【map+自定义函数的方式】 """
rdd = sc.parallelize(["b", "a", "c"])
rdd.map(lambda x: (x, 1)).collect()
>>>[('a', 1), ('b', 1), ('c', 1)]

基本操作对象

在Spark DataFrame里，操作对象主要有三个：DataFrame,Row,Column。其中
DataFrame是一张表，有字段(field)和若干行数据(记录)。
Row：DataFrame 集合中的行数据(记录)。
Column：DataFrame 集合中的列(field)。
一个ETL过程，实质就是从抽取一个DataFrame开始，经过一系列的DataFrame变换，得到一个与目标一致的DataFrame，然后写入到目标数据库中去。Column在其中扮演着中间点的角色，比如取DataFrame的多个列，拼接合成一个新列，然后把这个新列加到原本的DataFrame中去。

变换1

变换2

ETL过程的DataFrame抽象

原始DF

中间DF1

中间DF2

目标DF

目标数据库

基本操作分类

所有的DataFrame操作，都可以归类为两种基本操作：转化（Transformation）和行动（action）。
转换操作是不会触发Spark的实际计算的，即使转换过程中出现了错误，在执行到这一行代码时，也不会报错。直到执行了行动操作之后，才会真正让Spark执行计算。
Transform：典型的转换操作有读(read)，筛选(filter)、拼接(union)等等，只要这个过程只改变DataFrame的形态，而不需要实际取出DataFrame的数据进行计算，都属于转换。理论上来说，ETL过程中的Transfrom过程，主干流程只会有转换操作，不会有Action操作。
Action：典型的动作操作有计数(count)，打印表(show)，写(write)等，这些操作都需要真正地取出数据，就会触发Spark的计算。

示例汇总：多列合并或计算、筛选、聚合

数据清洗去重、处理缺失值
多列合并或计算

修改列名

"""dataframe列名重命名 
pandas"""
df=df.rename(columns={'a':'aa'})

"""spark-1 
在创建dataframe的时候重命名"""
data = spark.createDataFrame(data=[("Alberto", 2), ("Dakota", 2)],
                             schema=['name','length'])
data.show()
data.printSchema()

"""spark-2
使用selectExpr方法"""
color_df2 = color_df.selectExpr('color as color2','length as length2')
color_df2.show()

"""spark-3
withColumnRenamed方法"""
color_df2 = color_df.withColumnRenamed('color','color2')\
                   .withColumnRenamed('length','length2')
color_df2.show()

"""spark-4
alias 方法"""
color_df.select(color_df.color.alias('color2')).show()

加列，列赋值
withColumn(col_name,col)

"""spark-1
join方法"""
 lookup = spark .createDataFrame([(1, "foo"), (2, "bar")], ("k", "v"))lookup = spark .createDataFrame([(1, "foo"), (2, "bar")], ("k", "v"))
df_with_x6 = (df_with_x5
   .join(lookup, col("x1") == col("k"), "leftouter")
   .drop("k")
   .withColumnRenamed("v", "x6"))；
df_with_x6.show()

"""spark-2
withColumn方法"""
from pyspark.sql.functions import rand
df_with_x7 = df_with_x6.withColumn("x7", rand())
df_with_x7.show()

3.筛选

filter(cond)或者where

"""spark-1
filter方法"""
df.filter("age > 3").collect()
>>>[Row(age=5, name='Bob')]

"""spark-2
where方法"""
df.where("age = 2").collect()
>>>[Row(age=2, name='Alice')]

条件分支
when(cond,value).otherwise(value)，类似if…else

"""pySpark条件分支语句 """
df.select(when(df['age'] == 2, 3).otherwise(4).alias("age")).take(1)
>>>[Row(age=3), Row(age=4)]

4.聚合

分组聚合

"""pySpark分组聚合"""
from pyspark.sql.functions import sum,max
df = spark.createDataFrame([[1,1,3],[4,1,2],[7,2,9]],[‘a‘,‘b‘,‘c‘])
t = df.groupBy("b").agg(sum("a"),max("c"))
t.show()

窗口函数
分组计算有一类分析需求，要求返回组内排序，或者移动平均pandas的rolling().mean()，而不是单纯的组聚合结果，这种分析需求称为窗口分析。
比如通过成绩表，按班计算学生的成绩排名，加一列到原本的成绩表中。比如说每个班，就是一个窗口，在这个窗口中，计算出班级成绩排名，再并到原表中。
这种分析，首先要创建一个窗口，然后再使用窗口函数来进行计算。Spark提供了丰富的窗口函数，可以满足各类分析需求。

—创建窗口
使用pyspark.sql.Window对象可以创建一个窗口，可以使用partitionBy进行分组，使用orderBy进行排序，比如

"""pySpark创建窗口"""
from pyspark.sql import Window
window = Window.partitionBy("a").orderBy("b")

—窗口函数实现窗内排序、移动平均

"""pySpark窗口函数实现窗内排序、移动平均"""
from pyspark.sql import Window
window = Window.partitionBy("name").orderBy("age").rowsBetween(-1, 1)
from pyspark.sql.functions import rank, min
df.select(rank().over(window))#窗内排序
df.select(avg('age').over(window))#移动平均

4. ETL的第三步是加载数据到数据库Load

DataFrameWriter，存储格式包括但不限于csv表、table或者jdbc
其中模式mode是写入方式，

append 追加: 在尾部追加数据
overwrite 覆写: 覆盖原有数据
error 错误: 抛出异常
ignore忽略 : 自动跳过

"""以追加csv文件为例"""
df.write.mode('append')..csv(os.path.join(tempfile.mkdtemp(), 'data'))

计划

20180927完成初稿【E和L部分】
20180928
增加T及链接、示例
完成终稿并发表
未完待续，增加MLpackage的使用，正在尝试。
工具勤总结，有助于快速上手。

你可能感兴趣的:(pyspark DataFrame进行ETL)

Python使用pycryptodome库来进行AES加密解密飞起来fly呀 Python python
在现代通信和数据存储中，加密技术是保障数据安全的核心手段。AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于各种信息安全领域。Python提供了丰富的加密库，其中PyCryptodome是一个功能强大且常用的库，它支持多种加密算法和模式。以下指南将详细介绍如何在Python中使用PyCryptodome库进行AES加密和解密。一、安装PyCryptodom
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
Maven的安装配置 2301_82243979 作者\/maven java
（注：文章是前段时间写的忘记发了，防止丢失在此记录一下）Maven是Apache下的纯Java开发的开源项目,是一个项目管理工具,使用Maven对项目进行构建,依赖管理。依赖管理就是一个项目中要使用第三方jar包才可以运行。Maven正是对这些jar包进行规范化管理，所以在Maven的项目中只需要在pom.xml中添加jar包的坐标,自动从Maven仓库中下载jar包,运行即可。Maven项目对比
kubernetes集群部署kubesphere环境 weixin_43806846 devops kubernetes 自动化
安装步骤选择4核8G（master）、8核16G（node1）、8核16G（node2）三台机器，按量付费进行实验，CentOS7.9安装Docker安装Kubernetes安装KubeSphere前置环境安装KubeSphere1.安装Docker配置docker的yum源地址yum-yinstallwgetwgethttps://mirrors.aliyun.com/docker-ce/lin
Python中三种表示NA的方式风语者666 python
Python中三种表示NA的方式#-*-coding:utf-8-*-importnumpyasnpimportpandasaspd#data_frame=np.load('a.npy',allow_pickle=True)#print(data_frame.columns)df=pd.DataFrame({'one':[1,2,3,pd.NA]})df=pd.DataFrame({'one':[
MySQL的基本使用咖啡の猫 mysql 数据库
MySQL作为最流行的关系型数据库管理系统之一，被广泛应用于各种规模的应用程序中。无论是构建小型个人项目还是大型企业级应用，掌握MySQL的基础使用对于开发者来说都是必不可少的技能。本文将带你从零开始，学习如何使用MySQL进行基本的数据操作。一、连接到MySQL服务器在开始任何操作之前，首先需要确保你已经安装并运行了MySQL服务器，并且能够通过客户端工具或命令行接口连接到它。使用命令行连接：打
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
自动化测试：灵活书写XPATH定位路径 ZJ_star_1220 python html css 前端 python
进行UI自动化测试过程中XPATH定位是使用最多的定位方法，但是有时候直接复制出来的XPATH路径会比较长，所以就需要掌握一些更高级的方法，通过询问AI，最终得到了以下方法，感觉很有用，所以记录下来一、基础定位语法绝对路径与相对路径绝对路径：以/开头，从根节点逐层定位（如/html/body/div/input），路径长且易受页面结构调整影响相对路径：以//开头，直接定位目标元素（如//input
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
Mybatis的基本使用学c真好玩 mybatis
MyBatis简介MyBatis用于持久层框架,持久层是对数据库操作的部分，前版本iBatis由Apache软件基金组织进行更名并维护。特点:简化数据库的操作SQL映射灵活(半ORM框架)支持高级映射易于集成维护配置动态SQL缓存机制功能：替代JDBC,JDBC是java中提供的用于操作数据库的技术及方案数据库的连接控制难。连接池SQL语句硬编码。将sql语句存放到xml配置文件中参数传递问题。提
ng-网关-zuul 给自己做加法个人 java
一般服务的访问ng-》网关-》服务所以通常有一个服务访问的前缀，这个前缀是在ng上配置的，然后接着才是具体服务的url，zuul可以没有前缀，但是zuul决定了跳转的服务。zuul的配置path其实就是寻找到对应的url格式，然后选择选择跳转注意，当出现两个服务器的url前缀一样的时候，path该如何配置呢？答案是zuul从上之下检索url，符合条件就进行跳转。既然访问是根据path进行判断的，那
DeepSeek面试——分词算法 mzgong 人工智能算法
DeepSeek-V3分词算法一、核心算法：字节级BPE（Byte-levelBPE，BBPE）DeepSeek-V3采用字节级BPE（BBPE）作为核心分词算法，这是对传统BPE（BytePairEncoding）算法的改进版本。其核心原理是将文本分解为字节（Byte）序列，通过统计高频相邻字节对的共现频率进行逐层合并，最终形成128K扩展词表。二、BBPE的核心优势1.多语言统一处理能力跨语言
apt/yum/dnf/dkg命令详细：软件安装黑子哥呢？运维 linux 运维
apt命令apt（AdvancedPackageTool）是Debian及其衍生版（如Ubuntu）中广泛使用的软件包管理工具。它提供了一系列简洁且易于记忆的命令，用于查找、安装、升级、删除和管理软件包。下面将对apt命令进行详细解析。1.apt命令的基本用法apt命令的基本语法如下：apt[options][command][package...]options：可选参数，用于指定命令的行为，如
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
101、探索Rust模式匹配的奥秘：简洁代码的艺术多多的编程笔记 Rust之Web开发 rust 开发语言后端
Rust模式匹配：学会使用match表达式进行模式匹配，了解iflet和whilelet的用法在编程中，我们经常需要根据不同的条件来执行不同的代码块。Rust语言提供了丰富的模式匹配机制，使得这种根据条件分支执行代码变得简单而直观。本文将介绍Rust中的模式匹配，重点讲解match表达式，以及iflet和whilelet的用法。一、Match表达式Match表达式是Rust中进行模式匹配的一种机制
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
Rust语言基础知识详解【八】学习两年半的Javaer rust rust
继上一章对rust复合类型中的数组和元组讲解之后，接下来对结构体进行详细的介绍。结构体跟之前讲过的元组有些相像：都是由多种类型组合而成。但是与元组不同的是，结构体可以为内部的每个字段起一个富有含义的名称。因此结构体更加灵活更加强大，你无需依赖这些字段的顺序来访问和解析它们。结构体语法天下无敌的剑士往往也因为他有一柄无双之剑，既然结构体这么强大，那么我们就需要给它配套一套强大的语法，让用户能更好的驾
Python一键搞定Word与PDF文档批量转换 Selina .a python教程 python word pdf
在日常工作中，我们经常需要将Word文档（.docx）转换为PDF格式，或者反过来操作。手动进行这种转换不仅费时费力，还容易出错。为此，我们可以利用Python编写一个批量转换工具，一键搞定Word与PDF文档的转换。本文将详细介绍如何实现这一目标，并提供源码和工具。所需库的安装首先，我们需要安装一些Python库来实现这个功能。推荐使用以下两个库：python-docx：用于处理Word文件内容
【Python】multiprocessing 模块：多进程并行计算彬彬侠 Python基础 multiprocessing 多进程 Process Pool Manager Lock python
Pythonmultiprocessing模块Python的multiprocessing模块用于多进程并行计算，可以充分利用多核CPU进行任务加速，突破PythonGIL（全局解释器锁）的限制，提高程序执行效率。1.为什么使用multiprocessing？Python默认的threading模块使用线程进行并发，但由于GIL（全局解释器锁）的存在，多线程无法真正实现CPU级别的并行计算，适用于
深入理解 Rust 中的模式匹配语法 Hello.Reader rust rust 开发语言
一、匹配字面量在Rust中，可以直接对具体的字面量进行匹配。例如：fnmain(){letx=1;matchx{1=>println!("匹配到字面量1"),_=>println!("其他值"),}}当x的值为1时，匹配成功并打印出对应的信息。对于需要对特定具体值进行处理的场景，这种写法非常直观有效。二、匹配命名变量在模式匹配中，使用命名变量可以将匹配到的值绑定到一个变量上。需要注意的是，在mat
Batch Normalization理解 zhimengxiang 图像处理人工智能图像处理
BatchNormalization理解BatchNormalization：批归一化我们在图像预处理过程中通常会对图像进行标准化处理，这样能够加速网络的收敛，如下图所示，对于Conv1来说输入的就是满足某一分布的特征矩阵，但对于Conv2而言输入的featuremap就不一定满足某一分布规律了（注意这里所说满足某一分布规律并不是指某一个featuremap的数据要满足分布规律，理论上是指整个训练
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
vuex-----Store进行页面数据缓存，页面回退不刷新数据。猪头人的机车暴力美学 Web前端 Vuex vue.js javascript 前端 vue.js
各位可以经常在项目当中遇见一个非常常见的需求，即用户在一页表单中点击某列详情或其他操作，跳转入另一页面，在完成操作后返回前一页，期望前一页的表单页数停留在最后操作的那一页，而不是从新以第一页开始，这样会导致用户操作频繁，系统友好度非常低。在以往的项目经验当中，keep-alive是一个很好的处理方式，但是keep-alive本身也存在一些坑，不小心就会给自己挖了慢满满的坑，在最新的项目当中，有使用
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他