元元的李树

pyspark及Spark报错问题汇总及某些函数用法。

此贴，主要记录本人在工作中遇到的某些报错问题，并提出自己的解决办法。

spark = SparkSession.builder() TypeError: 'Builder' object is not callable

解决办法：.builder() 改为 .builder https://issues.apache.org/jira/browse/SPARK-18426

spark = SparkSession.builder() 改为 spark = SparkSession.builder

py4j.protocol.Py4JJavaError: An error occurred while calling o49.load.
: java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V

此报错是scala的版本过低所致，本人当前环境选用的是scala 2.11.0版本，升级到2.11.8后【版本建议和spark所支持的版本一致，版本号2.11.8仅作参考】，没有再出现此报错。

'PipelinedRDD' object has no attribute '_jdf'

报这个错，是因为导入的机器学习包错误所致。

pyspark.ml 是用来处理DataFrame

pyspark.mllib是用来处理RDD。

所以你要看一下你自己代码里定义的是DataFram还是RDD。

sc = SparkContext()  【RDD】   应导入

from pyspark.mllib.feature import HashingTF, IDF

spark = SparkSession(sc) 【DataFrame】 应导入

from pyspark.ml.feature import HashingTF, IDF

PySpark spark.sql 使用substring及其他sql函数，提示NameError: name 'substring' is not defined

解决办法，导入如下的包即可。

from pyspark.sql.functions import *

Scala则导入

import org.apache.spark.sql.functions._

org.apache.spark.sql.DataFrame = [_corrupt_record: string]

读取json文件报错。

此问题首先要明白spark读取文件的原理，是按行作为一个record，所以你要看下你的json文件是否是平整的。下面我举个例子，

原json文件内容如下：【文件中存在换行符】

{
    "staffList":{
        "total":3,
        "result":[
            {
                "toco":41,
                "id":1,
                "name":"张三",
                "typeJoin":[
                    "22"
                ],
                "type":2
            },
            {
                "toco":46,
                "id":2,
                "name":"李四",
                "typeJoin":[
                    "22"
                ],
                "type":2
            },
            {
                "toco":42,
                "id":3,
                "name":"王五",
                "typeJoin":[
                    "22"
                ],
                "type":2
            }
        ]
    }
}

解决方法①

应该将文件内容"压平"成为平面文件，转换成如下格式：

{"staffList" : {"total" : 3,"result" : [ {  "toco" : 41,  "id" : 1,  "name" : "张三",  "typeJoin" : 22,  "type" : 2}, {  "toco" : 46,  "id" : 2,  "name" : "李四",  "typeJoin" : 22,  "type" : 2}, {  "toco" : 42,  "id" : 3,  "name" : "王五",  "typeJoin" : 22 ],  "type" : 2} ]}}

再读取json文件，即可。

解决方法Ⅱ

或者在读取json文件时，指定读取多行为真，option("multiLine", true) 。

==========================================================

Spark SQL 和 DataFrames 支持下面的数据类型 :

数值类型
- ByteType : 表示 1 字节长的有符号整型，数值范围 : -128 到 127。
- ShortType : 表示 2 字节长的有符号整型，数值范围 : -32768 到 32767。
- IntegerType : 表示 4 字节长的有符号整型，数值范围 : -2147483648 到 2147483647。
- LongType : 表示 8 字节长的有符号整型，数值范围 : -9223372036854775808 到 9223372036854775807。
- FloatType : 表示 4 字节长的单精度浮点数。
- DoubleType : 表示 8 字节长的双精度浮点数。
- DecimalType : 表示任意精度有符号带小数的数值。内部使用 java.math.BigDecimal，一个BigDecimal 由一个任意精度的整数非标度值和一个 32 位的整数标度 (scale) 组成。
字符串类型
- StringType : 表示字符串值
二进制类型
- BinaryType : 表示字节序列值
布尔类型
- BooleanType : 表示布尔值
日期类型
- TimestampType : 表示包含年月日、时分秒等字段的日期值
- DateType : 表示包含年月日字段的日期值
Complex types（复杂类型）
- ArrayType(elementType, containsNull) : 数组类型，表示一个由类型为 elementType 的元素组成的序列，containsNull 用来表示 ArrayType 中的元素是否能为 null 值。
- MapType(keyType, valueType, valueContainsNull) : 映射类型，表示一个键值对的集合。键的类型由 keyType 表示，值的类型则由 valueType 表示。对于一个 MapType 值，键是不允许为 null值。valueContainsNull 用来表示一个 MapType 的值是否能为 null 值。
- StructType(fields) : 表示由 StructField 序列描述的结构。
  - StructField(name, datatype, nullable) : 表示 StructType 中的一个字段，name 表示字段名，datatype 是字段的数据类型，nullable 用来表示该字段是否可以为空值。

==========================================================

对于嵌套结构数据，如何定义schema

首先导入包 import org.apache.spark.sql.types._

其次，对于StructType的定义，参考spark源代码，有说https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/types/StructType.scala

// Extract multiple StructFields. Field names are provided in a set. 提取多个StructField。字段名称以集合形式提供

https://www.programcreek.com/scala/org.apache.spark.sql.types.ArrayType

还是参考之前一个嵌套结构json数据，定义一个Schema

{
    "staffList":{
        "total":3,
        "result":[
            {
                "toco":41,
                "id":1,
                "name":"张三",
                "typeJoin":[
                    "22"
                ],
                "type":2
            },
            {
                "toco":46,
                "id":2,
                "name":"李四",
                "typeJoin":[
                    "22"
                ],
                "type":2
            },
            {
                "toco":42,
                "id":3,
                "name":"王五",
                "typeJoin":[
                    "22"
                ],
                "type":2
            }
        ]
    }
}

下面给出我写定义的schema

val jsSchema = 
StructType(Seq(
StructField("staffList", 
StructType(Seq(
StructField("total", IntegerType),
StructField("result", ArrayType( 
StructType(Seq(
StructField("toco",IntegerType),
StructField("id",StringType),
StructField("name",StringType),
StructField("typeJoin",ArrayType(StringType)),
StructField("type",IntegerType))))))))));

# 或者

val jsSchema = 
StructType(List(
StructField("staffList", 
StructType(List(
StructField("total", IntegerType),
StructField("result", ArrayType( 
StructType(List(
StructField("toco",IntegerType),
StructField("id",StringType),
StructField("name",StringType),
StructField("typeJoin",ArrayType(StringType)),
StructField("type",IntegerType))))))))));

spark上验证定义的schema正确

WARN Utils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.

==========

在交互环境，暂时修改

scala> spark.conf.set("spark.debug.maxToStringFields","100")

===========

永久修改

在节点(集群)的sparkEnv.sh中修改或新增spark.debug.maxToStringFields变量

java.lang.IllegalArgumentException: Can't zip RDDs with unequal numbers of partitions

这个报错，是因为使用rdd的zip函数时，两个rdd的分区个数不一致所致。

摘录一段官方api说明：

Zips this RDD with another one, returning key-value pairs with the first element in each RDD, second element in each RDD, etc. Assumes that the two RDDs have the same number of partitions and the same number of elements in each partition (e.g. one was made through a map on the other).

解决的办法是: 将两个rdd的分区个数统一后，再zip。

附上伪代码：

RDD1.coalesce(1).zip(RDD2.coalesce(1))

foreach(println)无法将RDD的字段，打印到stdout中？

Printing elements of an RDD

Another common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expected output and print all the RDD’s elements. However, in cluster mode, the output to stdout being called by the executors is now writing to the executor’s stdout instead, not the one on the driver, so stdout on the driver won’t show these! To print all elements on the driver, one can use the collect() method to first bring the RDD to the driver node thus: rdd.collect().foreach(println). This can cause the driver to run out of memory, though, because collect() fetches the entire RDD to a single machine; if you only need to print a few elements of the RDD, a safer approach is to use the take(): rdd.take(100).foreach(println).

关于RDD的输出，官网上是以上叙述：
意思就是：利用rdd.foreach(println) 或者 rdd.map(println)，在一台机器上时，会得到理想的输出，打印出所有的RDD的数值；但在集群环境中，输出会被executors唤起，被写到executors的输出，而不是驱动所在的主机，所以在主机上不会显示打印信息，为了能够在主机上打印信息，要使用collect()函数首先把RDD放到主机节点上，rdd.collect().foreach(println),但因为collect()会将整个RDD的数据放到主机上，会使得驱动主机内存溢出。如果你只想打印出有限个RDD数据，一个靠谱的方法就是用take():rdd.take(100).foreach(println)

10.

spark Sql使用md5的方法：

详情参考：

https://stackoverflow.com/questions/45035944/function-over-multiple-spark-dataframe-columns-at-once

11.

spark sql yyyymmdd to yyyy-MM-dd:

详情参考：

https://stackoverflow.com/questions/40433065/scala-spark-sql-to-dateunix-timestamp-returning-null

#伪代码
select(date_format(unix_timestamp(substring($"date",1,8), "yyyyMMdd").cast("timestamp"), "yyyy-MM-dd"))

spark.sql("""
          SELECT DATE_FORMAT(
                   CAST(UNIX_TIMESTAMP('20161025', 'yyyyMMdd') AS TIMESTAMP), 'yyyy-MM-dd')
          """)

#如果传的日期是整型，需要使用cast转换成string
# date 20161025 
spark.sql("""
          SELECT DATE_FORMAT(
                   CAST(UNIX_TIMESTAMP(cast(date as string), 'yyyyMMdd') AS TIMESTAMP), 'yyyy-MM-dd')
          """)

12.

Spark sql 将array类型字符串转换成为一个字符串。

How to convert column of arrays of strings to strings?

https://stackoverflow.com/questions/38924762/how-to-convert-column-of-arrays-of-strings-to-strings

In Spark 2.1+ to do the concatenation of the values in a single Array column you can use the following:

concat_ws standard function
map operator
a user-defined function (UDF)

13.

spark sql scala row_number over 函数用法

https://stackoverflow.com/questions/46584773/update-spark-dataframes-window-function-row-number-column-for-delta-data

#伪代码
select(
  col("KEY1"), col("KEY2"), col("VAL"), row_number().over(
    Window.partitionBy(col("KEY1"), col("KEY2")).orderBy(col("Row_Num"))
  ).alias("New_Row_Num")

14.

Joining Multiple DataFrames using Multiple Conditions Spark Scala

https://stackoverflow.com/questions/41999385/joining-multiple-dataframes-using-multiple-conditions-spark-scala?rq=1

伪代码：

val result = df1.as("df1").join(df2.as("df2"), 
              $"df1.col1"===$df2.col1" && $"df1.col2"===$df2.col2").join(df3.as("df3"), 
              $"df3.col1"===$df2.col1" && $"df3.col2"===$df2.col2", "left_outer")

15.

spark Sql 对于嵌套的结构的提取。

使用explode函数来操作，如果有多层嵌套，使用多次explode函数即可。

http://bigdatums.net/2016/02/12/how-to-extract-nested-json-data-in-spark/

单层嵌套

{
	"user": "gT35Hhhre9m",
	"dates": ["2016-01-29", "2016-01-28"],
	"status": "OK",
	"reason": "some reason",
	"content": [{
		"foo": 123,
		"bar": "val1"
	}, {
		"foo": 456,
		"bar": "val2"
	}, {
		"foo": 789,
		"bar": "val3"
	}, {
		"foo": 124,
		"bar": "val4"
	}, {
		"foo": 126,
		"bar": "val5"
	}]
}

//explode content field
scala> val dfContent = df.select(explode(df("content")))
dfContent: org.apache.spark.sql.DataFrame = [col: struct]

//output
scala> dfContent.show
+----------+
|       col|
+----------+
|[val1,123]|
|[val2,456]|
|[val3,789]|
|[val4,124]|
|[val5,126]|
+----------+

//rename "col" to "content"
scala> val dfContent = df.select(explode(df("content"))).toDF("content")
dfContent: org.apache.spark.sql.DataFrame = [content: struct]

//output
scala> dfContent.show
+----------+
|   content|
+----------+
|[val1,123]|
|[val2,456]|
|[val3,789]|
|[val4,124]|
|[val5,126]|
+----------+

//extracting fields in struct
scala> val dfFooBar = dfContent.select("content.foo", "content.bar")
dfFooBar: org.apache.spark.sql.DataFrame = [foo: bigint, bar: string]

//output
scala> dfFooBar.show
+---+----+
|foo| bar|
+---+----+
|123|val1|
|456|val2|
|789|val3|
|124|val4|
|126|val5|
+---+----+

多层嵌套

提取tableData的数据

伪代码

val DailyPriceDimDF = DailyPriceDimDF_
	                           .select($"code", explode($"content") as "data")
	                           .select($"code", explode($"data.tableData") as "data")

16.

scala spark sql 将yyyymmdd的字符串转为yyyy-mm-dd日期类型：

伪代码

#openingHours 19970413000000

select(date_format(unix_timestamp(substring($"openingHours",1,8), "yyyyMMdd").cast("timestamp"), "yyyy-MM-dd").alias("approveDate")
)

spark.sql("""
          SELECT DATE_FORMAT(
                   CAST(UNIX_TIMESTAMP('20161025', 'yyyyMMdd') AS TIMESTAMP), 'yyyy-MM-dd')
          """)

#如果传的日期是整型，需要使用cast转换成string
# date 20161025 
spark.sql("""
          SELECT DATE_FORMAT(
                   CAST(UNIX_TIMESTAMP(cast(date as string), 'yyyyMMdd') AS TIMESTAMP), 'yyyy-MM-dd')
          """)

17.

Spark Sql 日期函数的综合应用：

https://www.cnblogs.com/feiyumo/p/8760846.html

https://www.obstkel.com/blog/spark-sql-date-functions

上述两个帖子，有日期函数的使用说明

下面说下重点，求出某一天对应年及月及日的指标，伪代码如下

//新增    day_of_year, week_of_year, month_of_year, day_of_week, day_of_month, days_of_month, days_of_year                      

#年的第几天
 .withColumn("day_of_year", dayofyear(from_unixtime(col("unix_time"), "yyyy-MM-dd")).cast(LongType)) 

#年的第几周                        
 .withColumn("week_of_year", weekofyear(from_unixtime(col("unix_time"), "yyyy-MM-dd")).cast(LongType))

#年的第几个月
 .withColumn("month_of_year", month(from_unixtime(col("unix_time"))).cast(LongType))

#一周的第几天(周一为第一天，未使用dayofmonth，该函数的每周第一天是周日)
 .withColumn("day_of_week", from_unixtime(col("unix_time"), "u").cast(LongType))

#月的第几天
 .withColumn("day_of_month", dayofmonth(from_unixtime(col("unix_time"))).cast(LongType))

#所在月份有几天
 .withColumn("days_of_month", datediff( last_day(trunc(from_unixtime(col("unix_time"), "yyyy-MM-dd"), "MM")), trunc(from_unixtime(col("unix_time"), "yyyy-MM-dd"), "MM")).cast(LongType) +1)

#所在年份有几天
 .withColumn("days_of_year", datediff( concat(year(from_unixtime(col("unix_time"), "yyyy-MM-dd")), lit("-12-31")), trunc(from_unixtime(col("unix_time"), "yyyy-MM-dd"), "year")).cast(LongType) +1 )

#所在月份对应季度的最后一天
.withColumn("quarter_date",             l        
                  last_day(concat(year(from_unixtime(col("unix_time"))).cast(StringType), 
                           lit("-"),
                           when(quarter(from_unixtime(col("unix_time"))) === 1, lit("03"))
                           .when(quarter(from_unixtime(col("unix_time"))) === 2, lit("06"))
                           .when(quarter(from_unixtime(col("unix_time"))) === 3, lit("09"))
                           .otherwise(lit("12")),
                           lit("-01"))
)

补充一个函数的说明：

date_trunc函数用法，我参考了官网的说明，发现其示例有错误。

https://spark.apache.org/docs/2.3.0/api/sql/#date_trunc

date_trunc

date_trunc(fmt, ts) - Returns timestamp ts truncated to the unit specified by the format model fmt.
fmt should be one of ["YEAR", "YYYY", "YY", "MON", "MONTH", "MM", "DAY", "DD", "HOUR", "MINUTE", "SECOND", "WEEK", "QUARTER"]

正确用法

https://www.iteblog.com/archives/2336.html

18.

工作中遇到了一些字符串中偶然含有 \n (软回车) \r (软空格)，在写入到hive后，建Kylin cube时有报错，说明在数据清洗时，没有考虑到这一点。要在数据清洗时，去除 \n (软回车) \r (软空格)

伪代码

# RDD的替换方法
s.replaceAll("[\\r\\n]", "")

# Spark Sql的替换方法
select(regexp_replace(trim($"name"), "[\\r\\n]", "").alias("name"))

19.

Spark Dataframe WHERE Filter 这两个函数的讲解

鉴于原贴写的很好，我就给个链接。

http://sqlandhadoop.com/spark-dataframe-where-filter/

http://sqlandhadoop.com/spark-dataframe-in-isin-not-in/

http://sqlandhadoop.com/spark-sql-dataframe/ 一些用法值得借鉴

我只说一点 in 的用法，在spark sql里，需要用 filter( .isin) 的形式来展现。

20.

spark sql window函数初探：

先附上相关网站链接，后续给出自己的伪代码示例：

https://blog.csdn.net/weixin_42379136/article/details/86675049

https://blog.csdn.net/Shie_3/article/details/82890897

https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html?utm_source=twitterfeed&utm_medium=twitter

https://riptutorial.com/apache-spark/example/22861/window-functions---sort--lead--lag---rank---trend-analysis

21.

spark sql 从某一个表读取数据，之后再将数据写回原表，没有数据？

原因：回归问题本质，Spark是惰性执行。具体解释请看如下帖子中的说明。

最佳答案
问题出在您的代码中.因为您覆盖了一个您尝试读取的表,所以在Spark实际访问它之前,您会有效地删除所有数据.
请记住,Spark是懒惰的.创建数据集时,Spark会提取所需的元数据,但不会加载数据.因此,没有魔法缓存可以保留原始内容.实际需要时将加载数据.在这里,当您执行写入操作时,当您开始写入时,不再需要获取数据.

你需要的是这样的：

>创建数据集.
>应用所需的转换并将数据写入中间MySQL表.
> TRUNCATE原始输入和INSERT INTO … SELECT从中间表或DROP原始表和RENAME中间表.

替代但不太有利的方法是：

>创建数据集.
>应用所需的转换并将数据写入持久性Spark表(df.write.saveAsTable(…)或等效表)
> TRUNCATE原始输入.
>读取数据并保存(spark.table(…).write.jdbc(…))
> Drop Spark表.

https://codeday.me/bug/20190309/744771.html

https://codeday.me/bug/20190301/716426.html

22.

org.apache.spark.sql.AnalysisException: Reference 'XXXXX' is ambiguous

原因是：多表join后，存在重复列的问题。

①解决办法，选择重复列时，指明该列来自之前join的DataFrame即可。

②join时，把重复列取别名。

下面对方法①做一个demo演示。

val joined = df.join(df2, df("course") === df2("course") && df("name") === df2("name"), "left_outer")

#出现了重复course 和 name 列

#取 course 和 name 列时，指定对应df的列即可

# 报错代码
val errCode = joined.select("name", "course")
#org.apache.spark.sql.AnalysisException: Reference 'XXX' is ambiguous

###########################
#正确代码
val rightCode = joined.select(df("name"), df("course"), df2("name"), df2("course"))

23.

SparkSQL - The correlated scalar subquery can only contain equality predicates

https://stackoverflow.com/questions/41631199/sparksql-the-correlated-scalar-subquery-can-only-contain-equality-predicates

写spark Sql时，用到了嵌套select查询，但sql解析报错，究其原因，和spark本身sql解析机制有关，解决办法是：

改写原有sql即可。下面给出我的一个demo

##有个需求：填充非交易日股票价格，那么需要找到离非交易日最近的那个交易日股价。

###########
# 报错sql
 val wrongDF = ss.sql("""
                             select a.stock_id, a.code, a.date_id, a.date_value, 
                             (select max(b.date_id)                              
                             from stockPriceNotNullDF b
                             where b.stock_id = a.stock_id and b.date_id < a.date_id
                             ) as oid
                             from stockPriceNullDF a
                             group by a.stock_id, a.code, a.date_id, a.date_value
                             order by a.stock_id, a.date_id
                         """)   

#提示
The correlated scalar subquery can only contain equality predicates

###################
# 改写之后的sql，放弃使用子查询方式

 val rightDF = ss.sql("""
                             select a.stock_id, a.code, a.date_id, a.date_value,     
                             max(b.date_id) as oid
                             from stockPriceNullDF a, stockPriceNotNullDF b
                             where b.stock_id = a.stock_id and b.date_id < a.date_id
                             group by a.stock_id, a.code, a.date_id, a.date_value
                             order by a.stock_id, a.date_id
                         """)

24.

Spark SQL 的日期函数 dayofweek ，返回的天数，不是国人习惯的日期。

参考官方文档解释：https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/sql/#dayofweek

https://www.cnblogs.com/chenzechao/p/9336764.html

若改成国人习惯的日期，则需要自行转换，下面给出demo (scala中用when else 来判断)

//新增days_of_week 当周第几天(按照国人习惯，周一为第一天)
.withColumn("days_of_week", when(dayofweek(from_unixtime(col("unix_time"), "yyyy-MM-dd")) === 1, 7)
.otherwise(dayofweek(from_unixtime(col("unix_time"), "yyyy-MM-dd")) -1)
.cast(LongType))

25.

Spark Sql求出每一周的周一和周日

当看到这个需求时，很自然的想到用 date_sub或date_add函数，但参考官方文档的函数说明，发现其用法跟关心型数据库sql语法不太一致，需要做一些转换才可以达到想要的效果。

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/functions.html#date_add(org.apache.spark.sql.Column,%20int)

所以有一个变通的方法。 date_sub或者date_add与next函数相结合来满足这个需求

# date_value 2019-07-31
.withColumn("week_first_date_id", date_sub(next_day($"date_value", "monday"), 7))
.withColumn("week_end_date_id", when($"days_of_week" === 7, $"date_value")
                                .otherwise(next_day($"date_value", "sunday").cast(StringType))
                         )

如下是demo输出结果

26.

Spark DataFrame写入Hive Orc 分区表

分区表建立过程不过多演示，只给出写入hive表的过程。

addStgCompanyDF.write.partitionBy("dt").mode(SaveMode.Overwrite).orc("hdfs://XXXX/apps/hive/warehouse/XXXX.db/XXXXX/")

数据写入hdfs后，如果通过hive去查询，表中无数据，还需要使用 msck 修复hive元数据信息。

https://community.hortonworks.com/questions/198754/msck-repair-hive-external-tables.html

https://www.ibm.com/support/knowledgecenter/en/SSCRJT_5.0.1/com.ibm.swg.im.bigsql.commsql.doc/doc/biga_msckrep.html

hive> Msck repair table .

27.

Spark : org.apache.spark.sql.AnalysisException: Reference 'XXXX' is ambiguous

这个问题是大多是因为，多个表join后，存在同名的列，在select时，取同名id，无法区分所致。

解决办法：

①对于列名相同的列，在DataFrame中更名。alias或withColumnRenamed可以实现,demo代码就暂时不提供。

②在join后，drop掉同名的列

df1.join(df2,df1.a == df2.a,'left_outer').drop(df2.a)

28.

Spark Dataframe 保存为ORC表的方法

Overwrite形式举例：
.write.mode(SaveMode.Overwrite).format("orc").saveAsTable("库名.表名")

Append形式举例：
.write.mode(SaveMode.Append).format("orc").insertInto("库名.表名")

分区表Overwrite形式举例：
.write.partitionBy("XX").mode(SaveMode.Overwrite).format("orc").saveAsTable("库名.表名")

29.

Spark 的Scala项目中，读取mysql数据

https://www.cnblogs.com/wwxbi/p/6978774.html

①在sbt配置文件中，添加mysql依赖。版本很多，选用哪一个版本均可以的，以下是示例：

libraryDependencies XXX

添加 "mysql" % "mysql-connector-java" % "5.1.28"

②sbt assembly

③读取mysql表方法：

import java.util.Properties

val mysqlUrl = "jdbc:mysql://localhost:3306/test"
val mysqlTable = "name_map"
val user = "XXX"
val password = "XXX"
val properties = new Properties()
 properties.setProperty("user", user)
 properties.setProperty("password", password)	
 properties.setProperty("driver","com.mysql.jdbc.Driver")
	 
val df2 = ss.read.jdbc(mysqlUrl, mysqlTable, properties)
df2.show()

如下帖子中有一些可能的报错，值得借鉴：

com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure

https://stackoverflow.com/questions/2983248/com-mysql-jdbc-exceptions-jdbc4-communicationsexception-communications-link-fai

解决办法：

可能还会有的报错：

ERROR ApplicationMaster: User class threw exception: java.sql.SQLException: No suitable driver
java.sql.SQLException: No suitable driver

在spark连接mysql的代码里指定driver为："com.mysql.jdbc.Driver"

【properties.setProperty("driver","com.mysql.jdbc.Driver")】

30.

spark 累加历史 + 统计全部 + 行转列

此作者写的很好，附送原链接地址，在这里不做过多赘述，只说明一些关键用法

https://www.cnblogs.com/piaolingzxh/p/5538783.html

preceding：用于累加前N行（分区之内）。若是从分区第一行头开始，则为 unbounded。 N为：相对当前行向前的偏移量
following ：与preceding相反，累加后N行（分区之内）。若是累加到该分区结束，则为 unbounded。N为：相对当前行向后的偏移量
current row：顾名思义，当前行，偏移量为0

说明：上边的前N，后M，以及current row均会累加该偏移量所在行

31.

Spark SQL case when用法：

https://sparkbyexamples.com/spark-case-when-otherwise-example/

https://stackoverflow.com/questions/37064315/how-to-write-case-with-when-condition-in-spark-sql-using-scala

https://stackoverflow.com/questions/40522149/spark-sql-implement-and-condition-inside-a-case-statement

上述几个帖子已经写得很详细了，我就不再赘述，只放出链接。

32.

Spark 读取mongo 使用withPipeline的用法：

在工作中遇到过需要从一个公司列表中找出mongo中存在的公司信息。参考Mongo语法 $in可支持这个用法

https://docs.mongodb.com/manual/reference/operator/query/in/

需要配合spark的.withPipeline来使用。

https://docs.mongodb.com/spark-connector/current/scala/aggregation/

pipeline需要给出的条件是字符串，所以需要对一些字段转换成字符串即可

【 scala 的 mkstring 用法 https://blog.csdn.net/lan12334321234/article/details/84882002】

下面贴出关键的代码。

#dataFrame都只有公司名
val addCompanyNameArray = entryCompanyNameDF.except(stgCompanyNameDF).map(r => r.getString(0)).collect.toArray

#将公司Array转为字符串
// 将Array转换成String 
var addCompanyNameStr = addCompanyNameArray.mkString("\"", "\",\"", "\"")  

#读取Mongo的过程不做赘述
#下面 withPipeline 配合 $in来使用

val df = sc.loadFromMongoDB(readconf).withPipeline(Seq(Document.parse("{ $match: { 'name' : {$in : [" + addCompanyNameStr + "]} } }"))).toDF(schema)

33.

如何在spark Sql里创建自增id字段，作为主键？

参考诸多网络上给出的 zipwithindex方法，感觉不能满足要求。

想到了使用window函数来创建id

下面给出示例：

import org.apache.spark.sql.expressions.Window

# 可以指定自增id的起始值，从maxCompanyId往后计数
val df1 = df.withColumn("id",row_number.over(Window.partitionBy(lit(1)).orderBy(lit(1))).cast(LongType)+lit(maxCompanyId))

#从1开始自增
val df2 = df.withColumn("id",row_number.over(Window.partitionBy(lit(1)).orderBy(lit(1))).cast(LongType))

34.

scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.Set

在工作中，需要些UDF函数，对某些字段做替换。对数组类型转换时，遇到如下报错

情景复原：

原始代码中使用了 Array[] 来定义，根据网络上一些解释，此方法，会引用WrappedArray。建议将Array 换成Seq。

参考：

https://stackoverflow.com/questions/40199507/scala-collection-mutable-wrappedarrayofref-cannot-be-cast-to-integer

https://stackoverflow.com/questions/40764957/spark-java-lang-classcastexception-scala-collection-mutable-wrappedarrayofref

官方文档写的很详细

https://docs.scala-lang.org/zh-cn/overviews/collections/arrays.html

你可能感兴趣的:(Spark,pyspark)

安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring