spark dataframe 正则表达式匹配

spark的正则表达式匹配暂时只找到一个可用于dataframe处理数据的函数

val fake_data=hivecontext.read
  .format("com.databricks.spark.csv")
  .option("header","true") //这里如果在csv第一行有属性的话,没有就是"false"
  .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。
  .option("delimiter", ",")
  .load("file:///C:\\Users\\csv\\fix_price.csv")//文件的路径
import org.apache.spark.sql.functions.regexp_extract
fake_data.show()
val data =fake_data.select(regexp_extract(fake_data("gid"),"^\\d{2}",0).alias("gid"))
data.show(10)
希望大家也减少点弯路吧!


你可能感兴趣的:(spark dataframe 正则表达式匹配)