- 1. 字符串拼接
- 2. 字符串格式化
- 3. 查找字符串位置
- 4. 字符串截取
- 5. 正则表达式
- 6. 正则表达式替换
- 7. 其他字符串函数
1. 字符串拼接
from pyspark.sql.functions import concat, concat_ws
df = spark.createDataFrame([('abcd','123')], ['s', 'd'])
df.select(concat(df.s, df.d).alias('s')).show()
df.select(concat_ws('-', df.s, df.d).alias('s')).show()
2. 字符串格式化
from pyspark.sql.functions import format_string
df = spark.createDataFrame([(5, "hello")], ['a', 'b'])
df.select(format_string('%d %s', df.a, df.b).alias('v')).show()
3. 查找字符串位置
from pyspark.sql.functions import instr
df = spark.createDataFrame([('abcd',)], ['s',])
df.select(instr(df.s, 'b').alias('s')).show()
4. 字符串截取
from pyspark.sql.functions import substring
df = spark.createDataFrame([('abcd',)], ['s',])
df.select(substring(df.s, 1, 2).alias('s')).show()
5. 正则表达式
from pyspark.sql.functions import regexp_extract
df = spark.createDataFrame([('100-200',)], ['str'])
df.select(regexp_extract('str', '(\d+)-(\d+)', 1).alias('d')).show()
df = spark.createDataFrame([('foo',)], ['str'])
df.select(regexp_extract('str', '(\d+)', 1).alias('d')).show()
6. 正则表达式替换
from pyspark.sql.functions import regexp_replace
df = spark.createDataFrame([('100-200',)], ['str'])
df.select(regexp_replace('str', '(\\d+)', '--').alias('d')).collect()
7. 其他字符串函数
函数 |
作用 |
repeat |
字符串重复 |
split |
分割 |