正则表达式之REGEXP_INSTR

REGEXP_INSTR

语法:

REGEXP_INSTR (source_char, pattern
              [, position
                 [, occurrence
                    [, return_opt
                       [, match_param
                          [, subexpr]
                       ]
                    ]
                 ]
              ]

目的

    REGEXP_INSTR扩展了INSTR函数的功能,让你在字符串中搜索一个正则表达式。该函数的输入参数是输入字符集所定义的字符串。它返回一个整数,表明匹配子字符串开始或结束的位置,这取决于return_option参数的值。如果没有找到匹配的,则该函数返回0。

    该函数符合POSIX的正则表达式标准和Unicode正则表达式指南。欲了解更多信息,请参阅附录D,“Oracle Regular Expression Support”。

  1. source_char是作为搜索值的字符表达式。它通常是一个字符列,并且可以是以下任何字符数据类型CHAR,VARCHAR2,NCHAR NVARCHAR2,CLOB或NCLOB。
  2. pattern即正则表达式。它通常是一个文本字符,可以是CHAR,VARCHAR2,NCHAR,orNVARCHAR2中的任何数据类型。它最多可以包含512个字节。如果pattern的数据类型和source_char的数据类型不同,那么Oracle数据库将其转换为source_char的数据类型。有关你可以在pattern中指定的运算符的列表,请参阅附录D ,“Oracle Regular Expression Support”。
  3. positin是一个正整数,指出Oracle在source_char中开始搜索的位置。默认值是1,这意味着Oracle从 source_char的第一个字符开始搜索。
  4. occurrence 是一个正整数,指出Oracle在source_char搜索第n次pattern出现的位置。默认值是1,这意味着Oracle搜索pattern第一次出现的位置。如果occurrence 大于1,那么数据库会从第一次pattern出现后的第一个字符开始搜索第二次出现,以此类推。这一点和INSTR函数不同,后者是从第一次出现的第二个字符开始搜索第二次出现。。
  5. return_option让你指定了Oracle不同的返回值:
    1. 如果指定为0,则Oracle返回匹配字符串的第一个字符的位置。这是默认的。
    2. 如果您指定1,那么Oracle返回匹配字符串后第一个字符的位置。
  6. match_parameter是一个文本文字,它可以让你改变函数的默认匹配行为。此参数的功能与REGEXP_COUNT相关参数类似,请参阅REGEXP_COUNT的详细信息。
  7. subexpr,对于包含子表达式的pattern,subexpr 是从0到9的整数,指示pattern中哪个子表达式中是函数搜寻的目标。subexpr是pattern中用括号括起来的片段。子表达式可以嵌套。子表达式按照他们在pattern中做左括号出现的位置排序编号。
    例如,参看下面的表达式:
        0123(((abc)(de)f)ghi)45(678)
    这个表达式包含五个子表达式,顺序如下:“abcdefghi”,“abcdef”,“abc”,“de”和“678”。
   
如果subexpr为零,那么返回匹配pattern中整个字符串的子字符串位置。如果的subexpr大于零,则返回匹配对应于子表达式编号的subexpr的子字符串位置。如果pattern不包含subexpr子表达式,函数返回0。一个空的subexpr值返回NULL。Subexpr默认值是零。


示例

下面的例子中检查字符串,搜索出现的一个或多个非空字符。Oracle从第一个字符开始搜索,并返回第六次出现一个或多个非空字符的的起始位置(默认设置)。

SELECT
  REGEXP_INSTR('500 Oracle Parkway, Redwood Shores, CA',
               '[^ ]+', 1, 6) "REGEXP_INSTR"
  FROM DUAL;
 
REGEXP_INSTR
------------
          37

下面的例子中检查字符串,寻找以s,r或p开头,大小写不限,并且紧跟着任意6字母字符的子字符串。Oracle从第3个字符开始搜索,返回第2个符合要求的子字符串之后的字符位置。

SELECT
  REGEXP_INSTR('500 Oracle Parkway, Redwood Shores, CA',
               '[s|r|p][[:alpha:]]{6}', 3, 2, 1, 'i') "REGEXP_INSTR"
  FROM DUAL;
 
REGEXP_INSTR
------------
          28

下面的例子使用subexpr 参数来搜索pattern中特定的子表达式。第一条语句返回的是源字符串中第一个子表达式,即“123”,第一次出现的位置:

SELECT REGEXP_INSTR('1234567890', '(123)(4(56)(78))', 1, 1, 0, 'i', 1) 
"REGEXP_INSTR" FROM DUAL;
 
REGEXP_INSTR
-------------------
1

以下语句返回的是源字符串中第二个子表达式,即“45678”,第一次出现的位置:

SELECT REGEXP_INSTR('1234567890', '(123)(4(56)(78))', 1, 1, 0, 'i', 2) 
"REGEXP_INSTR" FROM DUAL;
 
REGEXP_INSTR
-------------------
4

以下语句返回的是源字符串中第四个子表达式,即“78”,第一次出现的位置:

SELECT REGEXP_INSTR('1234567890', '(123)(4(56)(78))', 1, 1, 0, 'i', 4) 
"REGEXP_INSTR" FROM DUAL;
 
REGEXP_INSTR
-------------------
7

 


备注:关于match_param

   match_param是一个文本文字,它可以让你改变函数的默认匹配行为。可以指定一或多个值用于match_param,match_param 变量支持下面几个值:

  • ‘i’ 用于不区分大小写的匹配
  • ‘c’ 用于区分大小写的匹配
  • ‘n’ 允许句点(.)作为通配符去匹配换行符。如果省略该参数,则句点将不匹配换行符
  • ‘m’ 将源字符串视为多行。即Oracle 将^和$分别看作源字符串中任意位置任何行的开始和结束,而不是仅仅看作整个源字符串的开始或结束。如果省略该参数,则Oracle将源字符串看作一行。
  • ‘x’ 忽略空格字符。默认情况下,空格字符与自身相匹配。


    如果为match_param 指定了多个相互矛盾的值,那么Oracle 使用最后一个值。例如你指定了'ic',那么Oracle将使用区分大小写的匹配。如果你指定了上述定义之外的字符,Oracle将会报错。如果你忽略了match_param,那么:

  • 根据NLS_SORT参数的值来决定是否区分大小写
  • 句点(.)不去匹配换行符
  • 源字符串视为一行




hoegh
15.12.14
-- The End --

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30162081/viewspace-1871981/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/30162081/viewspace-1871981/

你可能感兴趣的:(正则表达式之REGEXP_INSTR)