NSCharacterSet

NSCharacterSet代表一个字符的集合,它通常结合NSString、NSScanner使用。

使用场景

这边介绍两个NSCharacter结合NSString的使用场景。
在此之前,先来介绍一下NSString中两个跟NSCharacterSet有关的方法:

//根据字符集来清理字符串两端的字符
- (NSString *)stringByTrimmingCharactersInSet:(NSCharacterSet *)set;
//根据字符集separator来分割字符串
- (NSArray *)componentsSeparatedByCharactersInSet:(NSCharacterSet *)separator;

例子1

实现功能:

清除字符串两端的数字

代码我们可以这样写:

NSString *string = @"123abc123";
        
string = [string stringByTrimmingCharactersInSet:[NSCharacterSet decimalDigitCharacterSet]];
        
NSLog(@"%@",string);

打印结果是:

abc

例子2

实现功能:

清除字符串"Lorem    ipsum dolar   sit  amet."中多余的空格

代码我们可以这样写:

NSString *string = @"Lorem    ipsum dolar   sit  amet.";

string = [string stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];

NSArray *components = [string componentsSeparatedByCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];
components = ({
    NSMutableArray *mArr = [NSMutableArray new];
    for (NSString *str in components) {
        if ([str isEqualToString:@""] == NO) {
            [mArr addObject:str];
        }
    }
    mArr;
});

string = [components componentsJoinedByString:@" "];

NSLog(@"%@",string);

打印结果是:

Lorem ipsum dolar sit amet.

补充

此处我只是列举了两个可能的使用场景,具体的需要结合实际需求来决定实现方案。
另外例子2中,重组字符串的代码还可以这样写:

components = [components filteredArrayUsingPredicate:[NSPredicate predicateWithFormat:@"self <> ''"]];

NSCharacterSet

说完NSCharacterSet的使用场景,接着来介绍一下NSCharacterSet的方法

系统提供的常用字符集初始化类方法

[NSCharacterSet controlCharacterSet];                  控制字符,包括换行符(\n)、制表符(\t)等,具体有哪些,不清楚
[NSCharacterSet whitespaceCharacterSet];               空格符
[NSCharacterSet whitespaceAndNewlineCharacterSet];     空格符、换行符
[NSCharacterSet decimalDigitCharacterSet];             数字字符,0-9
[NSCharacterSet letterCharacterSet];                   字母字符
[NSCharacterSet lowercaseLetterCharacterSet];          小写字母字符
[NSCharacterSet uppercaseLetterCharacterSet];          大写字母字符
[NSCharacterSet nonBaseCharacterSet];
[NSCharacterSet alphanumericCharacterSet];             字母、数字字符
[NSCharacterSet decomposableCharacterSet];
[NSCharacterSet illegalCharacterSet];
[NSCharacterSet punctuationCharacterSet];              标点符号字符,指在用于分隔文字的符号
[NSCharacterSet capitalizedLetterCharacterSet];
[NSCharacterSet symbolCharacterSet];                   符号字符,除了标点符号之外,例如¥、$这样的符号
[NSCharacterSet newlineCharacterSet];                  换行字符

在这其中,controlCharacterSet、nonBaseCharacterSet、decomposableCharacterSet、illegalCharacterSet、capitalizedLetterCharacterSet这几个,我都不理解,有明白的朋友希望不吝赐教。

uppercaseLetterCharacterSet与capitalizedLetterCharacterSet

在stackoverflow上找到了一个问题,其中谈及了uppercaseLetterCharacterSet与capitalizedLetterCharacterSet的关系,传送门

According to the docs, +capitalizedLetterCharacterSet contains the Titlecase category, whereas +uppercaseLetterCharacterSet contains Uppercase and Titlecase.

capitalizedLetterCharacterSet包含Titlecase,而uppercaseLetterCharacterSet包含Uppercase和Titlecase,简而言之,capitalizedLetterCharacterSet是uppercaseLetterCharacterSet的子集。

自定义初始化方法

//通过范围初始化NSCharacterSet,此处的range指的是unicode在码表上的范围
+ (NSCharacterSet *)characterSetWithRange:(NSRange)aRange;
//通过字符串初始化NSCharacterSet
+ (NSCharacterSet *)characterSetWithCharactersInString:(NSString *)aString;
//通过二进制数据初始化NSCharacterSet
+ (NSCharacterSet *)characterSetWithBitmapRepresentation:(NSData *)data;
//通过文件初始化NSCharacterSet
+ (nullable NSCharacterSet *)characterSetWithContentsOfFile:(NSString *)fName;

这里用实际代码说明一下characterSetWithRange的使用

//生成一个包含字符'a'~'z'的字符集
NSRange lcEnglishRange;
NSCharacterSet *lcEnglishLetters;

lcEnglishRange.location = (unsigned int)'a';
lcEnglishRange.length = 26;
lcEnglishLetters = [NSCharacterSet characterSetWithRange:lcEnglishRange];

属性

//字符集的二进制数据,用于传输、归档、保存成文件
@property (readonly, copy) NSData *bitmapRepresentation;
//一个除了数字字符之外的所有字符的字符集
[[NSCharacterSet decimalDigitCharacterSet] invertedSet]

用于判断的方法

//判断aCharacter是否包含在字符集中
- (BOOL)characterIsMember:(unichar)aCharacter;
//功能貌似是一样的,入参是UTF-32的字符???不知道这两个方法的区别,知道的朋友不吝赐教
- (BOOL)longCharacterIsMember:(UTF32Char)theLongChar;
//判断theOtherSet是不是自身的子集
- (BOOL)isSupersetOfSet:(NSCharacterSet *)theOtherSet;

可以用来验证capitalizedLetterCharacterSet是否是uppercaseLetterCharacterSet的子集

不明白的地方

- (BOOL)hasMemberInPlane:(uint8_t)thePlane;

这个貌似涉及到Unicode的知识,我暂时没研究明白,有兴趣的可以,看看这篇文章传送门。

NSMutableCharacterSet

//添加某个范围的字符到字符集
- (void)addCharactersInRange:(NSRange)aRange;
//移除某个范围的字符到字符集
- (void)removeCharactersInRange:(NSRange)aRange;
//添加字符串中的字符到字符集
- (void)addCharactersInString:(NSString *)aString;
//移除字符串中的字符到字符集
- (void)removeCharactersInString:(NSString *)aString;
//合并两个字符集
- (void)formUnionWithCharacterSet:(NSCharacterSet *)otherSet;
//保留两个字符集的集合,即两个字符集都有的字符的集合
- (void)formIntersectionWithCharacterSet:(NSCharacterSet *)otherSet;

相关阅读

NSHipster.cn上的一篇译文:NSHipster-NSCharaterSet

你可能感兴趣的:(NSCharacterSet)