在Hadoop里面经常看到有StringTokenizer,用来分割字符串。
那么在这里就简单地了解一下这个类到底有什么用。
1. StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。
java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。
2. StringTokenizer(String str, String delim):构造一个用来解析str的StringTokenizer对象,
并提供一个指定的分隔符。
3. StringTokenizer(String str, String delim, boolean returnDelims):
构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符,
同时,指定是否返回分隔符。
2、常用方法。
static int parseInt(String s)表示:此方法(parseInt)为类方法(static),
返回类型为(int),方法所需参数为String类型。
1. int countTokens():返回nextToken方法被调用的次数。
如果采用构造函数1和2,返回的就是分隔符数量(例2)。
2. boolean hasMoreTokens() :返回是否还有分隔符。
3. boolean hasMoreElements() :返回是否有下一个元素。
4. String nextToken():返回从当前位置到下一个分隔符的字符串。
5. Object nextElement() :返回到下一个分隔符的对象。
6. String nextToken(String delim):返回当前位置的下一个分隔符。
public class TestOfStringTokenizer { public static void main(String[] args) { String str = new String("Java JavaScipt C++ Shell PLSQL PYTHON") ; str = str + "\nhello\nworld" ; str = str + ",Kiss,my,ass" ; //StringTokenizer st = new StringTokenizer(str," ",true); StringTokenizer st = new StringTokenizer(str); System.out.println( "Token Total: " + st.countTokens() ); while( st.hasMoreElements() ){ System.out.println( st.nextToken() ); } } }
这里使用了默认的构造函数。
这样子的使用是不会返回分隔符的。
那么如果要来切分割普通的CSV文件呢?
public class TestOfStringTokenizer { public static void main(String[] args) { String str = new String("Tomorrow,i,will,go,to,school,alone") ; str = str + ",because,someone,want,to,Kiss,my,ass" ; StringTokenizer st = new StringTokenizer(str,",",true); System.out.println( "Token Total: " + st.countTokens() ); while( st.hasMoreElements() ){ System.out.println( st.nextToken() ); } } }