Emoji相关链接
- android 输入框EditText禁止输入Emoji表情符
- Android中过滤Emoji表情 完整版
- Unified Emoji表情for Android
- 彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)
- Emoji Unicode Tables
Emoji过滤方法
- 匹配Emoji表情列表过滤,需要得到Emoji表情列表
- 区间过滤,可能多过滤也肯少过滤
链接1:Emoji列表过滤,但是直接从 Emoji Unicode Tables 网站获取的列表 4. Enclosed characters ( 24C2 - 1F251 ) 区间会和汉字冲突,实际范围是 24C2 和(1F170 - 1F251),标题错了,作者没有修改直接把汉字内容(例如:我,们,有 ……)也过滤了,并且没有过滤 5. Uncategorized 忽略了许多表情。列表过滤相对准确,但是需要先加载列,虽然使用了静态方法但是首次使用要较长加载时间,过滤时匹配也相对耗时。
链接2:过滤区间,但是只过滤了双字节的Emoji表情,忽略了单字节的表情,并且区间也不合理(判断得很复杂,结果等同于直接过滤了 utf8 Surrogates,这样如果有其他的 Surrogates 区的编码字符也会被过滤掉)。相对列表过滤速度快,但存在多过滤和少过滤的较多。
综合两种情况考虑,既要保证速度又要保证过滤的准确性。Android EditView 以 UTF-16 为编码16位为一个单位。由于两字节以上的Unicode 编码基本上没用到,直接过滤掉 Surrogates 区(0xD800-0xDFFF);再过滤掉单字节的Emoji表情列表。
当然为了确保绝对只过滤Emoji表情,这里使用1的方法,修改了 4. Enclosed characters ( 24C2 - 1F251 ),添加了 5. Uncategorized ,毕竟现在Android的处理器性能都很高,效率可以不用考虑了。当然也可以使用区间过滤,添加个 Scrope ,再修改下filter()方法就行了,这里就不修改了。
import android.text.InputFilter;
import android.text.Spanned;
import org.xutils.common.util.LogUtil;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
/**
* 过滤Emoji表情
* Created by tutu on 2016/5/31.
*/
public class EmojiFilter implements InputFilter {
private static Set filterSet = null;
private static Set scopeSet = null;
/**
* 区间类模型
*/
private class Scope {
int start;
int end;
@Override
public boolean equals(Object o) {
if (o instanceof Scope) {
Scope scope = (Scope) o;
if (scope.start == start && scope.end == end) {
return true;
}
}
return super.equals(o);
}
}
private static void addUnicodeRangeToSet(Set set, int start, int end) {
if (set == null) {
return;
}
if (start > end) {
return;
}
for (int i = start; i <= end; i++) {
filterSet.add(new String(new int[]{i}, 0, 1));
}
}
private static void addUnicodeRangeToSet(Set set, int code) {
if (set == null) {
return;
}
filterSet.add(new String(new int[]{code}, 0, 1));
}
static {
filterSet = new HashSet();
scopeSet = new HashSet<>();
// See http://apps.timwhitlock.info/emoji/tables/unicode
// 1. Emoticons ( 1F601 - 1F64F )
addUnicodeRangeToSet(filterSet, 0x1F601, 0X1F64F);
// 2. Dingbats ( 2702 - 27B0 )
addUnicodeRangeToSet(filterSet, 0x2702, 0X27B0);
// 3. Transport and map symbols ( 1F680 - 1F6C0 )
addUnicodeRangeToSet(filterSet, 0X1F680, 0X1F6C0);
// 4. Enclosed characters ( 24C2 - 1F251 )
addUnicodeRangeToSet(filterSet, 0X24C2);
addUnicodeRangeToSet(filterSet, 0X1F170, 0X1F251);
// 6a. Additional emoticons ( 1F600 - 1F636 )
addUnicodeRangeToSet(filterSet, 0X1F600, 0X1F636);
// 6b. Additional transport and map symbols ( 1F681 - 1F6C5 )
addUnicodeRangeToSet(filterSet, 0X1F681, 0X1F6C5);
// 6c. Other additional symbols ( 1F30D - 1F567 )
addUnicodeRangeToSet(filterSet, 0X1F30D, 0X1F567);
// 5. Uncategorized
addUnicodeRangeToSet(filterSet, 0X1F004);
addUnicodeRangeToSet(filterSet, 0X1F0CF);
// 与6c. Other additional symbols ( 1F30D - 1F567 )重复
// 去掉重复部分虽然不去掉HashSet也不会重复,原范围(0X1F300 - 0X1F5FF)
addUnicodeRangeToSet(filterSet, 0X1F300, 0X1F30D);
addUnicodeRangeToSet(filterSet, 0X1F5FB, 0X1F5FF);
addUnicodeRangeToSet(filterSet, 0X00A9);
addUnicodeRangeToSet(filterSet, 0X00AE);
addUnicodeRangeToSet(filterSet, 0X0023);
//阿拉伯数字0-9,配合0X20E3使用
//addUnicodeRangeToSet(filterSet, 0X0030, 0X0039);
// 过滤掉203C开始后的2XXX 段落
//addUnicodeRangeToSet(filterSet, 0X203C, 0X24C2);
addUnicodeRangeToSet(filterSet, 0X203C);
addUnicodeRangeToSet(filterSet, 0X2049);
//严格验证的话需要判断前面是否是数字
//Android上显示和数字分开可以不判断
addUnicodeRangeToSet(filterSet, 0X20E3);
addUnicodeRangeToSet(filterSet, 0X2122);
addUnicodeRangeToSet(filterSet, 0X2139);
addUnicodeRangeToSet(filterSet, 0X2194, 0X2199);
addUnicodeRangeToSet(filterSet, 0X21A9, 0X21AA);
addUnicodeRangeToSet(filterSet, 0X231A, 0X231B);
addUnicodeRangeToSet(filterSet, 0X23E9, 0X23EC);
addUnicodeRangeToSet(filterSet, 0X23F0);
addUnicodeRangeToSet(filterSet, 0X23F3);
addUnicodeRangeToSet(filterSet, 0X25AA, 0X25AB);
addUnicodeRangeToSet(filterSet, 0X25FB, 0X25FE);
//TODO: 26XX 太杂全部过滤
addUnicodeRangeToSet(filterSet, 0X2600, 0X26FE);
addUnicodeRangeToSet(filterSet, 0X2934, 0X2935);
addUnicodeRangeToSet(filterSet, 0X2B05, 0X2B07);
addUnicodeRangeToSet(filterSet, 0X2B1B, 0X2B1C);
addUnicodeRangeToSet(filterSet, 0X2B50);
addUnicodeRangeToSet(filterSet, 0X2B55);
addUnicodeRangeToSet(filterSet, 0X3030);
addUnicodeRangeToSet(filterSet, 0X303D);
addUnicodeRangeToSet(filterSet, 0X3297);
addUnicodeRangeToSet(filterSet, 0X3299);
}
public EmojiFilter() {
super();
}
@Override
public CharSequence filter(CharSequence source, int start, int end, Spanned dest, int dstart,
int dend) {
// check black-list set
for (int i = 0; i < source.length(); i++) {
LogUtil.e(Integer.toHexString(source.charAt(i)));
}
LogUtil.e(source.toString() + " length: " + source.toString().length() +
" ;bytes length: " + source.toString().getBytes().length);
// Iterator iterator = filterSet.iterator();
// while (iterator.hasNext()) {
// String filter = iterator.next();
// if (filter.equals(source.toString())) {
// LogUtil.e(filter + " length: " + filter.length() +
// " ;bytes length: " + filter.getBytes().length);
// for (int i= 0; i < source.length(); i++){
// LogUtil.e(Integer.toHexString(source.charAt(i)));
// }
// return "";
// }
// }
if (filterSet.contains(source.toString())) {
return "";
}
return source;
}
}
吐槽
小日本真能折腾,没事搞什么Emoji,没事过滤Emoji干嘛
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请保留作者及原文链接