处理文本的原则

没有字符编码方案本身就是目的:它是一种启用计算机上有用的文本处理。
• 计算机预期支持的基本低级文本处理包括:
使字符可见(包括连字、上下文形式等)
渲染时断线(包括断字)
修改外观,例如点大小、字距、下划线、倾斜和重量(轻,半,粗体等)
确定“单词”和“句子”等单位
在选择和突出显示文本等过程中与用户交互通过插入和删除接受键盘输入和编辑存储的文本比较操作中的文本,例如排序或确定排序顺序两串分析文本内容,例如拼写检查、断字、解析形态(查找词根/词干/词缀)将文本作为批量数据处理,例如压缩、传输
不幸的是,对于每个文本过程,语言在构成文本元素。例如在西班牙语中,“ll”在“l”和“m”之间排序(即应被视为text 元素),但在渲染时最好将其视为两个“l”元素。
• 因此,第一个挑战是设计编码方案,因为一种语言是同意一组抽象字符;被编码——那些字符将被分配一个代码价值。
• 对于英语来说,这似乎直截了当(但是,例如,
“A”和“a”应该得到2个代码值或 1?);其他语言没那么简单。

普遍性(Universality); 高效性;字符,而不是字形;语义; 纯文本; 逻辑顺序;统一(Unification);动态构图

你可能感兴趣的:(语音和文本处理(Python))