8 Categorical数组
类别(categorical)数组是一种存储有限类别数据的数组类型。类别数组可以提供对非数值数据的高效存储以及操作,另外类别数组还保持了原有类别的名字,这样使用起来更加直观方便。类别数组可以和表(table)数据类型一起使用。
默认情况下,类别数组中包含的类别是没有顺序的。例如,一组离散的宠物类别{'dog' 'cat' 'bird'}是没有顺序的。所以MATLAB采用字母表顺序来对其进行排序,{'bird' 'cat' 'dog'}。顺序类别数组包含的类别是有顺序的,例如尺寸大小的类别{'small', 'medium', 'large'}是具有顺序的。
【例3-55】 类别数组的创建。
本例为读者演示如何创建一个类别数组。用户可以使用categorical函数把数值数组、逻辑数组、字符串元胞数组或者已有的类别数组创建为类别数组。
首先创建一个新英格兰地区州名的一个元胞数组。
>> state ={'MA','ME','CT','VT','ME','NH','VT','MA','NH','CT','RI'};
之后将此元胞数组转换为类别数组。
>> state = categorical(state)
>> class(state)
state =
Columns 1through 9
MA ME CT VT ME NH VT MA NH
Columns 10through 11
CT RI
ans =
categorical
通过categories函数可以列出类别数组中包含了哪些类别。
>> categories(state)
ans =
'CT'
'MA'
'ME'
'NH'
'RI'
'VT'
从结果可以看到,所有的类别是按照字母顺序来排序的。
【例3-56】 顺序类别数组的创建。
创建一个记录物体尺寸大小的元胞数组:
>> AllSizes ={'medium','large','small','small','medium',...
'large','medium','small'};
这个元胞数组有三种尺寸,'large'、'medium'和'small'。如果使用元胞数组进行记录的话,那么是没有一种方便的形式来表示small < medium < large这种大小关系的。使用valueset变量用来指明顺序的大小,在调用categorical函数时对顺序参数进行设置就可以实现顺序类别数组的创建。
>> valueset = {'small','medium','large'};
>> sizeOrd =categorical(AllSizes,valueset,'Ordinal',true)
sizeOrd =
Columns 1through 6
medium large small small medium large
Columns 7through 8
medium small
>> class(sizeOrd) %查看创建数组的类型
ans =
categorical
类别数组中的顺序,sizeOrd,是保持不变的。同样适用categories函数列出所有类别:
>> categories(sizeOrd)
ans =
'small'
'medium'
'large'
这时,所有类别的列举就不是再按照字母顺序了,而是按照用户定义的small 创建100各1-44之间的整数向量: >> x = gallery('integerdata',44,[100,1],1); 然后使用histc函数创建3个箱子,将x中的数值在1-15之间的放进第一个箱子,15-30之间的放在第二个箱子,30-45之间的数值放进第三个箱子。分界点15和30会归入第而2和第三各箱子。 >> [~,bin] = histc(x,[1,15,30,45]); Bin是一个100×1的向量,用来表示x中的每一个向量是属于哪个箱子的。创建一个顺序类别数组,sizeOrd2,其中三个箱子变成了三个类别,small、medium和large。 >> valueset = 1:3; >> catnames = {'small','medium','large'}; >> sizeOrd2 =categorical(bin,valueset,catnames,'Ordinal',true); sizeOrd2是一个100×1的顺序类别数组,它有三个类别small 使用summary函数可以对类别进行求和 >> summary(sizeOrd2) small 33 medium 36 large 31 通过结果可以看出,有33个元素是属于small这个类别的,36个是属于medium这个类别的,31个是属于large这个类别的。 【例3-57】 类别数组元素的比较。 首先由一个字符串元胞数组来创建类别数组。 >> C = {'blue' 'red' 'green' 'blue';... 'blue' 'green' 'green' 'blue'}; %创建测试元胞数组 >> colors = categorical(C) % 转换为类别数组 colors = blue red green blue blue green green blue 这里我们创建了2×4的类别数组。然后可以通过categories函数查看数组中有哪些类别。 >> categories(colors) ans = 'blue' 'green' 'red' 然后我们可以使用“==”来比较数组第一行元素是否和第二行元素相等。 >> colors(1,:) == colors(2,:) ans = 1 0 1 1 从结果可以看出,只有第二列的两个元素不相等。 我们还可以把整个类别数组colors和单一字符串’blue’来对比: >> colors == 'blue' ans = 1 0 0 1 1 0 0 1 结果显示在colors数组中一共有4个blue。 通过指定颜色的顺序,我们可以将colors转换为顺序类别数组。例如指定顺序为red >> colors = categorical(colors,{'red','green''blue'},'Ordinal',true) colors = blue red green blue blue green green blue 类别数组中的各元素和转换之前是相同的,检验一下数组中有哪些类别: >> categories(colors) ans = 'red' 'green' 'blue' 在设置了顺序之后,就可以对各元素的顺序进行比较。例如比较第一列的元素是否比第二列的元素大: >> colors(:,1) > colors(:,2) ans = 1 1 第二列中的元素是red和green,按照设定的顺序都比第一列中的blue小,所以均返回了1(true)。 用户还可以查找所有比blue小的元素: >> colors < 'blue' ans = 0 1 1 0 0 1 1 0 返回结果中为1的元素就是比blue小的元素。 【例3-58】 类别数组元素的组合。 首先创建测试数组,记录的是一个班25名学生午餐饮料是什么。 >> A = gallery('integerdata',3,[25,1],1); >> A = categorical(A,1:3,{'milk' 'water''juice'}); 然后对类别数组A进行统计: >> summary(A) milk 8 water 8 juice 9 从结果可以看出有8名学生喜欢喝牛奶,8名学生喜欢水,还有9名学生喜欢果汁。 创建另一个类别数组,用以表示另一个班28人的午餐饮料情况。 >> B = gallery('integerdata',3,[28,1],3); >> B = categorical(B,1:3,{'milk' 'water''juice'}); B是一个28×1的和A具有相同类别的数组。对数组B进行统计: >> summary(B) milk 12 water 10 juice 6 从结果可以看出有12名学生喜欢喝牛奶,10名学生喜欢水,还有6名学生喜欢果汁。 有了两个类别数组之后,我们可以将其组合成为一个新的数组。 >> Group1 = [A;B]; % 组合的方法和普通数值矩阵相同 对总的类别数组Group1进行统计: >> summary(Group1) milk 20 water 18 juice 15 Group1是一个53×1的类别数组,包含3个类别:milk,water和juice。 现在我们创建一个新的包含50个学生的类别数组,可选的饮料增加了苏打水。 >> Group2 =gallery('integerdata',4,[50,1],2); >> Group2 = categorical(Group2,1:4,{'juice''milk' 'soda' 'water'}); 对Group2进行统计: >> summary(Group2) juice 18 milk 10 soda 13 water 9 Group2是一个50×1的数组,有4个类别:juice,milk,soda和water. 将Group1和Group2组合: >> students = [Group1;Group2]; 对新建的总数组进行统计: >> summary(students) milk 30 water 27 juice 33 soda 13 可见结果中的数组有4个类别。下面使用reordercats来更改数组中的类别排列顺序: >> students =reordercats(students,{'juice','milk','water','soda'}); >> categories(students) % 查看有哪些类别 ans = 'juice' 'milk' 'water' 'soda'