常用的数据格式汇总

1、libsvm数据格式

 [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …
意:训练和测试数据的格式必须相同,都如上所示。测试数据中的目标值是为了计算误差用。

1.1、libsvm数据格式制作

b.然后将以上数据粘贴到FormatDataLibsvm.xls中的最上角单元格,接着工具->宏->执行FormatDataToLibsvm宏。就可以得到libsvm要求的数据格式。
libsvm使用的训练数据和检验数据文件格式如下:
label  目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数。
index 是有顺序的索引,通常是连续的整数。就是指特征编号,必须按照升序排列
value 就是特征值,用来train的数据,通常是一堆实数组成。
即:
目标值   第一维特征编号:第一维特征值   第二维特征编号:第二维特征值 …目标值   第一维特征编号:第一维特征值   第二维特征编号:第二维特征值 …
例如:5 1:0.6875 2:0.1875 3:0.015625 4:0.109375
表示训练用的特征有4维,第一维是0.6875,第二维是0.1875,第三维是0.015625,第四维是0.109375  目标值是5
该过程可以自己使用excel或者编写程序来完成,也可以使用网络上FormatDataLibsvm.xls来完成。FormatDataLibsvm.xls使用说明:a.先将数据按照下列格式存放(注意label放最后面):
value1 value2 … labelvalue1 value2 … label
c当然有可以写代码进行转换,下面有链接,可以看下具体怎么转换,但是目前各种语言基本都有封装好的函数,可以直接采用。

2.列表:list

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。
Python有6个序列的内置类型,但最常见的是列表和元组。
序列都可以进行的操作包括索引,切片,加,乘,检查成员。
此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。
列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。
列表的数据项不需要具有相同的类型

2.1创建一个列表

只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示:

list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]
list3 = ["a", "b", "c", "d"]

与字符串的索引一样,列表索引从0开始。列表可以进行截取、组合等。

2.2访问列表中的值

使用下标索引来访问列表中的值,同样你也可以使用方括号的形式截取字符,如下所示:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5, 6, 7 ]
print "list1[0]: ", list1[0]
print "list2[1:5]: ", list2[1:5]
结果:
list1[0]:  physics

list2[1:5]:  [2, 3, 4, 5]

3.Json格式

data = [ { 'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4, 'e' : 5 } ]
待续ing

参考链接:
1.https://www.cnblogs.com/codingmengmeng/p/6254325.html

你可能感兴趣的:(基础技术)