读取器
读取器从存储中的数据集迭代记录,并将数据加载到数据向量中。除了数据集中的单个条目之外,阅读器的用处包括:如果想要在语料库上训练文本生成器,或是以编程方式将两个条目组合在一起形成新的记录的时候该怎么办?读取器实现对于复杂的文件类型或分布式存储机制是有用的。
读取器返回记录记录中每一列的Writable类。这些类用于将每个记录转换为张量/NDArray 格式。
使用
每个读取器实现都扩展了BaseRecordReader并提供了一个简单的API用于选取数据集中的下一条记录,行为类似于迭代器。
包括以下有用的方法:
-
next
: 返回一个批量的Writable
。 -
nextRecord
: 返回单条记录,RecordMetaData
是可选的。 -
reset
: 重置基础迭代器。 -
hasNext
: 迭代器方法以确定是否有其他记录可用 。
监听器
你可以将自定义的RecordListener挂钩到记录读取器进行调试或可视化目的。在初始化类之后,立即将你的自定义侦听器传递给addListener基类方法。
读取器的类型
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
记录读取器用于每个管道。独立的记录是由两个集合连接而成的。
ConcatenatingRecordReader 连接记录读取器
[源码]
把多个读取器合并为一个读取器。记录按顺序读取-因此如果第一个取读器有100条记录,并且第二个读取器有200条记录,那么连接记录读取器将有300条记录。
FileRecordReader 文件记录读取器
[源码]
文件读取/写入
getCurrentLabel
public int getCurrentLabel()
返回当前标签。标签列表中当前文件的父目录的索引。
- 返回当前文件父目录的索引
LineRecordReader 行记录读取器
[源码]
一行一行读取文件
CollectionRecordReader 集合记录读取器
[源码]
集合记录读取器,主要用于测试。
CollectionSequenceRecordReader 集合序列读取器
[源码]
用于序列的集合记录读取器,主要用于测试。
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
- 参数records是序列集合。例如List
- > 这里内部两个列表都是序列,并且外部的列表/集合是一个序列。
ListStringRecordReader 集合字符记录读取器
[源码]
迭代一个字符列表返回一条记录
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
在初始化的时候调用一次。
- 参数 split是定义要读取的记录范围的拆分
- 抛出 IOException
- 抛出 InterruptedException
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
在初始化的时候调用一次
- 参数 conf是一个用于初始化的配置
- 参数 split是定义要读取的记录范围的拆分
- 抛出 IOException
- 抛出 InterruptedException
hasNext
public boolean hasNext()
判断是否有下一条记录
- 返回布尔值
reset
public void reset()
重置
- return
nextRecord
public Record nextRecord()
从给定的DataInputStream加载记录,与{-link#next()}不同,RecordReader的内部状态没有修改。此方法的实现不应关闭DataInputStream。
- 参数 uri
- 参数 dataInputStream
- 抛出 IOException ,如果从输入流中读取的时候出错。
close
public void close() throws IOException
关闭此流并释放与之相关联的任何系统资源。如果流已经关闭,那么调用此方法没有效果。如{-Link AutoCutabySyCuffe()}所指出的,关闭可能失败的情况需要仔细注意。强烈建议在抛出{-code IOException}之前,放弃底层资源,并在内部将{-code Closeable}标记为关闭。
- 抛出 IOException, 如果 I/O 错误发生。
setConf
public void setConf(Configuration conf)
设置此对象要使用的配置。
- 参数 conf
getConf
public Configuration getConf()
返回此对象所使用的配置。
CSVRecordReader CSV记录读取器
[源码]
简单的CSV读取器。
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
跳过前n行
- 参数 skipNumLines 需要跳过的行数
CSVRegexRecordReader CSV正则记录读取器
[源码]
一个CSV正则记录读取器,它可以使用正则将每个列拆分为其他列。
CSVSequenceRecordReader CSV序列记录读取器
[源码]
CSV序列记录读取器此读取器旨在读取CSV格式的数据序列,其中每个序列在其自己的文件中定义(并且有多个文件),文件中的每一行表示一个时间步骤。
CSVVariableSlidingWindowRecordReader CSV可变滑动窗口记录读取器
[源码]
在整个CSV上可变大小的滑动窗口。在实践中,滑动窗口大小开始于1,然后线性增加到最大线性序列,然后线性下降回到1。
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
带有每个序列默认行数为10的无参构造器
LibSvmRecordReader LibSvm记录读取器
[源码]
libsvm格式的记录读取器,它与SVMLight格式密切相关。与SCIKIT学习类似,我们为两种格式使用同一个读取器,因此该类是SvMLeadReadReader的子类。
关于格式的进一步细节可以在如下网站中找到
- http://svmlight.joachims.org/
- http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html
- http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html
MatlabRecordReader Matlab记录读取器
[源码]
Matlab记录读取器
SVMLightRecordReader SVMLight记录读取器
[源码]
用于SVMLight格式的记录读取器,它通常可以描述为如下
LABEL INDEX:VALUE INDEX:VALUE …
SVMLight格式非常适合于稀疏数据(如词袋),因为它忽略了所有值为零的特征。
我们支持一个“扩展”版本,允许多个目标(或标签)用逗号分隔,如下:
LABEL1,LABEL2,… INDEX:VALUE INDEX:VALUE …
这可以用于表示多任务问题或具有稀疏二进制标签的多任务问题(通过“MULTILABEL”配置选项进行控制)。
与SCIKIT学习一样,我们支持基于零的和基于一个的索引。
关于格式的进一步细节可以在如下网站中找到
- http://svmlight.joachims.org/
- http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html
- http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
在尝试读取记录之前调用。
- 参数 conf 是数据向量配置
- 参数 split是文件分割器
- 抛出 IOException
- 抛出 InterruptedException
setConf
public void setConf(Configuration conf)
Set configuration. 设置配置
- 参数 conf 是数据向量配置
- 抛出 IOException
- 抛出 InterruptedException
hasNext
public boolean hasNext()
帮助检测被注释的行的帮助函数。可以提前读取并缓存一行。
- return
nextRecord
public Record nextRecord()
以Writables的列表返回下一个记录。
- return
RegexLineRecordReader 正则行记录读取器
[源码]
读取一整个文件,每次一行,并使用正则分割字段。例如:输入数据的格试为“2016-01-01 23:59:59.001 1 DEBUG First entry message!”
使用正则字符 “(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}.\d{3}) (\d+) ([A-Z]+) (.)”将被分割为4个文本writables: [“2016-01-01 23:59:59.001”, “1”, “DEBUG”, “First entry message!”]
RegexSequenceRecordReader 正则序列记录读取器
[源码]
读取一整个序列文件,每次一行,并使用正则分割字段。例如:输入数据的格试为“2016-01-01 23:59:59.001 1 DEBUG First entry message!”
使用正则字符 “(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}.\d{3}) (\d+) ([A-Z]+) (.)”将被分割为4个文本writables: [“2016-01-01 23:59:59.001”, “1”, “DEBUG”, “First entry message!”]
不匹配正则的行会倒致一个异常(FailOnInvalid),可以被悄悄跳过(SkipInvalid),或跳过无效但记录一个警告(SkipInvalidWithWarning)
TransformProcessRecordReader 转换过程记录读取器
[源码]
在返回之前应用一个转换过程。
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
在初始化的时候调用一次
- 参数 split 分割器,它定义记录被读取的范围
- 抛出 IOException
- 抛出 InterruptedException
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
在初始化的时候调用一次
- 参数 conf初始化需要的一个配置
- 参数 split 分割器,它定义记录被读取的范围
- 抛出 IOException
- 抛出 InterruptedException
hasNext
public boolean hasNext()
得到下一行
- return
reset
public void reset()
重置
- return
nextRecord
public Record nextRecord()
从给定的DataInputStream加载记录,与{-link#next()}不同,RecordReader的内部状态没有修改。此方法的实现不应关闭DataInputStream。
- 参数 uri
- 参数 dataInputStream
- 如果从输入流中读取的时候出错则抛出 IOException 。
loadFromMetaData
public Record loadFromMetaData(RecordMetaData recordMetaData) throws IOException
从一个RecordMetaData实例中加载单个记录。注意:对于不可分割的数据(即需要扫描/分割的文本数据),通过使用{- link #loadFromMetaData(List)}一次加载多行是更有效的。
- 参数 recordMetaData 是 我们想要加载记录的Metadata
- 为给定的RecordMetaData实例返回单个记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
loadFromMetaData 原文档中漏了这个方法说明
public List loadFromMetaData(List recordMetaDatas) throws IOException
从给定RecordMetaData实例列表中加载多条记录
- 参数 recordMetaData 是 我们想要加载记录的Metadata
- 为给定的RecordMetaData实例返回多条记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
setListeners
public void setListeners(RecordListener... listeners)
setListeners
public void setListeners(Collection listeners)
为这个记录读取器设置记录监听器
- 参数 listeners
close
public void close() throws IOException
关闭此流并释放与之相关联的任何系统资源。如果流已经关闭,那么调用此方法没有效果。如{-Link AutoCutabySyCuffe()}所指出的,关闭可能失败的情况需要仔细注意。强烈建议在抛出{-code IOException}之前,放弃底层资源,并在内部将{-code Closeable}标记为关闭。
- 抛出 IOException, 如果 I/O 错误发生。
setConf
public void setConf(Configuration conf)
设置这个对象使用的配置
- 参数 conf
getConf
public Configuration getConf()
返回这个对象使用的配置
TransformProcessSequenceRecordReader 转换过程序列记录读取器
[源码]
在返回之前被转换
setConf
public void setConf(Configuration conf)
设置这个对象使用的配置
- 参数 conf
getConf
public Configuration getConf()
返回这个对象使用的配置。
batchesSupported
public boolean batchesSupported()
返回是否支持批量
- 返回一个布尔值
nextSequence
public SequenceRecord nextSequence()
从给定的DataInputStream加载序列记录,与{-link#next()}不同,RecordReader的内部状态没有修改。此方法的实现不应关闭DataInputStream。
- 参数 uri
- 参数 dataInputStream
- 如果从输入流中读取的时候出错则抛出 IOException 。
loadSequenceFromMetaData
public SequenceRecord loadSequenceFromMetaData(RecordMetaData recordMetaData) throws IOException
从一个RecordMetaData实例中加载单个记录。注意:对于不可分割的数据(即需要扫描/分割的文本数据),通过使用{- link #loadSequenceFromMetaData(List)}一次加载多行是更有效的。
- 参数 recordMetaData 是 我们想要加载序列记录的Metadata
- 为给定的RecordMetaData实例返回单个记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
loadSequenceFromMetaData 原文档中漏了这个方法说明
public List loadSequenceFromMetaData(List recordMetaDatas) throws IOException
从给定RecordMetaData实例列表中加载多条记录
- 参数 recordMetaData 是 我们想要加载记录的Metadata
- 为给定的RecordMetaData实例返回多条记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
initialize
public void initialize(Configuration conf, InputSplit split) throws IOException, InterruptedException
在初始化的时候调用一次
- 参数 conf是一个用于初始化的配置
- 参数 split是定义要读取的记录范围的拆分
- 抛出 IOException
- 抛出 InterruptedException
hasNext
public boolean hasNext()
得到下一条记录
- return
reset
public void reset()
重置
- return
nextRecord
public Record nextRecord()
从给定的DataInputStream加载记录,与{-link#next()}不同,RecordReader的内部状态没有修改。此方法的实现不应关闭DataInputStream。
- 参数 uri
- 参数 dataInputStream
- 如果从输入流中读取的时候出错则抛出 IOException 。
loadFromMetaData
public Record loadFromMetaData(RecordMetaData recordMetaData) throws IOException
从一个RecordMetaData实例中加载单个记录。注意:对于不可分割的数据(即需要扫描/分割的文本数据),通过使用{- link #loadFromMetaData(List)}一次加载多行是更有效的。
- 参数 recordMetaData 是 我们想要加载记录的Metadata
- 为给定的RecordMetaData实例返回单个记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
loadFromMetaData 此方法说明在原文档中没有
public List loadFromMetaData(List recordMetaDatas) throws IOException
从一个RecordMetaData实例中加载单个记录。注意:对于不可分割的数据(即需要扫描/分割的文本数据),通过使用{- link #loadFromMetaData(List)}一次加载多行是更有效的。
- 参数 recordMetaData 是 我们想要加载记录的Metadata
- 为给定的RecordMetaData实例返回多条记录
- 如果在加载过程中发生 I/O错误则抛出 IOException
setListeners
public void setListeners(RecordListener... listeners)
setListeners
public void setListeners(Collection listeners)
为这个记录读取器设置记录监听器。
- 参数 listeners
close
public void close() throws IOException
关闭此流并释放与之相关联的任何系统资源。如果流已经关闭,那么调用此方法没有效果。如{-Link AutoCutabySyCuffe()}所指出的,关闭可能失败的情况需要仔细注意。强烈建议在抛出{-code IOException}之前,放弃底层资源,并在内部将{-code Closeable}标记为关闭。
- 抛出 IOException, 如果 I/O 错误发生。
NativeAudioRecordReader 本地音频记录读取器
[源码]
使用FFmpeg的本地音频文件加载器。
WavFileRecordReader 声音文件记录读取器
[源码]
声音文件加载器
ImageRecordReader 图片记录读取器
[源码]
图像记录读取器。读取本地文件系统并解析给定高度和宽度的图像。所有图像被重新缩放并转换为给定的高度、宽度和通道数量。
如果指定,还附加标签(基于目录结构的k个编码之一,其中根目录的每个子目录是一个索引标签)
VideoRecordReader 视频记录读取器
[源码]
视频只是一个移动的图片窗口。应该这样处理。这会遍历根文件夹并返回一帧。
initialize
public void initialize(InputSplit split) throws IOException, InterruptedException
用给定的高和宽加载记录读取器
- 参数 height 是加载的高度
- 参数 width 是加载的宽度
TfidfRecordReader 词频-逆向文件频率记录读取器
[源码]
词频-逆向文件频率记录读取器(封装一个TFIDF矢量化器,用于传送标签并遵守记录读取器接口)
有任何问题请联系微信
如果您觉得我的文章给了您帮助,请为我买一杯饮料吧!以下是我的支付宝,意思一下我将非常感激!