关于神经网络中文本数据输入问题与解决方案

‘在19年的博文中我曾经非常粗浅的提及CNN中文本数据输入的问题,接下来我将提出我的思路与解决方案,仅供各位参考!’

神经网络中解决文本数据输入的必要性

相比于CNN中常用的图片数据,文本数据的优点在于:

  1. 文本数据可解决浮点型数值的存储,如0.1123818等float32算术类型的存储,而图片如JPEG、PNG等职能存储整型数据,只有TIF图片可存储浮点型数据。
  2. 文本数据可解决多通道、多变量数据的存储,当研究过程中需要考虑的变量大于3或4时,单通道或三通道的图片数据即不能直接解决数据的存储,网上大多推崇TIF格式图片存储,但我并没有找到直接的内容(可能是我查找还未能深入)

同样,文本数据的缺点也十分明显:

  1. 神经网络多对具Batch_size的样本训练,即每次需要对多个样本同时训练学习(这里便不陈述“在线学习”的缺点了),而网上资源如tfrecords、lmdb等多是对整型图片数据制作相应的训练样本格式,使得神经网络能够一边读取数据一边训练,提高内存利用率

拟解决问题

将多变量的浮点型文本数据制作为合适的训练样本,从而输入神经网络进行训练

解决思路

  1. 通过主成分分析,将多变量降维(但是很明显在预处理阶段便损失了数据信息,且仍然不能解决浮点型问题,因此划分为最次的解决方案)
  2. 将数据以正态分布或其他分布拉伸为多变量整型数据(仍然会损失原始信息)
  3. 将数据直接存储如float32位的TIF图片中,制作为tfrecords格式后,在神经网络输入层,增加一个tf.reshape,将其重构为我们需要的多通道格式

当然上述方法仅仅是我自己的一点外行人的思考,存在些许问题,在很多领域可能有更好的解决方案,也希望有人能不吝告知!

你可能感兴趣的:(卷积神经网络,神经网络,机器学习,深度学习)