大数据测试内容

大数据涉及数据创建、存储、检索、分析,而且它在数据、多样性和速度方法都很出色


大数据应用程序更多的是验证其数据处理,而不是测试产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。
数据质量也是大数据测试的一个重要因素。它涉及检查各种字段,如准确性、重复性,一致性
数据处理可以是三种类型:
批量
实时
交互


测试方面:
验证其数据处理:创建、存储、检索和分析
数据处理三种类型:批量\实时、交互  
性能:Hdfs读写 mapreduce计算性能  测试作业完成时间、内存使用率、数据吞吐率   数据处理能力和子组件性能(消息的索引和消费速度有多快,mapreduce作业,查询性能,搜索等)
功能测试
数据质量:检查各种字段,准确性、重复性、一致性、有效性和数据完整性等  
架构测试:性能和故障转移测试服务应该在Hadoop环境中完成
数据倾斜和shuffle操作
测试 ETL 处理的正确性

测试实现分成三步:
1.数据阶段验证  
各方数据源  正确的数据
数据源与Hadoop中的HDFS数据比较 
验证正确的数据加载到hdfs正确的位置

2.MapReduce验证
map和reduce进程正常工作
在数据上实施数据聚合或隔离规则
生成键值对
在执行Map和reduce进程后验证数据

3.输出阶段验证
1.检查转换规则被正确应用
2.检查数据完整性和成功的数据加载到目标系统中
3.通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏

性能测试需要验证的各种参数
1、数据存储:数据如何存储在不同的节点中
2、提交日志:允许增长的提交日志有多大
3、并发性:有多少个线程可以执行写入和读取操作
4、缓存:调整缓存设置“行缓存”和“键缓存”。
5、超时:连接超时值,查询超时值等
6、JVM参数:堆大小,GC收集算法等
7、地图降低性能:排序,合并等
8、消息队列:消息速率,大小等

测试环境搭建


八、性能测试挑战
1、多种技术组合:每个子组件属于不同的技术,需要单独测试
2、不可用的特定工具:没有一个工具可以执行端到端的测试。例如,NoSQL可能不适合消息队列
3、测试脚本:需要高度的脚本来设计测试场景和测试用例
4、测试环境:数据量大,需要特殊的测试环境
5、监控解决方案:存在有限的解决方案,可以监控整个环境
6、诊断解决方案:需要定制解决方案来深入了解性能瓶颈区域

你可能感兴趣的:(大数据测试)