阅读笔记：Mining Human Activity Patterns From Smart Home Big Data for Health Care Applications

Abstract

在论文中提出了一个为健康医疗应用利用智能家居大数据作为学习和发现人类活动模式的方式的模型。我们提出了频繁模式挖掘，聚类分析，和针对衡量和分析由居住着行为触发的能量使用变化的预测。人们的行为是跟人们的日常挂钩的，因此发生异常时可以对人们进行提示。本文强调了分析人们在器械上临时能量消耗的需要。
数据集：U.K. Domestic Appliance Level Electricity data set
结论：通过家电的使用判定人类活动模式，得到了短期和长期预测的准确率。

I. Introduction

使用智能仪表监测人类活动的原因：

智能仪表数据具有时间序列概念，通常包括在一段时间间隔内的组件设备的使用和消耗测量模式。

所面临的的问题：

当操作重叠时，不容易检测设备间的依赖性；
人类活动模式的准确预测受具有动态时间间隔的设备使用事件的概率关系的影响。

解决方案：

1. 提出了频繁挖掘和预测模型来测定和分析能量使用变化（数据来源于在24小时的数据片上递归挖掘智能仪表的数据）；
1. 使用贝叶斯网络预测多电器的使用和家用能量的消耗情况；

主要贡献：

1. 提出了在智能家居中基于电器使用变化的人类活动模式挖掘模型。使用FP-growth进行模式识别，使用K-means聚类算法得到appliance-to-appliance与appliance-to-time的关系。
1. 基于个体和多电器的使用应用贝叶斯网络进行活动预测。

II.Related Work

前人工作：

1. Detecting activities of daily living with smart meters：
  - 提出了两个分析和检测用户日常的方法： Semi-Markov-Model(SMM)：数据训练和检测个人习惯；
  - 基于脉冲的方法来检测日常生活中的活动（ADL），其侧重于同时发生的活动的时间分析。
1. The Elderly’s independent living in smart homes: A characterization of activities and sensing infrastructure survey to facilitate services development：
  通过对智能家居中跟主要活动有关的传感器进行分类检测上了年纪的人的健康状况。
1. Detecting household activity patterns from smart meter data
  使用非侵入式电器负载检测（NALM）和Dempster-Shafer（D-S）证据理论来识别活动，通过两个步骤获取主要活动。
1. Smart meter profiling for health applications：
  利用电器使用情况识别突然的行为改变，在最小化的入侵级上为Alzheimer和Parkinson患者提供时钟监控系统，采用分类技术检测个体能量使用模式的异常行为。
1. A patient’s state recognition system for health care using speech and facial expression
  Cloud-assisted industrial Internet of Things (IIoT)—Enabled framework for health monitoring
  Mobile cloud based food calorie measurement
  An intelligent cloud-based data processing broker for mobile e-health multimedia applications：
  利用智慧城市的物联网架构开发出了检测和提供健康服务的应用。
1. Smart-energy group anomaly based behavioral abnormality detection：
  远程健康监控，得到规律活动、独特的能量消耗时间段以及检测到的可发现的异常行为，这样就可以获取到一些用于更好维持健康医疗的关键点。
1. Leveraging smart grid technology for home health care：
  针对上了年纪的病人提供了一个其日常起居的侧面刻画，数据同样用于急性健康状况的检测。
1. 一个论文
  使用贝叶斯网络预测居住者的行为，提出了基于单个设备的服务。
1. Appliance usage prediction using a time series based classification approach
  A prediction system for home appliance usage：
  时间序列的多标签分类器预测基于决策树相关性的设备使用，然而只取了最近24小时窗口的设备序列关系。
1. Big data analytics for demand response: Clustering over space and time：
  使用聚类算法识别用户时间消耗模式的分布，但没有考虑多设备共同使用的情况和与时间的联系。
1. Data mining techniques for detecting household characteristics based on smart meter data：
  使用分级和c-means聚类分析设备的开关来检测用户使用模式，但没有考虑使用时长和设备使用序列的变化。
1. Forecasting multi-appliance usage for smart home energy management：
  提出了基于预测人类行为和设备依赖模式算法的图像模型，并且使用贝叶斯模型预测多设备使用情况。

综述

以上方法没有考虑设备级别使用模式，这是决定用户活动变化的关键。同时，我们的实验使用比现有研究更大的数据集。

III.Proposed Model

模型描述：

清洗、准备数据——>频繁模式挖掘得到appliance-to-appliance的联系——>聚类算法得到appliance-to-time的联系——>贝叶斯网络进行长短期活动的预测——>应用

A.Data Preparation

生数据：4亿条记录，时间分辨率为6秒；
处理后：2亿条记录；
合成数据集：120万条记录，用于初步模型评估
结果：智能电表时间序列原始数据，即高时间分辨率数据，被转换为1分钟的分辨率负载数据; 随后转换为30分钟的时间分辨率源数据，即每个设备每天24 * 2 =48读数，同时记录每个活动设备的开始时间和结束时间。

B. Extracting Frequent Patterns of Human Activities

目标
从智能仪表数据中发掘人类活动模式，以便有异常情况出现时进行提醒。
算法简介
深度优先分治技术（depth-first divide-and-conquer technique）：适用于线下，不能满足应用的决策的及时反应。
频繁模式的增量渐进挖掘（ incremental progressive mining of frequent patterns）：利用模式增长策略，以一个24小时的周期挖掘设备使用元组的数据。
增量频繁模式挖掘（Incremental Frequent Pattern Mining）

1. 数据表示描述

源数据事务分布的集合表示为大写伽马（见源数据表示）

源数据

源数据的表示

源数据的单例表示为“γ”

属于

限定

单个的设备表示为X，Y

属于

2. 思路描述

如果X和Y同时出现在单例事务中的概率大于预设好的阈值，则为一个频繁模式。
在support-confidence框架中，
P(X∪Y) ：Sx => y
P(Y|X) ：Cx => y （条件概率）
新发现的模式跟已有的模式进行比较，若不存在于数据库中，则加入数据库，以此只吃比较就被正确的更新。

3. 算法细节

支持定义是在事务数据集的概率，设备与设备联系的边缘分布可以在全局级别上进行计算，计算出的边缘分布决定了设备同时使用的概率。

Algorithm1：Incremental Frequent Pattern Mining
Require:数据库事务（DB），频繁模式挖掘数据库（FP_DB）
Ensure:频繁模式增量挖掘，结果存储在FP_DB中
1：for all DB中的24小时量的数据片db24（数据已被处理为24小时一片的周期）do
2：确定数据库的大小
对于db24的数据库Data_Sizedb24
挖掘在FP_DBdb24频繁模式，使用延伸的FP-growth方法
for all FP in FP_DBdb24 do
在FP_DB中寻找FP
if FP 已存在
更新FP_DB
else
将新FP添加到FP_DB中
end if
end for
对于数据库中的所有频繁模式，FP_DB按Database_Sizedb24增加数据库大小
end for

C.Clustering Analysis:Incremental K-Means

使用聚类分析算法去分析电气设备使用与时间的关系，包括一天24小时、一天中的早中晚夜、工作日、周末和月份。带时间戳的电气设备的使用数据可以用来聚集成设备同时工作的类。

The Defination of Clustering Analysis

定义：聚类分析是把相似元素创建为一个类别（非监督式分类）、组/段（自动分段）、和部分的过程，而跟不同簇中的元素不相似。
优点：具有非监督性。

聚类过程

数据选择
选择30分钟的时间片，创建了一天的最大48类的聚类，同理也可以以天、工作日、周末、月来进行自然分段。
欧几里得距离（Euclidean
distance）
数据库中的点被划分为K个类别，分别是C1，C2，……，Ck，且这些类别中的点没有交集，并且它们的几何中心ci也不可能重叠，这里欧几里得距离用来度量数据点间的聚合性，反映了聚类算法的效率。

欧几里得距离

K-means算法的目标在于最小化目标函数——平方差和(SSE)

SSE
轮廓系数(silhouette score)
轮廓系数结合了凝聚度和分离度，决定了聚类的最优数目。

对于第 i 个对象，计算它到所属簇中所有其他对象的平均距离，记 ai （体现凝聚度）

对于第 i 个对象和不包含该对象的任意簇，计算该对象到给定簇中所有对象的平均距离，记 bi （体现分离度）

第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi) //回头研究一下 wordpress 的公式插件去
从上面可以看出，轮廓系数取值为[-1, 1]，其值越大越好，且当值为负时，表明 ai

渐进增量聚类（incremental progressive clustering）
定义：将每个连续挖掘操作的现有和新发现的集群合并到数据库中。
条件：所有相关的集群参数比如几何中心、SSE、轮廓系数、点集和与几何中心相关的距离都在数据库中。
优点：提高了操作的效率和速度。

综述

电气设备随时间的变化和电气设备之间的关系为下文预测房间内的活动提供了信息。

D.Bayesian Networks for Activity Prediction

目标：整合了频繁模式与设备使用与实践的联系得到多设备的使用情况和建立活动预测模型。
特征：贝叶斯网络是一个非循环图，节点代表任意变量、连线代表概率性的依赖关系，一个主要特征是有因果关系的概念。
优点：减少丢失数据的可能性，利用事实的数据和观察到的事务来避免过度拟合数据。
定义：

贝叶斯网络

建立模型

建立基础：整合一天24小时、一天的时间（早中晚夜）、工作日、周末、月、季节与设备的联系和设备间的联系的概率。

后验概率或边缘分布

数据来源：聚类算法和频繁模式分析。

阅读笔记：Mining Human Activity Patterns From Smart Home Big Data for Health Care Applications_第2张图片

训练数据样例

任务：确定和预测同时工作的设备，设备预测结果是建立在人类活动与时间关系（一天24小时，周末，月等）的预测的基础上的。

IV. Evaluation and Results

实验环境

数据：UK-Dale，5个house中的109个设备，将近1一条数据，来自能量消耗情况来自IAMs的采集。
开发语言：Python。
数据库：在ubantu 14.04 LTS 64位系统上的MySQL 和MongoDB数据库。
主要任务：作为人类活动模式的一个指示检测设备的使用并且使用预测模型预测短长时房间中的活动。
应用：主动监控，警报生成，健康概况。

Results Analysis and Discussion

设备使用与时间的关系

（表示结果的图片还是上传失败，我也是没办法）
在房间2：在下午2点30分到5点之间，电视，烤面包机，客厅灯在这个周末最高浓度的房子里一起使用。几乎所有工作日都使用洗衣机，周末不使用笔记本电脑……

设备间的使用关系

在房间1：喜欢在准备食物时放松……

房间活动预测

房间2：所提出的模型在每个阶段的组合准确度分别达到81.82（25％），85.90（50％），89.58（75％）。

各个房间活动预测

前提：使用了75%的训练集
房屋1,2,3,4和5的短时准确度分别为92.31％，100.00％，66.67％，100.00％和100.00％。房屋1,2,3,4和5的长时准确率分别为90.91％，90.00％，70.00％，70.00％和80.00％

Conclusion and Future Work

结果：提出了一个用于识别人类活动模式的模型。
展望：改进模型，以实时的方式引入多个房屋的大数据挖掘的分布式学习，以便可以健康应用可以迅速做出反应比如发送警报消息给病人或者监护提供人。
再展望：构建一个健康本体模型，以自动将发现的设备映射到潜在的活动。这意味着我们可以有效地训练系统并提高检测人类活动的准确性。

Ending！