E2GAN:End-to-End-Generative-Adversarial-Network-for-Multivariate-Time-Series-Imputation

一篇来自IJCAI‘19的关于数据补全的work, 原文地址 Link

机翻abstract

缺少的值出现在大多数多元时间序列中,阻止了对多元时间序列数据的高级分析。 现有的归因方法试图通过删除,统计归因,基于机器学习的归因和生成归因来处理缺失值。 但是,这些方法要么无法处理时间信息,要么无法进行多阶段处理。 本文提出了一种端到端生成模型E2GAN来估算多元时间序列中的缺失值。 借助判别损失和平方误差损失,E2GAN可以在一个阶段以最接近的完整时间序列来估算不完整时间序列。 在多个实际数据集上进行的实验表明,我们的模型在插补精度上优于基线,并在下游应用程序上获得了最新的分类/回归结果。 另外,在神经网络的训练中,我们的方法也比多阶段方法获得更好的时间效率。

背景

数据不全很重要云云,现在主流的方法有删除、插补,以及最新的如GAN based,但是GAN based 方法有缺陷,如训练时间过长、过分依赖于noise的输入,如果noise不合适极大影响结果。

因此提出了 an end-to-end GAN-based imputation model $E^{2}GAN$, 不仅缩短了训练时间,而且能够产生更加可靠的数据。
在Generator中,首先将随机向量添加至初始样本,并映射至低维空间,然后将其从低维空间中重构($\textcolor{red}{类似PCA???}$)。然后正常去train model. 最后再用重构后的样本进行补全.

In summary, the main contributions of this paper are as follows:
(1)We propose a novel end-to-end generative adversarial
network that simplifies the process of time series imputation,
i.e., reduces the training time. (2) The noised compressing
and reconstructing strategy makes sure that the imputed
values more reasonable than [Luo et al., 2018]’s. (3) Experiments
on multiple real-world datasets show that the proposed
method achieves new state-of-the-art imputation accuracy.

文献综述

针对残缺数据处理,简单讲了一下现有的技术,如,

直接删除 / 预测方法 / KNN / Matrix Factorization / RNN / GAN.

并再次鞭尸GAN based缺点

问题描述

….

Method

这里简单使用一个AE和recurrent cell作为 Generator,同时,令这个AE的输出$x’$尽可能的接近输入 $x$.

E2GAN

Geneator

有点类似于DAE, 在输入处将给不完全数据增加 noise $\mu$ 符合正态分布 $\mathcal{N}(0, 0.01)$ =>

针对generator的loss function,也进行了修改:

其中 $\lambda$ 是超参数

Idea

和他们去年在NIPS上的文章很类似,也是一个GAN生成数据,只不过Generator替换成为了DAE结构。

E2GAN:End-to-End-Generative-Adversarial-Network-for-Multivariate-Time-Series-Imputation

https://lionelsy.github.io/blog/2020/10/15/P1-E2EGAN/

作者

Shuyu Zhang

发布于

2020-10-15

更新于

2022-10-16

许可协议

评论