在时间序列问题中,有一种类型的时间序列不是等频采样的,即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究,但是在这种不规则采样的时间序列中研究比较少,并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别
今天介绍的这篇文章,在不规则采样的时间序列问题中,探索了表示学习的应用方法,借鉴了NLP中的相关经验,在下游任务上取得了比较显著的效果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片以下是不规则时间序列数据的一种表示形式,如下图所示。每个时间序列由一组三元组组成,每个三元组包含时间、数值和特征三个字段,分别表示时间序列中每个元素的采样时间、数值和其他特征。除了这些三元组之外,每个序列还包括其他不随时间变化的静态特征,以及每个时间序列的标签
图片
一般这种不规则时间序列建模方法,常见的结构是将上述triple数
据分别embedding后,拼接到一起,输入到transformer等模型中,这种方式将每个时刻的信息,以及每个时刻的时间表征融合到一起输入到模型,进行后续任务的预测。
图片
在本文的任务中,使用的数据既包括这些有label的数据外,还包括无label的数据,用于做无监督预训练。
本文的预训练方法参考了自然语言处理领域的经验,主要涵盖了两个方面
预训练任务的设计:为了处理不规则的时间序列,需要设计适当的预训练任务,让模型能够从无监督数据中学习到有效的表示。本文主要介绍了基于预测和基于重构的两种预训练任务
数据增强方式设计:本研究中设计了用于无监督学习的数据增强方式,其中包括添加噪声、增加随机mask等方式
另外,文章还介绍了一种针对不同分布数据集的算法,用于探索最优的无监督学习方法
本文提出了两种不规则时间序列上的预训练任务,分别是Forecasting pretraining和Reconstruction pretraining。
在Forecasting pretraining中,对于时间序列中的每个特征,根据某个大小的时间窗口前序序列,预测它的取值。这里的特征指的是triplet中的feature。由于每种feature在一个时间窗口中可能出现多次,或者不会出现,因此文中采用了这个feature第一次出现的值作为label进行预训练。这其中输入的数据包括原始序列,以及增强后的时间序列。
在重建预训练中,首先对于一个原始的时间序列,通过某种数据增强方式生成一个增强后的序列,然后使用增强后的序列作为输入,经过编码器生成表示向量,再输入到一个解码器中还原原始的时间序列。文章中通过一个掩码来指导需要还原哪些部分的序列,如果这个掩码都为1就是还原整个序列
在得到预训练参数后,可以直接应用于下游的finetune任务,整个的pretrain-finetune流程如下图所示。
图片
在这篇文章中,我们提出了两种数据增强的方法。第一种方法是增加噪音,通过在数据中引入一些随机的干扰来增加数据的多样性。第二种方法是随机遮盖,通过随机选择一些数据的部分进行遮盖,从而促使模型学习更加鲁棒的特征。这些数据增强的方法可以帮助我们提高模型的性能和泛化能力
对于原始序列的每个值或时间点,可以通过增加高斯噪声的方式来增加噪声。具体计算方法如下:
图片
随机mask的方式借鉴了NLP中的思路,通过随机选择time、feature、value等元素进行随机mask和替换,构造增强后的时间序列。
下图展示了上述两种类型数据增强方法的效果:
图片
此外,文中将数据增强、预训练方式等进行不同组合,针对不同的时间序列数据,从这些组合中search到最优的预训练方法。
在文中进行了多个数据集的实验,对比了不同预训练方法在这些数据集上的效果。可以观察到,文中提出的预训练方式在大部分数据集上都取得了显著的效果提升
图片
# 提出了
# 自然语言
# 取得了
# 掩码
# 如下图
# 进行了
# 最优
# 所示
# 种方法
# 谷歌
# 两种
# embedding
# 重构
# https
# nlp
# transformer
# 算法
# for
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
DesignGen: 5个AI模型革新服装设计,快速实现创意
百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭
淋巴按摩终极指南:在家打造紧致透亮肌肤
CharSnap AI:终极角色扮演与群聊平台指南
Dr.Job AI:职场简历优化终极指南,提升求职成功率
批改网AI检测工具怎样优化检测精度_批改网AI检测工具精度调节与模型选择【实操】
百度浏览器ai助手怎么关闭 百度浏览器ai功能禁用
OpenAI DevDay 2025:开发者必知的七大AI进展
P&ID图全解析:工艺流程图解读与应用指南
豆包 AI 在英语单词高效背诵中的趣味应用
国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!
2025年冷邮件营销:技巧、工具和成功案例分享
ChatGPT一键生成PPT怎么加内容_ChatGPTPPT内容添加【方法】
教你用AI将长视频内容切片,并自动生成短视频文案
教你用AI快速制作思维导图,3步理清所有工作思路
支付宝出行AI能否自动抢票_支付宝AI出行抢票设置与免密支付【方法】
Venggage AI Pitch Deck生成器:快速创建投资者演示文稿
百度输入法总是弹出ai 百度输入法ai自动弹出关闭
AI驱动的潜在客户挖掘:15分钟搭建营销机构并获利
豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口
Midjourney怎么用一键生成logo_Midjourneylogo生成步骤【教程】
快速生成PPT工具怎么用_快速生成PPT工具使用方法详细指南【教程】
Guru知识管理平台:AI驱动的企业知识中心构建指南
如何用ChatGPT模拟面试并优化你的求职文书?
Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机
Speerise亮面体操服测评:舒适与时尚的完美结合
生物医学图像分割:U-Net模型训练与应用详解
如何利用豆包 AI 快速查询当地生活服务资讯
通义千问怎样优化提示词更口语化_通义千问口语化技巧【教程】
怎么用ai生成配色方案 AI设计色彩搭配与灵感获取【技巧】
提升房地产业务:AI语音助手赋能房地产经纪公司
AI驱动营销:如何利用人工智能构建高效营销漏斗
播客数据深度解析:揭秘全球听众分布和增长策略
利用 ChatGPT 进行高质量代码重构与优化
ChatGPT 辅助自媒体博主进行选题与大纲策划
批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】
老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器
法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战
ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南
Claude 4.5 深度解析: Coding, VS Code & AI Agent 新纪元
tofai官网入口链接 tofai网页版在线登录
AI vs. 人工书籍教练:哪个更适合你?终极指南
如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧
OpenArt:终极AI内容创作平台,图像、视频和角色一致性
揭秘面部和谐:打造完美脸型的终极指南
随机故事生成器:激发创意,轻松创作精彩故事
Claude怎么用新功能代码调试_Claude代码调试使用【方法】
教你用AI一键为代码添加注释,小白也能读懂复杂程序
Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】
去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】
2023-10-05
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。