您的当前位置:首页>快讯 > 正文

何恺明新作:通用“扩散+Transformer”新范式——Just image Transformers 每日简讯

  • 2025-11-19 17:12:03 来源:学术头条

现有去噪(Denoising)扩散模型并非以经典意义上的方式“去噪”,即它们不直接预测干净图像。相反,神经网络预测的是噪声或含噪量。

在这项工作中,ResNet 之父、麻省理工学院(MIT)副教授何恺明团队认为,预测干净数据和预测含噪量有着根本性的不同。根据流形假设,自然数据应位于一个低维流形上,而含噪量则不在此流形上。


【资料图】

基于这一假设,他们提倡回归到第一性原理,让神经网络直接预测干净图像。

这使得表观容量不足的网络能够在高维空间中有效运行,一个简单的 Vision Transformer(ViT)——直接作用于由原始像素组成的大尺寸图像 patch——也可以有效地用于扩散建模。

[让我看看]他们认为,在像素上使用简单、大尺寸 patch 的 Transformer 可以成为强大的生成式模型,无需使用 tokenizer、无需预训练、无需额外损失函数和表征对齐,并将这一方法定义为:Just image Transformers(JiT)。

研究表明,JiT(patch 尺寸为 16、32)在 256 和 512 分辨率 ImageNet 上取得了具有竞争力的结果,而在这种情况下,预测高维含噪量可能会导致灾难性失败。

通过将网络映射到流形基础,这项研究回归本质,为在原始自然数据上基于 Transformer 的扩散模型构建了一个自洽的范式。

[强]研究团队还表示,这项工作标志着在原生数据上实现自包含的“扩散 + Transformer”哲学迈出了重要一步。

[哇]除了计算机视觉之外,这种哲学在涉及自然数据(如蛋白质、分子或天气)的其他领域中也是非常可取的,因为在这些领域中设计 tokenizer 是非常非常困难的。

通过最小化领域特定的设计,这一源自计算机视觉的通用“扩散 + Transformer”范式有望得到更广泛的应用。

#大模型 #人工智能 #AI #扩散模型 #何恺明 #学术 #论文 #科技

标签: 流形 AI 论文 科技 何恺明 神经网络 im

推荐阅读

何恺明新作:通用“扩散+Transformer”新范式——Just image Transformers 每日简讯

何恺明新作:通用“扩散+Transformer”新范式——JustimageTransformer

中国10月棕榈油进口量为22万吨 热闻

中国海关数据显示,中国10月棕榈油进口量为22万吨,同比下滑11 7%。1-1

今日要闻!谷歌杀疯了!Gemini 3一夜封神,马斯克奥特曼纷纷点赞

今天凌晨,万众期待的年度压轴之王——谷歌新一代旗舰Gemini3正式发布

北特科技:11月18日持仓该股ETF资金净流入51.85万元,3日累计净流出27.65万元 今日热门

据同花顺(300033)iFind,北特科技(603009)11月18日ETF资金当日净流

焦点播报:南京鑫垚金属再生资源有限公司成立 注册资本100万人民币

天眼查App显示,近日,南京鑫垚金属再生资源有限公司成立,法定代表人

猜您喜欢

【版权及免责声明】凡注明"转载来源"的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。亚洲网倡导尊重与保护知识产权,如发现本站文章存在内容、版权或其它问题,烦请联系。 联系方式:8 86 239 5@qq.com,我们将及时沟通与处理。