分享好友 最新动态首页 最新动态分类 切换频道
智能感知与人机协同教育部重点实验室多项研究成果入选NeurIPS 2024
2024-12-29 17:16

上海科技大学智能感知与人机协同教育部重点实验室专注于新一代机器智能与人类协同发展及相互增强技术,致力于建设智能人机协同与交互原创研究基地本年度实验室9项研究成果成功入选神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS 2024)研究成果涵盖3D场景理解、视觉-语言基石模型、深度平衡模型、生物成像重建等前沿方向。今年大会共收到15671篇有效论文投稿,录取率为25.8%。大会于12月9日在加拿大温哥华召开。


1. 使用八叉树查询进行的高效、多粒度占用预测方法

OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries

3D场景理解中的占用预测对自动驾驶、机器人导航等领域至关重要。然而,传统方法依赖于规则网格表示,计算成本高昂,且难以捕捉小物体的细节。本研究提出了一种创新的 3D 占用预测框架OctreeOcc。实验表明,OctreeOcc 在预测性能上超越现有方法,同时将计算成本降低 15%-24%。为高效的 3D 场景细粒度理解提供了新方向。

 


上海科技大学信息学院科研助理陆宇航为论文第一作者,上海人工智能实验室王泰研究员与上海科技大学马月昕教授为共同通讯作者。 

代码链接: https://github.com/4DVLab/OctreeOcc

论文链接https://arxiv.org/abs/2312.03774


2. 泛化还是检测?探索多重分布变化下的鲁棒语义分割

Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts

开放世界场景往往同时存在未知物体和未知领域,一个理想的分割模型需要具备检测未知物体(Out-of-Distribution Detection, OOD)并泛化到未知领域(Domain Generalization, DG)的能力。针对这一挑战,研究人员设计了一种新颖的生成式数据增强方法,用以产生同时包含新物体和新领域的图片。同时提出了一种新的训练策略,充分利用这些包含多种分布变化的生成图片。在具有语义和领域变化的所有基准测试中,该方法实现了未知物体检测和领域泛化任务的最先进性能。

 


上海科技大学信息学院2021级硕士生郜之桐为论文第一作者,何旭明教授为通讯作者,2020级本科生李炳楠也参与了研究工作。

代码链接: https://github.com/gaozhitong/MultiShiftSeg

论文链接: http://arxiv.org/abs/2411.03829

 

3. 基于视觉-语言基石模型的联邦学习理论与算法

Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method

随着像CLIP这样的大型视觉-语言基石模型的发展,基于这些基石模型的联邦学习正受到越来越多的关注。提示词微调的联邦学习由于其通信开销较小和计算资源消耗较低,已成为基于预训练基石模型的联邦学习中的主流范式。然而,提示词微调方法在理论分析方面仍缺乏深入探讨。本研究基于特征动力学提出了一种针对联邦提示词微调的理论分析框架。实验展示了“提示词组合”算法相较于单一提示词的性能优势,并通过更多的消融实验验证了所提出分析框架的有效性。

 


上海科技大学是该成果的第一完成单位,信息学院2023级研究生潘比康为第一作者,石野教授为通讯作者,论文合作者RIKEN中心黄伟博士为论文共同通讯作者。

论文链接:https://www.arxiv.org/abs/2409.19610

代码链接:https://github.com/PanBikang/PromptFolio.git

 

4. 从神经网络崩塌视角理解深度平衡模型的表征能力

Understanding Representation of Deep Equilibrium Models from Neural Collapse Perspective

近年来,DEQ作为一种典型的隐式神经网络结构,凭借其内存高效性和强大的表现力,得到了广泛的关注。本研究探讨了深度平衡模型(Deep Equilibrium Model,DEQ)的表现,采用神经网络崩塌(Neural Collapse,NC)的视角对其进行系统分析。首次将 NC 分析引入 DEQ,并系统性地比较了 DEQ 与显式神经网络在不同条件下的表现,证明了 DEQ 在不平衡数据处理中具备显著优势。这些研究为 DEQ 的应用提供了新的理论支持,也为进一步探索隐式神经网络的性能提供了基础。

 


上海科技大学是该成果的第一完成单位,信息学院2021级研究生孙海翔为第一作者,石野教授为论文的通讯作者。

论文链接:https://arxiv.org/abs/2410.23391

 

5. Q加权变分策略优化:基于扩散模型的强化学习

Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization

实践证明,利用扩散策略可以显著提高强化学习算法在连续控制任务中的性能,克服单模态策略(如高斯策略)的局限性,以此来为智能体提供更强的探索能力。由于缺乏样本标签,扩散模型的训练目标无法用于在线强化学习中直接进行优化。为了克服这个问题,本研究提出了一种基于扩散模型的在线强化学习算法:Q加权变分策略优化 (QVPO)。QVPO算法充分利用了扩散策略的探索能力和多模态性,防止强化学习策略收敛到次优解。MuJoCo仿真环境的连续控制任务基准上的全面测试表明,QVPO算法在累积奖励和样本效率方面都优于之前的其他算法。

 


上海科技大学是该成果的第一完成单位,信息学院2021级研究生丁枢桐为第一作者,石野教授为论文的通讯作者,论文合作者还有上科大信息学院虞晶怡教授、汪婧雅教授、任侃教授和上海交通大学的张伟楠教授。

论文链接:https://arxiv.org/pdf/2405.16173

代码链接:https://dingsht.tech/qvpo-webpage/

 

6. 迈向时间序列编辑

Towards Editing Time Series

时间序列生成是时间序列分析的一项基础且重要的任务,其目标主要用来解决现实数据的稀疏性、隐私敏感性等问题。本研究首次提出了一个全新的时间序列生成任务范式——时间序列编辑。该方法能够在给定样本的基础上,针对特定需求灵活修改属性(如心率数据中的异常值、气象数据中的特定波动),这为生成更贴合实际需求的数据提供了可能。本研究还创新推动了时间序列生成模型从“生成数据”走向“编辑数据”的精细化操作。这不仅拓展了生成模型的应用场景,也为更高效的时间序列生成方法提供了思路。

 


美国伊利诺伊大学厄巴纳-香槟分校的博士生景宝宇与上海科技大学信息学院2024级硕士生顾书齐为论文共同第一作者,上海科技大学信息学院任侃教授为通讯作者,上海科技大学2024级研究生陈天宇与2022级本科生杨志禹也参与了研究工作。

项目主页: https://seqml.github.io/tse/

 

7. 用于生成式3D基础模型的神经坐标场模型

MeshXL: Neural Coordinate Field for Generative 3D Foundation Models MeshXL

3D数据的多边形网格表示因其灵活性、快速渲染速度和存储效率,在各类应用中被广泛采用。然而,由于其非结构化的图表示,直接生成高保真度的3D网格具有挑战性。本研究提出了一种神经坐标场(NeurCF),结合显式坐标表示和隐式神经嵌入,为大规模序列化网格建模提供了一种简单而有效的表示方法。基于此,研究人员开发了MeshXL,这是一系列生成式预训练自回归模型,能够生成高质量的3D网格,并可作为各种下游应用的基础模型。

  

上海科技大学信息学院已毕业博士陈欣为论文的项目负责人,虞晶怡教授课题组2019级博士生庞安琪也参与了研究工作。

代码链接: https://github.com/OpenMeshLab/MeshXL

论文链接: https://arxiv.org/abs/2405.20853

项目主页: https://meshxl.github.io/

 

8. 基于物理信息的生成式冷冻电镜

Physics-Informed Generative Cryo-Electron Microscopy

单颗粒冷冻电子显微镜(cryo-EM)在解析蛋白质的近原子分辨率三维结构方面至关重要。由于缺乏高质量的标注数据集进行训练,目前的AI冷冻电镜模型性能仍然受到限制。本研究提出了一种基于物理信息的生成冷冻电子显微镜(CryoGEM)模型,首次将基于物理的cryo-EM模拟与生成的无配对噪声转换相结合,从而生成具有逼真噪声的物理正确的合成cryo-EM数据集。大量实验表明,CryoGEM能够生成真实的cryo-EM图像。生成的数据集可以作为冷冻电镜基础大模型、粒子挑选和姿势估计模型的训练数据,最终提高重建分辨率。

 


上海科技大学信息学院2024级研究生陈麒合、2022级博士生张家恺为共同第一作者,虞晶怡教授为通讯作者,何旭明教授课题组、刘志杰教授课题组也参与了本项目。

项目链接:https://jiakai-zhang.github.io/cryogem/

论文链接:https://arxiv.org/pdf/2312.02235

 

9. 用于冷冻电镜的去噪重建自动编码器

DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EM

自监督预训练方法往往忽视了冷冻电镜(cryo-EM)图像中由高水平噪声引起的严重损坏。研究人员提出了DRACO,一种用于cryo-EM的去噪重建自编码器,灵感来自Noise2Noise(N2N)方法,应用了去噪-重建混合训练方案。对于DRACO的预训练,数据集的质量至关重要,研究人员从一个未经筛选的公共数据库中构建了一个高质量、多样化的数据集,包含超过27万个序列或显微图像。预训练后,DRACO自然作为一个通用的cryo-EM图像去噪器,并且成为各种cryo-EM下游任务的基础模型。与最先进的基准模型相比,DRACO在去噪、显微图像筛选和蛋白质颗粒挑选任务中表现出最佳性能。

 


上海科技大学信息学院2022级研究生沈盈君、2023级研究生戴海钊为共同第一作者,虞晶怡教授为通讯作者,裴远研究员也参与了本项目。

项目链接:https://duskngai.github.io/draco/

最新文章
AI智能文案生成工具:一键自动创作,全面覆多种写作需求与搜索问题
在数字化时代,内容创作已成为众多行业竞争的关键因素之一。面对繁重的写作任务和多样化的搜索疑问,传统的人工创作办法往往耗时耗力。此时,智能文案生成工具应运而生,它可以一键自动创作,全面覆多种写作需求与搜索难题,为创作者们提供
AI应用有哪些?盘点10个常见的AI应用领域
人工智能AI在我们的生活中起着越来越大的作用。从智能家居设备到预测医疗状况的系统,AI正在各个领域展示出强大的实力。本文将深入探讨人工智能AI技术的主要应用领域,以及一些好用的AI应用软件。AI人工智能技术,即人工智能(Artificial I
Google 即将正式推出 SearchWiki
Google 的 SearchWiki 是这样一种功能,它允许用户对搜索结果进行改造,排序,删除,添加,评论,Google 搜索会记住用户的修改,下一次搜索相同内容时,Google 的搜索结果会依照用户曾做
ChatGPT4.0 交流技巧:让你的对话更智能
ChatGPT4.0 交流技巧:让你的对话更智能随着人工智能技术的发展,聊天机器人在日常生活中扮演着越来越重要的角色。ChatGPT4.0作为一款新一代智能聊天机器人,其强大的对话生成能力和丰富的知识库,让人们可以与之进行更加自然流畅的交流。
2024年评测:专业评测:高人气万能转换器软件
下面给大家推荐几款好用的免费的万能转换器软件,有需要的小伙伴们来了解一下。格式工厂是一款全能的多媒体格式转换软件,支持视频、音频和图片等多种类型的转换。它能够将所有类型视频转换成MPG/AVI/3GP/FLV/MP4,音频转换成MP3/OGG/WMA/M
AI写广告标语工具大全
搭话快写-AI写广告标语搭话快写是一款集成了多种AI写广告标语工具的全能应用软件。随着AI技术的快速发展,广告标语的撰写变得越来越重要,而搭话快写则为广告人提供了一站式解决方案。无论是需要创意灵感,还是快速生成广告标语,搭话快写
AI语音机器人:让沟通更智能、更贴心
AI语音机器人是什么?AI语音机器人的优势AI语音机器人的技术原理AI语音机器人在不同行业中的应用AI语音机器人的温暖结语在这个信息爆炸的时代,人与人之间的沟通变得越来越重要。然而,面对海量的信息和复杂的需求,传统的沟通方式显得有些
5个实用生成器助您轻松创作
生成器分享:这些工具你知道吗?在这个信息爆炸的时代,我们每天都要处理大量的信息,有时候甚至不知道从哪里开始。为了帮助您更好地管理和创作内容,本文将为您介绍一些实用的标题生成器工具,让您在撰写文章、报告、博客等时不再为标题而
A/B测试是什么意思?Google Ads 测试流程
AB测试是为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。借
ChatGPT幕后:微软与OpenAI“复杂的交易”谁是赢家谁是傻瓜?
·实际上,OpenAI的做法是将公司出租给微软,租期取决于OpenAI的盈利速度。直观来看,投资条款对微软极为有利。·最终,判断这笔交易谁是最大赢家,很大程度上取决于ChatGPT和OpenAI目前在其产品组合中的其他生成式AI技术(例如文本到图像
相关文章
推荐文章
发表评论
0评