多模态大型语言模型(MLLMs)在自然图像领域内的视觉和视觉语言任务中取得了显著的成功。由于自然图像与遥感图像之间存在显著差异,这阻碍了MLLM在遥感领域的发展。目前,仍然缺乏一个统一而强大的MLLM,能够执行各种遥感视觉任务。为填补这一空白,科学家们提出了一种名为EarthGPT的MLLM,用于普遍的遥感图像解译,统一集成了各种多传感器遥感解译任务。
在EarthGPT中,研究人员提出了一种视觉增强感知机制,用于优化和融合粗粒度语义感知信息和细粒度详细感知信息。随后,设计了一种跨模态相互理解方法,实现了视觉-语言对齐,并加深了跨模态理解,并研究了一种统一的指导调整方法,用于遥感多传感器(例如,光学、SAR和红外)图像解释和涵盖场景分类、图像字幕、区域级字幕、视觉定位、目标检测等下游任务。
此外,他们还构建了MMRS数据集,这是一个包含超过100万条多传感器多模态RS指令遵循数据的数据集。MMRS方法解决了MLLM缺乏遥感专家知识的挑战,并鼓励定制特定于遥感领域应用的MMLM的增长。进行了大量实验证明EarthGPT在大多数不同的遥感觉解译任务中超过了许多现有的专家模型,并提供了适用于多个下游任务的开放集推理能力,促进了MLLM在遥感领域的发展。该项研究证明EarthGPT在各种遥感视觉解释任务中相对于其他专业模型和MLLM的卓越性能,证明了EarthGPT的有效性,并为开放式推理任务提供了一个范例。
研究预印本:Zhang et al. 2024. EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain. https://doi.org/10.48550/arXiv.2401.16822
原创文章,如若转载,请注明出处。