电子信息工程学院李凤莲教授团队在基于多智能体强化学习的聚类算法(SC-MARLC)领域取得重要研究进展,研究以“Multi-agent reinforcement learning clustering algorithm based on silhouette coefficient”为题发表在国际学术期刊《Neurocomputing》(影响因子5.5,中科院2区,Top期刊)上。该论文的第一署名单位为太原理工大学,第一作者是电子信息工程学院通信工程专业硕士生杜鹏,通讯作者为电子信息工程学院李凤莲教授。
在人工智能的快速发展中,多智能体强化学习(Multi-agent reinforcement learning ,MARL)作为一种新兴算法,在协作环境中展现出强大的性能。然而,多智能体系统面临的主要挑战之一是非平稳性问题,这导致收敛性差,严重影响了系统的性能。随着社会对数据处理和分析需求的增加,如何有效解决这一问题,并将其运用于数据聚类领域成为了研究的热点。
图1. 多智能体强化学习聚类任务的马尔科夫决策过程
针对这一难题,电子信息工程学院李凤莲教授团队提出了一种基于轮廓系数(Silhouette Coefficient)的多智能体强化学习聚类算法(Multi-agent reinforcement learning clustering algorithm based on silhouette coefficient ,SC-MARLC)。该算法通过建立了多智能体与样本之间的映射关系,为每一个样本点分配一个智能体,并基于样本轮廓系数提出了良好类簇子集结构,该结构能帮助智能体寻找最佳的数据聚类结果,显著的克服非平稳性问题。最后,提出了智能体的动作修正策略,以加速算法收敛速度,降低算法时间复杂度。
图2. 基于轮廓系数的多智能体强化学习聚类算法伪代码
图3. SC-MARLC算法在iris数据集上的收敛性曲线
图4. 良好类簇子集结构与智能体动作修正操作的消融实验
消融实验结果表明,良好类簇子集结构能够有效避免多智能体系统的非平稳性问题,智能体动作修正策略可加速SC-MARLC算法收敛速度,降低算法运行时间。
表1:SC-MARLC算法与基准算法在纯度指标上的比较
论文研究对比了SC-MARLC与11种现有聚类算法在15个公共数据集上的性能,结果显示所提出的算法在10个数据集上表现最佳。
本研究的创新点在于将轮廓系数引入多智能体强化学习聚类中,有效地解决了多智能体系统中的非平稳性问题,提高了算法的收敛性和性能。这一成果不仅推动了强化学习在聚类分析中的应用,也为解决复杂环境下的决策问题提供了新的思路和方法。此外,该算法的高性能表现预示着其在实际应用中的巨大潜力,特别是在需要高效数据处理和分析领域。目前课题组已将该方法用于新能源电池材料安全性评估预测系统,并申请国内发明专利一项。
论文连接:https://doi.org/10.1016/j.neucom.2024.127901