2024年7月21日,國際多媒體學術會議(ACM International Conference on Multimedia,簡稱ACM Multimedia)公布了論文接收結果。中南民族大學智能計算理論與網絡安全團隊聯合新加坡科技研究局研究人員在海量高維醫學影像數據壓縮技術領域取得的最新論文成果“Evolution-aware VArance(EVA) Coreset Selection for Medical Image Classification”被接收(錄用率26.20%),并進一步以接近滿分評分被選為Oral presentation(4385篇投稿中,僅錄用174篇,錄用率3.97%)。中南民族大學計算機科學學院碩士研究生洪雨欣為第一作者,其導師張瀟(中南民族大學智能計算理論與網絡安全團隊負責人)為唯一通訊作者,中南民族大學為唯一通訊單位。這是我校師生首次以第一作者第一單位身份在CCFA類頂級國際學術會議發表論文。
在醫療領域,對海量高維醫學影像數據進行高效管理和可靠分析是一項關鍵且嚴峻的挑戰,尤其是在資源有限的情況下,如遠程醫療設施和移動設備中,這一需求更為迫切。為了應對這一挑戰,有效的數據集壓縮技術顯得尤為重要,它可以降低存儲、傳輸和計算成本。然而,現有的核心集選擇(Coreset Selection)方法主要針對自然圖像數據集設計,尚未充分考慮醫學圖像領域的特定需求。醫學圖像數據集具有類內差異性(intra-class variation)和類間相似性(inter-class similarity)等特性,導致現有方法在醫學圖像上的表現不佳。

圖1 醫學圖像中的類間相似性與類內差異性示例。張瀟供圖
為了解決這一問題,中南民族大學智能計算理論與網絡安全團隊提出了一種新的核心集選擇策略,稱為"Evolution-aware VArance (EVA)"。EVA通過雙窗口方法捕捉模型訓練的進化過程,并通過方差測量更精確地反映樣本重要性的波動,從而挑選出更能代表原始數據集的核心子集(coreset)。

圖2 EVA整體框架。張瀟供圖
在醫學圖像數據集上進行的大量實驗證明,本文策略比以往的SOTA方法更有效,尤其是在高壓縮率的情況下,優勢更為明顯。此外,在自然圖像數據集以及不同模型架構上的實驗進一步驗證了EVA的有效性和魯棒性。總的來說,EVA策略能夠在大幅減少訓練數據量的情況下,保持甚至提高模型的性能,從而提高數據存儲、傳輸和計算的效率。
ACM Multimedia由國際計算機協會(ACM)發起,是多媒體處理、分析與計算領域最具影響力的國際會議,中國計算機學會(CCF)推薦的A類國際學術會議。CCF認為“A類指國際上極少數的頂級會議,鼓勵我國學者去突破”。ACM Multimedia2024將于2024年10月28日于澳大利亞墨爾本舉辦。