題目: 強化學習中的多臂老虎機算法的Minimax率和亞高斯估計
報告專家:張慧銘,北航人工智能研究院副教授
報告時間:2023年12月8日(周五)10:00 - 11:30
報告地點:學院9-122會議室
報告摘要:
在機器學習中,為了分析學習算法在最不利情況下的表現,我們使用了一個稱為Minimax速率的理論概念。我們介紹了強化學習中的多臂老虎機問題及其Minimax遺憾上界速率。討論了兩種算法的后悔率:上置信區間(UCB)算法和隨機情況下的Minimax最優策略(MOSS)算法。
在非漸近統計推斷中,亞高斯分布的類方差型參數至關重要。然而,使用經驗矩母函數直接估計這些參數是不可行的。為了解決這個問題,我們建議使用通過最大化一系列標準化矩得到的亞高斯本質矩范數。在實踐中,我們提供了一種直觀的方法,使用亞高斯圖檢查有限樣本數據的亞高斯性質。本質矩范數可以通過簡單的帶入方法進行穩健估計。由于現有的UCB算法包含未知的亞高斯參數,我們提出了亞高斯和小樣本假設下的“Bootstrap+亞高斯估計UCB”算法。
專家簡介:張慧銘,北航人工智能研究院的副教授。曾在澳門大學擔任過濠江學者博士后研究員(2020-2022);曾就讀于北京大學(2016-2020)獲得統計學博士。本科(2009級)與碩士(2013級)均就讀于華中師大,獲得數學與經濟學雙學士學位以及數理統計碩士學位。研究方向:非漸近推斷、穩健估計、機器學習與深度學習理論、大數據子抽樣算法、高維概率統計、函數型數據等。發表SCI論文22篇(包括機器學習與人工智能領域頂刊JMLR; 統計頂刊JASA,Biometrika; 精算頂刊IME; 統計、數學、與物理知名期刊Statistica Sinica, Journal of Complexity, 和Physica Scripta等;谷歌學術引用超500次),其中兩篇為Web of Science高被引論文。目前主持國自科青基一項;擔任美國《數學評論》評論員,SCI期刊Mathematics (Q1區,中科院三區)的專題顧問委員會成員(Topical Advisory Panel Member)以及該刊的"高維與非漸近統計專欄"客座主編。曾擔任統計、概率、人工智能與機器學習領域頂刊(AOS,AOAP,JASA,JMLR,IEEET-SP)的審稿人。
作者:羅敬;編輯:羅敬;審核:郭暉;上傳:郭敏。