題目: 強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)算法的Minimax率和亞高斯估計(jì)
報(bào)告專家:張慧銘,北航人工智能研究院副教授
報(bào)告時(shí)間:2023年12月8日(周五)10:00 - 11:30
報(bào)告地點(diǎn):學(xué)院9-122會(huì)議室
報(bào)告摘要:
在機(jī)器學(xué)習(xí)中,為了分析學(xué)習(xí)算法在最不利情況下的表現(xiàn),我們使用了一個(gè)稱為Minimax速率的理論概念。我們介紹了強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)問題及其Minimax遺憾上界速率。討論了兩種算法的后悔率:上置信區(qū)間(UCB)算法和隨機(jī)情況下的Minimax最優(yōu)策略(MOSS)算法。
在非漸近統(tǒng)計(jì)推斷中,亞高斯分布的類方差型參數(shù)至關(guān)重要。然而,使用經(jīng)驗(yàn)矩母函數(shù)直接估計(jì)這些參數(shù)是不可行的。為了解決這個(gè)問題,我們建議使用通過最大化一系列標(biāo)準(zhǔn)化矩得到的亞高斯本質(zhì)矩范數(shù)。在實(shí)踐中,我們提供了一種直觀的方法,使用亞高斯圖檢查有限樣本數(shù)據(jù)的亞高斯性質(zhì)。本質(zhì)矩范數(shù)可以通過簡(jiǎn)單的帶入方法進(jìn)行穩(wěn)健估計(jì)。由于現(xiàn)有的UCB算法包含未知的亞高斯參數(shù),我們提出了亞高斯和小樣本假設(shè)下的“Bootstrap+亞高斯估計(jì)UCB”算法。
專家簡(jiǎn)介:張慧銘,北航人工智能研究院的副教授。曾在澳門大學(xué)擔(dān)任過濠江學(xué)者博士后研究員(2020-2022);曾就讀于北京大學(xué)(2016-2020)獲得統(tǒng)計(jì)學(xué)博士。本科(2009級(jí))與碩士(2013級(jí))均就讀于華中師大,獲得數(shù)學(xué)與經(jīng)濟(jì)學(xué)雙學(xué)士學(xué)位以及數(shù)理統(tǒng)計(jì)碩士學(xué)位。研究方向:非漸近推斷、穩(wěn)健估計(jì)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)理論、大數(shù)據(jù)子抽樣算法、高維概率統(tǒng)計(jì)、函數(shù)型數(shù)據(jù)等。發(fā)表SCI論文22篇(包括機(jī)器學(xué)習(xí)與人工智能領(lǐng)域頂刊JMLR; 統(tǒng)計(jì)頂刊JASA,Biometrika; 精算頂刊IME; 統(tǒng)計(jì)、數(shù)學(xué)、與物理知名期刊Statistica Sinica, Journal of Complexity, 和Physica Scripta等;谷歌學(xué)術(shù)引用超500次),其中兩篇為Web of Science高被引論文。目前主持國(guó)自科青基一項(xiàng);擔(dān)任美國(guó)《數(shù)學(xué)評(píng)論》評(píng)論員,SCI期刊Mathematics (Q1區(qū),中科院三區(qū))的專題顧問委員會(huì)成員(Topical Advisory Panel Member)以及該刊的"高維與非漸近統(tǒng)計(jì)專欄"客座主編。曾擔(dān)任統(tǒng)計(jì)、概率、人工智能與機(jī)器學(xué)習(xí)領(lǐng)域頂刊(AOS,AOAP,JASA,JMLR,IEEET-SP)的審稿人。
作者:羅敬;編輯:羅敬;審核:郭暉;上傳:郭敏。