环球全讯官网招聘电话号码查询,棋牌类游戏违法吗,凯旋门娱乐场官网首存(中国)·官方网站

題目: 強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)算法的Minimax率和亞高斯估計(jì)

報(bào)告專家：張慧銘，北航人工智能研究院副教授

報(bào)告時(shí)間：2023年12月8日（周五）10：00 - 11：30

報(bào)告地點(diǎn)：學(xué)院9-122會(huì)議室

報(bào)告摘要:

在機(jī)器學(xué)習(xí)中，為了分析學(xué)習(xí)算法在最不利情況下的表現(xiàn)，我們使用了一個(gè)稱為Minimax速率的理論概念。我們介紹了強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)問題及其Minimax遺憾上界速率。討論了兩種算法的后悔率：上置信區(qū)間（UCB）算法和隨機(jī)情況下的Minimax最優(yōu)策略（MOSS）算法。

在非漸近統(tǒng)計(jì)推斷中，亞高斯分布的類方差型參數(shù)至關(guān)重要。然而，使用經(jīng)驗(yàn)矩母函數(shù)直接估計(jì)這些參數(shù)是不可行的。為了解決這個(gè)問題，我們建議使用通過最大化一系列標(biāo)準(zhǔn)化矩得到的亞高斯本質(zhì)矩范數(shù)。在實(shí)踐中，我們提供了一種直觀的方法，使用亞高斯圖檢查有限樣本數(shù)據(jù)的亞高斯性質(zhì)。本質(zhì)矩范數(shù)可以通過簡(jiǎn)單的帶入方法進(jìn)行穩(wěn)健估計(jì)。由于現(xiàn)有的UCB算法包含未知的亞高斯參數(shù)，我們提出了亞高斯和小樣本假設(shè)下的“Bootstrap+亞高斯估計(jì)UCB”算法。

專家簡(jiǎn)介：張慧銘，北航人工智能研究院的副教授。曾在澳門大學(xué)擔(dān)任過濠江學(xué)者博士后研究員(2020-2022)；曾就讀于北京大學(xué)(2016-2020)獲得統(tǒng)計(jì)學(xué)博士。本科（2009級(jí)）與碩士（2013級(jí)）均就讀于華中師大，獲得數(shù)學(xué)與經(jīng)濟(jì)學(xué)雙學(xué)士學(xué)位以及數(shù)理統(tǒng)計(jì)碩士學(xué)位。研究方向：非漸近推斷、穩(wěn)健估計(jì)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)理論、大數(shù)據(jù)子抽樣算法、高維概率統(tǒng)計(jì)、函數(shù)型數(shù)據(jù)等。發(fā)表SCI論文22篇(包括機(jī)器學(xué)習(xí)與人工智能領(lǐng)域頂刊JMLR; 統(tǒng)計(jì)頂刊JASA,Biometrika; 精算頂刊IME; 統(tǒng)計(jì)、數(shù)學(xué)、與物理知名期刊Statistica Sinica, Journal of Complexity, 和Physica Scripta等；谷歌學(xué)術(shù)引用超500次)，其中兩篇為Web of Science高被引論文。目前主持國(guó)自科青基一項(xiàng)；擔(dān)任美國(guó)《數(shù)學(xué)評(píng)論》評(píng)論員，SCI期刊Mathematics (Q1區(qū),中科院三區(qū))的專題顧問委員會(huì)成員(Topical Advisory Panel Member)以及該刊的"高維與非漸近統(tǒng)計(jì)專欄"客座主編。曾擔(dān)任統(tǒng)計(jì)、概率、人工智能與機(jī)器學(xué)習(xí)領(lǐng)域頂刊（AOS,AOAP,JASA,JMLR,IEEET-SP）的審稿人。

作者：羅敬；編輯：羅敬；審核：郭暉；上傳：郭敏。

亲朋棋牌官方下载-棋牌室装修随意_百家乐棋牌游戏币_全讯网恭喜发财官网 (中国)·官方网站