每天都在汆肉中醒来青梅,好男人www在线观看,少妇无码自慰毛片久久久久久,国产欧美另类久久久精品丝瓜

登錄注冊(cè)
新聞 資訊 金融 知識(shí) 財(cái)經(jīng) 理財(cái) 科技 金融 經(jīng)濟(jì) 產(chǎn)品 系統(tǒng) 連接 科技 聚焦 欄目首頁(yè) 游戲

中國(guó)電信AI頂會(huì)競(jìng)賽及論文專(zhuān)題回顧系列之一

2023-12-19 17:33:24來(lái)源:大眾網(wǎng)

近年來(lái),中國(guó)電信在人工智能技術(shù)方向持續(xù)發(fā)力。2023年11月,中國(guó)電信數(shù)字智能科技分公司正式更名為中電信人工智能科技有限公司(以下簡(jiǎn)稱(chēng)“電信AI公司”),標(biāo)志著公司在人工智能領(lǐng)域的戰(zhàn)略布局進(jìn)入了一個(gè)新的階段。在過(guò)去一年里,電信AI公司連續(xù)在21項(xiàng)國(guó)內(nèi)外頂級(jí)AI競(jìng)賽中斬獲佳績(jī),成功獲得100余項(xiàng)專(zhuān)利授權(quán),同時(shí),在CVPR、ACM MM、ICCV等頂級(jí)會(huì)議和期刊上發(fā)表了30余篇高質(zhì)量論文,彰顯了國(guó)資央企在人工智能技術(shù)領(lǐng)域布局的初步成效,也為電信AI公司在人工智能領(lǐng)域開(kāi)啟了新的篇章。

作為一家科技型、能力型、臺(tái)型的專(zhuān)業(yè)公司,電信AI公司自成立以來(lái)一直致力于人工智能核心技術(shù)攻堅(jiān)、前沿技術(shù)研究和產(chǎn)業(yè)空間拓展。公司于2023年11月成立,注冊(cè)資本30億,前身是中國(guó)電信集團(tuán)大數(shù)據(jù)和AI中心。在過(guò)去兩年時(shí)間里,電信AI公司成功自主研發(fā)了星河AI算法倉(cāng)賦能臺(tái)、星云AI四級(jí)算力臺(tái)、星辰通用基礎(chǔ)大模型等一系列創(chuàng)新應(yīng)用成果。目前,電信AI公司現(xiàn)有人員800+,平均年齡31歲,其中80%為研發(fā)人員,70%來(lái)自于國(guó)內(nèi)外互聯(lián)網(wǎng)大廠(chǎng)和AI頭部企業(yè)。為全面加速大模型時(shí)代的研發(fā)進(jìn)度,公司現(xiàn)有A100等效算力的訓(xùn)練卡2500+,專(zhuān)職數(shù)據(jù)標(biāo)注人員300+。同時(shí),公司還聯(lián)合上海人工智能實(shí)驗(yàn)室、西安交通大學(xué)、北京郵電大學(xué)、智源研究院等科研院所,共同打造國(guó)際一流的人工智能技術(shù)和落地應(yīng)用。面向中國(guó)電信6000萬(wàn)視聯(lián)網(wǎng)和數(shù)億用戶(hù)場(chǎng)景,電信AI公司將繼續(xù)加強(qiáng)技術(shù)研發(fā)和創(chuàng)新,推動(dòng)人工智能技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。公司以成為百億級(jí)人工智能服務(wù)商為發(fā)展目標(biāo),致力于成為央企人工智能創(chuàng)新的引領(lǐng)者。

接下來(lái),我們將對(duì)電信AI公司在2023年的一些重要科研成果進(jìn)行系列回顧和分享。本期介紹AI研發(fā)中心TeleAI團(tuán)隊(duì)在ICCV 2023 獲得Temporal Action Localisation賽道冠軍的技術(shù)成果。ICCV是國(guó)際計(jì)算機(jī)視覺(jué)領(lǐng)域的三大頂會(huì)之一,每?jī)赡暾匍_(kāi)一次,在業(yè)內(nèi)具有極高的評(píng)價(jià)。本文將分享該團(tuán)隊(duì)在本次挑戰(zhàn)中采用的算法思路和方案。

ICCV 2023 The Perception Test Challenge-Temporal Action Localisation 冠軍技術(shù)分享

【賽事概覽與團(tuán)隊(duì)背景】

DeepMind發(fā)起的ICCV 2023 The First Perception Test Challenge旨在通過(guò)探索模型在視頻、音頻和文本模態(tài)中的能力。競(jìng)賽涵蓋了四個(gè)技能領(lǐng)域、四種推理類(lèi)型和六個(gè)計(jì)算任務(wù),以更全面地評(píng)估多模態(tài)感知模型的能力。其中,Temporal Action Localisation賽道的核心任務(wù)是對(duì)未剪輯的視頻內(nèi)容進(jìn)行深入理解和準(zhǔn)確的動(dòng)作定位,該技術(shù)對(duì)自動(dòng)駕駛系統(tǒng)、視頻監(jiān)控分析等多種應(yīng)用場(chǎng)景具有重要意義。

由電信AI公司交通算法方向的成員組成的TeleAI團(tuán)隊(duì),參加了本次比賽。電信AI公司在計(jì)算機(jī)視覺(jué)技術(shù)這個(gè)研究方向深耕,積累了豐富的經(jīng)驗(yàn),技術(shù)成果已在城市治理、交通治安等多個(gè)業(yè)務(wù)領(lǐng)域中廣泛應(yīng)用,持續(xù)服務(wù)海量的用戶(hù)。

1引言

在視頻中定位和分類(lèi)動(dòng)作的任務(wù),即時(shí)序動(dòng)作定位(Temporal Action Localisation, TAL),仍然是視頻理解中的一個(gè)挑戰(zhàn)性問(wèn)題。

近期TAL技術(shù)取得了顯著的進(jìn)展。例如,TadTR和ReAct使用類(lèi)似DETR的基于Transformer的解碼器進(jìn)行動(dòng)作檢測(cè),將動(dòng)作實(shí)例建模為一組可學(xué)習(xí)的集合。TallFormer使用基于Transformer的編碼器提取視頻表征。

雖然以上方法在時(shí)序動(dòng)作定位方面已經(jīng)實(shí)現(xiàn)了較好的效果,但在視頻感知能力方面還存在局限性。想要更好地定位動(dòng)作實(shí)例,可靠的視頻特征表達(dá)是關(guān)鍵所在。團(tuán)隊(duì)首先采用VideoMAE-v2框架,加入adapter+linear層,訓(xùn)練具有兩種不同主干網(wǎng)絡(luò)的動(dòng)作類(lèi)別預(yù)測(cè)模型,并用模型分類(lèi)層的前一層,進(jìn)行TAL任務(wù)的特征提取。接下來(lái),利用改進(jìn)的ActionFormer框架訓(xùn)練TAL任務(wù),并修改WBF方法適配TAL任務(wù)。最終,TeleAI團(tuán)隊(duì)的方法在評(píng)測(cè)集上實(shí)現(xiàn)了0.50的mAP,排名第一,領(lǐng)先第二名的團(tuán)隊(duì)3個(gè)百分點(diǎn),比Google DeepMind提供的baseline高出34個(gè)百分點(diǎn)。

2 競(jìng)賽解決方案

圖1 算法概覽

2.1 數(shù)據(jù)增強(qiáng)

圖2 自主采集的視頻樣例

在 Temporal Action Localisation賽道中,TeleAI團(tuán)隊(duì)使用的數(shù)據(jù)集是未經(jīng)修剪的用于動(dòng)作定位的視頻,具有高分辨率,并包含多個(gè)動(dòng)作實(shí)例的特點(diǎn)。通過(guò)分析數(shù)據(jù)集,發(fā)現(xiàn)訓(xùn)練集相較于驗(yàn)證集缺少了三個(gè)類(lèi)別的標(biāo)簽,為保證模型驗(yàn)證的充分性以及競(jìng)賽的要求,團(tuán)隊(duì)采集了少量的視頻數(shù)據(jù),并加入訓(xùn)練數(shù)據(jù)集中,以豐富訓(xùn)練樣本。同時(shí)為簡(jiǎn)化標(biāo)注,每個(gè)視頻預(yù)設(shè)只包含一個(gè)動(dòng)作。

2.2 動(dòng)作識(shí)別與特征提取

近年來(lái),大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練的基礎(chǔ)模型噴涌而出,通過(guò)zero-shot recognition、linear probe、prompt finetune、fine-tuning等手段,將基礎(chǔ)模型較強(qiáng)的泛化能力應(yīng)用到多種下游任務(wù)中,有效地推動(dòng)了AI領(lǐng)域多個(gè)方面的進(jìn)步。

TAL賽道中的動(dòng)作定位和識(shí)別十分具有挑戰(zhàn)性,例如‘假裝將某物撕成碎片’與‘將某物撕成碎片’動(dòng)作極為相似,這無(wú)疑給特征層面帶來(lái)了更大的挑戰(zhàn)。因此直接借助現(xiàn)有預(yù)訓(xùn)練模型提取特征,效果不理想。

因此,該團(tuán)隊(duì)通過(guò)解析JSON標(biāo)注文件,將TAL數(shù)據(jù)集轉(zhuǎn)換為動(dòng)作識(shí)別數(shù)據(jù)集。然后以Vit-B和Vit-L為主干網(wǎng)絡(luò),在VideoMAE-v2網(wǎng)絡(luò)后增加adapter層及用于分類(lèi)的linear層,訓(xùn)練同數(shù)據(jù)域下的動(dòng)作分類(lèi)器,并將動(dòng)作分類(lèi)模型去掉linear層,用于視頻特征的提取。VitB模型的特征維度為768,而ViTL模型的特征維度為1024。同時(shí)concat這兩種特征時(shí),新生成一個(gè)維度為1792的特征,該特征作為訓(xùn)練時(shí)序動(dòng)作定位模型的備選。訓(xùn)練初期,團(tuán)隊(duì)也使用了音頻特征,但實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)mAP指標(biāo)有所下降。因此,在隨后的實(shí)驗(yàn)中沒(méi)有考慮音頻特征。

2.3 時(shí)序動(dòng)作定位

Actionformer是一個(gè)為時(shí)序動(dòng)作定位設(shè)計(jì)的anchor-free模型,它集成了多尺度特征和時(shí)間維度的局部自注意力。本次競(jìng)賽,TeleAI團(tuán)隊(duì)使用Actionformer作為動(dòng)作定位的baseline模型,以預(yù)測(cè)動(dòng)作發(fā)生的邊界(起止時(shí)間)及類(lèi)別。

TeleAI團(tuán)隊(duì)將動(dòng)作邊界回歸和動(dòng)作分類(lèi)任務(wù)進(jìn)行統(tǒng)一。相比基線(xiàn)訓(xùn)練架構(gòu),首先編碼視頻特征到多尺度的Transformer中。然后在模型的回歸和分類(lèi)的head分支引入feature pyramid layer,增強(qiáng)網(wǎng)絡(luò)特征表達(dá),head分支在每個(gè)time step會(huì)產(chǎn)生一個(gè)action candidate。同時(shí)通過(guò)將head的數(shù)量增加到32,引入fpn1D結(jié)構(gòu),進(jìn)一步提升了模型的定位與識(shí)別能力。

2.4 WBF for 1-D

Weighted Boxes Fusion(WBF)是一種新型的加權(quán)檢測(cè)框融合方法,該方法利用所有檢測(cè)框的置信度來(lái)構(gòu)造最終的預(yù)測(cè)框,并在圖像目標(biāo)檢測(cè)中取得了較好的效果,與NMS和soft-NMS方法不同,它們會(huì)丟棄某些預(yù)測(cè),WBF利用所有提出的邊界框的置信度分?jǐn)?shù)來(lái)構(gòu)造平均盒子。這種方法極大地提高了結(jié)合預(yù)測(cè)矩形的準(zhǔn)確性。

受WBF在物體檢測(cè)應(yīng)用的啟發(fā),TeleAI團(tuán)隊(duì)將動(dòng)作的一維邊界框類(lèi)比為一維線(xiàn)段,并對(duì)WBF方法進(jìn)行了修改,以適用于TAL任務(wù),如圖3所示。實(shí)驗(yàn)結(jié)果表明了該方法的有效性。

圖3 改進(jìn)的1維WBF 示意圖

3 實(shí)驗(yàn)結(jié)果

3.1 評(píng)估指標(biāo)

本次挑戰(zhàn)賽使用的評(píng)估指標(biāo)是mAP。它是通過(guò)計(jì)算不同動(dòng)作類(lèi)別和IoU閾值的平均精確度來(lái)確定的。TeleAI團(tuán)隊(duì)以0.1的增量評(píng)估IoU閾值,范圍從0.1到0.5。

3.2 實(shí)驗(yàn)細(xì)節(jié)

為獲得多樣化的模型,TeleAI團(tuán)隊(duì)先對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行80%的重復(fù)采樣5次,并分別采用Vit-B、Vit-L以及concat的特征,完成模型訓(xùn)練,得到了15個(gè)多樣化的模型。最后將這些模型的評(píng)估結(jié)果分別輸入WBF模塊,并為每個(gè)模型結(jié)果分配了相同的融合權(quán)重。

3.3 實(shí)驗(yàn)結(jié)果

表1展示了不同特征的性能對(duì)比。第1行和第2行分別展示了使用ViT-B和ViT-L特征特征的結(jié)果。第3行是ViT-B和ViT-L特征級(jí)聯(lián)的結(jié)果。

在實(shí)驗(yàn)過(guò)程中,TeleAI團(tuán)隊(duì)發(fā)現(xiàn)級(jí)聯(lián)特征的mAP略低于ViT-L,但仍?xún)?yōu)于ViT-B。盡管如此,基于各種方法在驗(yàn)證集上的表現(xiàn),將不同特征在評(píng)測(cè)集的預(yù)測(cè)結(jié)果借助WBF進(jìn)行融合,最終提交到系統(tǒng)的mAP為0.50。

4 結(jié)論

本次競(jìng)賽中,TeleAI團(tuán)隊(duì)通過(guò)數(shù)據(jù)收集增強(qiáng)相對(duì)驗(yàn)證集中缺失類(lèi)別的訓(xùn)練數(shù)據(jù)。借助VideoMAE-v2框架加入adapter層訓(xùn)練視頻特征提取器,并利用改進(jìn)的ActionFormer框架訓(xùn)練TAL任務(wù),同時(shí)修改了WBF方法以便有效地融合測(cè)試結(jié)果。最終,TeleAI團(tuán)隊(duì)在評(píng)測(cè)集上實(shí)現(xiàn)了0.50的mAP,排名第一。電信AI公司一直秉持著“技術(shù)從業(yè)務(wù)中來(lái),到業(yè)務(wù)中去”的路線(xiàn),將競(jìng)賽視為檢驗(yàn)和提升技術(shù)能力的重要臺(tái),通過(guò)參與競(jìng)賽,不斷優(yōu)化和完善技術(shù)方案,為客戶(hù)提供更高質(zhì)量的服務(wù),同時(shí)也為團(tuán)隊(duì)提供了寶貴的學(xué)習(xí)和成長(zhǎng)機(jī)會(huì)。

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞:

推薦內(nèi)容

熱點(diǎn)
39熱文一周熱點(diǎn)
主站蜘蛛池模板: 牟定县| 那坡县| 安溪县| 弥渡县| 泾阳县| 井研县| 临泉县| 辽阳市| 香河县| 都江堰市| 县级市| 平武县| 沁阳市| 许昌市| 临汾市| 昭觉县| 襄城县| 麻栗坡县| 淮阳县| 奉化市| 疏勒县| 基隆市| 蒙城县| 富平县| 静安区| 贺兰县| 晋江市| 洱源县| 且末县| 太谷县| 泰安市| 易门县| 隆尧县| 南平市| 余江县| 乐至县| 河东区| 宁波市| 会泽县| 昆明市| 玉溪市|