您現(xiàn)在的位置:首頁(yè)
面臨對(duì)立進(jìn)犯,具身智能體除了被迫防備,也能自動(dòng)出擊!
在人類(lèi)視覺(jué)體系啟發(fā)下,清華朱軍團(tuán)隊(duì)在TPMAI 2025中提出了強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的自動(dòng)防護(hù)結(jié)構(gòu)REIN-EAD。
該結(jié)構(gòu)讓智能體也能學(xué)會(huì)“看第二眼”,進(jìn)步對(duì)立場(chǎng)景下的感知魯棒性。
對(duì)立進(jìn)犯已成為視覺(jué)感知體系安全性和可靠性的嚴(yán)峻要挾,這類(lèi)進(jìn)犯經(jīng)過(guò)在三維物理場(chǎng)景中放置精心規(guī)劃的擾動(dòng)物體(如對(duì)立補(bǔ)丁和三維對(duì)立物體)來(lái)操作深度神經(jīng)網(wǎng)絡(luò)的猜測(cè)成果。
在人臉辨認(rèn)和自動(dòng)駕駛等安全要害范疇,此類(lèi)縫隙的成果尤為嚴(yán)峻,過(guò)錯(cuò)猜測(cè)或許嚴(yán)峻危害體系安全性。
但是,現(xiàn)有防護(hù)辦法多依靠進(jìn)犯先驗(yàn),經(jīng)過(guò)對(duì)立練習(xí)或輸入凈化等手法完成對(duì)有害畫(huà)面的“被迫防衛(wèi)”,疏忽了與環(huán)境交互可取得的豐厚信息,遇上不知道或自適應(yīng)進(jìn)犯時(shí)作用敏捷衰減。
比較之下,人類(lèi)視覺(jué)體系更為靈敏,能夠經(jīng)過(guò)自動(dòng)探究與糾錯(cuò),自然地下降瞬時(shí)感知的不確定性。
相似的,REIN-EAD的中心在于運(yùn)用環(huán)境交互與戰(zhàn)略探究,對(duì)方針進(jìn)行接連調(diào)查和循環(huán)猜測(cè),在優(yōu)化即時(shí)準(zhǔn)確率的一起統(tǒng)籌長(zhǎng)時(shí)刻猜測(cè)熵,緩解對(duì)立進(jìn)犯帶來(lái)的錯(cuò)覺(jué)。
特別地,該結(jié)構(gòu)引進(jìn)了依據(jù)不確定性的獎(jiǎng)賞塑形機(jī)制,無(wú)需依靠可微分環(huán)境,即可完成高效戰(zhàn)略更新,支撐物理環(huán)境下的魯棒練習(xí)。
試驗(yàn)驗(yàn)證標(biāo)明,REIN-EAD在多個(gè)使命中明顯下降了進(jìn)犯成功率,一起堅(jiān)持了模型規(guī)范精度,在面臨不知道進(jìn)犯與自適應(yīng)進(jìn)犯時(shí)相同表現(xiàn)出色,展示出強(qiáng)壯的泛化才能。
論文規(guī)劃了一種結(jié)合感知模塊與戰(zhàn)略模塊的自動(dòng)防護(hù)結(jié)構(gòu)REIN-EAD,學(xué)習(xí)人類(lèi)大腦支撐運(yùn)動(dòng)視覺(jué)的工作辦法,使模型能夠在動(dòng)態(tài)環(huán)境中繼續(xù)調(diào)查、探究并重構(gòu)其對(duì)場(chǎng)景的了解。
REIN-EAD經(jīng)過(guò)整合當(dāng)時(shí)與前史觀測(cè),構(gòu)建具有時(shí)刻一致性的魯棒環(huán)境表征,然后進(jìn)步體系對(duì)潛在要挾的辨認(rèn)與適應(yīng)才能。
為進(jìn)步REIN-EAD的戰(zhàn)略學(xué)習(xí)才能,論文提出一種依據(jù)累計(jì)信息探究的強(qiáng)化學(xué)習(xí)算法,經(jīng)過(guò)引導(dǎo)式密布獎(jiǎng)賞優(yōu)化多步探究途徑,引進(jìn)不確定性感知機(jī)制以驅(qū)動(dòng)信息性探究。
該辦法強(qiáng)化了時(shí)刻上的一致性探究行為,并經(jīng)過(guò)強(qiáng)化學(xué)習(xí)范式消除了對(duì)可微環(huán)境建模的依靠,使體系能夠自動(dòng)辨認(rèn)潛在高風(fēng)險(xiǎn)區(qū)域并動(dòng)態(tài)調(diào)整行為戰(zhàn)略,明顯進(jìn)步了觀測(cè)數(shù)據(jù)的有用性與體系安全性。
針對(duì)3D環(huán)境下對(duì)立練習(xí)核算開(kāi)支巨大的應(yīng)戰(zhàn),論文提出OAPA技能,經(jīng)過(guò)對(duì)立補(bǔ)丁流形的離線近似,構(gòu)建無(wú)需依靠對(duì)手信息的普適防護(hù)機(jī)制。
OAPA大幅下降了練習(xí)本錢(qián),一起具有在不知道或自適應(yīng)進(jìn)犯場(chǎng)景下的穩(wěn)健防護(hù)才能,為三維環(huán)境下的自動(dòng)防護(hù)供給了一種有用且高效的處理方案。
論文在多個(gè)規(guī)范對(duì)立測(cè)驗(yàn)環(huán)境與使命中進(jìn)行了體系評(píng)價(jià),試驗(yàn)成果標(biāo)明:REIN-EAD在反抗多種不知道和自適應(yīng)進(jìn)犯下表現(xiàn)出明顯優(yōu)于現(xiàn)有被迫防護(hù)辦法的功能。
其杰出的泛化才能和對(duì)雜亂實(shí)際國(guó)際場(chǎng)景的適應(yīng)性,進(jìn)一步驗(yàn)證了本文辦法在安全要害體系中的運(yùn)用潛力。
REIN-EAD是一種模仿人類(lèi)在動(dòng)態(tài)環(huán)境中自動(dòng)感知與反響才能的對(duì)立防護(hù)結(jié)構(gòu),該結(jié)構(gòu)(如下圖所示)經(jīng)過(guò)感知模塊與戰(zhàn)略模塊的協(xié)同,使體系具有了與環(huán)境自動(dòng)交互、迭代收集信めるの学校でドキドキ露出!【令和の性欲】J●制服つむぎちゃん お年頃カップルのプライベートSEX流出?。?#26410;発達なカラダで快楽貪る青春発情交尾が凄すぎる。まさに野生!2回戦もあるよ息并增強(qiáng)本身魯棒性的才能。
△圖1:REIN-EAD結(jié)構(gòu)
REIN-EAD由兩個(gè)中心的循環(huán)神經(jīng)模塊組成,創(chuàng)意來(lái)源于支撐人類(lèi)活潑視覺(jué)體系的大腦結(jié)構(gòu):
感知模型擔(dān)任在每一時(shí)刻步歸納當(dāng)時(shí)觀測(cè)與上一步的內(nèi)部信仰狀況,生成對(duì)環(huán)境狀況的增強(qiáng)表征,并據(jù)此猜測(cè)當(dāng)時(shí)的場(chǎng)景標(biāo)簽 。該模型經(jīng)過(guò)循環(huán)結(jié)構(gòu)充分運(yùn)用與環(huán)境交互取得的序列信息,然后完成對(duì)雜亂視覺(jué)輸入的魯棒了解;
戰(zhàn)略模型則依據(jù)感知模型構(gòu)建的內(nèi)部環(huán)境了解,生成用于操控下一步感知行為的動(dòng)作信號(hào),即決議從哪個(gè)視角、以何種辦法繼續(xù)收集信息,然后有戰(zhàn)略地引導(dǎo)視覺(jué)體系履行方針驅(qū)動(dòng)的自動(dòng)感知使命。
經(jīng)過(guò)感知模型與戰(zhàn)略模型的閉環(huán)聯(lián)動(dòng),REIN-EAD完成了對(duì)立防護(hù)進(jìn)程中的“感知—決議計(jì)劃—舉動(dòng)”一體化:
在每一時(shí)刻挑選長(zhǎng)時(shí)刻最優(yōu)的交互動(dòng)作,并依據(jù)環(huán)境反應(yīng)不斷批改其內(nèi)部標(biāo)明,使得模型能從多步交互中獲取最具信息量的觀測(cè)反應(yīng)。
這種自動(dòng)防護(hù)機(jī)制突破了傳統(tǒng)靜態(tài)防護(hù)戰(zhàn)略在魯棒性與適應(yīng)性方面的瓶頸,明顯進(jìn)步了體系面臨不知道進(jìn)犯時(shí)的辨認(rèn)與呼應(yīng)才能。
論文擴(kuò)展了部分可調(diào)查馬爾可夫決議計(jì)劃進(jìn)程(POMDP)結(jié)構(gòu)以正式描繪REIN-EAD結(jié)構(gòu)與環(huán)境的相互作用。
場(chǎng)景 下的交互進(jìn)程用 標(biāo)明。
這兒 別離標(biāo)明狀況、動(dòng)作和觀測(cè)空間。場(chǎng)景 下的狀況搬運(yùn) 契合馬爾可夫性質(zhì)。
因?yàn)榄h(huán)境的部分可調(diào)查性,智能體不能直接拜訪狀況,而是接納從調(diào)查函數(shù) 采樣的調(diào)查值。
REIN-EAD的猜測(cè)進(jìn)程是多步條件下的接連觀測(cè)和循環(huán)猜測(cè),感知與動(dòng)作循環(huán)依靠——感知輔導(dǎo)了動(dòng)作,而動(dòng)作又取得更好的感知。
直觀上,能夠經(jīng)過(guò)RNN Style的練習(xí)辦法優(yōu)化多步條件下的EAD結(jié)構(gòu),但是,該進(jìn)程觸及沿時(shí)刻步反傳梯度,團(tuán)隊(duì)證明了這種做法的缺點(diǎn)。
首要,論文經(jīng)過(guò)理論剖析證明RNN Style的練習(xí)辦法本質(zhì)上是一種貪婪探究戰(zhàn)略:
這種貪婪探究戰(zhàn)略或許導(dǎo)致EAD選用部分最優(yōu)戰(zhàn)略,難以從多步探究中繼續(xù)獲益。
△圖2:貪婪信息探究或許導(dǎo)致重復(fù)探究
第二,沿時(shí)刻步反傳梯度要求狀況搬運(yùn)函數(shù)和調(diào)查函數(shù)有必要具有可微分性,該性質(zhì)在實(shí)際環(huán)境和常用的仿真引擎(如UE)中都是不滿足的。
最終,在多步條件下反傳梯度需求構(gòu)建十分長(zhǎng)的梯度鏈條,這或許導(dǎo)致梯度消失/爆破,并帶來(lái)巨大的顯存開(kāi)支。
為了處理貪婪戰(zhàn)略的次優(yōu)性,進(jìn)步REIN-EAD的功能,論文引進(jìn)了累積信息探究的界說(shuō):
以及多步累積交互方針:
其間, 是探究軌道, 標(biāo)明時(shí)刻步 的猜測(cè)丟失, 作為正則化項(xiàng),標(biāo)明時(shí)刻步 的標(biāo)簽猜測(cè)熵,阻撓智能體做出具有對(duì)立特征的高熵猜測(cè)。
多步累積交互方針包括最小化猜測(cè)丟失的方針項(xiàng)和賞罰高熵猜測(cè)的正則項(xiàng),經(jīng)過(guò)一系列與環(huán)境的相互作用,在 步的范圍內(nèi)優(yōu)化戰(zhàn)略,最小化方針變量的長(zhǎng)時(shí)刻不確定性,而不是只專(zhuān)心于單步。
該方針經(jīng)過(guò)一系列舉動(dòng)和調(diào)查來(lái)最小化方針變量的不確定性,結(jié)合猜測(cè)丟失和熵正則化項(xiàng),鼓舞智能體到達(dá)信息豐厚且魯棒的認(rèn)知狀況,然后對(duì)對(duì)立擾動(dòng)具有魯棒性。
論文中對(duì)所提出的多步累積交互方針與累積信息探究的界說(shuō)一致性進(jìn)行了證明,并進(jìn)一步剖析了累積信息戰(zhàn)略比較貪婪信息戰(zhàn)略的功能優(yōu)勝性。
為了進(jìn)一步消除對(duì)可微分練習(xí)環(huán)境的依靠并下降梯度優(yōu)化的不安穩(wěn)性,論文中提出了一種結(jié)合了面向不確定性的獎(jiǎng)賞塑形的強(qiáng)化戰(zhàn)略學(xué)習(xí)辦法。
面向不確定性的獎(jiǎng)賞塑形在每一步供給密布的獎(jiǎng)賞,促進(jìn)戰(zhàn)略 尋求新的調(diào)查成果作為來(lái)自環(huán)境的反應(yīng),處理了多步累積交互方針中的只能在回合結(jié)束時(shí)取得獎(jiǎng)賞的稀少性問(wèn)題,減輕了探究和運(yùn)用分配的應(yīng)戰(zhàn),促進(jìn)了更快的收斂和更有用的學(xué)習(xí)。
論文中還證明了這種獎(jiǎng)賞塑めるの学校でドキドキ露出!【令和の性欲】J●制服つむぎちゃん お年頃カップルのプライベートSEX流出??!未発達なカラダで快楽貪る青春発情交尾が凄すぎる。まさに野生!2回戦もあるよ形與多步累積交互方針的等價(jià)性(細(xì)節(jié)拜見(jiàn)論文)。
關(guān)于強(qiáng)化學(xué)習(xí)骨干,論文中選用了學(xué)習(xí)功率和收斂安穩(wěn)性較好的近端戰(zhàn)略優(yōu)化(PPO),經(jīng)過(guò)約束戰(zhàn)略的巨細(xì)來(lái)完成安穩(wěn)的戰(zhàn)略更新。
論文中還提出了離線對(duì)立補(bǔ)丁近似(OAPA),以處理3D環(huán)境中對(duì)立練習(xí)的核算開(kāi)支。
對(duì)立補(bǔ)丁 的核算一般需求內(nèi)部最大化迭代,這不只核算貴重,還或許導(dǎo)致防護(hù)對(duì)特定進(jìn)犯戰(zhàn)略過(guò)擬合,然后阻止模型在不知道進(jìn)犯中推行的才能。
為了在堅(jiān)持對(duì)立不行知性的一起進(jìn)步采樣功率,論文在練習(xí)REIN-EAD模型之前引進(jìn)了OAPA,經(jīng)過(guò)預(yù)先對(duì)視覺(jué)骨干進(jìn)行投影梯度上升得到一組代替的補(bǔ)丁作為對(duì)立補(bǔ)丁流形的離線近似。
試驗(yàn)成果標(biāo)明,履行這種離線近似最大化答應(yīng)REIN-EAD模型學(xué)習(xí)緊湊而賦有表現(xiàn)力的對(duì)立特征,使其能夠有用地防護(hù)不知道進(jìn)犯。
此外,因?yàn)檫@種最大化進(jìn)程只在練習(xí)前產(chǎn)生一次,因而大大進(jìn)步了練習(xí)功率,使其與傳統(tǒng)對(duì)立練習(xí)比較更具有競(jìng)爭(zhēng)力。
論文中在人臉辨認(rèn)、3D物體分類(lèi)、方針檢測(cè)多個(gè)使命上運(yùn)用一系列像素空間、隱變量空間下的白盒、黑盒、自適應(yīng)進(jìn)犯辦法,成果標(biāo)明在三個(gè)使命上REIN-EAD的作用都優(yōu)于SAC、PZ、DOA等基線防護(hù)(表1,3,4)。
△表1:人臉辨認(rèn)使命中逃逸和扮演兩種進(jìn)犯方針下的成果
人臉辨認(rèn)使命中,經(jīng)過(guò)REIN-EAD結(jié)構(gòu)改善IResNet50模型,運(yùn)用EG3D可微分烘托器完成CelebA-3D數(shù)據(jù)集的可微分三維重建,以對(duì)累計(jì)探究的REIN-EAD與ICLR 2024 工作中貪婪探究的EAD進(jìn)行公正比較。
經(jīng)過(guò)對(duì)各個(gè)組件的融化,別離證明了累計(jì)信息探究和OAPA的有用性(表1,2,圖3)。
△表2:人臉辨認(rèn)使命中的REIN-EAD模塊融化成果
△圖3:人臉辨認(rèn)試驗(yàn)的REIN-EAD可視化示例
人臉辨認(rèn)試驗(yàn)的可視化動(dòng)態(tài)示例
在物體分類(lèi)使命中,經(jīng)過(guò)REIN-EAD結(jié)構(gòu)改善Swin-S模型,運(yùn)用Pytorch3D對(duì)OmniObject3D三維掃描物體數(shù)據(jù)集進(jìn)行可微分烘托,以在三維環(huán)境下的圖畫(huà)分類(lèi)使命上對(duì)REIN-EAD的通用性進(jìn)行評(píng)價(jià)(表3)。
雖然在前期過(guò)程中REIN-EAD或許被對(duì)立補(bǔ)丁詐騙做出過(guò)錯(cuò)猜測(cè),但在隨后的過(guò)程REIN-EAD進(jìn)行了正確的自我批改(圖4)。
△表3:物體分類(lèi)試驗(yàn)成果
△圖4:物體分類(lèi)試驗(yàn)的REIN-EAD可視化示例
方針檢測(cè)使命中,經(jīng)過(guò)REIN-EAD結(jié)構(gòu)改善YOLO-v5模型,運(yùn)用CARLA構(gòu)建具有實(shí)在烘托觀測(cè)的試驗(yàn)場(chǎng)景,進(jìn)一步證明了REIN-EAD在雜亂使命和實(shí)際場(chǎng)景的有用性(表4,圖5)。
△表4:方針檢測(cè)驗(yàn)驗(yàn)成果
△圖5:方針檢測(cè)驗(yàn)驗(yàn)的REIN-EAD可視化示例
方針檢測(cè)驗(yàn)驗(yàn)的可視化動(dòng)態(tài)示例
此外,論文中還對(duì)補(bǔ)丁巨細(xì)、補(bǔ)丁形狀、進(jìn)犯強(qiáng)度等多個(gè)不同的進(jìn)犯對(duì)手戰(zhàn)略進(jìn)行了彌補(bǔ)試驗(yàn),以全面的驗(yàn)證REIN-EAD面臨不知道進(jìn)犯對(duì)手的泛化才能。
本文提出的REIN-EAD是一種新的自動(dòng)防護(hù)結(jié)構(gòu),能夠有用地減輕實(shí)際國(guó)際3D環(huán)境中的對(duì)立補(bǔ)丁進(jìn)犯。
REIN-EAD運(yùn)用探究和與環(huán)境的交互來(lái)將環(huán)境信息語(yǔ)境化,并改善其對(duì)方針目標(biāo)的了解。
它積累了多步相互作用的時(shí)刻一致性,平衡了即時(shí)猜測(cè)精度和長(zhǎng)時(shí)刻熵最小化。
試驗(yàn)標(biāo)明,REIN-EAD明顯增強(qiáng)了魯棒性和泛化性,在雜亂使命中具有較強(qiáng)的適用性,為對(duì)立防護(hù)供給了不同于被迫防護(hù)技能的新研討視角。
論文:https://arxiv.org/abs/2507.18484
代碼:https://github.com/thu-ml/EmbodiedActiveDefense
本文來(lái)自微信大眾號(hào)“量子位”,作者:清華朱軍團(tuán)隊(duì),36氪經(jīng)授權(quán)發(fā)布。