數(shù)智生活
數(shù)智治理
數(shù)智產(chǎn)業(yè)
數(shù)智軍工
敬請(qǐng)期待
匯集全面、前沿、深度的小視科技官網(wǎng)資訊與媒體聚焦報(bào)道
近日,小視科技在第一屆CVPR 2023 WorkShop 大模型挑戰(zhàn)賽中,與全球七十多個(gè)隊(duì)伍激烈角逐,取得了A榜第一名、B榜第三名的優(yōu)異成績(jī)。



CVPR 2023 1st foundation model challenge - TRACK 2 排行榜中,小視科技MiniModel脫穎而出
本次挑戰(zhàn)賽是今年百度在CVPR 2023上舉辦的首屆大模型workshop。競(jìng)賽以智能交通為方向,小視科技所在的賽道聚焦對(duì)場(chǎng)景文本圖像的理解與感知,旨在提升交通場(chǎng)景中文本圖像檢索的精度。
01 大模型,如何服務(wù)智能交通?
ChatGPT大熱,讓我們第一次感受到了大模型的魅力,語(yǔ)言機(jī)器人可以像老朋友一樣與你聊天。那么,大模型又會(huì)在智能交通領(lǐng)域做哪些事?
交通場(chǎng)景中存在大量檢索車(chē)輛、行人的需求,高性能的圖像檢索能力對(duì)于交通執(zhí)法、治安治理具有十分重要的作用。

傳統(tǒng)圖像檢索方式標(biāo)注成本較高,并且不方便進(jìn)行類別拓展。隨著多模態(tài)大模型技術(shù)的發(fā)展,文本與圖像的表征統(tǒng)一和模態(tài)轉(zhuǎn)換已有廣泛的研究和應(yīng)用,已經(jīng)能夠有效利用互聯(lián)網(wǎng)上的海量圖像-文本描述數(shù)據(jù)訓(xùn)練foundational model。這不僅可以降低下游微調(diào)任務(wù)成本,模型本身也具有較強(qiáng)的Zero-shot(零樣本學(xué)習(xí))能力,能夠更好地識(shí)別新事物。該模型進(jìn)一步提升圖像檢索準(zhǔn)確度和靈活性,服務(wù)智能交通。
02 小視算法方案
本次競(jìng)賽數(shù)據(jù)集包含行人、車(chē)輛等交通參與者和大量噪聲數(shù)據(jù),任務(wù)難度提升。車(chē)輛數(shù)據(jù)差異較大,監(jiān)控視角與非監(jiān)控視角均有,對(duì)基礎(chǔ)模型的遷移能力要求也很高。


車(chē)輛數(shù)據(jù)差異極大
我們使用多模態(tài)統(tǒng)一特征表達(dá)優(yōu)化技術(shù)完成了本次交通場(chǎng)景檢索任務(wù)。
我們的方法聚焦在數(shù)據(jù)處理、模型結(jié)構(gòu)、訓(xùn)練策略、模型融合,額外加入了模型生成數(shù)據(jù)和開(kāi)源數(shù)據(jù),進(jìn)一步提升foundation model在領(lǐng)域內(nèi)的表征能力。我們使用多個(gè)異構(gòu)模型進(jìn)行l(wèi)ater fusion,并對(duì)檢索結(jié)果重新排序。
此外,我們?cè)谟?xùn)練時(shí)使用prompt增強(qiáng)技術(shù)來(lái)優(yōu)化分詞歧義并增強(qiáng)屬性特征表征能力,使用loss截?cái)嘁种圃肼晹?shù)據(jù),使用凍結(jié)參數(shù)來(lái)抑制過(guò)擬合。

我們采用數(shù)據(jù)仿真和生成等方法去發(fā)揮foundational model的潛力,采用新穎的模型集成方法,以loss截?cái)嘁种圃肼晹?shù)據(jù)、prompt增強(qiáng)等技巧提升下游檢索任務(wù)的精度。
采用多模態(tài)對(duì)比學(xué)習(xí)的技術(shù)路線,充分發(fā)揮大模型的能力,在應(yīng)對(duì)場(chǎng)景變化和同時(shí)處理多種場(chǎng)景時(shí)有非常好的表現(xiàn)。這一方案充分發(fā)揮多模態(tài)統(tǒng)一特征表達(dá)優(yōu)化技術(shù)的潛力,能夠更好地應(yīng)用于真實(shí)的交通場(chǎng)景中,具有較高的實(shí)際使用價(jià)值。

此外,這些方法在其它場(chǎng)景中也有一定的參考價(jià)值。小視團(tuán)隊(duì)將繼續(xù)深入研究多模態(tài)大模型技術(shù),探索更多的垂類場(chǎng)景應(yīng)用,讓更多人感受到前沿AI技術(shù)帶來(lái)的新體驗(yàn)、新生活。