日前,北京智源人工智能研究院(簡稱智源研究院)悟道文瀾團(tuán)隊(duì)發(fā)布“AI 文案大師”小程序,可以自動(dòng)匹配生成相應(yīng)的文案。
據(jù)介紹,“AI 文案大師”小程序可以實(shí)現(xiàn)“輸入一張圖片,輸出一句文案”的功能。在這個(gè)過程中,“圖片”“文本”兩種數(shù)據(jù)分別對應(yīng)于“視覺”和“語言”兩種模態(tài)。
機(jī)器學(xué)習(xí)領(lǐng)域?qū)⑦@種輸入輸出數(shù)據(jù)分別屬于不同模態(tài)的任務(wù)稱為“跨模態(tài)”任務(wù)。例如,可以訓(xùn)練模型根據(jù)輸入圖片中提取出的視覺信息,自由地生成相應(yīng)的描述性自然語言文本,這樣的任務(wù)稱為“圖像描述”。此外,還可以把圖片作為輸入,提取其視覺特征,并在現(xiàn)有的文本庫中檢索最符合圖片特征的文字描述,這樣的任務(wù)稱為“圖文檢索”或“圖文匹配”。
智源研究院悟道文瀾團(tuán)隊(duì)相關(guān)負(fù)責(zé)人表示,“視覺—語言”多模態(tài)預(yù)訓(xùn)練有助于提取到兩種模態(tài)數(shù)據(jù)中的關(guān)鍵信息,從而實(shí)現(xiàn)更高質(zhì)量的圖文匹配。為了實(shí)現(xiàn)“AI文案大師”系統(tǒng)要求的圖文匹配質(zhì)量,需要提升神經(jīng)網(wǎng)絡(luò)的表征能力。
得益于近年來自監(jiān)督學(xué)習(xí)在提取數(shù)據(jù)內(nèi)在關(guān)鍵知識方面的進(jìn)展,智源研究院悟道文瀾團(tuán)隊(duì)采用先進(jìn)的跨模態(tài)對比學(xué)習(xí)(自監(jiān)督學(xué)習(xí)算法中的一種)算法 CMCL,利用某一個(gè)“圖文對”中的圖像模態(tài)或文本模態(tài)來構(gòu)建該“圖文對”的負(fù)樣本,并設(shè)計(jì)了一種基于隊(duì)列的詞典來擴(kuò)大負(fù)樣本數(shù)目,從而得到更好的數(shù)據(jù)表征。
未來,智源研究院悟道文瀾團(tuán)隊(duì)還將繼續(xù)發(fā)布各種基于大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型的研究成果和有趣應(yīng)用。
標(biāo)簽: 文案大師