(資料圖)
5月30日,在2023中關(guān)村論壇的人工智能驅(qū)動(dòng)的科學(xué)研究論壇上,北京科學(xué)智能研究院、中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、墨奇科技(北京)有限公司聯(lián)合發(fā)布了款基于大模型+向量檢索引擎的文獻(xiàn)知識(shí)庫(kù)Science Navigator V1.0。
根據(jù)美國(guó)國(guó)家科學(xué)基金會(huì)統(tǒng)計(jì)數(shù)據(jù),科研人員花費(fèi)在查找和消化科技資料上的時(shí)間,需占全部科研時(shí)間的51%,計(jì)劃思考占8%,實(shí)驗(yàn)研究占32%,書面總結(jié)占9%。科研檢索方式經(jīng)歷了眼查手翻的查閱式檢索、基于互聯(lián)網(wǎng)的搜索式檢索階段,將進(jìn)入對(duì)話式檢索階段。
“但通過(guò)對(duì)話式大語(yǔ)言模型檢索是有局限性的,比如幻覺(jué)與偏見、數(shù)據(jù)滯后、緩存限制”,墨奇科技副總裁孟卓飛總結(jié),基于這些痛點(diǎn),墨奇科技等提出大語(yǔ)言模型+向量數(shù)據(jù)庫(kù)=下一代文獻(xiàn)知識(shí)庫(kù)的概念,整個(gè)知識(shí)庫(kù)包括,以科研人員為代表的用戶層、以GPT4等為代表的模型層、由向量數(shù)據(jù)庫(kù)+搜索引擎組成的中間層、由文獻(xiàn)和教材等支撐的數(shù)據(jù)層。北京科學(xué)智能研究院、墨奇科技、中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心分別負(fù)責(zé)模型層、中間層、數(shù)據(jù)層。
據(jù)孟卓飛介紹,Science Navigator V1.0支持文本、圖片、表格、公式跨模態(tài)識(shí)別處理,科研人員可選用文心一言、LLM等各種大小模型,實(shí)現(xiàn)問(wèn)題解析最佳效果,第一批已收錄化學(xué)、材料、AI等領(lǐng)域近百萬(wàn)篇論文,未來(lái)將擴(kuò)展至自然、人文學(xué)科億級(jí)文獻(xiàn)存儲(chǔ)。
(文章來(lái)源:北京商報(bào))
標(biāo)簽: