|
||||
|
||||
■ 本報(bào)記者 皮磊 眼下,數(shù)字技術(shù)、人工智能、AI已成為社會(huì)發(fā)展熱詞。今年的政府工作報(bào)告中提到,深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開展“人工智能+”行動(dòng)。這是“人工智能+”首次被寫入政府工作報(bào)告,為各行各業(yè)發(fā)展釋放了積極的信號(hào)。在公益慈善領(lǐng)域,前沿技術(shù)的發(fā)展也促進(jìn)了行業(yè)不斷升級(jí)迭代,新的公益項(xiàng)目、公益產(chǎn)品不斷涌現(xiàn)。 2022年3月,字節(jié)跳動(dòng)向北京大學(xué)教育基金會(huì)進(jìn)行捐贈(zèng),支持“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”。字節(jié)跳動(dòng)依托在OCR(光學(xué)字符識(shí)別)、自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)領(lǐng)域的經(jīng)驗(yàn)積累,以及互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)與研發(fā)優(yōu)勢(shì),探索借助人工智能提高古籍修復(fù)、整理工作效率。當(dāng)年10月,由該實(shí)驗(yàn)室研發(fā)的古籍?dāng)?shù)字化平臺(tái)——“識(shí)典古籍”上線,讓古籍保護(hù)與傳承工作步入“快車道”,更多中華文化瑰寶得以進(jìn)入大眾視野。 有報(bào)道指出,“識(shí)典古籍”平臺(tái)不僅是一個(gè)公益性數(shù)字化平臺(tái),對(duì)于古籍愛好者尤其是專業(yè)研究人員來(lái)說(shuō),其更是一座橫跨千年歷史的知識(shí)寶庫(kù)。目前,該平臺(tái)對(duì)社會(huì)免費(fèi)開放的古籍超過了2900部,其提供的分詞檢索、圖文對(duì)照、字典釋義等功能,讓普通人也能輕松閱讀古籍文獻(xiàn)。 不過,隨著該平臺(tái)上線的古籍?dāng)?shù)量越來(lái)越多,平臺(tái)功能和相關(guān)工具不斷優(yōu)化,如何讓用戶學(xué)會(huì)使用越來(lái)越多的工具,更加高效便捷地找到自己需要的資料來(lái)源,成為一個(gè)新的問題。 記者從字節(jié)跳動(dòng)方面了解到,為進(jìn)一步解決“找不到”“不會(huì)用”等問題,“識(shí)典古籍”平臺(tái)于近期上線古籍智能助手。簡(jiǎn)單來(lái)說(shuō),通過古籍智能助手,用戶可以用平常說(shuō)話的方式與正在閱讀的古籍進(jìn)行對(duì)話。當(dāng)遇到不懂的古文時(shí),用戶可以點(diǎn)擊“問AI”,就能夠看到這句話的翻譯,還可以讓智能助手總結(jié)古文的主要內(nèi)容,提出可供參考的研究問題。 這也是大語(yǔ)言模型技術(shù)在古籍?dāng)?shù)字化以及公益領(lǐng)域的一個(gè)創(chuàng)新案例。 據(jù)“識(shí)典古籍”產(chǎn)品負(fù)責(zé)人王宇介紹,古籍保護(hù)與文化傳承一直是字節(jié)跳動(dòng)公益重點(diǎn)關(guān)注的領(lǐng)域,“識(shí)典古籍”平臺(tái)一方面是一個(gè)面向社會(huì)公眾的數(shù)字化古籍閱讀工具,同時(shí)也是一個(gè)開放的古籍?dāng)?shù)字化智能整理平臺(tái)?!皬?022年上線到現(xiàn)在,我們根據(jù)用戶的反饋對(duì)平臺(tái)功能進(jìn)行了一系列優(yōu)化。我們也在探索一些更高效的方式,開發(fā)更好的產(chǎn)品和工具,幫助大家更好地閱讀和理解古籍。此次依托大語(yǔ)言模型技術(shù),上線古籍智能助手,也是我們?cè)谶@一領(lǐng)域的思考和創(chuàng)新?!?/p> 此前爆火的ChatGPT讓很多人第一次聽說(shuō)了“大語(yǔ)言模型”這個(gè)專業(yè)術(shù)語(yǔ)。簡(jiǎn)單來(lái)說(shuō),一些使用了大模型技術(shù)的產(chǎn)品,能和用戶自然地對(duì)話和交流。不過,將該技術(shù)應(yīng)用在古籍檢索及閱讀領(lǐng)域,目前并沒有先例。加之古籍內(nèi)容的特殊性和專業(yè)性,如何更好地利用這一技術(shù),使其能夠準(zhǔn)確識(shí)別用戶意圖并給出讓人滿意的結(jié)果,仍是不小的挑戰(zhàn)。 具體而言,在“識(shí)典古籍”平臺(tái),當(dāng)用戶輸入問題或者選中古籍中的文字請(qǐng)AI進(jìn)行解釋時(shí),古籍智能助手首先會(huì)對(duì)用戶提出的問題進(jìn)行意圖判斷;如果回答這個(gè)問題需要利用字典中的條目或者古籍?dāng)?shù)據(jù)庫(kù)搜索結(jié)果作為上下文,智能助手會(huì)獲取相關(guān)的上下文,然后通過大語(yǔ)言模型綜合總結(jié)并給出回復(fù)。經(jīng)過前期測(cè)試,其準(zhǔn)確率也已達(dá)到了較高的水平。 不過,由于目前沒有可供參考的應(yīng)用案例,為了讓大模型能夠準(zhǔn)確地回答用戶的問題,“識(shí)典古籍”研發(fā)團(tuán)隊(duì)付出了不少努力。為了讓大模型在回答問題時(shí)采用專業(yè)的參考來(lái)源,古籍智能助手采用了檢索增強(qiáng)生成(RAG)技術(shù),即通過檢索不同資料來(lái)源,獲得所需上下文,以此增強(qiáng)大模型生成答案的質(zhì)量。 此外,王宇介紹說(shuō),根據(jù)用戶意圖如何判斷該使用什么樣的檢索工具,如何優(yōu)化提供上下文的內(nèi)容,團(tuán)隊(duì)也花了不少精力。比如,從古籍?dāng)?shù)據(jù)庫(kù)里檢索古籍資料,為了讓用戶獲得的上下文更加相關(guān),在關(guān)鍵詞檢索之外,研發(fā)團(tuán)隊(duì)也開發(fā)了語(yǔ)義檢索,讓智能助手在回答時(shí)能參考到文字不一樣但含義相關(guān)的相關(guān)古籍段落。研發(fā)團(tuán)隊(duì)也有意在答案后加上原文鏈接,在界面上也會(huì)提示“回答由人工智能生成,請(qǐng)注意查證”,方便用戶去查證原文并做出自己的判斷。 借助新技術(shù)將復(fù)雜的事情簡(jiǎn)單化,是研發(fā)團(tuán)隊(duì)的方向和目標(biāo)。 據(jù)不完全統(tǒng)計(jì),我國(guó)現(xiàn)存古籍約有20萬(wàn)種,其中有數(shù)字化掃描影像的有8萬(wàn)種,實(shí)現(xiàn)文本數(shù)字化的僅有3-4萬(wàn)種左右。由于古籍種類、數(shù)量繁雜,保存程度不一,加之從事古籍修復(fù)的專業(yè)人員數(shù)量不足、資金匱乏等多重原因,古籍資源的挖掘傳承保護(hù)工作仍面臨巨大壓力。 記者了解到,目前“識(shí)典古籍”除了網(wǎng)頁(yè)版,今日頭條產(chǎn)品側(cè)還設(shè)置了“古籍”頻道。由于公益項(xiàng)目的延展性,在字節(jié)跳動(dòng)內(nèi)部,有很多不同業(yè)務(wù)板塊的員工參與其中,為此還專門成立了一個(gè)古籍保護(hù)公益社團(tuán)。這種開放、協(xié)作的氛圍,也是平臺(tái)在兩年時(shí)間內(nèi)實(shí)現(xiàn)上線并不斷優(yōu)化的基礎(chǔ)。 “古籍智能助手的定位是提升查閱古籍的效率,它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍及閱讀工具的人節(jié)約時(shí)間、開拓新的思路?!蓖跤畋硎?,因?yàn)槭且粋€(gè)創(chuàng)新性功能,古籍智能助手目前還有一定的實(shí)驗(yàn)性,但字節(jié)跳動(dòng)決定將其免費(fèi)開放給公眾使用,一方面是希望用戶能夠多使用、多反饋,為后續(xù)優(yōu)化提供更多建議,另一方面也是希望通過實(shí)踐和應(yīng)用來(lái)打磨出更好的產(chǎn)品。 2022年“識(shí)典古籍”平臺(tái)剛剛上線時(shí),為自己設(shè)定了一個(gè)三年目標(biāo):未來(lái)三年,“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時(shí)將全部免費(fèi)開放。對(duì)于項(xiàng)目團(tuán)隊(duì)來(lái)說(shuō),距離目標(biāo)的實(shí)現(xiàn)仍有一定的差距。 記者獲悉,除了配套開展多種形式的宣傳倡議活動(dòng),下一步,“識(shí)典古籍”研發(fā)團(tuán)隊(duì)將有計(jì)劃地為古籍智能助手開發(fā)更多的工具。除此之外,該團(tuán)隊(duì)還將繼續(xù)提升AI在古籍整理等領(lǐng)域的應(yīng)用,希望能夠整理和校對(duì)更多的古籍,并將其數(shù)字化,促進(jìn)古籍資源的高效利用,讓平臺(tái)在文化傳承中發(fā)揮更大的作用。 |