老少配老妇熟女中文高清,在线观看AV的,亚洲日韩免费观看,精品国产专区97在线

    <td id="dlwm6"><strong id="dlwm6"></strong></td>
    <menu id="dlwm6"><samp id="dlwm6"><acronym id="dlwm6"></acronym></samp></menu>
  • <small id="dlwm6"></small>
  • <small id="dlwm6"><menuitem id="dlwm6"></menuitem></small>
      夜間模式
      • 129021閱讀
      • 9回復(fù)

      [活動(dòng)]當(dāng)人工智能遇上“之乎者也” [復(fù)制鏈接]

      上一主題 下一主題
      離線電丁丁
      級(jí)別: 論壇商家
      發(fā)帖
      6
      昆幣
      84 枚
      只看樓主 使用道具 電梯直達(dá)
      樓主  發(fā)表于: 2022-10-12 , 來自:江蘇省0==
      中國(guó)是全球擁有古籍最多的國(guó)家,國(guó)內(nèi)現(xiàn)存漢文古籍300萬部,散居在海外的古籍超過40萬部。然而,紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的,雖然古籍原生性保護(hù)有很大改善,“紙”的脆弱卻依然無法改變,人們也并沒有太多機(jī)會(huì)接觸到艱澀難懂的古籍文本。


      不過在數(shù)字時(shí)代,這種情況正在發(fā)生變化,古籍的“再生性”保護(hù),逐漸向數(shù)字化、平臺(tái)化、智能化的方向發(fā)展。當(dāng)人工智能遇上“之乎者也”,會(huì)擦出怎樣的火花?



      ━━━━━
      人工智能改變古籍存續(xù)形式

      “整理國(guó)故,再造文明”,胡適在一百年前說。國(guó)故也即是古籍,古代的書,一般指1911年之前歷朝寫本、刻本、稿本、拓本等。這些紙質(zhì)文獻(xiàn)在悠悠歷史長(zhǎng)河中其命運(yùn)可謂顛沛流離。紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的。如明代《永樂大典》,永樂時(shí)期的原本已經(jīng)完全湮滅不見,嘉靖重抄本11000冊(cè)現(xiàn)存不到5%。這樣的損失難以估量。

      哲學(xué)家羅素曾說:“中華文明是唯一的歷史文化從未間斷的文明!惫偶鳛橹腥A文化的一支重要血脈,便是文明未斷的依據(jù)之一,今年,國(guó)家圖書館藏清宮“天祿琳瑯”歷時(shí)8年修復(fù)成功,在標(biāo)準(zhǔn)的存藏條件下,能保存200年。

      盡管古籍原生性保護(hù)有很大改善,但依然改變不了“紙”的脆弱。2015年年初,位于莫斯科西南部的俄羅斯科學(xué)院社會(huì)科學(xué)信息研究所圖書館突發(fā)火災(zāi),約有200萬冊(cè)文獻(xiàn)資料遭到損毀。俄羅斯科學(xué)院院長(zhǎng)稱“這是俄羅斯科學(xué)界的切爾諾貝利事件”。

      在很多人的印象里,古籍文本往往艱澀難懂,而且接觸機(jī)會(huì)不多。但在數(shù)字時(shí)代,這種情況正在發(fā)生轉(zhuǎn)變,目前數(shù)字化、平臺(tái)化、智能化成為古籍“再生性”保護(hù)的方向。在國(guó)外,哈佛燕京圖書館和美國(guó)國(guó)會(huì)圖書館,已經(jīng)將他們收藏的中華古籍掃描完成,并對(duì)外公開。但它們僅僅是圖片掃描版,并未利用智能技術(shù)實(shí)現(xiàn)文本化,無法復(fù)制粘貼,只能服務(wù)于少數(shù)研究者。

      國(guó)內(nèi)較為有名的古籍智能平臺(tái),如“漢典重光”古籍平臺(tái),讓一批珍藏于加州大學(xué)伯克利分校的中文古籍善本,以數(shù)字化的形式回歸,該平臺(tái)涵蓋的古籍?dāng)?shù)量為20萬頁。再如浙江大學(xué)的“古籍智慧平臺(tái)”,其利用OCR光學(xué)字符識(shí)別技術(shù),將圖片中的文字換成文本格式,它的識(shí)別準(zhǔn)確率在90%以上。

      這些平臺(tái)有著各自的優(yōu)勢(shì),但也各有各的局限性,如網(wǎng)速慢、智能化程度低。比如“書同文古籍?dāng)?shù)據(jù)庫”收費(fèi)較高,“中國(guó)哲學(xué)書”電子化計(jì)劃目前囊括了超過三萬部著作,用戶卻常常無法正常訪問。

      今年3月,字節(jié)跳動(dòng)與北京大學(xué)聯(lián)合成立“北大——字節(jié)數(shù)字人文開放實(shí)驗(yàn)室”,雙方協(xié)作研發(fā)推出古籍?dāng)?shù)字化平臺(tái)——識(shí)典古籍。10月,識(shí)典古籍測(cè)試版已上線,目前,已整理上傳390本古籍經(jīng)典(均為四部叢刊書目),3000卷,3000多萬字,預(yù)計(jì)在3年內(nèi)將整理10000種古籍,基本覆蓋儒家、道家和佛家的經(jīng)典書目,對(duì)用戶免費(fèi)開放。

      圖片

      ▲識(shí)典古籍平臺(tái)主頁面截圖


      ━━━━━
      古籍是如何實(shí)現(xiàn)數(shù)字化的?

      識(shí)典古籍有何技術(shù)特點(diǎn)?項(xiàng)目負(fù)責(zé)人介紹,識(shí)典古籍主要運(yùn)用了三種技術(shù),文字識(shí)別、自動(dòng)標(biāo)點(diǎn)、命名實(shí)體識(shí)別。

      文字識(shí)別技術(shù),即使用OCR技術(shù)對(duì)古籍的影印版文字進(jìn)行單個(gè)切分、文字識(shí)別、順序識(shí)別。所謂文字切分,是指古籍掃描件中的單字檢測(cè)技術(shù),能夠獲取每個(gè)字符的具體位置;文字識(shí)別,將切分的圖片送入文字識(shí)別模型,獲取每個(gè)文字的具體編碼;順序識(shí)別,結(jié)合文字內(nèi)容和文字位置,獲取整張古籍掃描件的閱讀順序。

      圖片

      ▲古籍?dāng)?shù)字化過程視頻截圖

      OCR的應(yīng)用流程,是用電子設(shè)備對(duì)紙本古籍進(jìn)行掃描,內(nèi)容轉(zhuǎn)錄到計(jì)算機(jī)中,并生成相應(yīng)的數(shù)字文檔,效率與人工錄入不可同日而語。目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,識(shí)典古籍的準(zhǔn)確率為96%至97%。

      自動(dòng)標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分,支持“,。?!、:;”七種常用標(biāo)點(diǎn)。舉例來說,“學(xué)而時(shí)習(xí)之不亦說乎”,自動(dòng)標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時(shí)習(xí)之,不亦說乎?”命名實(shí)體識(shí)別,則是通過序列標(biāo)注識(shí)別古籍文本中的命名實(shí)體,支持識(shí)別人名、地名、書籍、時(shí)間、官職這五種類型的實(shí)體。

      圖片

      ▲自動(dòng)標(biāo)點(diǎn)技術(shù)解析視頻截圖

      人工智能識(shí)別的工作完成后,為了方便用戶閱讀,整理平臺(tái)要進(jìn)一步對(duì)成型的文本進(jìn)行整理。

      首先,是對(duì)3%和4%錯(cuò)誤率進(jìn)行人工修改,分出段落和標(biāo)題,然后再賦予不同的格式。而對(duì)于不同質(zhì)量的古籍文獻(xiàn),整理標(biāo)準(zhǔn)不一,人力承擔(dān)著不同的職能,大致流程為制定整理標(biāo)準(zhǔn)、人工整理、審核、上架,相關(guān)管理者是有古籍知識(shí)經(jīng)驗(yàn)的北大團(tuán)隊(duì)。

      其次,是對(duì)用戶訪問數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。然后是資源管理的功能,用戶可以更清晰地看到每本書的基礎(chǔ)信息,具體內(nèi)容,以及當(dāng)前所處的整理狀態(tài)。

      最后,將古籍劃分等級(jí),如經(jīng)典書目、常讀書目、基礎(chǔ)書目,像《論語》這種經(jīng)典書目,對(duì)正確率、標(biāo)點(diǎn)和注釋的要求都較高。負(fù)責(zé)人介紹,目前這些功能有的已經(jīng)成型,有的還需要進(jìn)一步增強(qiáng),古籍?dāng)?shù)字化并非易事。


      ━━━━━
      古籍?dāng)?shù)字化的現(xiàn)實(shí)困境

      中國(guó)是全球擁有古籍最多的國(guó)家,國(guó)內(nèi)現(xiàn)存漢文古籍300萬部,散居在海外的古籍超過40萬部,它們依然面臨著衰朽,而已完成數(shù)字化的古籍為7.4萬部,數(shù)字化進(jìn)程仍處于初步階段。

      其中面臨幾大難點(diǎn)。首先是部分古籍在數(shù)字化之前要先完成修復(fù),但古籍修復(fù)工序復(fù)雜,難以完全用科技手段,且培養(yǎng)古籍修復(fù)人員需要極高的時(shí)間成本。其次,花費(fèi)高昂,有專家估算,如果將全國(guó)尚未數(shù)字化的古籍全部數(shù)字化,采集、組織、加工、存儲(chǔ)、管理等費(fèi)用大約需要60億元。第三,技術(shù)難度高,現(xiàn)有的數(shù)字化很多是由縮微膠片轉(zhuǎn)換而成,呈黑白影像且分辨率較低,難以切實(shí)滿足讀者的需求。

      過去,古籍內(nèi)容轉(zhuǎn)化為數(shù)字文本主要依靠專家人工錄入,耗時(shí)費(fèi)力。北京大學(xué)數(shù)字人文研究中心主任王軍算過一筆賬:我國(guó)現(xiàn)存古籍約有20萬種,從1949年到2019年,共修復(fù)整理出版了近38000種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要三百年的時(shí)間。若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

      相關(guān)負(fù)責(zé)人介紹說,目前古籍的使用人數(shù)眾多,一些高校斥資買古籍?dāng)?shù)據(jù)庫,但是訪問不是很方便。建立數(shù)字化平臺(tái),各類學(xué)科的專業(yè)人士能更容易查看古籍文獻(xiàn)。一些潛在的古籍愛好者,數(shù)字化平臺(tái)可將這部分用戶迅速連接起來。

      目前,識(shí)典古籍測(cè)試版的句讀錯(cuò)誤率在3%到4%,文字識(shí)別也有一定的錯(cuò)誤率存在,影響閱讀體驗(yàn)。在人工智能機(jī)器學(xué)習(xí)一段時(shí)間后,準(zhǔn)確率將會(huì)提升到98%左右。

      圖片

      ▲古籍修復(fù)師在工作

      作為北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室的成員,王軍有著豐富的古籍?dāng)?shù)字化經(jīng)驗(yàn),他曾研發(fā)過“《宋元學(xué)案》知識(shí)圖譜可視化系統(tǒng)”,對(duì)240萬字的《宋元學(xué)案》進(jìn)行了文本處理和分析,將2000多位宋元理學(xué)學(xué)者、近100個(gè)學(xué)術(shù)流派所涉及的人物、時(shí)間、地點(diǎn)、著作等提取出來構(gòu)造成知識(shí)圖譜。

      據(jù)他介紹,對(duì)于識(shí)典古籍的開發(fā)和應(yīng)用,北京大學(xué)主要從三方面入手,第一,聯(lián)絡(luò)國(guó)內(nèi)的圖書館尋求公版資源,保障版本的正當(dāng)性;第二,聯(lián)系北師大、復(fù)旦、南大、陜西師大等高校的學(xué)者和文獻(xiàn)專家,進(jìn)行人工審核與校對(duì),彌補(bǔ)人工智能有識(shí)別錯(cuò)誤率的短板;第三,北大利用自有的學(xué)術(shù)平臺(tái),鏈接學(xué)術(shù)界和高校的年輕用戶,對(duì)識(shí)典古籍進(jìn)行推廣。


      ━━━━━
      古籍保護(hù)的更多可能

      字節(jié)跳動(dòng)旗下有多個(gè)信息分發(fā)平臺(tái),沉淀著大量關(guān)于內(nèi)容平臺(tái)的經(jīng)驗(yàn)和技術(shù),這些技術(shù)可以逐漸向古籍智能數(shù)字化的方向上遷移。過去半年,識(shí)典古籍技術(shù)開發(fā)團(tuán)隊(duì)整合了包括字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室、今日頭條的設(shè)計(jì)團(tuán)隊(duì)和抖音的開發(fā)、測(cè)試團(tuán)隊(duì)成員加入,其中有不少是古文獻(xiàn)專業(yè)和文史哲專業(yè)的成員。

      識(shí)典古籍在使用性上強(qiáng)調(diào)用戶體驗(yàn),網(wǎng)頁打開流暢。主頁有檢索欄,用戶可直接搜索書目;右上方是書庫,點(diǎn)進(jìn)去可看到經(jīng)、史、子、集四個(gè)欄目;下方是古籍書樣,如《周易》、《荀子》、《左傳》,主頁下方是“儒家經(jīng)典”“道家經(jīng)典”“文學(xué)經(jīng)典”三個(gè)欄目。點(diǎn)開一本書,左邊是目錄,右邊是正文,上方有四個(gè)功能項(xiàng),依次點(diǎn)擊可看到古籍原本的影像、注疏、繁簡(jiǎn)字體切換以及書庫,且每部古籍都有精校和粗校的標(biāo)簽提示。

      圖片

      ▲“識(shí)典古籍”網(wǎng)頁截圖

      目前識(shí)典古籍只有網(wǎng)頁版,相關(guān)技術(shù)負(fù)責(zé)人預(yù)測(cè),今年11月份識(shí)典古籍將會(huì)推出移動(dòng)端,到時(shí)會(huì)鏈接到抖音和今日頭條,活化更多的古籍內(nèi)容。

      在數(shù)字化之外,一年多來,字節(jié)跳動(dòng)在古籍修復(fù)和活化上也有所進(jìn)展,F(xiàn)在,字節(jié)跳動(dòng)資助國(guó)家圖書館定向修復(fù)的珍貴古籍104冊(cè)件,現(xiàn)已完成50多冊(cè)件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺(tái)推出“尋找古籍守護(hù)人”計(jì)劃,四大名著、二十四史、四書五經(jīng)相關(guān)的視頻播放量超過600億次,涵蓋漫畫、影視、美食、音樂等多種內(nèi)容體裁。

      古籍承載著中華文明,它的傳播是需要大眾參與。未來,通過識(shí)典古籍,向全社會(huì)開放古籍閱讀檢索研究能力,還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí),鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),豐富平臺(tái)內(nèi)容,用戶甚至可參與再創(chuàng)作和再闡釋,與平臺(tái)形成一種良性互動(dòng),助力古籍文化傳承和研究。

      來源:新京報(bào)

      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      沙發(fā)  發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      板凳  發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      地板  發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      4樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      5樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      6樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      7樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90,
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      8樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,好
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      帥哥離線昆山小新秀
      發(fā)帖
      585
      昆幣
      976 枚
      9樓 發(fā)表于: 2023-03-21 , 來自:江蘇省0==
      親愛的昆山小新秀,我們非常高興地告訴你,你剛剛升到了昆山過客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,四五個(gè)
      爆料有獎(jiǎng)!關(guān)注昆山論壇抖音號(hào),抖音搜索“昆山論壇”,或搜索抖音號(hào):ksbbs
       
      快速回復(fù)
      限76 字節(jié)
      如果您在寫長(zhǎng)篇帖子又不馬上發(fā)表,建議存為草稿
       
      上一個(gè) 下一個(gè)