語意網時代的圖書資訊服務新思路--曾蕾教授專題演講報導

2016/05/10

【整理●台灣國際資訊整合聯盟協會‧李紹迪】

在大數據當道的現在,圖書館或博物館所擁有的數位資料其實是非常珍貴的寶物;因此於本年度館長聯席會議首日,在國立台灣大學圖書館陳雪華館長的引言介紹下,特別邀請了2016年傅爾布萊特學者獎的得獎者、同時在全球圖資界享有盛名的美國肯特州立大學(Kent State University)圖書資訊學院曾蕾教授,和與會者一起分享在語意網時代中對於數據的內容、結果、方法和觀念所產生的變化,並透過豐富的實例展示,期勉圖書館能夠一起來思考如何將這些大數據應用成為智慧數據,讓圖書館不但是智慧數據的提供者,更可以成為消費者,為圖書館資訊服務提供新的思考方向。

智力網絡與參與文化 締造智慧數據時代

自從WWW創始人Berners-Lee博士於2001提出語意網概念至今已十數年。從Web 1.0著重在資訊的鏈接、Web 2.0講到人與人的社會網絡聯繫、Web 3.0開始探索知識關聯性的語意網,一直到現在Web 4.0連結人與物、發展無所不在的智力網絡時代,或許象徵機器人時代的AlphaGo已經打敗了棋王,但是這一切其實都奠基於數據的建立,曾教授指出我們所有的資訊不再只有數位化而已,更要數據化,特別是要能變成智慧數據,因為大眾不再關心”為什麼”,而變成”是”什麼。

語意網就是數據的連結,而圖書館已經擁有很多不管是已經結構化、半結構化或無結構的數位化材料,如何讓數位化變成數據化,如何讓這些數據可以讓機器理解,並可據此採取行動,可以在跨界的連結、引用、傳播、授權、再利用中不會產生錯誤,更可以一源多用,變成可高效率運作的數據,在”參與文化”的氛圍中,讓數據來發現、闡述並解決問題,特別是在數位人文中發現圖書館的新地位。

對於數位人文這個概念,2015年年底的一項調查呈現很有趣的現象。在針對館員的問卷調查中,僅40%的館員認為圖書館提供了應有的服務,另外有將近25%的館員認為沒有做到,這也體現在美國的大學圖書館中急遽下降的參考服務使用率。

但是對於大學教師來說,幾乎所有人都贊同透過圖書館對數位人文的投入,提高了圖書館在大學裡的重要性;更有60%認為數位人文中心就是圖書館,圖書館是研究的中心,彰顯教師們對圖書館員專業的肯定。對教師們來說,圖書館不只只是儲存機構典藏,還會推動並結合各式各樣的數位服務,提供取得學術資源的管道,圖書館不僅僅是發揮支援教師的功能,更是各種服務的中介者,提供所需的工具培訓等,讓研究人員可以更與時並進,進而更加看清研究的原本輪廓。由此可以一窺圖書館在未來的新地位與發展新趨勢。因此在大數據需要越來越智慧,智慧數據面臨越來越多的情況下,數據服務因而發展出全新的概念與類型。


以大數據模式與思維實現智慧數據 開創圖書館資訊服務新思路

在曾教授的專題演講中,特別從豐富的範例為我們從內容、結果、方法和觀念4個角度來看語意網環境下的變化。特別是圖書館蘊藏著具結構化的豐富數據、利用實例的介紹,提出圖書館資訊服務的新思路可以由下列幾個方向來發想:

1. 圖書館目錄不再是終點,而成為新的起點

以聯合國農糧組織的AGRIS為例,以即時混搭的概念呈現出除了傳統資料庫的資訊之外,更可以抓取如世界銀行資料、國際新聞等,做混搭的呈現。以往在圖書館目錄中,目錄是資訊的終點,但是有了即時混搭之後,圖書館目錄中的每個數據都是一個小的知識網絡,讀者從原本只有查找、辨識、選擇、和獲取,現在還可以加入了探索,讓讀者可以看見更多可能性,變成了知識新的起點。

2. 檔案目錄成為研究的新起點

曾教授以羅馬帝國硬幣特藏網站、敦煌石窟網站以及上海圖書館的家譜知識服務平台為例,讓大家看到這些特藏資料透過數據的串接,可以按時間、人物、地點去查詢之外,更可以根據數據做出具有研究價值的資訊。譬如硬幣的流通、名人家族的遷徙史等等,讓檔案目錄成為研究新起點。

3. 著重在物(Thing)的關聯,不是字符串(Strings)的鏈接

以WorldCat Linked Data為例,正在做的就是”物”之間的關聯,而不是字符串的鏈接。具體實現在Wikipedia中,就可以建立杜威的知識圖,串聯到紐約、芝加哥大學等。

4. 成為網絡的一部分,而不只是放在網路上

以康乃爾大學的VIVO網絡為例,可以發現不僅僅是以老師為主題,還可以串接文章、書、人物、機構、研究等。可以看到人物詳細狀況,還可以看見跟他合作的人物、做的研究項目、以及在整個大學裡的隸屬範疇等,成為社群網絡繹或學術網絡的一部分。

 

善用各式工具與方法 也可以呈現豐富的數據分析結果

在圖書館中,還有非常大量的半結構化資料,譬如檔案、口述歷史、各種紀錄等;也會有很多的非結構化資料,比如手稿、樂譜、地圖和名家字畫等,可以透過文字挖掘、詞彙抽取、情感分析、本體抽取與推理、自動聚類等方式處理,曾教授也分享了利用像是語意分析工具,如透過Open Calais生成RDF/XML數據,利用COGITO做地理形勢、情感分析、正負面表列的分析數據,又或者是使用BOSON做特藏分析等,都可以應用在口述歷史、文獻特藏、學位論文等資料。

而對於非結構化資料的圖像這類資料,曾教授則介紹了由歐美頂尖大學的圖書館和國家圖書館組成聯盟所制定出的國際圖像互操作架構(International Image Interoperability Framework,IIIF)。透過”圖像API”和”呈現API”兩項標準來結構化圖像的表現。圖書館可按照使用者的要求輸出URI等數據,從而實現多個圖像對比、深度圖像標引等功能。

另外曾教授也分享了一個發表在Nature和Science上的知名實例來闡述智慧數據的妙用。研究人員利用Freebase,集合了世界藝術家傳記和藝術家人名規範檔,採集了世界三千年來最著名的藝術家、思想家的出生時間、地點和死亡時間、地點,以視覺化方式展現在地圖上,用以表現三千年來文化中心形成以及傳播的過程,用以說明數字人文的發展趨勢和地位。

最後,曾教授認為圖書館在語意網時代中,不但要成為數據和服務的提供者,更應該是受益者。因為圖書館手上有太多太多珍貴的數據資料,不但可以提供使用,更可以把這些數據擴充為知識系統,串接外面的相關服務與數據,進而變成知識服務的新起點,利用各種關聯數據產生更多的新知識。


關於曾蕾教授

曾蕾教授於大陸圖資領域首屈一指的武漢大學圖書資訊學院取得學士與碩士學位後,至美國匹茲堡大學資訊科學學院取得博士學位,現為美國肯特州立大學(Kent State University)圖書資訊學院教授。

研究與教學領域包括關聯資料、數位圖書館、知識組織系統,文獻索引與檢索,後設資料,多語種資訊處理、資料庫品質分析與控制、數位元影像處理等。在國際學術期刊、百科全書、國際學術會議上發表研究論文80餘篇,專著5本,應邀在北美、南美、亞洲、歐洲各國講學和做特邀主講。主持若干由美國國家自然科學基金會(NSF)、OCLC 連線圖書館電腦中心 、福布萊特(Fulbright)基金會、美國聯邦博物館和圖書館服務機構(IMLS)等資助的研究項目。

曾蕾教授曾獲美國情報科學與技術學會(Association for Information Science andTechnology, ASIST) 最佳博士論文獎和其它獎勵。曾任國際圖聯(IFLA) 標引與分類法委員會主席、國際知識組織學會( ISKO)執行委員會常務理事、美國情報科學與技術學會(ASIST) 理事(Director-at-large)、都柏林核心中繼資料組織(DCMI)顧問委員會主席及執行委員會委員、美國專業圖書館協會(SLA) 編⽬委員會主席和技術標準委員會主席、W3C圖書館關聯資料小組 (Library Linked Data Incubator Group)特邀專家成員、歐盟ISA 專案資產描述中繼資料標準(ADMS)工作組特邀專家成員等。參與或主持編寫的文獻有美國國家資訊標準組織(NISO) 國家標準Z39.19、國際標準組織(ISO)ISO-25964 、聯合國糧農組織(FAO)關聯書資料指南LODE-BD、Getty《藝術與建築敘詞表(AAT)》關聯資料項目目計畫、《IFLA 主題規範資料的功能要求(FRSAD)》等。
 

延伸閱讀