讓電腦也能辨識新聞
新聞內容標記問題初探
陳百齡
副教授
政治大學新聞系
台北市文山區指南路二段64號
(02)2938-7223
(02)2938-2063
http://ccs.nccu.edu.tw/oldccs/con2002/conworks/11B-1.doc
讓電腦認識新聞
《中文摘要》
下一個世代網路技術的特色,就是使電腦能夠辨識訊息內容,俾讓資訊在平台之間相互流通。建構新聞資料庫時,可應用XML等語言標記新聞內容。當我們發展內容標記的原則之時,新聞的知識表徵是不可或缺的基礎。然而新聞學這個領域的文獻,對此問題所提供的線索卻相當有限。本文探討當前新聞資料內容標記技術發展的問題與現況,並試著指出發展內容標記的策略。
關鍵詞:內容標示、可延伸標記語言、知識表徵、語意網絡、資料庫、新聞。
網際網路是否能夠讓新聞訊息是否能夠與人們的日常生活相結合?從Williams (1980)到Negroponti (1995),傳播科技先驅們不斷描繪數位世界裡新聞的種種榮景。然而回到現實的場景裡,數位科技卻仍舊未能解決人們查詢新聞資訊的老問題。請看以下這三個例子:
l 吳小弟正要撰寫一篇學期報告,主題在談南投縣生態環境在921震災後的改變,用關鍵字檢索報社的線上資料庫,出現的八千餘筆資料,而大多數查詢結果和寫作主題無關。
l 鍾先生想瞭解法國前總理Jean-Marie Le Pen大選失敗的相關新聞。結果發現報紙中譯名各有不同,有的譯為「約斯平」,有的則譯為「喬斯潘」。鍾先生必須將各種譯名輸入資料庫作為檢索詞,方能完整。
l 老王打開PDA的行程表,寫入後天赴北京出差的各種應辦事項。氣象局在幾小時前發佈新聞,指出北京受到沙塵暴侵襲,但行程表卻未將這則新聞告知老王。
以上三個例子儘管場景不同,產生問題的關鍵卻一模一樣:在目前的網際網路技術下,新聞資訊只能讓人類閱讀,而電腦無法辨識資訊內容。也正由於電腦不懂資訊內容,所以資料庫無法應用到個人化需求之上。換言之,第一代的網路技術無法讓各種資訊平台之間相互為用(interoperability),以致於聯網效果極其有限。
全球資訊網發明人Berners-Lee目前推行的「語意網絡」(semantic web[1])正希望能夠解決這個問題。根據Berners-Lee所勾勒的願景,語意網絡將促使全球資訊網上的資料透過另一種不同於現在的方式描述和鏈接,使這些資料不僅能被電腦所顯示,也能被電腦跨越不同的應用程序而自動處理、分析整合、以及重複使用。[2]
報業是最早引進資訊科技的產業之一。[3] 然而目前新聞資料庫檢索與應用能力仍然相當有限。發展「新聞內容標記」,可能是強化新聞資料庫的重要途徑。因此本文擬先從「語意網絡」的角度,探討發展內容標記之必要;其次探討「可延伸標記語言」(XML)如何定義新聞知識表徵;第三、本文將回顧若干相關研究,分析新聞內容標記的問題;最後,作者建議兩項研究取徑以解決建構新聞內容知識表徵的問題。
自網路資料庫問世以來,新聞資訊調度和保存,仍然必須密集使用人力。特別是當資訊內容從一個特定平台轉換到另一個平台之際,儘管資料內容相同、卻需耗費人力改變格式。另一方面,當使用者檢索新聞資料時,查詢結果往往非使用者所要的資料。(例如使用者鍵入「中廣」想要尋找中國廣播公司的相關資料,查詢結果卻是含有「…其中廣為人知的因素…」的文句。)換言之,儘管電腦保存大量文數字資料,卻不能保證使用者能夠檢索到有意義的資料。
形成這個現象的關鍵,在於電腦無法瞭解新聞資訊內容所代表的意義。目前的新聞資料庫無論硬體設備如何精密昂貴,卻都無法像人類一樣對資料內容進行比較、組織、和語意聯結等需要高階心智能力的工作。O’Kelly(1998)形容時下新聞媒體使用電腦資料庫處理新聞資訊的原始程度,正有如十八世紀富蘭克林等報業先驅使用手工檢排和印刷報紙。
Berners-Lee等人(2001)所提出來的「語意網絡」技術,正可以應用來解決目前新聞資料庫的問題。以下將從(1)知識表徵;(2)網路辭書;以及(3)蒐尋代工等三個面向,以說明語意網絡的特性。
首先說明「語意網絡」使電腦解讀訊息內容的特性。如先前所述,目前的網路技術只能剖析(parse)文件的呈現格式與一些例行性處理程序,但是電腦並未剖析文件的內容。語意網絡則繼承目前網路文件的若干規則,並且更進一步要求每一份文件必須具備一套文件內容剖析規則,以定義文件段落的意涵、並指明段落之間的關係。
所謂「知識表徵」(knowledge representation),在此處是指人類基於特定領域知識表徵所發展出來的一套結構化資訊,用來作為電腦程式剖析文件內容與進行自動化推論(例如區分、比較、或連結文件段落意涵)的規則(Berners-Lee, 2001)。舉例來說,我們可以將某一段內容定義為「時間」、並定義「時間」裡有「年、月、日」等元素,則電腦程式可以運用規則判讀所有被註記為「時間」與「年、月、日」等元素的訊息內容。目前「可延伸標記語言」(eXtensible Markup Language ; XML)或「資源描述格式」(Resources Description Framework; RDF)都常被用來描述某種特定的知識表徵,下一節裡當再詳述。
然而,在不同的時空情境下,人類可能運用不同的知識結構。另一方面,即使在同一情境裡,人們對於特定領域的知識表徵也未必相同。在網際網路的環境下,不可能存在單一的知識表徵。特別是在跨平台處理資訊之時,各個知識表徵的元素與屬性之間的關係,必須同時加以考量。此時便有必要使用「網路辭書」來整合各種文件剖析規則。
在語意網絡的環境裡,「網路辭書」(ontologies)特指一份文件或檔案,內容則提示不同文件剖析規則的範疇、元素、與屬性之間的關係(Berners-Lee et al., 2001)。網路辭書雖然定義知識表徵之間的關係,但並不去定義個別文件之特定屬性與其內部元素關連性。有了網路辭書作為溝通不同文件知識表徵的工具,未來跨文件和跨平台的資訊運用,就可能實現(Gruber, 1993)。例如,在某份文件剖析規則裡使用「時間」元素,之下並有「年、月、日」等屬性,而另一份文件裡則使用「time」元素,之下有「yy、mm、dd」等屬性。網路辭書定義兩份文件之間的關係之後,電腦程式從此可以辨識「時間」和「time」兩者與其下屬性為同一性質,而相互使用。
最後,則是代理蒐尋程式(search agents)。所謂「代理蒐尋程式」專門用在網路上蒐尋閱聽人需要的資訊。過去的程式通常以關鍵字為基礎進行資料蒐尋,查詢結果未必精確。但是在語意網絡之下,代理蒐尋程式可以透過知識文件剖析規則以及網路辭書所提供的資訊,掌握不同文件之間的知識表徵及元素屬性。如此一來,代理蒐尋程式可以對知識做更精密的應用(Berners-Lee et al., 2001)。
語意網絡裡的各種知識表徵,需要透過開發工具加以落實。近年來問世的「可延伸標記語言」(XML),便成為資訊科技人士用來建構知識表徵的主要工具。產業界為新聞資料庫所開發的幾種標記規格,也都應用XML。以下說明XML在新聞資料庫上的應用。
「可延伸標記語言」(XML)是一種新近發展出來的「後設語言」(meta language)。所謂「後設語言」,在資訊科學領域裡通指一套用來描述和分析一般人類語言的符號體系(Bray, 1998)。[4] 這套符號體系允許使用者自行發展文件類型定義,以描述資料內容的結構或內容(Simon, 2000)。通常後設語言都利用標記(markup),也就是在文本前後以標籤加註(tagging)的方式,作為文本傳輸、交換、和儲存的機制(Allen & Möhr, 1998)。例如在全球資訊網上最常用的HTML語言(Hypertext, Markup Language; HTML)便是一種後設語言,用來描述網頁上的文件形式。在HTML語言中,<I>這個標籤代表「文本以斜體方式呈現」的意思。
過去網頁上所使用的文件標記語言HTML,以描述文本形式(presentation)為主,但是在儲存、交換、和查詢檢索方面仍未臻理想,難以滿足資料內容標記(content markup)的需求。XML語言在1998年正式問世,XML語言可以將文本內容加以結構化和標準化,使得產業之間資訊交換、檢索、以及電子商務應用更為方便(Bosak & Bray, 1999)。
XML的文件結構可分為兩個部分;邏輯結構與實體結構(Simon, 2000)。邏輯結構的主要功能在定義標記之間的結構組織關係,這個部分是由「文件類型定義」(Data Type Definition; DTD)和XML標籤集所構成(tag sets)。邏輯結構背後就是領域知識的知識表徵。另一方面,物理結構則是資料內容的部份,由XML文件中的元素和資料實體(entities)所構成。透過邏輯結構提供一套文件剖析規則,可以讓電腦解讀標記的結構,以及相對應的資料內涵。
發展標記首先必須依照應用文件的領域知識,以制訂文件類型定義(DTD或Schema),以作為進一步標記的規則,DTD不但揭示文件的結構、同時也定義結構裡各個元素和屬性的關係與意涵。有DTD之後,則可建立標籤集(tag sets),用來註記文件。
一旦使用XML,人們可以依照各自的需求而開發各種文件類型定義,定義不必定於一尊(Berners-Lee et al., 2001)。另一方面,所有經過XML註記的文件,也可以透過轉換程式而輸出到其它平台重複使用。例如在網頁上呈現的文件,可以透過XSL樣式庫和XSL-T程式轉換,成為網頁標記語言(HTML),以作為網路資料呈現;或者透過轉換成為其它網路上的交換格式(如TEI, Text Exchange Initiatives)。如此一來,文件的內容得以不受呈現樣式的拘束,對於文件儲存、檢索以及重複使用,提供了較大的彈性(Manickam, 2000)。
所謂「標記」(markup),是指「用來表達或紀錄文本結構、狀態、屬性、和特徵等資料的後設資訊(meta information)」。所謂「標記語言」(markup language)則是指一套用來為文本做標記的規則(Simon, 2000)。XML就是目前常用的一種標記語言。標記語言通常用一套字元標籤集,構成標籤集的標籤,均以“<”(英文字元的「大於」符號)和“>”(英文字元的「小於」符號)作為區隔,置於所要標記的文本前後,以表達該文本的名稱、屬性、和參數等資料。一般而言,標記所用的格式如下:
<標籤名稱 屬性=“參數值”> 文本 <∕標籤名稱>
通常我們可以把一份新聞資料區分為包括外部資料與內部資料。外部資料是指「描述新聞資料的資料」(data about data),一般通稱為「超資料」(metadata,也有人稱為「元資料」或「後設資料」)。外部資料係為因應現代網路上大量文件管理和檢索需求而崛起,原先多用在圖書館和博物館領域,透過超資料描述典藏資料的內容、或揭示各類型文件或檔案的特性,進而達成協助指示資料典藏位置、蒐尋和過濾資源、保存文件紀錄、或評估資訊價值(陳昭珍、陳嵩榮,1999)。
另一方面,內部資料則是指資料內容本身。所謂內容標記是指「透過有系統的標記,以呈現文本的結構、以及任何文本使用者有興趣的內容訊息。」[5] 例如戲劇、散文、詩、佛經等作品內容,皆可成為內容標記的對象(維習安,2000)。內容標記著重於資料文本結構和內容屬性等特性,因此和前述的資料標記側重於描述文件外觀型式有很大的不同。[6]
以下試舉一個新聞內容標記的例子,原文為某報89/01/11的一則新聞報導:
雷震遺孀宋英逝世【台北訊】《自由中國》雜誌創辦人雷震遺孀宋英,元月四日於美國加州逝世,享年百歲。有感於宋英與雷震生前對台灣民主貢獻良多,民進黨昨日特發布聲明,述其生平,以為追思。
如果我們用新聞學的基本知識結構作為新聞標記的基礎。那麼這一則新聞稿可以定義為「標題」、「稿頭」、和「導言」。另一方面,我們可以將內容區分為「人物」、「機構」、「事件」、「時間」、「地點」等元素,並在各個元素下定義屬性;例如,「機構」元素裡有「媒體」、「政黨」等屬性。我們可以依照這個原則將上述新聞用XML標記語言處理。內容標記顯示如下:
<標題><機構屬性=”媒體”>《自由中國》雜誌</機構>創辦人<人物屬性=”姓名”>雷震</人物><人物 屬性=”身份”>遺孀</人物><人物屬性=”姓名”>宋英</人物><事件>逝世</事件></標題>
<稿頭>【台北訊】</稿頭>
<導言><機構屬性=”媒體”>《自由中國》雜誌</機構><人物 屬性=”身份”>創辦人<人物 屬性=”姓名”>雷震</人物><人物屬性=”身份”>遺孀</身份><人物 屬性=”姓名”>宋英</人物>,<時間 日期=”2001/1/4”>元月四日</時間>於<地點>美國加州</地點>逝世,享年百歲。有感於<人物 屬性=”姓名”>宋英</人物>與<人物 屬性=”姓名”>宋英</人物>生前對<地點>台灣</地點>民主貢獻良多,<機構 屬性=”政黨”>民進黨</機構><時間屬性=”事件時間” 日期=”2001/1/10”>昨日</時間><事件>特發布聲明,述其生平,以為追思。</事件></導言>
讀者如果把原文和經過標記的電子文件相比較,將會發現若干字元前後都加上“<”和“>”符號的標記,例如<標題>、<人物 屬性=”身份”>、<姓名>、<機構 屬性=”政黨”>等。這些資料註記被標記字元的性質。XML成為文件通用的標記語言以後,將可使新聞媒體、從業人員和閱聽人可以在不同平台、軟體以及程式語言下,更具彈性地交換、傳輸、儲存和呈現新聞資訊(Bray, 1998)。
新聞內容標記所帶來的最大改變,可能是資料的調度、儲存和檢索。目前數位化的新聞處理流程中,多向文本的鏈結通常必須花費相當密集的人力,但是使用內容標記以後,電腦能夠區辨特定新聞字彙的意義。因此產製多向文本鏈結的工作,便可以自動化。新聞稿件中的人物、事件、時件、地點等資料用標籤加以註記以後,可以進一步加工製作較精密的資料庫,使得蒐尋引擎得以分辨新聞事件中所指涉的人、事、時、地等元素。例如當使用者蒐尋「唐飛」一詞之時,電腦資料庫將能夠分辨查詢關鍵字指的是台灣2000年新政府成立後的首位行政首長。同樣地,倘若資料庫已將「八掌溪慘案」一詞加以註記,則蒐尋引擎也能夠將這個詞彙與其它相近詞彙加以區辨。因此查詢結果將較目前為精確。
其次,XML將大幅減少產製流程中轉換新聞資料體例的人力和物力(Bray, 1998)。每一個新聞媒體均有其寫作格式和版面風格,過去新聞產製流程必須花相當人力處理這些體例轉換的工作。例如報社編輯必須將美聯社寫作格式(Associate Press Style)轉換成該報的報導體例。而平面媒體編輯結束之後,如果該則新聞要送上網路發行,則又須轉換為網頁文件格式。這些工作目前都用人工作業,一旦使用內容標記將可精簡化後端轉換格式的人力(Dumbill, 2000)。
最後,XML語言將使新聞稿件內容也可以註記多種媒材。XML語言所做成的內容標記,可以橫跨不同傳統大眾媒體的範疇,如:報紙、雜誌、電影甚至是音樂,都可以依據文件類型定義加以規範,使媒體得以交換資料使用(Feola, 1999)。另一方面,XML語言也不僅止於語言媒材的標記而已,更可以擴及聲音與影像的內容標記。經過標籤集設定的詞彙將可聯結多種媒材的內容,例如IPTC所制訂的NewsML便是一種跨媒材的標記規格。採用XML語言作內容標記,將有利於新聞媒體走向跨平台的運用,例如在行動通信手機和PDA上從事新聞發行(multiple purposing)。[7] 未來電子商務需要豐富資料,新聞媒體如欲發展電子商務應用XML,將可減少資料格式轉換的障礙(Hall, 2000)。
國際新聞協力組織組織針對跨平台資訊流通問題尋求解決方案,已有一段時日。目前發展出數種標記規格,皆本於XML語言。但是這些規格卻大都偏重於外部資料的標記,對於內容標記部分著墨不多。以下分別介紹這些產業規格。
一般而言,新聞媒體應用XML所使用的標記共有四類(Dumbill, 2000):傳輸協定(protocol)、封裝協定(envelope)、檔頭資料(header)、以及新聞內容(content)。「傳輸協定」是指兩造之間(例如通訊社和報社)為傳輸新聞資料目的而制訂的標記。目前新聞組織援用網際網路通用的若干協定,例如ICE、HTTP、以及FTP。「封裝協定」則是新聞資料傳輸或交換過程中,為辨識特定區塊資料所制訂的標記,例如NewsML。「檔頭資料」則是為辨識特定新聞資料項目的超資料(metadata)所制訂的標記,例如XMLNews-Meta[8] 和PRISM等是。這三類業界發展出來的標記,主要在描述新聞外部資料,也就是屬於「超資料的標記」(markup for metadata)。
還有一類標記則是針對「新聞內容」;也就是直接針對新聞內容而制訂的標記。目前產業界已經發展出來的標記NITF、PRISM以及XMLNews等規格,都有小部份標記用來處理新聞內容。所謂「新聞內容標記」是透過一套的文件標記規則,為新聞資料內容(數位化的新聞稿)加註標記,俾作為電腦程式辨識、或進一步自動化推理(如區別、典藏、或檢索等應用)。
國際報業電訊委員會(International Press Telecommunications Council, IPTC)為解決新聞資訊交換、包裝和保存的問題,過去幾年推出幾項新聞資訊相關標準,規格皆以XML為基礎。[9] NITF、NewsML、以及PRISM則是最主要的幾項標記規格。[10]
NITF(Newspaper Information Text Format)由IPTC和NAA共同合作開發,在1999年初問世。NITF這套標記規格主要用於平面媒體的標記規則。NITF設計的初衷,在加強新聞文件重覆使用的便利性。通訊社、報業、網站等新聞同業可以透過NITF將新聞稿件轉換成為不同的資料格式,並呈現在各種新聞平台之上,而達成多重發行的目的(Cover, 2000)。例如,新聞稿可以轉換為WML以配合手機或PDA、或轉換為HTML以配合新聞網站呈現網頁資料。
由於NITF以XML語言所建構,所以繼承XML在描述資料方面的彈性與資料傳遞的優勢。此外,NITF還有兩個優點(Cover, 2000):第一,內容與呈現方式分離。NITF標示新聞之後,新聞的資料內容與呈現即不相屬,標籤只描述新聞資料的內容與語意結構,而不處理新聞資料的呈現方式。因此編輯人員可以專注於資料處理,而毋需重新關注格式問題,呈現工作則交由美工人員。其次,過去新聞資料以HTML格式儲存,標記不具任何意義。因此在進行全文檢索時,發生了許多困難;另一方面,使用者也難以判斷搜尋結果之間的關聯性,更無法瞭解新聞事件的來龍去脈。採用NITF標記新聞之後,使用者透過超資料(metadata)的描述,可提高檢索時的準確度。[11]
另一套標準重要的新聞標記規格是NewsML。這套規格也出自於IPTC,在2000年問世。NewsML主要致力於描述電子環境下所產製的新聞媒材(例如文字、影像、以及聲音),這套標記旨在建立新聞素材之間的關係、以便新聞媒體能對多媒體資料從事有效的流通與管理。NewsML與NITF最大的區隔在於NewsML主要用來描述與多媒體的新聞資料,而NITF描述的資料較侷限於平面新聞。NITF與NewsML間的關係並不互相衝突,相反地,NewsML可與NITF互補資料描述上的不足之處,達到兩者合作的關係。
PRISM則是各種標記規格中最後問世者。PRISM也使用XML製作標標記,主要服務的對象則是雜誌、新聞、期刊等平面媒體。PRISM設計的目的在提供新聞資料交換所需的標準格式。由於出版事業需要一個描述資料的共同架構,以便能夠實現線上出版與電子商務的各項應用。因此PRISM的標記主要在描述新聞資料的超資料,以作為業者交換與呈現資料內容之用。[12]PRISM與先前業界所開發的NITF與NewsML可以互補,通常利用XML的名牌(namespace)解決標記規格之間的衝突,而達成互補的目的。
初步比較ITPC所開發的這些標記規格,可以發現無論是NITF、NewML或PRISM,都比較偏重從外部描述新聞資料,也就是標記新聞稿件的超資料(metadata),但是對於新聞內容標記則著墨較少。基本上,前述三項標記規格均將資料內容標記成為一個「包裹」(package)。NITF和PRISM是以「行中標記」(inline processing)的方式,將新聞內容較為重要的資訊點(例如人物、機構、時間、地點等)加上標記。至於 NewML則未處理「包裹」內的資訊內容。
產業界未曾立即處理新聞內容標記的問題,可能和幾項因素有關。首先、產業界重視經濟效益。內容標記本身未必產生立即的效果,所以也不會被當成產業當務之急。換言之,如果在目前技術之下產業界只要標記外部資料,即可解決大部份跨平台間流通的問題,就沒有必要動用資源標記新聞內容本身(Cabo, M. & R. Llavori, 1997)。其次,早先的圖書館科學和最近的數位典藏(digital library)領域,就新聞外部資料標記方面已經累積了相當經驗(ARMS, 2001; Cabo & Llavori, 1997;吳燕美,1999),但是內容標記則否。最後,則是知識表徵的問題。雖然人類對於新聞已經累積相當程度的瞭解,但是新聞寫作涉及特定領域知識,新聞比起學術論文或公文等類型的資料,其內容結構仍然屬於模糊(illed-structured)而有待進一步探討,因此設計者在定義各項元素及屬性時,困難度也就高於其它文件(Aallen & Möhr, 1998)。
語意網絡形成的特徵之一,在以「知識表徵」作為標記規則。「知識表徵」的問題,在外部資料標記時未必顯出其重要性,但在內容標記時,卻是個大問題。因而也就產生了那麼一點學術上的趣味:在標記新聞內容時,我們會用到哪些新聞知識的表徵?或者,我們也可以反過來說,就內容標記而言,新聞傳播領域裡,可以用的知識會是什麼?
在學術界方面,「如何標記新聞內容」幾乎是一個全新議題。但是在目前僅有的一些討論中,也出現若干相當具有代表性的看法。
謝瀛春等人(Hsieh et al., 2000a; 2000b)首開華文新聞內容標記研究之濫觴,這一系列研究均以新聞寫作理論作為XML標記的基礎。作者將一則新聞的文本結構區分為導言、本體與結尾等三項,每一項結構之下再區分「主事件」、「類似事件」、或「主題相關事件」。在這些事件裡應用新聞寫作元素「5W1H」(何人、何時、何地、何事、為何、如何)作為標記。作者運用這套表徵發展出一套文件類型定義(DTD),並以廿則科學新聞為例、透過剖析器檢證文件類型定義。研究結果指出,XML可能應用於華文新聞之標記,作者並建議未來以XML為基礎,發展新聞資料庫和寫作軟體(authoring tools)。
黃立夫(2001)的論文旨在發展一個個人化新聞資料庫的系統芻型。作者以von Dijk(1988)所提出的新聞論述文本分析結構為基礎。在新聞文本包括「標題」和「故事」,「故事」下分「狀態」和「評論」;「狀態」之下再區分「事件」和「背景」,「評論」之下再區分為「口頭回應」和「結論」。這個結構從上到下總共可以區分為六個層級。作者應用這個結構發展新聞資料的內容定義規則,並在網站與行動電話手機等新聞平台上呈現資料。
這兩個作者有一個共同之處,即都是「由上而下」(top-down)地歸納理論知識,而將理論發展成為文件類型定義(DTD),理論則取材於新聞文體結構。謝文用了「倒金字塔寫作」、「5W1H」,而黃文則引用van Dijk的「新聞文本結構」。上述兩位作者使用這個理論知識背後似乎有兩個假設,一是假設新聞寫作會有一個文本結構的脈絡可循,另一方面,則是假設大多數新聞稿的寫作者會依據這個結構進行寫作。
但也有作者在討論這個問題時,完全不從新聞文體的角度進來討論新聞內容標記的問題。例如在Allen與 Möhr 在一篇1998年的論文裡,作者在NITF的框架下發展內容標記,便完全不考量新聞文體結構的因素,而只取十個「語意單位」(semantic units)。[13]
觀點與此相近的另一位作者Mueller (2000),則認為要讓電腦能夠辨識新聞,不是從結構著手,而是應從新聞實務經驗中萃取出重要的「事件」(events),而表徵就存在這些事件裡,內容標記最重要是讓電腦能夠辨識這些事件。因此Mueller歸納出17類新聞常發生的事件 [14],這17類事件就是新聞內容標記的元素,並以此為本發展了一套內容標記規則,名為NewsForm(Mueller, 2000)。
後面這兩篇文章典型的「由下而上」(bottom-up)的研究取徑。不從新聞學領域的理論知識出發,而把新聞內容當作一般的訊息,從文件類型定義。這個取徑否定了新聞寫作結構(例如,由「倒金塔寫作」所構成的文體)在內容標記的應用。另一方面,這個取徑似乎也說明「5W1H」在描述新聞事件時,並未提供足夠的表徵。但是這兩篇論文所提出的所謂「語意單位」或「事件」卻又太過強調新聞某些特定領域,而有相當偏頗。例如Mueller的17類新聞事件,顯然偏向財經領域的新聞事件。
所以,新聞學知識應用在內容標記上,會有哪些貢獻?這個問題值得深思。日本學者神門典子(Kando, 1996)在探討索引編製者如何辨識新聞資料時,發現大多數的受測者傾向在新聞首段首句尋找主要的主新聞事件,但是對於主新聞以外的結構性資料(例如背景和解釋),則無共識。當受測者從主新聞中辨識「5W1H」時,受測者對於人、時、地等元素的辨識較有高度共識,但在辨識「何事」、「何故」、「如何」等元素時,則不易構成共識。雖然受測者都會試圖從新聞文體裡辨認「5W1H」。神門典子也從此研究中試圖發現寫作結構和「5W1H」之間的關係,但是受測者所呈現的資料顯示,二者之間的關係千變萬化,難有定論。
此外,神門典子(Kando; 1995)在另一研究中則發現,受測者在不同語言的新聞裡辨識「5W1H」時,也表現出相當的差異。在不同社會文化之下,新聞媒體雖然都依循「5W1H」寫作,但所呈現出來的新聞內容結構則未必類同。
以上這幾個研究,對我們在思考新聞內容標記的問題時,提供了若干啟示。首先,如果受過訓練的索引編製人員在辨識兩個層級的新聞文體結構時,都不易構成共識,那麼如果要在更複雜的層級結構下歸納出電腦能夠自動推論的文件規則,更為不易。如何文體結構是重要表徵,那麼可用的表徵是什麼?語言學或敘事理論裡若干理論探討文體結構(例如Bell, 1994)[15],或許還值得繼續深究。
其次,「5W1H」看似簡單,但是人類可辨識這些元素的程度,卻不相同。人時地顯然優於「何事」、「何故」、「如何」等元素。另一方面,特別是在不同語言文化裡,「5W1H」的呈現類型,也可能有不同。因此,雖然當下華文新聞寫作所依據的「5W1H」模式雖然根源於西方,但其內容結構或許呈現不同的類型(pattern)。但是這個部分的實証資料相當稀少。
最後,即便是在一個社會裡,每個特定領域裡新聞事件的知識表徵可能都不同框架。換言之,即使在新聞裡也有領域知識。例如財經新聞或科技新聞的領域知識的差異可能就很不一樣,因此宜就各個特定新聞領域進行探索。
網路上的新聞資料庫若要建立更有效的檢索、或進行跨平台使用,必須讓電腦辨識若干訊息內容的意義。未來以「語意網絡」為基礎所建立的新聞資料庫,正可以達成這個目標。目前「可延伸標記語言」(XML)已成為標記新聞的主流技術,XML必須仰賴新聞的知識表徵建立文件類型定義(DTD)。然而新聞的知識表徵,到底在哪裡?本文整理過去的相關文獻,指出面臨內容標記問題之後,我們發現新聞學裡還存有許多領域值得繼續探討。新聞文體結構的問題,正是一個非常基本、卻瞭解不足的領域。例如文體如何被不同社會文化之下的人們所辨識,過去實證資料非常有限;但是資訊科技人員卻非常需要這些知識。
此外,由於文體結構、標記元素的設計必須考量社會文化和新聞個別領域知識的問題,作者建議應併採「從上而下」和「從下而上」兩種取徑。
在「從上而下」取徑,研究者可以從文體結構的相關理論(例如Bell, 1994)發展內容標記。研究者可以先設計芻型讓人類受測者進行標記測試,以瞭解標記使用之可行性。另一方面,「從下而上」的取徑,則就新聞元素(例如「5W1H」)進行瞭解。特別是在不同領域的事件,可能是這些領域知識的表徵。我們過去所知有限,值得我們在發展內容標記之前,先進行有系統的瞭解。
參考書目
中文部分
王建善(1994)。我們進入資訊社會的利器:時報新聞文字資料庫完成雛形開發。中時社刊,115期,頁36-40。
何銘傑(2001)。一網看盡五十年:聯合知識庫的建置與應用。新書資訊月刊,五月號,頁7-11。
吳燕美(1999)。華文報刊索引資料庫:從美國的經驗看其建制及利用。華文書目資料庫合作發展研討會(1999/8/30-9/1),台北:國家圖書館國際會議廳。
梁雪郎、吳統雄(1984)。資料自動化初步規劃作業:同仁需求狀況的普查分析報告。聯合報月刊,民73年10月號,頁74-84。
陳世敏、陳百齡(1998)。NII對傳播媒體產業的衝擊,未出版,資訊工業策進會委託專題報告。
陳百齡(2001)。新聞‧資料‧資料室。中華傳播學會年會研討會專題論文,香港:浸會大學。
陳昭珍、陳嵩榮(1999)。XML/RDF Matadata模式之發展與實作。華文書目資料庫合作發展研討會(1999/8/30-9/1),台北:國家圖書館國際會議廳。
黃立文(2000)個人化網路新聞系統:雛形設計,新竹:國立交通大學碩士論文
維習安(2000)〈TEI簡介與其在電子佛典的運用〉,「文章內容標記研究小組」簡報(09/02),南港:中研院資訊所。
蔡琰、臧國仁(1999)。新聞敘事結構:再現故事的理論分析,新聞學研究,第五十八期,頁1-28。
英文部分
Allen, David & Wiebke Möhr (1998). Considerations for the Semantic Markup with theNITF.
Arms, Williams (2001). Digital Libraries. Mass.: MIT Press.
Bell, A.(1994) Telling Stories, in Graddol & Boyd-Barrett (Eds.) Media Texts: Authors and Readers, pp. 100-118, London, England: The Open University.
Berners-Lee, T., James Hendler & Ora Lassila (2001, May). The Semantic Web, Scientific American, URL http://www.sciam.com/2001/0501issue/0501berners-lee.html
Bosak, Jon & Tim Bray (1999, May). XML and the Second Generation Web, Scientific American, URL http://www.sciam.com/1999/0599issue/0599bosak.html.
Bray, Tim (1998). News Wire Services Heading for XML, URL http://www.xml.com/ print/98/08/nitf.html
Cabo, M. & R. Llavori (1997). An Approach to a Digital Library of Newspapers. Information Processing and Management, 33(5): 645-661
Cover, Robin (2000). News Industry Text Format (NITF), The XML Cover Page. available URL http://www.oasis-open.org/cover/nitf.html (last modified Sept. 21, 2000).
Dumbill, Edd (2000). XML in News Syndication. URL http://www.xml.com/print/2000/ 07/17/sydication/newsindustry.htm.
Feola, Christopher J. (1999). News Industry Organizations Unite Behind a Single Standard Markup Language, available URL http://www.oasis-open.org/cover/nml19990504.html
Gruber, T. R. (1993). A Translation Approach to Portable Ontologies. Knowledge Acqusition, 5(2): 199-220.
Hall, Richard (2000, May). Why XML is Important for Printing and e-publishing? Online Technology, URL http://www.newsandtech.com/issues/2000/05-00/ot/05-00 _hall.htm
Hsieh, Ying-chun, Shyue-shuo, Huang, Christian Wittern, Rick Jelliffe and Ching-chun Hsieh (2000a). A General Model of Presenting the Content of Science News Using XML, Paper presented in 2000 PNC Annual Conference & Joint Meetings, (January 11-17, 2000) California: University of California, Berkeley. Also available URL: http://pnclink.org/events-report/2000/Proceedings/5-11-1.pdf
Hsieh, Ying-chun, Shyue-shuo Huang, Christian Wittern, Rick Jelliffe and Ching-chun Hsieh (2000b). Chinese Newspaper Metadata: Presenting Content of Science News Electronic Cultural Atlas Initiative Conference, London, (June 26-28 2000). available online URL: http://www.som.uaf.edu/ffjal/papers/nitf.html
Kando, N. (1995) Structure of News Stories: As Relating to the Indexing and Retrieval. Journal of Japan Indexers Association. 19(1):1-17 (in Japanese)
-- (1996). Text Structure Analysis Based on Human Recognition: Cases of Japanese Newspaper Articles and English Newspaper Articles. Research Bulletin of the National Center for Science Information Systems. No.8, 107-129 (in Japanese)
Manickam, Mani (2000). eSyndication: Heterogeneity Rules! also available URL http://www.xml.com/print/2000/07/17/hetergeneity.html
Meadow, C. (1988 October). Back to the Future: Making and Interpreting the Database Industry Timeline, Database, 14-22.
Metcalf, Judy (1993). The Electronic News Library. In B. P. Semonche (Ed.), News Media Libraries: A Management Handbook, (pp. 220-231). Westport, CT: Greenwood.
Mueller, Erik (2000). Making news understandable to computers. arXiv:cs.IR/0303 v1, 1 available online http:// www.signiform.com/newsextract/newsund.htm
Negroponte, Nicholas (1995). Being Digital. New York: A. A. Knopf. 1st Edition.
O’Kelly (1998). XML: the Basis of a Lingua Franca for Twenty-First Century Journalism? available URL http://dbserv.ils.unc.edu/projects/191fallwork/O'Kelly/XML1.htm
Ruth, Marcia (1985). Electronic Library Systems Reach Watershed Year. Presstime, 7 (7): 10-11.
SemanticWeb.org (2000). Markup Languages and Ontologies. available URL: http:// http://www.semanticweb.org/knowmarkup.html
Simon, Hank (2000). XML: Strategic Analysis of XML for Web Application Development. Charleston, SC: Computer Technology Research Corp.
Smith, A. (1980). Goodbye Gutenberg: The Newspaper Revolution of the 1980s. New York: Oxford University Press.
van Dijk, Teun (1980) The Concept of Macrostructure, Macrostructures: An Interdisciplinary Study of Global Structures in Discourse, Interaction, and Cognition, Hillsdale, NJ: Erlbaum.
-- (1987) The Analysis of News As Discourse, News Analysis: Case Studies of International and National News in the Press, 8-30. Hillsdale, NJ: Erlbaum.
Wall Street Journal (1999) Supporters Say XML Will Reshape Industries, Revolutionize the Web, Wall Street Journal, Sept 16, 1999. http://www.Interleaf.com/XML/wsj09.99.htm
Williams, Frederick (1982). The Communications Revolution. Beverly Hills, CA: Sage Publications.
Making news understandable to computers
Pailin Chen
ABSTRACT
A major issue in developing semantic web is to make content understandable to computers. To solve this problem, developers employ eXtensible Markup Language (XML) to describe the metadata of news. However, the problems in marking up news content remain unsolved. This article discusses how theoretical knowledge be applied to create knowledge representation of content markup for the news stories.
Keywords: content markup, news stories, news stories, XML
[1] Semantic web一詞有幾個不同的中譯,例如「語義網路」、「語義性網路」均指同一詞。
[2] 語意資訊網的研發經費由萬維網協會(W3C)資助,W3C目前由柏納李領導,設置於麻省理工學院,扮演全球資訊網技術與標準的守護者角色,經費則來自全球各國四百多家公司贊助。
[3]自1990年代以來,報業在生存壓力之下,亟思跨足網路以開創產業的第二春。報業看好跨足網路業的原因,除了長期經營資訊處理行業的豐富經驗之外,更重要的一項優勢在於報業擁有大量內容庫存,能夠彌補網路內容素材不足的的困境。報社長期積累下來的新聞資料,成為網路內容素材之後,不但可以增加報業收益,更可能是讓傳統媒體跨足網路內容供應產業的敲門磚(參見陳世敏、陳百齡,1998)。北美及日本報業自1970年代開始發展新聞資料庫,《底特律自由報》、《路易維爾信使報》、《紐約時報》、加拿大《環球郵報》、以及日本《朝日新聞》是這個行業的先驅(Ruth, 1985; Meadow, 1988; Metcalf, 1993: 230)。在國內方面,中時報系則在1993年開發中文全文檢索技術,並應用於文字資料庫雛形(王建善,1994)。聯合報系則早在1980年代中期,便曾進行資料庫的規劃(梁雪郎、吳統雄,1984),其後於2000年與全景資訊合作開發《聯合知識庫》並提供網路服務(何銘傑,2000)。至此,華文報業開始透過網路技術而服務一般使用者(陳百齡,2001)。
[4] 最早出現的後設語言是SGML語言(Standard Generalized Markup Language; SGML),也稱為「一般標記語言」。SGML規範在1986年通過國際標準組織(ISO)認證,早期用來標誌國際間流通的技術文件。SGML語言的核心是一組「文件類型定義」;使用者根據文本的領域知識萃取出文件類型定義(Document Type Definition, DTD),然後依據這些定義發展標籤集(tag set),作為標誌文件結構與內容的準則。SGML語言是一種高度複雜的後設語言,雖然結構完整、穩定性高、具有彈性;但是實際上使用時,卻相當複雜而所費不貲。XML語言被研發出來,以改良SGML語言的缺點。因此,XML可以說是SGML的精簡版。(Bosak & Bray, 1998)。
[5] 與內容標記的幾個相近概念,包括字元標記(character markup)和頁面標記(page markup)。字元標記是指「以呈現文字、字母或任何寫作符碼為目的」之標記,例如RTF(Rich Text Format)這個常見的資料格式,是將純文字內容加上若干標記以後,俾使各種軟體得以進行文書格式交換。另一方面,頁面標記則是指「透過標籤加註,以描述和呈現頁面上墨跡」所用的標記,例如 Postscript便是印前技術中,用來描述排版頁面內容訊息、以便電腦印前設備將向量圖檔轉換為點陣圖檔的一種通用標記字元標記、或頁面標記著重內容的物理特徵,並非本文所指「內容標記」的範疇(維習安,2000)。
[6] 外部資料或內部資料的界線,並不是很明顯,例如書名和標題可以是外部資料,也可以成為內容標記的對象。
[7] 誠如Outing(2000)指出,未來新聞供應的平台必定走向多樣化,媒體傳輸和呈現新聞資訊的型態,再也不限於報紙、電視和電腦螢幕,無線發行將提供無限寬廣的產業空間。新聞資訊將透過手機、個人數位助理(PDA)、電子郵件、電子書閱讀器、網路電視、以及汽車上的小型螢幕而播放。這些平台所需要的新聞資料體例各有不同。例如,行動電話的螢幕小,因此版面只能容納標題與簡述;掌上型電腦、個人數位助理、和飛機椅背上的小螢幕可以使用版面較大、容易閱讀的單篇新聞。最後,筆記型電腦、和液晶閱讀器等設備螢幕較大,因此較適合經過圖文整合、類似於傳統報紙雜誌的刊物。
[8] XMLNews是由NITF所衍生出的一種標記規格,係一家科技廠商Megginsonx Technologies所開發,1999年四月問世。這套標記規格分成兩部分:XMLNews-Story旨在為新聞內容註記;而XMLNews-Meta則為新聞外部資料註記。XMLNews創始人Megginson 指出,XMLNews雖然源自NITF,但是與NITF之不同在於:(一)標籤集的規模較小(二)具有標記語言轉換的機制(稱為XMLNews-Meta),可以容許使用者將資料匯出或匯入。
[9] IPTC成立於1965年,自1970年以來致力於發展國際新聞同業間交換新聞資料的業界標準。
[10] IPTC所開發的標記規格還包括 ICE,
[11] 目前採用NITF標記規格的業者,包括道瓊社、法新社、以及歐洲地區部分新聞事業。美聯社、合眾國際社、加拿大報業協會、和拉丁美洲報業協會等團體則支持NITF所衍生出來的另一種標記規格XMLNews。此外也有若干資訊業者採用XMLNews標記規格,例如Linux 平台上的文書處理軟體WordPerfect 2000,以及搜尋引擎業者,例如Infoseek和UltraSeek等資料檢索服務業者(Okelly, 1998; Feola, 1999; Cover, 2000)。在國內媒體方面,《勁報》在2000年間曾經進行NITF中文化的研發工作,但因該報停刊而終止;此外,東森媒體集團在2000年間,為開發跨媒體平台也曾對XML標記做過瞭解。
[12] PRISM所描述的超資料(metadata)以下列四種類型為主:(1)資料的多重用途、(2)資源間之間的關係、(3)特定目的資料如智慧財產權或版權、以及揭露部分內容的資料,如在資源本身中標記的資料。PRISM還設計了各種不同的名牌作為標記,以區別和描述這些資料,
[13] 這十個「語意單位」如下:人物(person)、功能(function)、組織(organization)、位置(location)、事件(event)、物件(object)、時序(chron)、貨幣(money)、數字(number)、引述(quoted information; Q, BQ)等項目。
[14] 這十七類「事件」的類目和前文Allen & Möhr(1998)有如下:人物(person)、、組織(organization)、位置(location)、競賽(competition)、營收(earning)、交易(deal)、企業資訊(economic release)、聯準會資訊(FedWatch)、公開上市(IPO)、傷亡(injuryFatality)、創投(JointVenture)、法律案件(LegalEvent)、醫學新知(MedicalFinding)、協議(Negotiation)、新產品(NewProduct)、成就(succession)、旅遊(trip)、投票(vote)、戰事(war)、以及氣象(weather)。
[15] Bell(1994)和van Dijk(1988)雖然都探討新聞寫作結構的模式,但是兩者所提出的結構卻不同。Bell的模式也有五個層級,較為扁平。第一層結構將文本區分為「稿頭」、「標題」、和「故事」。「故事」之下再區分為不同的主事件,每個主事件再區分不同的事件,每個事件下都包含「消息來源」、「主角」、「情境」、「行動」、「後續發展」、「評論」、以及「背景」等元素,以下類推。Bell的模式似乎把新聞事件作為主要的單位,再區分每個單位之下的元素或屬性。雖然不過由於Bell 把事件裡的元素儘量做水平的組合,因此結構扁平。此外,Bell將結構中的元素區分為主要和次要兩類,新聞報導裡有若干文體,造成結構上的差異。例如純淨新聞在結構上較簡單,僅有新聞來源、主角、時間、和情境等主要結構元素,但特寫寫作中則可能有後續發展、評論、和背景說明等次要的結構元素。