美國阿爾法股權管理公司(Alpha Eqiuty Mangement)高級國際資產分析師Vince Fioramonti在2001年突然意識到,由于有價值的投資信息在網絡上將會越來越多,今后越來越多的廠商將根據信息的重要性和關聯性提供可搜集和解譯這些信息的軟件。
語義網絡將成為企業發展的利器
Fioramonti稱:“我曾經擁有一支專門為公司搜集和分析金融信息的分析團隊。不過,他們的處理速度極為緩慢,得出的結論往往也過于主觀,甚至有時會前后矛盾。”
第二年,Fioramonti改用Autonomy集團的語義平臺——智能數據操作層(IDOL)來自動處理各種形式的數字化信息。他們在部署中遇到了一個障礙:IDOL僅提供了常用的語義算法。Fioramonti稱,阿爾法股權管理公司為此不得不組建了一個由程序員和金融分析師組成的團隊,專門研發適用于金融學的算法和元數據。由于耗資過于巨大,公司最后放棄了這一項目。
阿爾法股權管理公司在2008年迎來了新的契機,當時他們參加了湯森路透的機器可讀新聞(Machine Readable News)服務。該服務可從3000多名路透社記者,以及網絡報紙和博客等第三方資源那里收集、分析網絡新聞。然后,根據影響力(如果公眾對公司或產品的印象)、關聯性和新穎性,對這些材料進行分析和評分。
這些結果會源源不斷的提供給客戶,包括公共關系和營銷人員、使用自動化“黑匣子交易(black box trading)”系統的股票交易商、為長期投資決策收集整理數據的基金經理。
Fioramonti稱該服務每月收費并不便宜。據估計,實時數據更新的成本每月在15000至50000英鎊之間。不過,對于阿爾法股權管理公司來說,該服務確實物有所值。他稱,這些信息不僅幫助提升了公司的資產收益,還幫助公司擊敗了許多競爭對手。
阿爾法股權管理公司的經歷并不是唯一的案例。無論公司決定建造一個類似的內部系統,還是決定雇用服務提供商,通常都要花費巨資才能利用語義網技術。如果所搜索和分析的信息包括有針對特定商業領域的行話、概念和縮略語信息,那么同樣可以實現。
以下我們將為大家介紹一下那些能夠幫助進行商業部署和利用語義網基礎的工具,以及要想發揮這一技術的潛能還需要哪些東西。
關鍵標準
根據Tim Berners-Lee提出的概念,語義網的核心是聯合搜索(Federated Search)。其可搜索引擎、代理或應用詢問網絡上成千上萬個信息源,發現并在語義上分析相關內容,準確檢索用戶尋找的產品、答案或信息。
盡管聯合搜索正逐漸流行起來,特別是出現在了Windows 7上,但是要在整個網絡上廣泛普及還有很長的路要走。
為了有效的推動聯合搜索,萬維網聯盟(W3C)制定了幾個關鍵標準,定義了基本的語義基礎設施。它們包括:
?簡單協議與RDF 查詢語言(SPARQL),其定義了用于查詢和訪問數據的標準語言。
?資源描述框架(RDF)和RDF模式(RDFS),其規范了在語義本體(又稱為詞匯表)中如何陳述和組織信息。
?網絡本體語言(OWL),其對本體論和部分RDFS原理進行了詳細陳述。
目前這些標準的最終定稿已經得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy 和Topquadrant等主要語義網平臺廠商的支持。
谷歌、雅虎和微軟必應等主要網絡搜索引擎已經開始使用語義元數據區分搜索結果,并開始支持RDF等W3C標準。
如今甲骨文、企業軟件廠商和IBM也加入到語義網的研發中,并分別推出了甲骨文Database 11g 語義技術、SAS 本體管理工具和IBM InfoSphere BigInsights工具。
W3C標準的推出目的是解決不同機構在組織、描述、呈現信息中的不一致性,為跨域語義查詢和聯合搜索鋪平道路。
本體管理工具制造商Revelytix的首席執行官Michael Lang為我們描述了使用W3C標準的好處。他稱,如果200家網上家用電子產品銷售商使用諸如RDF的語義網標準描述他們產品庫,Revelytix的軟件則可以讓這些信息通過SPARQL查詢方式被訪問。網絡商家可以使用兼容W3C標準的瀏覽器工具在不同網站搜索產品,如通過輸入“根據價格排列并顯示所有42-52英寸平板電視”進行查詢。
搜索引擎和一些第三方網絡購物網站可提供產品對比,不過這些對比僅限于所搜索到的結果的屬性。購物者經常發現由第三方所提供數據已經過時,甚至不正確,如無法準確提供有效的尺寸和顏色信息。基于標準的跨網站查詢可為購物者提供由商家自己提供的更為豐富的對比信息和更新的介紹信息。
W3C SPARQL工作組聯合組長Lee Feigenbaum 稱,W3C SPARQL工作組目前正在研發SPARQL服務描述,旨在標準化SPARQL“終端”或信息源提供數據的方式,特別是詳細規定了如何描述數據的類型和數量。
模塊和軟件工具
工具、平臺、預置組件和服務均可有效縮短部署時間,降低技術復雜性,減少成本。
Jena為開發語義網應用的開源Java架構,其包括有RDF、RDFS和OWL的API,一個SPARQL查詢引擎和一個推理引擎。Sesame為存儲、推理和查詢RDF數據的開源架構。
主流語義網平臺都帶有用于描述常用術語、概念、縮略語的“知識庫”,讓用戶在使用時創建本體知識庫。Lexalytics產品管理副總裁Seth Redmore稱:“客戶的需求往往相互矛盾:讓平臺能夠反饋精確信息,對這些信息進行整編讓其更適合自己的業務。”
為了解決這一矛盾,Lexalytics選擇將他們的語義平臺主要銷售給服務提供商,由服務提供商再對特定商業領域和應用進行微調。湯森路透的機器可讀新聞服務就是一個很好的例子。
部分平臺廠商推出了專門針對商業的解決方案。比如,Endeca推出了用于電子商務和企業語義應用的應用開發工具包。
此外,還有一些可以自動將語義元數據和W3C標準整合到現有信息庫中的工具。據Lang稱,Revelytix的Spyder工具可自動將結構化和非結構化數據轉換成RDF。作為能夠被兼容SPARQL的瀏覽器訪問的SPARQL終端,其可在網頁上顯示這些信息。
名為D2RQ的開源工具可以將所選擇的數據庫映射到RDF和OWL本體知識庫中,讓兼容SPARQL的應用訪問這些數據,
Revelytix還推出了名為Knoodl.com的兼容W3C的知識庫模塊。該模塊為基于維基的架構,主要是幫助技術專家和商業用戶共同開發一個語義詞匯表,描述和引導不同網站中的特殊信息。Lang稱,相關社區可以通過Knoodl.com訪問、共享和挑選有關的信息。
咨詢公司Dachis集團歐洲業務部主管Lee Bryant稱,他們開發了一個名為Social Business Design的架構,該架構的目的是幫助用戶協作、分享想法,然后限制和明確某一商業機構或是社區中的數據含義。
上述這些產品都可以大幅減輕語義基礎設施的研發任務。如,布依格建筑集團電子服務與知識管理總監Eric Juin稱,他們通過Sinequa的語義平臺Context Engine,在六個月的時間內就建立起了一個初具規模的語義系統。
Juin稱,布依格建筑集團已經開發出了一個語義搜索應用,其可幫助員工迅速內部系統和外部互聯網中的信息。他稱,Context Engine可以從會議紀要、產品說明書、培訓材料和項目文檔等海量文件中查找到要找的相關的人員和概念。該平臺包括了一個收錄有常用詞匯和術語的“通用語義學詞典”,并且可在多種語言之間轉換。如法國雇員能夠在德語文件中進行語義搜索。
此外,特殊的商業縮略詞和術語還可以手動添加,不過這需要語義專家和商業用戶共同完成。Juin稱,由于語義引擎能夠使用其它相關詞匯確定針對特殊主題的術語,因此他的團隊只添加了很少一部分關鍵詞的定義。
選擇SaaS
對于那些缺乏內部資源建立自己的語義網基礎設施的公司來說,他們可以像阿爾法股權管理公司那樣選擇由第三方提供語義服務。
服務提供商湯森路透除了提供機器可讀新聞服務外,還提供名為OpenCalais的服務。該服務可為客戶提交的內容創建語義元數據。據湯森路透副總裁Thomas Tague稱,客戶可為搜索、新聞聚合、博客、目錄和應用部署經標記的內容。
OpenCalais包括一個免費的工具包,用戶可創建自己的語義基礎設施和元數據,與其他網絡提供商建立鏈接。Tague稱,該服務目前每天處理超過500萬份文檔。
DNA13、Lithium技術和Cymfony均為語義服務提供商,提供查詢、收集和分析網絡新聞、社交媒體,為用戶在品牌、信譽管理、客戶關系管理和市場營銷等領域提供幫助。
評論
查看更多