北京市建設工程發(fā)包承包交易中心 覃 林
摘 要:本文從北京市有形建筑市場現(xiàn)有狀況出發(fā),討論了為滿足各類行業(yè)進場的招投標業(yè)務提供服務,實現(xiàn)“統(tǒng)一進場、分別監(jiān)管”的要求,提出了行業(yè)招投標數(shù)據(jù)“半結構化”存儲的特點,最后,根據(jù)這些特點結合微軟SqlServer XML 數(shù)據(jù)模型技術,討論了SqlServer XML技術為各行業(yè)招投標數(shù)據(jù)整合提供的高可擴展性,并結合實例討論了在SqlServer XML中如何具體實現(xiàn)了“半結構化”的招投標系統(tǒng)。
關鍵詞:半結構化;XML;招投標
一、業(yè)務背景
北京市有形建筑市場,經(jīng)過數(shù)年的努力,建立了由總包招投標系統(tǒng)、專業(yè)勞務(材料設備)招投標系統(tǒng)、園林綠化招投標系統(tǒng)、基礎數(shù)據(jù)庫系統(tǒng)、電子輔助評標系統(tǒng)、建筑業(yè)代征稅系統(tǒng)、評標專家抽取系統(tǒng)、合同履約監(jiān)管系統(tǒng)、勞務合同及施工人員備案系統(tǒng)、信用信息記錄系統(tǒng)、統(tǒng)一門戶網(wǎng)站系統(tǒng)等組成的信息系統(tǒng)體系。發(fā)布包括勘察設計、建設工程、市政工程、專業(yè)承包、材料與設備招標、勞動力、工程監(jiān)理、民航工程、園林綠化等15類招標信息。
由于先有的各行業(yè)招投標系統(tǒng),后有各行業(yè)統(tǒng)一進場辦公等歷史原因。各系統(tǒng)之間缺乏統(tǒng)一招投標業(yè)務流轉機制、系統(tǒng)之間的數(shù)據(jù)標準不一致,導致整合各系統(tǒng)數(shù)據(jù)的難度大,無法有效進行數(shù)據(jù)挖掘。
新的業(yè)務系統(tǒng)作為承載政府對招投標工作進行監(jiān)管的平臺,需要為各類進場的招投標業(yè)務提供服務;由于各門類招投標工作有很強的專業(yè)特點,業(yè)務開展程度也有很大的不同;為實現(xiàn)“統(tǒng)一進場、分別監(jiān)管”的工作目標,需要按照業(yè)務管理特性,構建統(tǒng)一的標準化服務流程,實現(xiàn)規(guī)范服務;同時將政府職能部門需要實現(xiàn)“陽光監(jiān)督”的管理節(jié)點通過業(yè)務平臺,將各類業(yè)務數(shù)據(jù)信息統(tǒng)一匯總,建立數(shù)據(jù)、影音的信息關聯(lián)并集中呈現(xiàn),使監(jiān)察機關“集中”監(jiān)察的工作目標通過有形市場的業(yè)務系統(tǒng)落到實處。
各行業(yè)的招投標工作雖然業(yè)務特點和業(yè)務深度各不相同,但在招投標主要流程工作環(huán)節(jié)大體相同。相同的招投標流程采用標準的結構化存儲方式,不同的業(yè)務采用XML半結構化存儲方式,來靈活地適應各種專業(yè)類別的招投標工作。以后水務、鐵路等新進場的每類行業(yè),只需要業(yè)務人員通過簡單的數(shù)據(jù)配置,系統(tǒng)就可以滿足該行業(yè)招投標服務需求。
二、XML半結構化技術特點
在信息社會,不是系統(tǒng)中所有信息都可以這樣簡單地用一個表中的字段就能對應的。信息數(shù)據(jù)按形式分成三類:
1.結構化數(shù)據(jù)
信息能夠用數(shù)據(jù)或統(tǒng)一的結構加以表示。這種類別的數(shù)據(jù)最好處理,只要簡單的建立一個對應的表就可以了。比如我們做一個業(yè)務系統(tǒng),要保存中標公示信息:工程編號、工程名稱、建設單位、中標單位、中標日期等;我們就會建立一個對應的表,然后將對應的信息保存到相應的表中。
2.非結構化數(shù)據(jù)
信息無法用數(shù)據(jù)或統(tǒng)一的結構表示,像招標文件、資質證書圖片、招投標數(shù)據(jù)報表、評標監(jiān)控錄像信息等等。這類信息我們通常無法直接知道它的內容,數(shù)據(jù)庫也只能將它保存在一個BLOB字段中,對以后檢索非常麻煩。一般的做法是,建立一個包含三個字段的表(編號number、內容描述varchar(1024)、內容blob)。引用通過編號,檢索通過內容描述。現(xiàn)在還有很多非結構化數(shù)據(jù)的處理工具,市面上常見的文件管理器就是其中的一種。
3.半結構化數(shù)據(jù)
這樣的數(shù)據(jù)和上面兩種類別都不一樣,它是結構化的數(shù)據(jù),但是結構變化很大,可擴展性很強,這一結構載體就是XML 。
XML是一種半結構化數(shù)據(jù)描述語言,它克服了傳統(tǒng)Web描述語言HTML只能夠表達數(shù)據(jù)的內容,無法表達Web數(shù)據(jù)的結構特征,不便于半結構化數(shù)據(jù)查詢這一不足,正在逐步替代HTML,成為新一代Web數(shù)據(jù)描述與數(shù)據(jù)交換標準。
從SQL Server 2005 開始,SQL Server 為XML 數(shù)據(jù)處理提供了廣泛支持。可將XML 值本機存儲在根據(jù)XML 架構集合類型化或保持非類型化的xml 數(shù)據(jù)類型列中。可以對XML 列創(chuàng)建索引。此外,通過使用XQuery (也稱作XML Query,是一種查詢結構化或半結構化XML數(shù)據(jù)的語言,允許你提取所需的節(jié)點和元素。它由W3C定義,可用于今天的大多數(shù)主流數(shù)據(jù)庫引擎中,如Oracle、DB2和SQL Server)和XML DML (XML DML 是針對數(shù)據(jù)修改的擴展)可支持精細的數(shù)據(jù)操作。
三、 招投標業(yè)務系統(tǒng)與半結構化技術結合
在各行業(yè)招投標業(yè)務系統(tǒng)中有很多業(yè)務數(shù)據(jù)都是標準化的,如中標信息,通過簡單的結構化建表即可解決數(shù)據(jù)存儲和數(shù)據(jù)分析的問題,但更多的是差異性的業(yè)務數(shù)據(jù),比如項目入場登記,就不像中標信息那樣一致,不同行業(yè)登記的信息大不相同。
我們統(tǒng)一的業(yè)務系統(tǒng)將通過SqlServer XML半結構化技術來解決這一問題,以項目入場登記舉例:
1.我們先將相同類型的登記信息提取出來為標準信息存為結構化的數(shù)據(jù),如圖1所示,包括項目名稱、建設單位等,無論什么行業(yè)招投標,這些填報數(shù)據(jù)都是一致的。

圖1
2.其次將不同行業(yè)不同類型的登記信息生成不同的XML數(shù)據(jù)結構。比如建安工程的結構形式,市政工程的道路、橋梁、管道,園林綠化工程的設計單位,專業(yè)工程的專業(yè)類別以及各類行業(yè)不同的資質要求等等。以園林綠化工程為例,用業(yè)務系統(tǒng)配置工具生成XML半結構化數(shù)據(jù)結構,如圖2所示

圖2
3.然后將不同行業(yè)不同類型的登記信息通過業(yè)務系統(tǒng)上述生成的XML半結構化數(shù)據(jù)結構,自動生成數(shù)據(jù)采集界面,并存入SqlServer 數(shù)據(jù)庫的XML半結構化字段中,如圖3所示

圖3
4.最后通過SqlServer的XQuery技術對XML半結構化數(shù)據(jù)查詢,進行業(yè)務數(shù)據(jù)挖掘和統(tǒng)計分析,為統(tǒng)一的“行政監(jiān)察”提供完善且靈活的行業(yè)數(shù)據(jù)。
四、小結
隨著主流數(shù)據(jù)庫對XML半結構化數(shù)據(jù)更好的支持,對相關算法的并行性、效率、動態(tài)性都做出了更高的優(yōu)化,并對查詢優(yōu)化、DBMS集成服務、將聚類方法應用于半結構化數(shù)據(jù)。我們應該更多地將招投標領域招標文件、投標文件、合同文件等帶關鍵性數(shù)據(jù)的結構化文檔轉化為XML半結構化文檔,方便系統(tǒng)通過深度數(shù)據(jù)挖掘、分析預測等方式形成綜合信息,讓決策層全面了解信息資源情況和動態(tài)更新情況,及時、準確、恰當?shù)貫槠涮峁Q策信息。
參考文獻:
[1]MSDN Library