XML入門精解之結(jié)構(gòu)與語法_第1頁
XML入門精解之結(jié)構(gòu)與語法_第2頁
XML入門精解之結(jié)構(gòu)與語法_第3頁
XML入門精解之結(jié)構(gòu)與語法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

XML入門精解之結(jié)構(gòu)與語法現(xiàn)在我們暫且使用“記事本”來創(chuàng)建我們的XML文件吧。先看一個(gè)XML文件:例1〈?xmlversion="1.0"encoding="gb2312"?〉〈參考資料〉〈書籍〉〈名稱〉XML入門精解〈/名稱〉〈作者〉張三〈/作者〉〈價(jià)格貨幣單位="人民幣"〉20.00〈/價(jià)格〉〈/書籍〉〈書籍〉〈名稱〉XML語法〈/名稱〉〈!--此書即將出版--〉〈作者〉李四〈/作者〉〈價(jià)格貨幣單位="人民幣"〉18.00〈/價(jià)格〉〈/書籍〉〈/參考資料〉這是一個(gè)典型的XML文件,編輯好后保存為一個(gè)以.xml為后綴的文件。我們可以將此文件分為文件序言(Prolog)和文件主體兩個(gè)大的部分。在此文件中的第一行即是文件序言。該行是一個(gè)XML文件必須要聲明的東西,而且也必須位于XML文件的第一行,它主要是告訴XML解析器如何工作。其中,version是標(biāo)明此XML文件所用的標(biāo)準(zhǔn)的版本號,必須要有;encoding指明了此XML文件中所使用的字符類型,可以省略,在你省略此聲明的時(shí)候,后面的字符碼必須是Unicode字符碼(建議不要省略)。因?yàn)槲覀冊谶@個(gè)例子中使用的是GB2312字符碼,所以encoding這個(gè)聲明也不能省略。在文件序言部分還有一些聲明語句,我們在后面給予介紹。文件的其余部分都是屬于文件主體,XML文件的內(nèi)容信息存放在此。我們可以看到,文件主體是由開始的〈參考資料〉和結(jié)束的〈/參考資料〉控制標(biāo)記組成,這個(gè)稱為XML文件的“根元素”;〈書籍〉是作為直屬于根元素下的“子元素”;在〈書籍〉下又有〈名稱〉、〈作者〉、〈價(jià)格〉這些子元素。貨幣單位是〈價(jià)格〉元素中的一個(gè)“屬性”,“人民幣”則是“屬性值”?!?--此書即將出版--〉這一句同HTML一樣,是注釋,在XML文件里,注釋部分是放在“〈!--”與“--〉”標(biāo)記之間的部分。大家可以看到,XML文件是相當(dāng)簡單的。同HTML一樣,XML文件也是由一系列的標(biāo)記組成,不過,XML文件中的標(biāo)記是我們自定義的標(biāo)記,具有明確的含義,我們可以對標(biāo)記中的內(nèi)容的含義作出說明。對XML文件有了初步的印象之后,我們就來詳細(xì)地談一談XML文件的語法。在講語法之前,我們必須要了解一個(gè)重要的概念,就是XML解析器(XMLParse)。1.XML解析器解析器的主要功能就是檢查XML文件是否有結(jié)構(gòu)上的錯(cuò)誤,剝離XML文件中的標(biāo)記,讀出正確的內(nèi)容,以交給下一步的應(yīng)用程序處理。XML是一種用來結(jié)構(gòu)化文件信息的標(biāo)記語言,XML規(guī)范中對于如何標(biāo)記文件的結(jié)構(gòu)性有一個(gè)詳細(xì)的法則,解析器就是根據(jù)這些法則寫出來的軟件(多用Java寫成)。同HTML一樣,在瀏覽器中,必須有HTML的解析器,這樣瀏覽器才能夠“讀懂”各種用HTML標(biāo)記所組成的網(wǎng)頁,將它們顯示在我們面前。如果有瀏覽器的HTML解析器讀不懂的標(biāo)記,將會返回給我們錯(cuò)誤信息。由于現(xiàn)在的HTML標(biāo)記實(shí)際上相當(dāng)混亂,存在大量不規(guī)范的標(biāo)記(有的網(wǎng)頁用IE能正常顯示,而用NetscapeNavigator則不行),所以從一開始,XML的設(shè)計(jì)者就嚴(yán)格規(guī)定了XML的語法和結(jié)構(gòu),我們編寫的XML文件必須遵循這些規(guī)定,否則XML解析器將毫不留情地給你顯示錯(cuò)誤信息。有兩種XML文件,一種是Well-FormedXML文件,一種是ValidatingXML文件。如果一個(gè)XML文件滿足XML規(guī)范中的某些相關(guān)法則,且沒有使用DTD(文件格式定義——后詳述)時(shí),可稱這份文件是Well-Formed。而如果一個(gè)XML文件是Well-Formed,且正確地使用了DTD,DTD中的語法又是正確的,那么這個(gè)文件就是Validating。對應(yīng)兩種XML文件,有兩種XML解析器,一種是Well-Formed解析器,一種是Validating解析器。IE5中就內(nèi)含Validating解析器,Validating解析器也可用來解析Well-FormedXML文件。檢查它是否滿足了Well-Formed的條件。我們可以將剛才編輯的第一個(gè)XML文件用IE5以上版本的瀏覽器打開。大家可能要問為什么在瀏覽器中的顯示和我的源文件一樣?沒錯(cuò),因?yàn)閷τ赬ML文件,我們黿齬匭乃的內(nèi)容,而它的顯示形式是交給CSS或XSL來完成的。這里,我們并沒有給這個(gè)XML文件定義它的CSS或XSL文件,所以它按照原來的形式來顯示。實(shí)際上,對于電子數(shù)據(jù)交換,僅僅需要一個(gè)XML文件即可,如果要將它以某種形式顯示出來,我們就必須編輯CSS或XSL文件(這個(gè)問題會在以后討論)。2.Well-Formed的XML文件我們知道,XML必須是Well-Formed的,才能夠被解析器正確地解析出來,顯示在瀏覽器中。那么什么是Well-Formed的XML文件呢?主要有下面幾個(gè)準(zhǔn)則,我們在創(chuàng)建XML文件的時(shí)候,必須滿足它們。首先,XML文件的第一行必須是聲明該文件是XML文件以及它所使用的XML規(guī)范版本。在文件的前面不能夠有其它元素或者注釋。第二,在XML文件中有且只能夠有一個(gè)根元素。我們的第一個(gè)例子中,〈參考資料〉...〈/參考資料〉就是此XML文件的根元素。第三,在XML文件中的標(biāo)記必須正確地關(guān)閉,也就是說,在XML文件中,控制標(biāo)記必須有與之對應(yīng)的結(jié)束標(biāo)記。如:〈名稱〉標(biāo)記必須有對應(yīng)的〈/名稱〉結(jié)束標(biāo)記,不像HTML,某些標(biāo)記的結(jié)束標(biāo)記可有可無。如果在XML文件中遇到自成一個(gè)單元的標(biāo)記,就是類似于HTML中的〈imgsrc=.....〉的這些沒有結(jié)束標(biāo)記的時(shí)候,XML把它稱為“空元素”,必須用這樣的寫法:〈空元素名/〉,如果元素中含有屬性時(shí)寫法則為:〈空元素名屬性名=“屬性值”/〉。第四,標(biāo)記之間不得交叉。在以前的HTML文件中,可以這樣寫:〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉標(biāo)記之間有相互重疊的區(qū)域,而在XML中,是嚴(yán)格禁止這樣標(biāo)記交錯(cuò)的寫法,標(biāo)記必須以規(guī)則性的次序來出現(xiàn)。第五,屬性值必須要用“”號括起來。如第一個(gè)例子中的“1.0”、“gb2312”、“人民幣”。都是用“”號括起來了的,不能漏掉。第六,控制標(biāo)記、指令和屬性名稱等英文要區(qū)分大小寫。與HTML不同的是,在HTML中,類似〈B〉和〈b〉的標(biāo)記含義是一樣的,而在XML中,類似〈name〉、〈NAME〉或〈Name〉這樣的標(biāo)記是不同的。第七,我們知道,在HTML文件中,如果我們要瀏覽器原封不動地將我們所輸入的東西顯示出來,可以將這些東西放到〈pre〉〈/pre〉或者〈xmp〉〈/xmp〉標(biāo)記中間。這對于我們創(chuàng)建HTML教學(xué)的網(wǎng)頁是必不可少的,因?yàn)榫W(wǎng)頁中要顯示HTML的源代碼。而在XML中,要實(shí)現(xiàn)這樣的功能,就必須使用CDATA標(biāo)記。在CDATA標(biāo)記中的信息被解析器原封不動地傳給應(yīng)用程序,并且不解析該段信息中的任何控制標(biāo)記。CDATA區(qū)域是由:“〈![CDATA[”為開始標(biāo)記,以“>〉”為結(jié)束標(biāo)記。例如:例2中的源碼,除了“〈![CDATA[”和“>〉”符號,其余的內(nèi)容解析器將原封不動地交給下游的應(yīng)用程序,即使CDATA區(qū)域中的開始和結(jié)尾的空白以及換行字符等,都同樣會被轉(zhuǎn)交(注意CDATA是大寫的字符)。例2〈![CDATA[飛翔的xml〉〉〉〉〉,:-)oooo〈〈〈〈〈〈〈>〉第八,XML處理空白字符和HTML不一樣。HTML標(biāo)準(zhǔn)規(guī)定,不管有多少個(gè)空白,都當(dāng)作一個(gè)空白來處理;而在XML中規(guī)定,所有標(biāo)記以外的空白,解析器都要忠實(shí)地交給下游的應(yīng)用程序處理。這樣,我們有時(shí)必須摒棄編寫HTML文件時(shí)的縮排習(xí)慣,因?yàn)榭s排的空格,解析器也要處理。如:〈作者〉張三〈/作者〉和〈作者〉張三〈/作者〉上述內(nèi)容對于解析器來說是不同的(后者在〈作者〉〈/作者〉標(biāo)記之內(nèi)除了張三這個(gè)字符以外,還包括兩個(gè)換行記號以及“張三”前的文字縮排符號)。所以解析器在去掉標(biāo)記后將信息傳給應(yīng)用程序?qū)⒂胁煌奶幚斫Y(jié)果。如果我們想明確地告訴XML程序,標(biāo)記中的空白有明確的含義,不要隨便去掉(如在一些詩中,空格有它具體的意義),則可在標(biāo)記中加入一個(gè)XML內(nèi)置的屬性——xml:space。如(注意屬性名稱和值的大小寫):〈詩歌xml:space="preserver"〉祖國?。∽鎳?!我的祖國!〈/詩歌〉另外,在XML文件中,如果要用到表1的特殊字符,必須用相應(yīng)符號代替。表1特殊字符替代符號&&&<⁢>>""''在此做個(gè)小結(jié):符合上述規(guī)定的XML文件就是Well-Formed的XML文件。這是編寫XML文件的最基本要求??梢钥吹絏ML文件的語法規(guī)定比HTML要嚴(yán)格多了。由于有這樣的嚴(yán)格規(guī)定,軟件工程師編寫XML的解析器就容易多了,不像編寫HTML語言的解析器,必須費(fèi)盡心思去適應(yīng)不同的網(wǎng)頁寫法,提高自己瀏覽器的適應(yīng)能力。實(shí)際上,這對于我們初學(xué)者來說,也是一件好事。該怎樣就怎樣,不必像原來那樣去疑惑各種HTML的寫法。我們看到,在XML文件中,用的大多都是自定義的標(biāo)記。但是大家考慮一下,如果兩個(gè)同行業(yè)的公司A和B要用XML文件相互交換數(shù)據(jù),A公司用〈價(jià)格〉標(biāo)記來表示他們產(chǎn)品的價(jià)格信息,而B公司可能用〈售價(jià)〉來表示價(jià)格信息。如果一個(gè)XML應(yīng)用程序來讀取他們各自的XML文件中的信息時(shí),如果它只知道〈價(jià)格〉標(biāo)記里表示的是價(jià)格信息,那么B公司的價(jià)格信息就讀不出來,必將產(chǎn)生錯(cuò)誤。顯然,對于想利用XML文件來交換信息的實(shí)體來說,他們之間必須有一個(gè)約定——即編寫XML文件可以用哪些標(biāo)記,母元素中能夠包括哪些子元素,各個(gè)元素出現(xiàn)的順序,元素中的屬性怎樣定義等。這樣他們在用XML交換數(shù)據(jù)時(shí)才能夠暢通無阻。這種約定稱為DTD(DocumentTypeDefinition,文檔格式定義)??梢园袲TD看作編寫XML文件的模板。對于同行業(yè)之間的XML數(shù)據(jù)交換,有一個(gè)固定的DTD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論