之所以要引入XPath的概念,目的就是为了在匹配XML文档结构树时能够准确地找到某一个节点元素。可以把XPath比作文件管理路径:通过文件管理路径,可以按照一定的规则查找到所需要的文件;同样,依据XPath所制定的规则,也可以很方便地找到XML结构文档树中的任何一个节点.
不过,由于XPath可应用于不止一个的标准,因此W3C将其独立出来作为XSLT的配套标准颁布,它是XSLT以及我们后面要讲到的XPointer的重要组成部分。
在介绍XPath的匹配规则之前,我们先来看一些有关XPath的基本概念。
首先要说的是XPath数据类型。XPath可分为四种数据类型:
其中后三种数据类型与其它编程语言中相应的数据类型差不多,只是第一种数据类型是XML文档树的特有产物。
另外,由于XPath包含的是对文档结构树的一系列操作,因此搞清楚XPath节点类型也是很必要的。回忆一下第二章中讲到的XML文档的逻辑结构,一个XML文件可以包含元素、CDATA、注释、处理指令等逻辑要素,其中元素还可以包含属性,并可以利用属性来定义命名空间。相应地,在XPath中,将节点划分为七种节点类型:
下面,我们来构造一棵XML文档树,作为后面举例的依托:
| <A id="a1"> <B id="b1"> <C id="c1"> <B name="b"/> <D id="d1"/> <E id="e1"/> <E id="e2"/> </C> </B> <B id="b2"/> <C id="c2"> <B/> <D id="d2"/> <F/> </C> <E/> </A> |
现在,我们就来介绍一些XPath中节点匹配的基本方法。
| 符 号 | 含 义 | 举 例 | 匹配结果 |
| / | 指示节点路径 | /A/C/D | 节点"A"的子节点"C"的子节点"D",即id值为d2的D节点 |
| / | 根节点 | ||
| // | 所有路径以"//"后指定的子路径结尾的元素 | //E | 所有E元素,结果是所有三个E元素 |
| //C/E | 所有父节点为C的E元素,结果是id值为e1和e2的两个E元素 | ||
| * | 路径的通配符 | /A/B/C/* | A元素→B元素→C元素下的所有子元素,即name值为b的B元素、id值为d1的D元素和id值为e1和e2的两个E元素 |
| /*/*/D | 上面有两级节点的D元素,匹配结果是id值为d2的D元素 | ||
| //* | 所有的元素 | ||
| | | 逻辑或 | //B | //C | 所有B元素和C元素 |
| 举 例 | 含 义 | 匹配结果 |
| /A/B/C[1] | A元素→B元素→C元素的第一个子元素 | name值为b的B元素 |
| /A/B/C[last()] | A元素→B元素→C元素的最后一个子元素 | id值为e2的E元素 |
| /A/B/C[position()>1] | A元素→B元素→C元素之下的位置号大于1的元素 | id值为d1的D元素和两个具有id值的E元素 |
| 举 例 | 含 义 | 匹配结果 |
| //B[@id] | 所有具有属性id的B元素 | id值为b1和b2的两个B元素 |
| //B[@*] | 所有具有属性的B元素 | 两个具有id属性的B元素和一个具有name属性B元素 |
| //B[not(@*)] | 所有不具有属性的B元素 | A元素→C元素下的B元素 |
| //B[@id="b1"] | id值为b1的B元素 | A元素下的B元素 |
| 举 例 | 含 义 | 匹配结果 |
| //E/parent::* | 所有E节点的父节点元素 | id值为a1的A元素和id值为c1的C元素 |
| //F/ancestor::* | 所有F元素的祖先节点元素 | id值为a1的A元素和id值为c2的C元素 |
| /A/child::* | A的子元素 | id值为b1、b2的B元素,id值为c2的C元素,以及没有任何属性的E元素 |
| /A/descendant::* | A的所有后代元素 | 除A元素以外的所有其它元素 |
| //F/self::* | 所有F的自身元素 | F元素本身 |
| //F/ancestor-or-self::* | 所有F元素及它的祖先节点元素 | F元素、F元素的父节点C元素和A元素 |
| /A/C/descendant-or-self::* | 所有A元素→C元素及它们的后代元素 | id值为c2的C元素、该元素的子元素B、D、F元素 |
| /A/C/following-sibling::* | A元素→C元素的紧邻的后序所有兄弟节点元素 | 没有任何属性的E元素 |
| /A/C/preceding-sibling::* | A元素→C元素的紧邻的前面所有兄弟节点元素 | id值为b1和b2的两个B元素 |
| /A/B/C/following::* | A元素→B元素→C元素的后序的所有元素 | id为b2的B元素、无属性的C元素、无属性的B元素、id为d2的D元素、无属性的F元素、无属性的E元素。 |
| /A/C/preceding::* | A元素→C元素的前面的所有元素 | id为b2的B元素、id为e2的E元素、id为e1的E元素、id为d1的D元素、name为b的B元素、id为c1的C元素、id为b1的B元素 |
以上这些匹配方法中,用得最多的还要数路径匹配。