2019/06/03

XPath(XML Path Language)

XPath(XML Path Language)是一種XML路徑語言,那也能用來當查詢語言
以前玩爬蟲時也蠻常用XPath(XML Path Language),現今瀏覽器也能直接透過原始碼複製XPath路徑
這次示範的網站一樣是RoS-BoT


今天主要想爬如下圖紅框部分

對紅圈內的文字按右鍵檢視原始碼,按右鍵/Copy/Copy XPath



會得到如下一樣的文字,這串就是XPath所得到的路徑
//*[@id="block-system-main"]/div/div[3]/div[1]/div/div[1]/small

怎麼知道這串XPath文字會取得到什麼值呢?可以去找套件,我個人是使用XPath Helper
這邊也已XPath Helper做示範

我們將上述的文字丟到XPath Helper內會得到我們要的結果

如果要取得當前頁面所有的時間怎麼辦呢?
先仔細觀察原始碼是否有規律,像時間這邊它有很明確的規律
class為text-navy xh-highlight


那就將XPath寫成這樣
//small[@class='text-navy']

那就可以取得到當前頁面所有的時間


參考資料:
https://zh.wikipedia.org/wiki/XPath