Prima di tutto cominciamo con il definire la differenza tra Xpath e CSSPath
Cosa è XPath?
XPath è l’abbreviazione di XML Path Language, che è un linguaggio di query che descrive un modo per trovare ed elaborare elementi nei documenti XML.
XPath può essere utilizzato anche per le pagine HTML e rappresenta un modo rapido e semplice per trova un elemento nella struttura gerarchica della pagina.
Cosa è CSSPath?
CSSPath è molto simile a XPath, ma per individuare gli elementi all’interno della pagina si usano i selettori CSS che serviranno per estrarre gli elementi.
Veniamo adesso ad alcuni Xpath utili e nel video in fondo esploriamo la potenzialità di XPath visuale presente nelll’ultima versione di Screaming Frog.
Funzioni Utili
Estrarre i link alle pagine AMP
//head/link[@rel='amphtml']/@href
Estrarre tutti gli elementi href contenenti in pagine che contengono le stringhe http://www.esempio oppure http://books.esempio oppure http://eventi.esempio
//a[contains(@href,'http://www.esempio') or contains(@href,'http://books.esempio') or contains(@href,'http://eventi.esempio')]
Estrai tutti gli ItemType dei dati strutturati
//*[@itemtype]/@itemtype
Estrai tutti gli ItemProp dei dati strutturati
//*[@itemprop]/@itemprop
Estrai tutti i Microdati
//*[@itemtype]
Estrarre tutti i dati da Open Craph o Twitter Cards
//meta[starts-with(@property, 'og:title')][1]/@content
//meta[starts-with(@property, 'og:description')][1]/@content
//meta[starts-with(@property, 'og:type')][1]/@content
//meta[starts-with(@property, 'og:site_name')][1]/@content
//meta[starts-with(@property, 'og:locale')][1]/@content
//meta[starts-with(@property, 'og:image')][1]/@content
Riferimenti
Articoli molto interessanti che trattano l’argomento sono sicuramente i seguenti:
- https://www.pmg.com/blog/how-to-use-xpath-in-screaming-frog
- https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/
- https://www.screamingfrog.co.uk/web-scraping/