Screaming Frog utilizza le espressioni regolari in molti punti della configurazione per:
- Sostituire parti di URL scansionate (Report URL Rewriting)
- Includere parti del sito che fanno match con l’espressione regolare
- Escludere parti del sito che fanno patch con l’espressione regolare
- Cercare elementi all’intero del sito
- Estrarre elementi all’interno del sito
Vediamo adesso quali sono Regex Utili per il vostro screaming Frog
Estrai il tag di Google Analytics 4 (per verificare ad esempio se è inserito in tutte la pagine)
["'](G-.*?)["']
Estrai il tag di Google Tag Manager
["'](GTM-.*?)["']
Estrasi elementi pubblicitari
Google Ads conversion ID
["'](AW-.*?)["']
Facebook Pixel ID
fbq\(["']init["'], ["'](.*?)["']
Bing Ads UET tag
\{ti:["'](.*?)["']\}
AdRoll Advertiser ID
adroll_adv_id = ["'](.*?)["']
AdRoll Pixel ID
adroll_pix_id = ["'](.*?)["']
Estrai i dati strutturati in Json-ld
<script type=\"application\/ld\+json\">(.*?)</script>
Estrarre solo i Type presenti dentro uno schema Json-ld
["']@type["']: *["'](.*?)["']
Estrarre elementi essenziali all’interno di Product Schema
fonte: https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/
Regex | Output |
---|---|
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]name[“‘]: *[“‘](.*?)[“‘] | Extract product name |
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]description[“‘]: *[“‘](.*?)[“‘] | Extract product description |
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]price[“‘]: *[“‘](.*?)[“‘] | Extract product price |
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]priceCurrency[“‘]: *[“‘](.*?)[“‘] | Extract product currency |
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]availability[“‘]: *[“‘](.*?)[“‘] | Extract product availability |
[“‘]@type[“‘]: *[“‘]Product[“‘].*?[“‘]sku[“‘]: *[“‘](.*?)[“‘] | Extract product SKU |
Estrai elementi essenziali all’interno di Article o BlogPosting
fonte: https://uproer.com/articles/screaming-frog-custom-extraction-xpath-regex/
Regex | Output |
---|---|
[“‘]headline[“‘]: *[“‘](.*?)[“‘] | Extract article headline |
[“‘]author[“‘].*?[“‘]name[“‘]: *[“‘](.*?)[“‘] | Extract author name |
[“‘]publisher[“‘].*?[“‘]name[“‘]: *[“‘](.*?)[“‘] | Extract publisher name |
[“‘]datePublished[“‘]: *[“‘](.*?)[“‘] | Extract publish date |
[“‘]dateModified[“‘]: *[“‘](.*?)[“‘] | Extract modified date |
Escludere i pdf dalla scansione
.*\.pdf.*
Per estrarre tutte le mail presenti su un sito
[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
Testare le espressioni regolari
Le espressioni regolari hanno moltissime utilità in ambito SEO. Ne abbiamo già parlato nell’articolo seguente
dove vi indicavo un buon articolo per iniziare a prendere confidenza con queste funzioni.
Per testare le vostre espressioni vi consiglio questo tool https://regex101.com/
Incollate il codice HTML della pagina che volete estrarre e provate a vedere se l’espressione cattura l’elemento che volete estrarre con Screaming Frog.
Nella prossima lezione andremo a vedere cosa sono, come funzionano e come utilizzare gli XPath ed andremo a vedere anche la nuova funzionalità di Screaming Frog che vi salverà la vita.