YouFeedBot
Questa pagina spiega cos'è il crawler di YouFeed, perché potrebbe arrivare sul tuo sito e come gestirlo. Se ti ha portato qui un log del web server, sei nel posto giusto.
Cosa fa
YouFeed è un aggregatore di news italiano: gli utenti dichiarano quali fonti vogliono seguire e noi facciamo il fetch dei loro feed RSS/Atom per mostrarne i titoli e i link nelle loro pagine personali. Niente scraping massivo, niente archivio del testo dell'articolo: leggiamo solo quello che tu hai deciso di pubblicare in formato feed.
Visite tipiche al tuo dominio:
GET /feed.xmlo/feed/ogni 15–60 min se un utente segue il tuo sitoGET /robots.txtuna volta al giorno (cached 24h)GET /+ qualche path durante la discovery, solo quando un utente aggiunge il tuo dominio tra le fontiGET /path/articoloraramente, per recuperare l'immagine OpenGraph se mancante nel feed
Come identificarci
L'header User-Agent delle nostre richieste è:
YouFeed/2.0 (+https://www.youfeed.it/bot)
Il token da usare nelle regole è
YouFeed. Le richieste arrivano dai
nostri IP di produzione (ASN del nostro hoster); non usiamo
residential proxy né TLS impersonation per i feed RSS.
Rispettiamo robots.txt
Prima di ogni fetch leggiamo il tuo robots.txt e
rispettiamo le regole che riguardano YouFeed
(o il wildcard *). Esempio per escluderci da tutto:
User-agent: YouFeed
Disallow: /
Per escluderci solo da una sezione:
User-agent: YouFeed
Disallow: /membri/
Disallow: /paywall/
Cache 24h: dopo una modifica al robots.txt la nuova
policy viene recepita entro un giorno. Se ti serve immediato,
scrivi al contatto sotto.
Bloccarci a livello server/WAF
Se preferisci il blocco a livello WAF/Cloudflare:
- Cloudflare: Firewall Rules →
User Agent contains "YouFeed"→ Block - nginx:
if ($http_user_agent ~* "YouFeed") { return 403; } - Apache:
RewriteCond %{HTTP_USER_AGENT} YouFeed [NC]+RewriteRule .* - [F]
Nessun rancore: rispettiamo ogni 403/429 e smettiamo di provare.
Frequenza e carico
Lo scheduler ridistribuisce le richieste per non saturare i tuoi
server: poll RSS a 15 min - 60 min a seconda
della frequenza di pubblicazione che osserviamo. Onoriamo gli
header ETag / Last-Modified e gestiamo
correttamente i 304 Not Modified — quindi le richieste effettive
che ti arrivano sono pochissime.
Contatti
Problemi, segnalazioni o richieste di whitelist: [email protected]. Rispondiamo entro 48h lavorative.
Versione bot: 2.0 · Pagina aggiornata il 2026-05.