Tips
Chat-GPT wel of niet toegang geven tot je website?
Meer en meer gebruiken we als mensen AI-gedreven hulpmiddelen om ons werk makkelijker te maken. Applicaties als ChatGPT en Dall-E helpen in het schrijven van teksten en het maken van afbeeldingen. Maar wil je wel of niet dat AI chatbots je content doorspitten? Ik leg je uit hoe je met wat simpele aanpassingen volledige controle krijgt over het wel (of niet) toelaten van chatbots zoals Chat-GPT.
Open vandaag de dag een willekeurige techblog en je struikelt over de berichten rondom AI-hulpmiddelen als ChatGPT. De ontwikkelingen gaan rap, maar gaan soms ook ethische grenzen over. Zo schoot eind vorig jaar The New York Times in de ankers nadat het klaar was met het feit dat ChatGPT hun content hergebruikte.
Heb jij een website met content die je liever niet wilt delen met ChatGPT? Lees dan vooral verder! Wil je vanuit marketing juist wel zichtbaar zijn, klik dan hier voor een artikel over het wel zichtbaar zijn in ChatGPT.
Hoe komt ChatGPT aan mijn content?
Al sinds jaar en dag zijn er bots op het internet die het web door struinen op zoek naar nieuwe content en aangepaste pagina’s. In het begin waren dit vooral bots die je pagina’s indexeerde voor zoekmachines als Google en Bing, maar sinds de opkomst van AI-hulpmiddelen hebben de bots ook andere doeleinden gekregen: het vergaren van content.
Dit gaat door een techniek die bekendstaat als ‘scrapen’. Wanneer een bot door jouw website heen gaat, identificeert deze de belangrijkste content van iedere pagina. Dit wordt geïndexeerd en opgeslagen in enorme databases, waar het wordt gekenmerkt en kan worden gebruikt om de AI-modellen mee te trainen. Daarna kan het dus zomaar zijn dat jouw woorden uit de digitale mond van een chat-tool komen.
Hou AI-crawlers buiten de deur dankzij robots.txt
Het buiten de deur houden van bots die je website scrapen is een relatief simpele taak, omdat ze (als het goed is*) rekening houden met je robots-informatie. Deze informatie communiceert naar de ‘crawlers’ (zoals ze ook wel genoemd worden) welke pagina’s ze op je website wel en niet mogen scrapen. Dit alles schrijf je weg in een robots.txt-bestandje dat op je server wordt opgeslagen.
Belangrijk is wel om te onthouden dat als je heel je website blokkeert voor dergelijke crawlers, geen enkele pagina naar voren zal komen in de resultaten van bijvoorbeeld ChatGPT. Het kan daarom de moeite waard zijn om een plan voor jezelf uit te werken welke pagina’s je wel en niet wilt blokkeren. Heb je daar hulp bij nodig? Neem dan contact met mij op en gaan we samen aan de slag.
* bijna heel het internet houdt rekening met robots.txt, maar dit is geen garantie dat iedereen netjes volgens de regels speelt. Meer weten over robots.txt? Lees dan eens dit artikel van The Verge.
Zo pas je robots.txt aan
Wanneer je aanpassingen wilt maken aan je robots.txt-bestand, heb je in veel gevallen toegang nodig tot het bestandsbeheer van je server (bijvoorbeeld via een FTP-client). Maak je gebruik van Wordpress, dan kan je ook een SEO-plugin zoals RankMath gebruiken om je robots.txt-bestand aan te passen.
1. Open je robots.txt bestand en identificeer welke regels er nu al in verwerkt staan. De structuur van dit bestand bestaat vaak uit een combinatie van de bots (in het bestand als user-agent) en de regels die de bot moet volgen (in het bestand als disallow).
2. Bepaal welke bots wel en geen toegang mogen krijgen tot je website. Naast de gebruikelijke crawlers van o.a. Google en Bing zijn er een aantal herkenbare AI-crawlers die je mogelijk wilt blokkeren. De meest bekende op het moment zijn als volgt:
-
- GPTBot - de crawler van OpenAI voor onder andere ChatGPT. Wanneer je deze uitsluit, sluit je ook automatisch ChatGPT-User uit. Dit voorkomt dus ook dat je in de zoekresultaten van ChatGPT naar voren komt.
- Google-Extended - de crawler van Google waarmee het bedrijf hun Gemini-model traint. Volgens Google heeft het uitsluiten van Google-Extended geen impact op je zoekposities in Google en op je zichtbaarheid in SGE.
- FacebookBot - de crawler van Facebook die het gebruikt om zijn taalmodellen te verbeteren.
- anthropic-ai en Claude-Web - de crawlers van AI-bedrijf Anthropic.
- CCbot - de crawler van Common Crawl, welke een publiekelijke repository van het web bijhouden.
- Piplbot - de crawler van Pipl die documenten verzameld om een doorzoekbare index te maken.
- BingBot - de crawler van Microsoft die het gebruikt om zijn Bing-AI model te trainen.
3. Bepaal welke pagina’s wel en niet uitgesloten moeten worden. In veel gevallen zal je de bots in zijn geheel van je website willen blokkeren. Dan is een simpele / voldoende in de disallow-regel van je robots.txt bestand. Mocht je specifiekere secties van je website af willen sluiten, dan kan dat via complexere regels. Meer daarover kan je hier lezen.
4. Controleer je nieuwe regels. Als je alles goed hebt verwerkt, zou het er ongeveer zo uit moeten zien:
User-agent: ChatGPT Disallow: / User-agent: Google-Extended Disallow: /
5. Sla je robots.txt-bestand op en upload het terug naar je server. Het kan soms een aantal dagen duren, maar het verkeer vanuit deze crawlers moet daarna vanzelf stoppen. Mocht je toch nog het gevoel hebben dat nieuwe content wordt opgenomen in de modellen, controleer dan na een periode opnieuw je robots.txt-bestand om te kijken of de regels nog goed staan ingesteld.
Hulp nodig? Laat het mij weten
Kom je er niet uit of wil je meer advies over het uitsluiten van AI-crawlers op je website? Neem dan contact met mij op - ik help je graag verder!