Tips

Chat-GPT wel of niet toegang geven tot je website?

Geschreven door:

Kevin Rombouts Front-End Developer & Consultant

Front-End Developer & Consultant

Als front-end developer zorg ik voor strak geschreven code die onze websites dat wow-effect geeft. Ik ben niet alleen een nerd, maar ook een consultant die in gewoon Nederlands uitlegt wat er allemaal nodig is om een website van A tot Z te krijgen. Of het nu gaat om de technische details of het grotere plaatje, ik zorg ervoor dat alles helder en begrijpelijk is.

Volg mij op LinkedIn Mail mij je vraag

Meer en meer gebruiken we als mensen AI-gedreven hulpmiddelen om ons werk makkelijker te maken. Applicaties als ChatGPT en Dall-E helpen in het schrijven van teksten en het maken van afbeeldingen. Maar wil je wel of niet dat AI chatbots je content doorspitten? Ik leg je uit hoe je met wat simpele aanpassingen volledige controle krijgt over het wel (of niet) toelaten van chatbots zoals Chat-GPT.

Open vandaag de dag een willekeurige techblog en je struikelt over de berichten rondom AI-hulpmiddelen als ChatGPT. De ontwikkelingen gaan rap, maar gaan soms ook ethische grenzen over. Zo schoot eind vorig jaar The New York Times in de ankers nadat het klaar was met het feit dat ChatGPT hun content hergebruikte.

Heb jij een website met content die je liever niet wilt delen met ChatGPT? Lees dan vooral verder! Wil je vanuit marketing juist wel zichtbaar zijn, klik dan hier voor een artikel over het wel zichtbaar zijn in ChatGPT.

Hoe komt ChatGPT aan mijn content?

Al sinds jaar en dag zijn er bots op het internet die het web door struinen op zoek naar nieuwe content en aangepaste pagina’s. In het begin waren dit vooral bots die je pagina’s indexeerde voor zoekmachines als Google en Bing, maar sinds de opkomst van AI-hulpmiddelen hebben de bots ook andere doeleinden gekregen: het vergaren van content.

Dit gaat door een techniek die bekendstaat als ‘scrapen’. Wanneer een bot door jouw website heen gaat, identificeert deze de belangrijkste content van iedere pagina. Dit wordt geïndexeerd en opgeslagen in enorme databases, waar het wordt gekenmerkt en kan worden gebruikt om de AI-modellen mee te trainen. Daarna kan het dus zomaar zijn dat jouw woorden uit de digitale mond van een chat-tool komen.

Hou AI-crawlers buiten de deur dankzij robots.txt

Het buiten de deur houden van bots die je website scrapen is een relatief simpele taak, omdat ze (als het goed is*) rekening houden met je robots-informatie. Deze informatie communiceert naar de ‘crawlers’ (zoals ze ook wel genoemd worden) welke pagina’s ze op je website wel en niet mogen scrapen. Dit alles schrijf je weg in een robots.txt-bestandje dat op je server wordt opgeslagen.

Belangrijk is wel om te onthouden dat als je heel je website blokkeert voor dergelijke crawlers, geen enkele pagina naar voren zal komen in de resultaten van bijvoorbeeld ChatGPT. Het kan daarom de moeite waard zijn om een plan voor jezelf uit te werken welke pagina’s je wel en niet wilt blokkeren. Heb je daar hulp bij nodig? Neem dan contact met mij op en gaan we samen aan de slag.

* bijna heel het internet houdt rekening met robots.txt, maar dit is geen garantie dat iedereen netjes volgens de regels speelt. Meer weten over robots.txt? Lees dan eens dit artikel van The Verge.

Zo pas je robots.txt aan

Wanneer je aanpassingen wilt maken aan je robots.txt-bestand, heb je in veel gevallen toegang nodig tot het bestandsbeheer van je server (bijvoorbeeld via een FTP-client). Maak je gebruik van Wordpress, dan kan je ook een SEO-plugin zoals RankMath gebruiken om je robots.txt-bestand aan te passen.

1. Open je robots.txt bestand en identificeer welke regels er nu al in verwerkt staan. De structuur van dit bestand bestaat vaak uit een combinatie van de bots (in het bestand als user-agent) en de regels die de bot moet volgen (in het bestand als disallow).

2. Bepaal welke bots wel en geen toegang mogen krijgen tot je website. Naast de gebruikelijke crawlers van o.a. Google en Bing zijn er een aantal herkenbare AI-crawlers die je mogelijk wilt blokkeren. De meest bekende op het moment zijn als volgt:

- GPTBot - de crawler van OpenAI voor onder andere ChatGPT. Wanneer je deze uitsluit, sluit je ook automatisch ChatGPT-User uit. Dit voorkomt dus ook dat je in de zoekresultaten van ChatGPT naar voren komt.
- Google-Extended - de crawler van Google waarmee het bedrijf hun Gemini-model traint. Volgens Google heeft het uitsluiten van Google-Extended geen impact op je zoekposities in Google en op je zichtbaarheid in SGE.
- FacebookBot - de crawler van Facebook die het gebruikt om zijn taalmodellen te verbeteren.
- anthropic-ai en Claude-Web - de crawlers van AI-bedrijf Anthropic.
- CCbot - de crawler van Common Crawl, welke een publiekelijke repository van het web bijhouden.
- Piplbot - de crawler van Pipl die documenten verzameld om een doorzoekbare index te maken.
- BingBot - de crawler van Microsoft die het gebruikt om zijn Bing-AI model te trainen.

3. Bepaal welke pagina’s wel en niet uitgesloten moeten worden. In veel gevallen zal je de bots in zijn geheel van je website willen blokkeren. Dan is een simpele / voldoende in de disallow-regel van je robots.txt bestand. Mocht je specifiekere secties van je website af willen sluiten, dan kan dat via complexere regels. Meer daarover kan je hier lezen.

4. Controleer je nieuwe regels. Als je alles goed hebt verwerkt, zou het er ongeveer zo uit moeten zien:

User-agent: ChatGPT
Disallow: /
User-agent: Google-Extended
Disallow: /

5. Sla je robots.txt-bestand op en upload het terug naar je server. Het kan soms een aantal dagen duren, maar het verkeer vanuit deze crawlers moet daarna vanzelf stoppen. Mocht je toch nog het gevoel hebben dat nieuwe content wordt opgenomen in de modellen, controleer dan na een periode opnieuw je robots.txt-bestand om te kijken of de regels nog goed staan ingesteld.

Hulp nodig? Laat het mij weten

Kom je er niet uit of wil je meer advies over het uitsluiten van AI-crawlers op je website? Neem dan contact met mij op - ik help je graag verder!

Hoe komt ChatGPT aan mijn content?

ChatGPT maakt gebruik van crawlers die via ‘scrapen’ content verzamelen van websites. Deze bots identificeren belangrijke pagina-inhoud, slaan die op in een database en gebruiken dit om AI-modellen te trainen.

Hoe kan ik voorkomen dat AI-bots mijn site scrapen?

Je kunt AI-crawlers weren met een robots.txt-bestand. Hierin geef je aan welke bots je wel of geen toegang geeft tot (delen van) je website. De meeste bots houden zich aan deze instructies.

Wat is een robots.txt-bestand?

Een robots.txt-bestand is een tekstbestand op je server dat crawlers vertelt welke pagina’s ze wel of niet mogen bezoeken. Hiermee kun je controle houden over wie jouw content mag bekijken en gebruiken.

Welke AI-crawlers kan ik blokkeren via robots.txt?

Voorbeelden van AI-crawlers die je kunt blokkeren zijn: GPTBot (ChatGPT), Google-Extended, FacebookBot, anthropic-ai, CCbot, Piplbot en BingBot. Je kunt ze per user-agent uitsluiten in je robots.txt.

Hoe pas ik mijn robots.txt aan?

Je hebt toegang nodig tot het bestandsbeheer van je server (bijv. via FTP). Gebruik je WordPress, dan kun je een SEO-plugin zoals RankMath gebruiken om je robots.txt-bestand aan te passen.

Kan ik alleen specifieke pagina’s uitsluiten voor AI-crawlers?

Ja, dat kan. In plaats van je hele website te blokkeren, kun je in je robots.txt-bestand aangeven welke specifieke delen je wilt uitsluiten. Hiervoor gebruik je meer specifieke regels.

Geschreven door:

Kevin Rombouts Front-End Developer & Consultant

Front-End Developer & Consultant

Volg mij op LinkedIn Mail mij je vraag

Klaar voor je beste website ooit? Michiel helpt je graag verder

Adviesgesprek inplannen

Recente berichten

Wat moet er technisch gebeuren om zo lang mogelijk van je website te genieten?

Tips

oktober 30, 2024

Wat moet er technisch gebeuren om zo lang mogelijk van je website te genieten?

Nadat je een nieuwe website hebt laten bouwen, wil je daar natuurlijk zo lang mogelijk plezier van hebben. Je leest hier hoe je dat doet!

Michelle van Oort

Love0

Tips

juli 19, 2024