Google outlines pathway for robots.txt protocol to evolve https://ppc.land/google-outlines-pathway-for-robots-txt-protocol-to-evolve/ #Google #RobotsTxt #WebCrawlers #SEO #DigitalMarketing
Google outlines pathway for robots.txt protocol to evolve https://ppc.land/google-outlines-pathway-for-robots-txt-protocol-to-evolve/ #Google #RobotsTxt #WebCrawlers #SEO #DigitalMarketing
Google outlines pathway for robots.txt protocol to evolve: How the 30-year-old web crawler control standard could adopt new functionalities while maintaining its simplicity. https://ppc.land/google-outlines-pathway-for-robots-txt-protocol-to-evolve/ #Google #RobotsTxt #WebCrawlers #SEO #DigitalMarketing
#Business #Introductions
Meet LLMs.txt · A proposed standard for AI website content crawling https://ilo.im/16318s
_____
#SEO #GEO #AI #Bots #Crawlers #LlmsTxt #RobotsTxt #Development #WebDev #Backend
#Development #Reports
Google AI Mode is here · How to access it and control it with robots.txt https://ilo.im/162o8h
_____
#Business #Google #SearchEngine #AnswerEngine #AI #RobotsTxt #WebDev #Frontend #Backend
Hi, got a question.
Is there a standard for Anti-AI/Anti-SEO etc robots.txt file? Or a trustworthy site that explains how to build one if prefab isn't available? Is there anything else I should consider?
Thanks.
#fediVerse #AI #dataMining #robotsTXT #fediAdmin
This looks to me much more like that we should burry troyan horses right into the bellies of the beasts. My server rules and profiles state that all data is CC-BY-SA-NC.
If they use and train that data they definitely should become in serious legal and financial trouble.
Worrying is their self centered megalomanic ego trip, not realizing that they are the remaining world power, armed to their teeth with weapons of all kind, and with all the private data of the worlds population.
That said, having in mind that apparently you, being in charge of several #mastodon instances in the #fediVerse, are not able to fix the #robotsTxt of them while wasting time about talking of other countries internal affairs is kinda embarrassing.
sry
#meanWhile ..
.. the #mastodon community wastes it's time trying to pimp up the stars of it's #APP in #googlePlay, the #robotsTxt of it's instances disallows exactly one #AI bot scrapper to not search for all public data available about the #fediVerse. Not only on it's mother ship but on all instances, so the elonGated can create his target lists of "the enemy inside".
.. good job, well done! ..
> User-agent: GPTBot
> Disallow: /
Extending the meta tags would be fairly straightforward. In addition to the existing "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW", we could introduce "MODELTRAINING" and "NOMODELTRAINING".
Of course, just because there is an RfC does not mean that anyone will follow it. But it would be a start, and something to push for. I would love to hear your opinion.
3/3
This is not an acceptable situation and therefore I propose to extend the robots.txt standard and the corresponding HTML meta tags.
For robots.txt, I see two ways to approach this:
The first option would be to introduce a meta-user-agent that can be used to define rules for all AI bots, e.g. "User-agent: §MODELTRAINIGN§".
The second option would be a directive like "Crawl-delay" that indicates how to use the data. For example, "Model-training: disallow".
2/3
I was just confronted with the question of how to prevent a website being used to train AI models. Using robots.txt, I only see two options, both of which are bad in different ways:
I can either disallow all known AI bots while still being guaranteed to miss some bots.
Or I can disallow all bots and explicitly allow known search engines. This way I will overblock and favour the big search engines over yet unknown challengers.
1/3
really nervous that I'm going to mess up my Robots.txt file. LOL any suggestions on how to do it right and make sure you did it right?
Apple Intelligence Training: Große Websites entscheiden sich gegen die Teilnahme
Einem neuen Bericht zufolge haben sich viele der größten Websites entschieden, sich nicht am Training von Apple Intelligence zu beteiligen.
https://www.apfeltalk.de/magazin/services/apple-intelligence-training-grosse-websites-entscheiden-sich-gegen-die-teilnahme/
#News #Services #AppleIntelligence #Applebot #Datenschutz #Facebook #Instagram #KITraining #robotstxt #TheAtlantic #TheNewYorkTimes #Urheberrecht
Blogmojo.ai: Plagiat im Jahr 2023 (sic!) – Wenn künstliche Intelligenz Texte klaut!
Lesedauer 3 Minuten
[Update 11.08.2024], [Update 13.08.2024]
In meinen Logfiles steht ein neuer Bot: WordPress/6.6.1; https://blogmojo.ai. Oh, wieder einer dieser AI Scraper? Schauen wir mal, was Blogmojo.ai eigentlich so macht: „Generiere epische Blogartikel in weniger als 2 Minuten“ begrüßt mich die Website. In drei einfachen Schritten generiert mir diese AI ein Posting zu einem beliebigen Thema. In Schritt 1 wird das Thema und die Zielgruppe spezifiziert. Schritt 2 erlaubt mir, eine URL zu einem Post anzugeben, damit die AI den Stil dieses Posts nachahmen kann (da kommt dann der Bot ins Spiel). In Schritt 3 kann ich, wenn ich denn Geld drauf werfen, bessere Modelle als GPT-3.5 wählen, Google-Suchergebnisse mit einbeziehen, den Text auf Keywörter optimieren und auch mehr als 500 Zeichen erstellen lassen.
Dieser Bot kopiert also Schreibstile, das was Autor*innen neben dem Inhalt ausmacht. Woran sie Jahre arbeiten, teilweise das Markenzeichen geworden sind und somit auch Teil der Einkünfte von Autor*innen. Wenn ich mir aussuchen kann, wer einen Text schreibt, nehme ich die Autorin, derren Stil mir am besten gefällt.
„Wähle aus, ob die Suchergebnisse für dein Haupt-Keyword bei der Generierung des Blogartikels einbezogen werden sollen“ – Standard ist nein, gegen Geld kann ich ja anklicken. Ich gehe davon aus, dass der Inhalt der Google-Ergebnisse gescrapet wird und die Arbeit anderer Menschen in den generierten Post einfließen.
Insgesamt will ich eigentlich nur wissen ob ich 1. den Bot blocken kann und 2. ob ich Kohle bekomme, wenn der Bot Texte von mir verarbeitet. Um Antworten auf meine Fragen zu bekommen habe ich eine Mail an die im Impressum angegebene Adresse gesendet:
Hallo,
Ich habe ein paar Fragen zu dem Bot „WordPress/6.6.1; https://blogmojo.ai“ und dem Dienst Blogmojo.ai.
1. Respektiert der Bot eine vorhanden robots.txt?
2. Welche IP-Adresse(n) nutzt der Bot?
3. Wie stellen Sie sicher, dass Autor*innen, deren Posts als Beispiel-Post für den Schreibtstil herhalten müssen, kompensiert werden? Der Stil, der kopiert wird, ist Teil der Kreativität von Autor*innen und ihrer eigenen Denkleistung, die der Bot abgrast, um sie dann schamlos zu kopieren.
Vielen Dank für das Beantworten der Fragen. Bitte beachten Sie, dass ihre Antworten in einem Artikel auf meinem Blog veröffentlicht werden können.
Mit besten Grüßen,
Jascha Urbach
Ich bin sehr gespannt, ob es eine Antwort gibt.
Die Überschrift dieses Posts hat übrigens die AI für mich generiert. Als Thema hatte ich „Blogmojo.ai nutzt ungefragt und unentgeltlich Texte anderer Autoren“ angegeben. Und was soll ich sagen? Der Artikel, der dabei heraus kam, ist pures Gold:
Blogmojo.ai: Plagiat im Jahr 2023 – Wenn künstliche Intelligenz Texte klaut!
Problem
Stell dir vor, du hast tagelang an einem Blogartikel oder einer wissenschaftlichen Arbeit gearbeitet, nur um herauszufinden, dass deine Texte von einer künstlichen Intelligenz plagiiert wurden. Genau das könnte im Jahr 2023 Realität werden, wenn wir nicht aufpassen.
Ansatz
Blogmojo.ai ist ein neues Tool, das künstliche Intelligenz nutzt, um automatisch Blogartikel zu generieren. Das klingt zwar zunächst praktisch, birgt jedoch auch das Risiko, dass diese AI-Texte von anderen ohne Erlaubnis verwendet werden.
Lösung
Es ist wichtig, dass wir uns als Blogger und Autoren bewusst sind, dass Plagiat durch künstliche Intelligenz im Jahr 2023 eine reale Bedrohung darstellen könnte. Indem wir unsere Texte regelmäßig überprüfen und Tools wie CopyScape verwenden, können wir sicherstellen, dass unsere Inhalte geschützt sind.
Fazit
Es liegt an uns allen, verantwortungsbewusst mit künstlicher Intelligenz umzugehen und sicherzustellen, dass unsere eigenen Texte geschützt sind. Blogmojo.ai mag zwar eine nützliche Ressource sein, aber wir müssen auch die Risiken im Blick behalten.
Update vom 11.08.2024:
Ich habe noch keine Antwort von Blogmojo erhalten und daher diese freundliche Erinnerung gesendet:
Hallo,
dies ist eine freundliche Erinnerung zur Beantwortung meiner Fragen.
Mit besten Grüßen,
Jascha Urbach
Ich bin gespannt!
Update vom 13.08.2024:
Ich habe dann doch eine Antwort bekommen, die nicht wirklich befriedigend ist:
Hi Jascha,
kein Problem, mache ich gerne.
1. Nein, der Bot respektiert die robots.txt nicht.
2. 185.30.32.227
3. Bei der Schreibstil-Analyse wird der Schreibstil nur stichpunktartig analysiert. Es werden keine Inhalte direkt übernommen. Plagiate sind also ausgeschlossen.
Das hier ist der verwendete Prompt aus dem Quellcode von Blogmojo.ai, falls für dich relevant:
(Inline-Bild aus der Antwortmail)Die übermittelten Blogartikel werden laut eigenen Daten von OpenAI nicht als Trainingsdaten verwendet (siehe: https://platform.openai.com/docs/concepts).
Eine direkte Einbeziehung von Suchergebnissen oder Webseiten als inhaltliche Vorlage für generierte Blogartikel ist übrigens ebenfalls nicht möglich, da es keine Pro-Version gibt (und aktuell auch keine in Planung ist, ich habe das Projekt auf Eis gelegt).
Liebe Grüße
Finn
Einerseits bin ich ja ganz froh, dass dieses AI-Projekt erstmal auf Eis liegt, andererseits finde ich Bots, die eine robot.txt nicht beachten wirklich blöd und jetzt muss ich halt eine IP-Adresse sperren und Antwort 3 finde ich nicht wirklich befriedigend.
Ich weiß wirklich nicht, was ich von solchen Projekten halten soll. Wie seht ihr das?
#Robotstxt #CrawlerBacklash Trickle-down effects: "people start blocking all crawlers, and some crawlers are very important, for search indexing, internet archiving, some are used for academic research, and so the bad behaviours of all these #AIcompanies, and the backlash to it, is kind of fundamentally changing how the Internet works, how it is remembered and indexed..."
https://pca.st/yto6v3il?t=11m34s
#AI #GenerativeAI #AITraining #Anthropic #WebCrawlers #WebScraping #Robotstxt: "Hundreds of websites trying to block the AI company Anthropic from scraping their content are blocking the wrong bots, seemingly because they are copy/pasting outdated instructions to their robots.txt files, and because companies are constantly launching new AI crawler bots with different names that will only be blocked if website owners update their robots.txt.
In particular, these sites are blocking two bots no longer used by the company, while unknowingly leaving Anthropic’s real (and new) scraper bot unblocked.
This is an example of “how much of a mess the robots.txt landscape is right now,” the anonymous operator of Dark Visitors told 404 Media. Dark Visitors is a website that tracks the constantly-shifting landscape of web crawlers and scrapers—many of them operated by AI companies—and which helps website owners regularly update their robots.txt files to prevent specific types of scraping. The site has seen a huge increase in popularity as more people try to block AI from scraping their work."
"…the #backlash to AI tools from content creators and website owners who do not want their work to be used for AI training purposes without permission or compensation is not only real but is becoming increasingly widespread. The analysis also highlights the limitations of robots.txt—while many companies respect robots.txt instructions, some do not. Perplexity have been caught circumventing & ignoring #robotstxt."
https://www.404media.co/the-backlash-against-ai-scraping-is-real-and-measurable/
"…researchers estimate that in the 3 data sets—called C4, RefinedWeb and Dolma—5% of all data, and 25% of data from the highest-quality sources, has been restricted…set up through the #RobotsExclusionProtocol, a method for website owners to prevent automated bots from crawling their pages using a file called #robotstxt."
Right with you.