eupolicy.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
This Mastodon server is a friendly and respectful discussion space for people working in areas related to EU policy. When you request to create an account, please tell us something about you.

Server stats:

244
active users

#robotstxt

0 posts0 participants0 posts today
Replied in thread

@ErikUden

Worrying is their self centered megalomanic ego trip, not realizing that they are the remaining world power, armed to their teeth with weapons of all kind, and with all the private data of the worlds population.

That said, having in mind that apparently you, being in charge of several #mastodon instances in the #fediVerse, are not able to fix the #robotsTxt of them while wasting time about talking of other countries internal affairs is kinda embarrassing.
sry

#meanWhile ..

.. the #mastodon community wastes it's time trying to pimp up the stars of it's #APP in #googlePlay, the #robotsTxt of it's instances disallows exactly one #AI bot scrapper to not search for all public data available about the #fediVerse. Not only on it's mother ship but on all instances, so the elonGated can create his target lists of "the enemy inside".

.. good job, well done! ..

> User-agent: GPTBot
> Disallow: /

mastodon.social/robots.txt

Continued thread

Extending the meta tags would be fairly straightforward. In addition to the existing "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW", we could introduce "MODELTRAINING" and "NOMODELTRAINING".

Of course, just because there is an RfC does not mean that anyone will follow it. But it would be a start, and something to push for. I would love to hear your opinion.

3/3

Continued thread

This is not an acceptable situation and therefore I propose to extend the robots.txt standard and the corresponding HTML meta tags.

For robots.txt, I see two ways to approach this:

The first option would be to introduce a meta-user-agent that can be used to define rules for all AI bots, e.g. "User-agent: §MODELTRAINIGN§".

The second option would be a directive like "Crawl-delay" that indicates how to use the data. For example, "Model-training: disallow".

2/3

I was just confronted with the question of how to prevent a website being used to train AI models. Using robots.txt, I only see two options, both of which are bad in different ways:

I can either disallow all known AI bots while still being guaranteed to miss some bots.

Or I can disallow all bots and explicitly allow known search engines. This way I will overblock and favour the big search engines over yet unknown challengers.

1/3

Apple Intelligence Training: Große Websites entscheiden sich gegen die Teilnahme
Einem neuen Bericht zufolge haben sich viele der größten Websites entschieden, sich nicht am Training von Apple Intelligence zu beteiligen.
apfeltalk.de/magazin/services/
#News #Services #AppleIntelligence #Applebot #Datenschutz #Facebook #Instagram #KITraining #robotstxt #TheAtlantic #TheNewYorkTimes #Urheberrecht

Blogmojo.ai: Plagiat im Jahr 2023 (sic!) – Wenn künstliche Intelligenz Texte klaut!

Lesedauer 3 Minuten

[Update 11.08.2024], [Update 13.08.2024]

In meinen Logfiles steht ein neuer Bot: WordPress/6.6.1; blogmojo.ai. Oh, wieder einer dieser AI Scraper? Schauen wir mal, was Blogmojo.ai eigentlich so macht: „Generiere epische Blogartikel in weniger als 2 Minuten“ begrüßt mich die Website. In drei einfachen Schritten generiert mir diese AI ein Posting zu einem beliebigen Thema. In Schritt 1 wird das Thema und die Zielgruppe spezifiziert. Schritt 2 erlaubt mir, eine URL zu einem Post anzugeben, damit die AI den Stil dieses Posts nachahmen kann (da kommt dann der Bot ins Spiel). In Schritt 3 kann ich, wenn ich denn Geld drauf werfen, bessere Modelle als GPT-3.5 wählen, Google-Suchergebnisse mit einbeziehen, den Text auf Keywörter optimieren und auch mehr als 500 Zeichen erstellen lassen.

Dieser Bot kopiert also Schreibstile, das was Autor*innen neben dem Inhalt ausmacht. Woran sie Jahre arbeiten, teilweise das Markenzeichen geworden sind und somit auch Teil der Einkünfte von Autor*innen. Wenn ich mir aussuchen kann, wer einen Text schreibt, nehme ich die Autorin, derren Stil mir am besten gefällt.

„Wähle aus, ob die Suchergebnisse für dein Haupt-Keyword bei der Generierung des Blogartikels einbezogen werden sollen“ – Standard ist nein, gegen Geld kann ich ja anklicken. Ich gehe davon aus, dass der Inhalt der Google-Ergebnisse gescrapet wird und die Arbeit anderer Menschen in den generierten Post einfließen.

Insgesamt will ich eigentlich nur wissen ob ich 1. den Bot blocken kann und 2. ob ich Kohle bekomme, wenn der Bot Texte von mir verarbeitet. Um Antworten auf meine Fragen zu bekommen habe ich eine Mail an die im Impressum angegebene Adresse gesendet:

Hallo,
Ich habe ein paar Fragen zu dem Bot „WordPress/6.6.1; blogmojo.ai“ und dem Dienst Blogmojo.ai.

1. Respektiert der Bot eine vorhanden robots.txt?
2. Welche IP-Adresse(n) nutzt der Bot? 
3. Wie stellen Sie sicher, dass Autor*innen, deren Posts als Beispiel-Post für den Schreibtstil herhalten müssen, kompensiert werden? Der Stil, der kopiert wird, ist Teil der Kreativität von Autor*innen und ihrer eigenen Denkleistung, die der Bot abgrast, um sie dann schamlos zu kopieren. 

Vielen Dank für das Beantworten der Fragen. Bitte beachten Sie, dass ihre Antworten in einem Artikel auf meinem Blog veröffentlicht werden können.

Mit besten Grüßen,
Jascha Urbach

Ich bin sehr gespannt, ob es eine Antwort gibt.

Die Überschrift dieses Posts hat übrigens die AI für mich generiert. Als Thema hatte ich „Blogmojo.ai nutzt ungefragt und unentgeltlich Texte anderer Autoren“ angegeben. Und was soll ich sagen? Der Artikel, der dabei heraus kam, ist pures Gold:

Blogmojo.ai: Plagiat im Jahr 2023 – Wenn künstliche Intelligenz Texte klaut!

Problem

Stell dir vor, du hast tagelang an einem Blogartikel oder einer wissenschaftlichen Arbeit gearbeitet, nur um herauszufinden, dass deine Texte von einer künstlichen Intelligenz plagiiert wurden. Genau das könnte im Jahr 2023 Realität werden, wenn wir nicht aufpassen.

Ansatz

Blogmojo.ai ist ein neues Tool, das künstliche Intelligenz nutzt, um automatisch Blogartikel zu generieren. Das klingt zwar zunächst praktisch, birgt jedoch auch das Risiko, dass diese AI-Texte von anderen ohne Erlaubnis verwendet werden.

Lösung

Es ist wichtig, dass wir uns als Blogger und Autoren bewusst sind, dass Plagiat durch künstliche Intelligenz im Jahr 2023 eine reale Bedrohung darstellen könnte. Indem wir unsere Texte regelmäßig überprüfen und Tools wie CopyScape verwenden, können wir sicherstellen, dass unsere Inhalte geschützt sind.

Fazit

Es liegt an uns allen, verantwortungsbewusst mit künstlicher Intelligenz umzugehen und sicherzustellen, dass unsere eigenen Texte geschützt sind. Blogmojo.ai mag zwar eine nützliche Ressource sein, aber wir müssen auch die Risiken im Blick behalten.

Update vom 11.08.2024:

Ich habe noch keine Antwort von Blogmojo erhalten und daher diese freundliche Erinnerung gesendet:

Hallo,

dies ist eine freundliche Erinnerung zur Beantwortung meiner Fragen.

Mit besten Grüßen,
Jascha Urbach

Ich bin gespannt!

Update vom 13.08.2024:

Ich habe dann doch eine Antwort bekommen, die nicht wirklich befriedigend ist:

Hi Jascha,

kein Problem, mache ich gerne. 😊

1. Nein, der Bot respektiert die robots.txt nicht.
2. 185.30.32.227
3. Bei der Schreibstil-Analyse wird der Schreibstil nur stichpunktartig analysiert. Es werden keine Inhalte direkt übernommen. Plagiate sind also ausgeschlossen.

Das hier ist der verwendete Prompt aus dem Quellcode von Blogmojo.ai, falls für dich relevant:

(Inline-Bild aus der Antwortmail)

Die übermittelten Blogartikel werden laut eigenen Daten von OpenAI nicht als Trainingsdaten verwendet (siehe: https://platform.openai.com/docs/concepts).

Eine direkte Einbeziehung von Suchergebnissen oder Webseiten als inhaltliche Vorlage für generierte Blogartikel ist übrigens ebenfalls nicht möglich, da es keine Pro-Version gibt (und aktuell auch keine in Planung ist, ich habe das Projekt auf Eis gelegt).

Liebe Grüße
Finn

Einerseits bin ich ja ganz froh, dass dieses AI-Projekt erstmal auf Eis liegt, andererseits finde ich Bots, die eine robot.txt nicht beachten wirklich blöd und jetzt muss ich halt eine IP-Adresse sperren und Antwort 3 finde ich nicht wirklich befriedigend.

Ich weiß wirklich nicht, was ich von solchen Projekten halten soll. Wie seht ihr das?

#AI #GenerativeAI #AITraining #Anthropic #WebCrawlers #WebScraping #Robotstxt: "Hundreds of websites trying to block the AI company Anthropic from scraping their content are blocking the wrong bots, seemingly because they are copy/pasting outdated instructions to their robots.txt files, and because companies are constantly launching new AI crawler bots with different names that will only be blocked if website owners update their robots.txt.

In particular, these sites are blocking two bots no longer used by the company, while unknowingly leaving Anthropic’s real (and new) scraper bot unblocked.

This is an example of “how much of a mess the robots.txt landscape is right now,” the anonymous operator of Dark Visitors told 404 Media. Dark Visitors is a website that tracks the constantly-shifting landscape of web crawlers and scrapers—many of them operated by AI companies—and which helps website owners regularly update their robots.txt files to prevent specific types of scraping. The site has seen a huge increase in popularity as more people try to block AI from scraping their work."

404media.co/websites-are-block

404 Media · Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones)Hundreds of sites have put old Anthropic scrapers on their blocklist, while leaving a new one unblocked.

"…the #backlash to AI tools from content creators and website owners who do not want their work to be used for AI training purposes without permission or compensation is not only real but is becoming increasingly widespread. The analysis also highlights the limitations of robots.txt—while many companies respect robots.txt instructions, some do not. Perplexity have been caught circumventing & ignoring #robotstxt."

404media.co/the-backlash-again

404 Media · The Backlash Against AI Scraping Is Real and MeasurableIn the last year, the number of websites specifically restricting OpenAI and other AI scraper bots has gone through the roof.

"…researchers estimate that in the 3 data sets—called C4, RefinedWeb and Dolma—5% of all data, and 25% of data from the highest-quality sources, has been restricted…set up through the #RobotsExclusionProtocol, a method for website owners to prevent automated bots from crawling their pages using a file called #robotstxt."

nytimes.com/2024/07/19/technol

The New York Times · Data for A.I. Training Is Disappearing Fast, Study ShowsBy Kevin Roose