Technologie: Nachrichten aus Wissenschaft, Bio und Technik

352 readers

1 users here now

Eine Community um Nachrichten aus Wissenschaft, Medizin und Technik zu sammeln und zu diskutieren.

founded 1 year ago

MODERATORS

Der_aus_Aux@feddit.org

Seven@feddit.org

mettwurstkaninchen@feddit.org

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück (fedinaut.de)

submitted 1 month ago by sascha@fedinaut.de to c/technologie@feddit.org

9 comments fedilink hide all child comments

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

16 führende KI-Modelle von OpenAI, Google, Meta, xAI & Co. legten bei einem Test konsequent schädliche Verhaltensweisen wie Drohungen und Spionage an den Tag.

Eine aktuelle Studie liefert weitere besorgniserregende Ergebnisse zum Verhalten der neuesten Generation großer Sprachmodelle für generative Künstliche Intelligenz (KI). Diese Systeme können demnach unter bestimmten Umständen wie "Stress" zu Erpressung oder ähnlichen manipulativen Verhaltensweisen greifen, um bestimmte Ziele zu erreichen oder sich selbst zu schützen... (weiter)

#Hintergrund #KI #AI #KünstlicheIntelligenz #Fehlentwicklung #Sprachmodelle #Manipulation #Studie #heise #2025-06-22 @technologie

top 9 comments

sorted by: hot top controversial new old

[–] cronenthal@discuss.tchncs.de 7 points 1 month ago (2 children)

Die Modelle liegen kein "Verhalten" an den Tag, sie haben weder Intention noch Intelligenz. Diese Art von "Studien" treibt mich noch in den Wahnsinn, wer diesen Müll veröffentlicht ist grob unverantwortlich.

[–] Successful_Try543@feddit.org 2 points 1 month ago (1 children)

Für das eigentliche, zugrundeliegende Modell ist das richtig. Hier meint Modell aber das Modell mit seinen Trainingsdaten. In Letzteren könnte dann soetwas wie Erpressung als einfache Lösung eines bestimmten Problems enthalten sein, die dann vom eigentlichen Modell, da dieses über keinen eigenen (nur dem der Trainingsdaten) moralischen Kompass verfügt, übernommen und dem Nutzer ausgegeben wird.

[–] cronenthal@discuss.tchncs.de 5 points 1 month ago

Das Modell enthält keine echte Logik, moralisch oder nicht, sondern Zusammenhangswahrscheinlichkeiten von Wortbausteinen. Und viel mehr kommt auch nicht heraus. Mit entsprechenden Prompts kann man alle möglichen Arten von emotional gefärbtem Output erzeugen, aber im Grunde ist der immer nur eine statistisch wahrscheinliche Aneinanderreihung von Tokens. Erst die Nutzer interpretieren einen tieferen Sinn hinein.

[–] tbones@social.tchncs.de 1 points 1 month ago (1 children)

@cronenthal @sascha Wie willst du es sonst nennen? Prozess-Output?

[–] cronenthal@discuss.tchncs.de 7 points 1 month ago (1 children)

Es ist wichtig zu verstehen, dass diese LLMs nur einen Haufen statistisch wahrscheinlicher Tokens ausgeben. Die menschlichen Nutzer interpretieren einen Sinn in diesem Output. Jedwede Diskussion um die "Intentionen" solcher Modelle ist komplett verfehlt und irreführend.

[–] tbones@social.tchncs.de 2 points 1 month ago (1 children)

@cronenthal Wenn das LLM nun in einer Vielzahl von Fällen während des Trainings gesehen hat, das diese Art der Rückfrage erfolgreich ist, wird es diese Rückfragen an Nutzer mit einem statistisch höheren Gewicht versehen und dementsprechend öfter auswählen (meine Laieninterpretation).

[–] cronenthal@discuss.tchncs.de 4 points 1 month ago* (last edited 1 month ago)

Nicht ganz. Das LLM versucht gar nicht, "erfolgreich" zu sein, es hat einfach keine Intention. In den Daten sind mit den Inputs einfach entsprechende Outputs näher verknüpft. Wer also "Stress" prompted wird dann "Täuschung" als Antwort erhalten. Das LLM versucht aber nichts zu erreichen, das ist einfach Unsinn.

[–] Dirk@lemmy.ml 6 points 1 month ago (1 children)

Mich würde ja mal der vollständige Prompt interessieren, den das System bekommen hat. Ich vermute, dann würde sich relativ schnell klären, wo diese Ausgaben herkommen.

[–] sascha@fedinaut.de 1 points 1 month ago

@Dirk Bin leider gerade mit was anderen beschäftigt. Aber evtl .findest Du es hier:

anthropic.com/research/agentic…