this post was submitted on 26 Oct 2023

19 points (85.2% liked)

DACH - jetzt auf feddit.org

8872 readers

1 users here now

Diese Community wird zum 01.07 auf read-only gestellt. Durch die anhäufenden IT-Probleme und der fehlende Support wechseln wir als Community auf www.feddit.org/c/dach - Ihr seid herzlich eingeladen auch dort weiter zu diskutieren!

Das Sammelbecken auf feddit für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.

Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:

Eine ausführliche Sidebar findet ihr hier: Infothread: Regeln, Feedback & sonstige Infos

Auch hier gelten die Serverregeln von https://feddit.de !

Banner: SirSamuelVimes

founded 1 year ago

MODERATORS

ZDF plant mehr KI bei Untertiteln und Gebärdensprache (www.heise.de)

submitted 10 months ago by muelltonne@feddit.de to c/dach@feddit.de

16 comments fedilink hide all child comments

top 16 comments

sorted by: hot top controversial new old

[–] scorpionix@feddit.de 16 points 10 months ago (2 children)

Na, das kann ja nur gut gehen. Freue mich auf Perlen wie: "Hier ist das Zweite Deutsche Fernsehen UND ER LECKE MICH IM ARSCHE!" /s

[–] geissi@feddit.de 20 points 10 months ago

UND ER LECKE MICH IM ARSCHE

Also mehr klassische deutsche Literatur kann doch nur gut sein.

[–] Pantoffel@feddit.de 5 points 10 months ago (2 children)

Da wird es bestimmt einige witzige Vergebärdensprecher geben 😄 Ich finde das allerdings nicht so dramatisch, wenn es meistens gut funktioniert und wir somit alle wichtigen (oder mehr) Sendungen übersetzen.

[–] federalreverse@feddit.de 12 points 10 months ago* (last edited 10 months ago)

Die automatischen Übersetzungen auf YouTube empfinde ich manchmal als extrem ablenkend. Angewiesen möchte ich darauf nicht sein.

[–] scorpionix@feddit.de 5 points 10 months ago (2 children)

Ich sehe es tatsächlich auch erstmal positiv, aber bei dem aktuellen Stand der KI, wird es leider unvermeidlich zu solchen Patzern kommen. Wobei natürlich auch der beste menschliche Dolmetscher sich mal verspricht.

[–] kniescherz@feddit.de 4 points 10 months ago

Oder einfach kompletten Quatsch macht: https://youtu.be/X-DxGoIVUWo?si=QoTd1nfKkvCENEH6

[–] Pantoffel@feddit.de 2 points 10 months ago (2 children)

Welche Aufgaben muss die KI denn überhaupt lösen:

Speech to Text
Text to Sign language oder beides auf einmal. Allerdings bezweifle ich, dass es dafür gute Modelle gibt.

Klar, für ersteres muss eine gute KI genommen werden. Open Source kenne ich da nichts gutes. Und nein, KALI ist nicht gut, es ist scheiße im Vergleich zum Stand der Technik. OpenAI Whisper finde ich extrem gut, allerdings datenschutztechnisch schlecht. Wenn die da etwas gutes finden, was auch mit Deutsch funktioniert, dann... Aber ja, daran wird es haken.

Zweiteres, Text to Handsprache, da sehe ich überhaupt kein Problem. Das können, ich kenne mich mit Handsprache nicht sonderlich gut aus, Bilder seien, die aneinander gereiht sind und zwischen denen interpoliert wird.

[–] cron@feddit.de 6 points 10 months ago

Gebärdensprache ist mehr als die Aneinanderreihung von Gesten, die 1:1 dem Satz entsprechen. Denn einerseits hat Gebärdensprache einen anderen Satzbau und Grammatik, andererseits können Gebärden auch eine "Betonung" haben.

Das wär alles sicher machbar, bräuchte aber sicher viel Training für die KI.

[–] Turun@feddit.de 4 points 10 months ago

Das können, ich kenne mich mit Handsprache nicht sonderlich gut aus, Bilder seien, die aneinander gereiht sind und zwischen denen interpoliert wird.

Ich glaube das ist um einiges komplizierter. So weit ich weiß: Zum Beispiel werden Richtungen einfach durch eine Handbewegung in die entsprechende Richtung gezeigt. Was start one Ziel dieser Bewegung ist hängt dann vom Kontext ab. Klar, LLMs verstehen inzwischen worauf sich ein "es" im Satz bezieht, aber nichtsdestotrotz ist das ein richtig richtig schweres Problem für Computer.

Der Wikipedia Artikel ist interessant: https://de.wikipedia.org/wiki/Geb%C3%A4rdensprache

Die Gebärden werden phonologisch in vier Parameter zerlegt, die phonemisch weiter analysiert werden: in Handkonfiguration, Handorientierung, Bewegungsausführung und Ort der Bewegung. Viele Gebärden sind stark flektiert. Informationen können pronominal (durch verschiedene sichtbare Formen) in einer einzigen Gebärde eingebaut werden, z. B. in DGS die Verbgebärde, glossiert mit ICH-BUCH-GEBEN-DIR-SCHNELL[5] schließt die Bewegungsrichtung von „ich“ nach „du“, und zwar schnell, ein und die Handkonfiguration zeigt das Halten eines imaginären Buches an. Wenn abgewandelt in der Bewegung von „du“ nach „ich“, ergibt DU-BUCH-GEBEN-MIR-SCHNELL. Die Gebärde kann mit anderen Handformen modifiziert werden, um anzuzeigen, was gegeben wird, z. B. ein dickes oder dünnes Buch, eine Flasche, ein Fuß- oder Golfball, ein Stück Papier, einen Stapel Bücher usw. Dazu kommt noch die unterschiedliche Orientierung der Hand bzw. Hände, ob das Objekt horizontal oder vertikal übergeben wird. Insgesamt sieben Bedeutungsteile können in dieser einzigen Gebärde erkannt werden: Subjekt, Empfänger (Einzahl oder Mehrzahl), dessen Lokalität (links, rechts, nahe oder fern), Objekt, Größe bzw. Menge des Objekts, verbiales Adverb, einmal oder wiederholt.

[–] taladar@feddit.de 12 points 10 months ago

Wie wäre es denn mit einem Kompromiss, Automatik bei Live-Sendungen, Automatik mit Editor der das noch mal Probe liest bei allem was nicht live ist? Sollte immer noch reichlich Zeit und Kosten sparen.

[–] BurnoutDV@feddit.de 2 points 10 months ago* (last edited 10 months ago)

Oh, das jetzt aber gar nicht einmal so gut.

Wo trainiere ich dann bitte meine speech to text modelle? Also nicht ich sondern openai bspw..

Wenn man Stille in einer Aufnahme hat und whisper rüber jagt hat man oft copyright Angaben von öffis, die Existenz dieser Artefakte weißt darauf hin das ein größerer teil der Daten aus diesen Quellen stammt.

https://github.com/openai/whisper/discussions/928

Ironisch wie der Einsatz von "ki" trainingsdaten vergiftet. Das fühlt sich ein wenig an wie der stahl aus schiffen vor den Atombombentest: pre-AI-Data .

Oder kurzum, besser als jetzt werden die Trainingsdaten nie gewesen sein

[–] Miclux@lemmings.world 1 points 10 months ago (1 children)

"KI wird keine Jobs ersetzen, nur verbessern"

[–] Zacryon@feddit.de 1 points 10 months ago

Weil man bisher ja auch so gut live Untertitel erstellen konnte...

[–] DrunkenPirate@feddit.de -2 points 10 months ago (1 children)

Gute Idee. Kenne ein Toll, wo das schon erstaunlich gut funktioniert. Kann mir vorstellen, dass es einigen Fremdsprachlern beim Deutschlernen helfen kann.

[–] Anekdoteles@feddit.de 2 points 10 months ago (1 children)

KI-Untertitel sind nach wie vor blanke Scheiße. An den entscheidenden Stellen, wo sie mal Value bringen könnten, versagen sie in aller Regel. Aber gut, mein Bild ist natürlich sehr von diesen unsäglichen Untertiteln geprägt, die einem in den meisten Kurzvideos aufgezwungen werden und mehr irritieren als nützen.

[–] DrunkenPirate@feddit.de 1 points 10 months ago

Kommt wohl stark auf den Anbieter bzw Sprachmodell an. How.FM finde ich sehr überzeugend. Sagen auch Muttersprachler.