89 ChatGPT vs Gemini
der große Vergleich zwischen Google und OpenAI
21.10.2025 49 min
Zusammenfassung & Show Notes
Dein Spezialist für assistive Technologie, Schulung, Fernwartung und Fritz!Box-Optimierung
Hier sind wir: https://schulze-graben.de
Hier sind wir: https://schulze-graben.de
Hier kommt das große Duell zwischen googles Gemini und ChatGPT von OpenAI.
Schön, dass du dabei bist.
Wenn du Heute was mitgenommen hast, dann gib doch etwas zurück.
Wenn du Heute was mitgenommen hast, dann gib doch etwas zurück.
Das ist ganz einfach. Besuche https://danke.schulze-graben.de und zeig mir, ob dir die Show gefallen hat.
Kleine Gesten machen den Unterschied.
Transkript
[Musik]
Schulze IT-Schulung und Dienstleistungen.
Dein Spezialist für Audioanleitungen, Schulung, Fernwartung und Fritzbox-Optimierung.
Mehr Infos findest du auf www.schulze-graben.de
Und hier ist euer Gastgeber Joachim Schulze,
Master of Business Administration, JAWS certified, IT-Trainer für Blinde und Sehbehinderte.
Ich darf einen wunderschönen guten Abend wünschen.
Heute wieder zur Montagsveranstaltung, zu einer neuen Ausgabe für euch.
Wieder mal geht's um das Thema KI.
Heute Chat-GPT vs. Gemini, der große Vergleich.
Was soll man jetzt mit so viel Englisch auf einmal anfangen?
Das ist schon krass, wie sich die Welt der KI im Moment entwickelt.
Man kann eigentlich keine Woche abwarten, ohne dass was Neues passiert.
Es gibt wenige, die da wirklich noch am Puls des Geschehens bleiben.
Wir gehören dazu und wir sind auch die einzigen, die wirklich Schulungen in diesem Bereich
für Blinde und Sehbehinderte anbieten.
Denn wir haben uns tatsächlich so weit in das ganze Thema reingearbeitet,
dass wir euch auch beibringen können, wie ihr die verschiedenen KI-Helfer sinnvoll in euren Alltag integrieren könnt.
Das heißt, wenn ihr sagt, okay, das klingt ja hier in den Podcasts alles interessant,
aber wie kriege ich das denn jetzt im Endeffekt in meinen Alltag?
Was kann ich damit wirklich anfangen, das mich weiterbringt?
Dann lasst euch von uns unterstützen mit unseren Schulungsangeboten.
Da ist jede Menge möglich und da könnt ihr für euch echt viel rausholen.
Wie funktioniert das Ganze? Kein Problem.
Schreibt uns eine WhatsApp, ruft uns an 08232 50 31 303
oder eine Mail an info@schulze-graben.de
Wir haben die nächsten Wochen auch noch Termine frei.
Jetzt kommen wir aber zum eigentlichen Thema des heutigen Abends,
nämlich die zwei großen Player im Moment.
Es gibt ChatGPT, über das wir hier schon oft berichtet haben, über tolle Funktionen,
zum Beispiel wie man es über WhatsApp nutzen kann, was man alles anstellen kann,
zum Beispiel auch als Autor oder Literatur schaffender.
Das haben wir in der Folge Storyduell rausgearbeitet mit der Autorin Jennifer Sonntag.
Also hier einfach mal ein bisschen durch den Smutek scrollen,
da gibt es jede Menge interessanter Inhalte.
Und warum verweise ich darauf? Weil es heute jeden Rahmen sprengen würde,
wenn wir nochmal alle Funktionen von JetPT groß zeigen würden.
Deswegen habe ich mich auch entschlossen, heute wirklich bei diesem Vergleich zu versuchen,
ein bisschen komprimiert vorzugehen.
Und wer dann sagt, das eine oder andere interessiert mich aber näher bei JetPT,
einfach mal gucken, haben wir viele Folgen draußen.
Oder ansonsten, wenn ihr sagt, das Thema Künstliche Intelligenz interessiert mich einfach näher,
wie könnte ich das in meinen Alltag bringen,
dann nehmt doch mal eine unserer günstigen Schulungen in Anspruch.
Kosten nur 36 Euro pro angefangene 30 Minuten.
Ja, es gab in den letzten 2-3 Monaten eine ziemlich krasse Veränderung
und die hat Gemini eingeläutet.
Was ist Gemini?
Ja, das ist nicht etwa ein Wesen von einem anderen Stern,
nein, es ist ebenfalls ein Large Language Model,
also ebenfalls ein Sprachmodell, so wie JetPT,
nur es kommt nicht von OpenAI, es kommt von Google.
Und wie wir ja wissen, wenn Google was macht,
dann denken sie sich meistens was dabei.
Und ja, es war so die letzten 1-2 Jahre doch ein bisschen das Thema,
JetPT war einfach der Platzhirsch.
Man musste wirklich sagen, es gab einfach nichts, was drüber ging.
Klar, was jetzt das Thema Datenschutz angeht,
da muss man ganz klar sagen,
da hat man immer noch die besten Karten,
wenn man mit Künstlicher Intelligenz lokal auf dem Rechner arbeitet,
im beruflichen Kontext, wo es um sensible Daten geht,
klar, da macht es Sinn, da machen wir das auch.
Aber im privaten Kontext schafft die Hardware das einfach nicht so,
dass wir da wirklich was davon hätten.
Und genau deswegen bietet sich dann natürlich schon für viele Leute die Überlegung,
okay, gut, wenn, dann möchte ich aber auch möglichst die KI,
die es am besten kann.
Und welche ist das denn nun?
Ja, lange konnte man sagen,
JetPT eigentlich fast in allen Bereichen.
Und jetzt muss man wirklich ein bisschen gefiltert vorgehen und sagen,
es kommt tatsächlich drauf an, was man machen möchte.
Wenn jemand jetzt sagt, okay, ich habe ganz viel Texte zu lektorieren,
ich schreibe sehr viel,
dann kann Google durchaus die bessere Alternative mit Gemini sein.
Warum? Ganz einfach, weil es von der Grammatik ausgereifter ist,
das muss man klar sagen, weil es mit Deutsch besser klar kommt,
weil es im Allgemeinen etwas kreativer bei Texten ist,
ohne ins Lächerliche abzudriften, das hat man ja bei JetPT gerne mal,
das haben wir im Storyduell auch thematisiert.
Aber eine Sache, die darf man gar keinesfalls machen,
mit Gemini.
Und das ist Beiträge schreiben, in denen viele Links rausgesucht werden sollen,
denn da neigt Google dann gerne dazu, Suchmaschinenlinks zu setzen.
Das heißt, es schickt den Leser des Artikels erstmal auf eine Suchseite von Google
und da soll er sich dann die Inhalte anzeigen lassen.
Das ist Mist.
Das kann man auch gar nicht anders sagen, denn wenn ich einen Artikel schreibe,
wo es jetzt wirklich darum geht, dass ich Infos vermitteln will,
oder wenn ich zum Beispiel Postings mache, dann wird das schwierig.
Wo es wieder relativ gut klappt, ist tatsächlich, wenn ich jetzt sage,
okay, ich schreibe Blogbeiträge mit immer wieder festen Links,
dann geht's ziemlich gut.
Es gibt weitere Unterschiede und das ist natürlich klar,
wenn ich will, dass ich zum Beispiel ein Worddokument oder eine TXT-Datei rausbekomme,
oder eine PDF-Datei, dann ist Gemini automatisch raus.
Denn das macht er nicht, er gibt uns nur Text aus.
Und den können wir dann kopieren und weiterverwenden.
Okay, das klingt jetzt erstmal ziemlich vogelwild, ist aber eigentlich gar nicht so schlimm.
Denn er hat einen Vorteil und mit dem schlägt er natürlich GPT,
ja, einfach schon kontextbezogen.
Er kann tatsächlich mit einer Million Tokens umgehen.
So, jetzt sagt der ein oder andere Jockel, ganz ehrlich, eine Million Tokens?
Was sind denn Tokens überhaupt?
Tokens sind ein Äquivalent zu Wörtern.
Warum Äquivalent?
Weil Tokens so was Ähnliches sind, die meistens drei bis vier Zeichen umfassen.
Das heißt, man kann also so im Schnitt seine 500.000, 600.000 Wörter
ohne Probleme in Google reinhacken.
Und das ist bei GPT ganz anders.
Denn da ist bei maximal 128.000 Tokens Schluss.
Das sind gerade mal knapp 13% von dem, was Google leistet.
Ja, aber so viel braucht doch kein Mensch.
Ja, selten.
Wenn man aber bestimmte Arbeitsabläufe mit der KI macht,
dann braucht man das sogar regelmäßig.
Wenn man zum Beispiel mit großen Dokumenten arbeitet,
wo man zum Beispiel bestimmte Daten extrahieren möchte,
ja, das kann die KI ja auch machen.
Natürlich kann ich jetzt sagen, gut, ich suche mir die Stellen,
wo zum Beispiel ein bestimmter Name vorkommt in einem großen Manuskript.
Wenn es jetzt aber darum geht, ich will alle äußeren Merkmale eines Charakters,
eines Rohmanuskripts in einem Schritt rausziehen,
dann kostet mich das als Lektor, Autor, was auch immer,
mindestens eine Stunde Arbeit.
Für die KI dauert das maximal drei Minuten.
Wenn überhaupt, meistens schafft sie es in einer Minute.
Und ein Rohmanuskript, das ist ganz schnell länger als 20, 30 Seiten
und dann sind wir eben über dem drüber, was GPT sicher handeln kann.
Ja, und dann kommt Gemini ins Spiel.
Und ganz ehrlich, das läuft einfach souverän.
Und wenn ich damit natürlich dann sagen kann, okay,
ich hole mir, bleiben wir bei diesem Beispiel,
der äußerlichen Details eines Charakters, einer Figur.
Ja, die sind quer über ein Buch verteilt.
Das ist als Mensch eine Sisyphus-Aufgabe.
Da nichts zu übersehen.
Ja, für die KI ist es schlichtweg einfach Pille-Palle.
Denn ja, dann ziehe ich halt mal eben alle Details raus
und das schafft er auch zu 98% safe.
Und 98% sind eine ganze Menge.
Tatsächlich ist es auch als Mensch ziemlich wahrscheinlich,
dass mir das eine oder das andere durchs Raster fallen würde.
Und das ist natürlich eine Sache, die Gemini wesentlich besser kann als GPT.
Eben mehr Kontext.
Wie sieht es aus bei der Aktualität?
Ja, ich hätte jetzt zu allem viele Beispiele bringen können
und muss sagen, dann wäre die Sendung heute zweieinhalb Stunden lang
und ich darf morgen um sieben wieder ausrücken in Außendienst.
Von daher muss ich ganz ehrlich sagen,
nein, das wird mir dann einfach mit Schnitt und Vorbereitung für euch
für morgen Mittag in Podcast zu viel.
Deswegen hier auch ein bisschen theoretische Zusammenfassung.
Es gibt aber nachher noch praktische Beispiele, keine Angst.
Wer ist aktueller?
Ja, am Ende können beide im Internet suchen.
Und beide können das ziemlich gut.
GPT hat einfach ein bisschen mehr diesen Buddy-Style, so nenne ich es mal.
Dieses Konversationelle, ja, Lockere, manchmal auch ein bisschen Flapsige.
Google ist da mehr seriös, nennen wir es einfach mal so.
Das ist da mehr förmlicher.
Das ist einfach mehr dieser Agent, naja, ich will aber auch keine Linien übertreten.
So ist es tatsächlich auch ein bisschen, wenn es darum geht,
ja, wirklich frei zu schreiben, wo es dann tatsächlich auch, ja,
um Themen geht, die einfach in Literatur vorkommen,
wenn es auch mal um sensiblere Inhalte geht.
Da arbeiten beide mit strengen Filtern, was wichtig und richtig ist.
Das möchte ich an dieser Stelle ganz klar betonen,
denn es gibt im Internet viele Shitstorms, wo User sagen, das ist eine Schweinerei,
ich lasse mir von einer KI nicht den Mund verbieten.
Nein, das ist wichtig und richtig, dass mit künstlicher Intelligenz
weder Pornografie noch Hetze oder andere menschenverachtende Erzeugnisse
erstellt werden können.
Und deswegen sage ich auch ganz klar, hier haben beide strenge Filter,
und das ist auch richtig so.
Wobei man ganz klar sagen muss, dass GPT da etwas besser drin ist zu erkennen,
wenn es wirklich um Literatur geht.
Wobei Gemini, was jetzt die Textvielfalt, die autorische Größe angeht,
definitiv mehr auf dem Kasten hat.
Liegt vielleicht auch ein bisschen an der Kontextlänge,
aber im Großen und Ganzen glaube ich schon, dass Gemini da einfach nicht zuletzt
durch seine Abstammung von der größten Suchmaschine einfach mehr auf der Pfanne hat.
Und das merkt man auch.
Wichtig ist außerdem, und da kommen wir jetzt noch mal kurz zum Punkt Suche im Web,
dass sich die Websuche gerade grundlegend umstellt.
Also das klassische Suchen mit einer Suchmaschine, das wird eigentlich gerade immer weniger,
das muss man ganz klar sagen.
Die Menschen gucken eigentlich mehr in die künstliche Intelligenz und sagen,
was gibt es denn da, was bietet denn der an, was gibt es denn für einen Musikdienst,
die zum Beispiel viel österreichische Mundart haben.
Ja, da geht man heute nicht mehr unbedingt auf Google, sondern da guckt man halt heute auch einfach
mit GPT oder mit Gemini und kommt so wunderbar an sein Ziel.
Und das funktioniert auch, das muss man ganz klar sagen.
Allerdings nicht unbedingt mit dem Audiomodus, denn da haben sie beide ihre Grenzen.
Wer nun aber glaubt, das wäre alles, was die beiden gleich gut können, der täuscht sich,
denn auch bei der Bildbeschreibung, da lohnt es sich durchaus beide auszuprobieren,
da ist GPT sehr gut.
Ich persönlich mag Gemini noch ein bisschen lieber.
Warum?
Weil es detaillierter ist.
Also ich finde persönlich, Gemini beschreibt Bilder einfach noch ein bisschen detaillierter,
ein bisschen mehr sehenden Auges.
Aber letztlich ist das auch ein bisschen Geschmackssache.
Es machen in jedem Fall beide den Job tadellos.
Was wichtig ist, sind PDF-Dateien.
Denn da gibt es leider seit etwa eineinhalb Monaten einen riesengroßen Unterschied.
Es gab jetzt drei, vier Monate, da konnte GPT das wunderbar.
Nicht durchsuchbare PDF-Dateien, das heißt gescannte Bilder zum Beispiel,
die konnte man einfach an GPT schicken und der hat sie wunderbar erkannt,
hat eine OCR drüber laufen lassen und man konnte mit dem Text arbeiten.
Das geht nicht mehr.
Er kann es einfach nicht mehr.
Gemini hingegen schmunzelt darüber und sagt, dann schmeiß mal her, was du hast.
Dann machen wir es eben.
Und das macht er tadellos.
Egal ob es eine zehnseitige Heizkostenabrechnung ist oder ob es eben mal schnell eine Speisekarte ist,
die man irgendwo eingescannt hat, abfotografiert.
Es läuft einfach.
Das heißt, PDF reinkopieren über den Browser oder teilen mit der App und das Ganze passt und läuft.
Aber, und jetzt kommt noch der Punkt, den will ich euch live zeigen.
Ich habe nachher noch ein Live-Beispiel für euch.
Aber den Punkt will ich euch zuerst live zeigen bei Gemini, der mich wirklich von den Socken gehauen hat
und der letztlich auch dafür gesorgt hat, dass ich inzwischen beide größer nutze.
Denn natürlich kann ich, so mache ich es auch inzwischen, weil es ansonsten einfach zu teuer würde,
mit den Podcast-Episoden, ich transkribiere sie, also erstelle die Text-Mitschriften mit Whisper Desktop.
Das heißt, ich wandel das Ganze lokal auf meinem PC hier mit einer starken Grafikkarte um,
so dass dann aus dem Text, den ihr im Podcast hört, auch Text zum Lesen wird.
Für Leute, die eben lieber lesen als hören oder auch für taubblinde Menschen,
dass die nicht ausgeschlossen sind von den Inhalten.
Aber das kann Gemini jetzt auch.
Und das ist natürlich richtig großes Kino, denn es gibt viele Situationen,
da geht es tatsächlich auch um Musik.
Und ganz ehrlich, da muss ich nun mal sagen, da fängt das Ganze an, richtig Spaß zu machen.
Denn da gibt es nicht nur beruflichen Mehrwert, da gibt es nicht nur Mehrwert der Zeit erspart,
sondern da gibt es einfach auch richtigen Mehrwert, was Wissen angeht.
Zum Beispiel beim Übersetzen von Songtexten.
Und das möchte ich jetzt mal mit euch ausprobieren mit einem Stück Sonntagsmusik.
Und wir nehmen hier einen unserer Sonntagsmusik-Songs, der auf Englisch ist.
Und zwar nehmen wir mal "I'm the son of a truck driver".
Das war letztes Jahr in der Sonntagsmusik, ihr kennt den Song sicher alle.
Und dann lassen wir uns den doch einfach mal aus der MP3 von Gemini übersetzen.
Und ja, ich glaube, da sieht man sehr gut die Stärken, wo ist er richtig gut?
Dazu gehen wir jetzt erstmal hier her und holen euch Jaws auf die Ohren.
So, Jaws kommt.
Jetzt müssen wir den bloß noch zu euch rüber packen.
So, dann packen wir das hier mal rüber.
So, da ist Jaws.
Ihr solltet ihn hören und wir gehen jetzt einmal auf Gemini im Browser.
[Sprachdurchsage]
So, gemini.google.com.
Wir machen Enter.
[Sprachdurchsage]
So, und wir hören und sehen schon, hier ist was anders.
Und zwar habe ich natürlich hier jetzt schon mal den Standortzugriff freigegeben.
Ja, das möchte Google immer gerne.
Mich stört es nicht, denn es ist bei manchen Sachen sehr sinnvoll.
Ich habe hier ein multimodales Textfeld, das heißt, da kann ich Text reinschreiben.
Ich kann aber auch reinkopieren mit Steuerung V aus dem Explorer.
Und das machen wir jetzt.
[Sprachdurchsage]
So, wir überprüfen nochmal, hat das geklappt mit der MP3.
[Sprachdurchsage]
Wunderbar, hat geklappt.
[Sprachdurchsage]
So, und ich gebe jetzt hier den Prompt ein, übersetze den Text des angehängten Songs
und beschreibe den Stil des Songs.
[Sprachdurchsage]
Ich schreibe auch sicherheitshalber nochmal rein, übersetze den kompletten Songtext.
[Sprachdurchsage]
So, und dann wird er hier ein bisschen rödeln.
Ich habe mich jetzt ganz bewusst nicht für das Pro-Modell entschieden,
sondern hier für das Standardmodell, das Flash-Modell, das man auch kostenlos nutzen kann.
[Sprachdurchsage]
So, und dann haben wir hier schon eine Antwort.
Was hier anders ist als bei GPT, mir wird, solange ich im Formularmodus bin, die Antwort nicht vorgelesen.
Also ich muss mehr navigieren, das heißt ich muss raus aus dem Formularmodus,
muss mit der Überschrift hochspringen zu meiner Nachricht mit Shift+H.
[Sprachdurchsage]
Und tatsächlich hier hat er jetzt schon eine Überschrift gemacht, nämlich Übersetzung des Songtextes.
Ich mache nochmal Shift+H.
[Sprachdurchsage]
Genau, das war jetzt mein Prompt, meine Eingabe und wir gehen runter mit den Pfeiltasten.
[Sprachdurchsage]
Dann kann ich es jetzt hier anhören, das machen wir jetzt hier nicht.
Da würde er mir dann die ganze Nachricht vorlesen, wir lassen es uns jetzt mit Jaws vorlesen.
Ist für euch angenehmer, dann habt ihr es.
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
[Sprachdurchsage]
Okay, also bei der Interpretation des Songstils, hört mal rein in die Sonntagsmusik.
Also ja, Countryrock, ich weiß ja nicht.
Also er gibt ihm jetzt vielleicht ein bisschen mehr Punch als er eigentlich hat.
Aber okay, ist ja für eine KI, die eigentlich keine Ohren hat, schon mal ganz gut.
Überschrift Ebenen 3 Übersetzung des Songtextes Runde Klammer auf der Songtext enthält persönliche und unternehmerische Informationen des Users, die ich zur Personalisierung nutze.
Intro Runde Klammer auf gesprochen Runde Klammer zu. Wieder einmal ist es Zeit geworden für ein Stück Sonntagsmusik.
Und auch heute freue ich mich wieder darauf, ein kleines Stück meiner Musik mit euch zu teilen.
Heute geht es um einen Song, den ich teilen. Heute geht es um einen Song, den ich mir sozusagen auf den Leib geschrieben habe.
Aber nicht nur mir, sondern auch meiner Frau Carina. Viele, die uns kennen, wissen, dass ich viele Jahre vor Carina und einige Jahre mit Carina hauptsächlich auf den Straßen Deutschlands, Österreichs und der Schweiz verbracht habe.
Schlicht und einfach, um euch sprechende Fernseher, Schulungen zu Screenreader, iPhone oder eine neue Arbeitsplatzausstattung zu bieten.
All das hat sich in den letzten zwei Jahren verändern und entwickeln dürfen, so dass wir heute eigentlich alles, wofür wir früher 50.000 Kilometer im Jahr gefahren sind, online anbieten können.
Und von all dem erzählt dieser Song, und er beschreibt nicht zuletzt die Wichtigkeit.
Veränderungen im Leben anzunehmen und als Chance zu ergreifen.
Nach dem Intro geht's los.
Becarza im Saison of a Truck Driver.
Musikalisches Intro/Jingle
Schulze Binde-Dech, Schulze Binde-Dech, er ist wieder da.
Endlich gibt's was Neues, das ist wunderbar.
Schulze Binde-Dech, Schulze Binde-Dech, Trends und Technik satt.
Endlich Moya Podcast, der einfach alles hat.
Endlich Moya Podcast, der einfach alles hat.
Schulze IT Binde-Schulung und Dienstleistungen.
Dann Spezialist für Audioanleitungen.
Schulung, Fernwartung und Fritz-Box Binde-Optimierung.
Mehr Infos findest du auf www.schulze-graben.de
Runde Klammer auf "Up here" beginnt der gesungene Text in Englisch, der vom Intro übersetzt wird.
Runde Klammer zu Strophe 1, for example.
15 years now my life has happened on the road.
I was following the green, green breadcrumbs, as if I was a guard.
I was putting meals up on my car, even more in the next year.
Even in situations there was danger, me, I had no fear.
Sometimes been talking to my friends, is a hit.
Anführungsstrichen nur beats, time to stop.
Anführungsstriche entsehen an order, just came a home, so is a hit.
Anführungsstriche, hurry up.
Anführungsstriche refrain, I am the son of a truck driver, so the road runs in my blood.
And if I want it, could you stop it all, it's the only goal I go.
Strophe 2, etwas trock hab ich zwischen mein Wife.
Ich stoppe jetzt an der Stelle mal, weil ihr seht schon, wenn ihr euch den Song anhört,
ja, er hat den Songtext ganz gut erfasst, aber er hat ihn halt nicht übersetzt.
Und da sind wir wieder bei dem Thema KI.
Das heißt nie 100% berechenbar.
Hätte ich das Ganze jetzt mit dem Pro-Modell gemacht, wäre das wahrscheinlich gegangen.
Hätte ich jetzt diesen Songtext genommen und gesagt, übersetze mir den.
Also sprich den originalen englischen Songtext, so wie er ihn jetzt erkannt hat,
und würde sagen, übersetze mir den, dann würde das natürlich funktionieren.
NWW-Riffbrillenstrich, Rundgut, Schleppniederteilen und Exportieren, Menüschalter reduziert.
Und sagen, übersetze mir mal den extrahierten englischen Songtext auf Deutsch.
Kommt hier, eingeben ein.
So.
Und da kommt er auch schon.
*Sprach*
*Sprach*
*Sprach*
Okay, also hier kommen jetzt zwei Fehler zusammen.
Punkt 1, er hat halt einfach den Text nicht ganz richtig erfasst.
Ist auch wahnsinnig schwierig.
Aus einem Audio Text generieren, also die Funktion Speech to Text,
das galt ganz lange als der heilige Gral, weil im Endeffekt das konnten eigentlich immer nur Menschen.
Und die haben es teilweise noch verpatzt.
Das war eigentlich so, ja, wo man gesagt hat, gerade zum Beispiel beim Diktat Verschriftlichen,
ja, das kann nur ein Mensch.
Und wenn man sich jetzt mal anschaut, wie das eine KI jetzt hier eigentlich ohne große Vorbereitung,
ohne große Hilfsmittel eigentlich im Standardmodell schon zu, ich möchte mal sagen, 75 Prozent richtig macht.
Wie gesagt, es sind zwei Fehler.
Punkt 1, der Text, der nicht ganz passt, weil er ihn nicht ganz richtig erkannt hat.
Denn "I was following the green green grass" ist der Original Text.
Und er macht daraus "the green breadcrumbs".
Also das ist natürlich, ja, künstlerische Freiheit der KI.
Aber sie hat natürlich nichts mit der Realität zu tun.
Und da kommt dann eben auch wieder der Mensch ins Spiel, der das Ganze auch vernünftig korrigiert.
Aber und das ist eben das Krasse, wenn ich mir vorstelle, ich würde das alles von Hand übersetzen.
Ich bräuchte eine Unmenge an Zeit für das Ganze.
Das könnte ich mir eigentlich gar nicht erlauben, weil wie gesagt, ich hätte diese Zeit einfach gar nicht.
Und wenn ich mir überlege, wie schnell das jetzt eigentlich ging, einfach mal nur so mit euch nebendran,
dann ist das schon, finde ich, unglaublich bemerkenswert.
Und ich glaube, das ist wirklich das, was so inzwischen auch den großen Unterschied macht.
Wo KI dann eben auch plötzlich anfängt, richtig den Alltag zu verändern.
Denn man kann einfach Sachen machen, die wären früher gar nicht denkbar gewesen.
Und da ist natürlich Gemini im Moment King of the Road.
Das kann man nicht anders sagen.
Denn bei Text to Speech ist natürlich klar, Smutek, das kriegt er nicht hin, das schafft keiner.
Tatsächlich, Whisper schafft das Modell von OpenAI, aber auch nur, wenn es wirklich klar gesprochen wird, das Wort Smutek.
Also im Jingle zum Beispiel, da schafft das auch nicht.
Das ist keine Chance.
Aber gerade bei Podcast-Transkripten, das sind ja Sachen, die gelten eigentlich nur einen Monat.
Denn eine Podcast-Folge, die wird im ersten Monat 90 oder 95 Prozent ihrer Hörer generieren
und danach eigentlich nur noch ganz sporadisch abgerufen.
Und da spielt das gar keine Rolle.
Da ist es viel wichtiger, auch für Suchmaschinen, dass eben diese Funktion vorhanden ist.
Dass eben das Ganze nicht nur als Wort, sondern auch als Text vorhanden ist.
Und dann können die Dinger natürlich auch noch was.
Und da muss man ganz klar sagen, das können sie auch beide.
Und das ist, sie können inzwischen einen Live-Audio-Modus anbieten,
in dem man sich dann auch Hilfe der KI an die Kamera holen kann.
Und wie gut das funktioniert, das hören wir uns jetzt mal im Vergleich an.
Um wirklich zu vergleichen, was kann ChatGPT und was kann Googles Gemini,
da habe ich mir jetzt einfach mal den Audio-Modus rausgepickt
und mache eine Live-Videoaufnahme mit einem ziemlich fiesen Beispiel.
Denn es geht um die Einstellung eines Fußbodenheizungsthermostats.
Warum ist das so fies?
Ganz einfach, weil man da wirklich ganz genau hinschauen muss.
Denn es handelt sich um einen analogen Thermostat,
der nur Zahlen in 5°-Schritten aufgedruckt hat.
Und da muss man schätzen.
Und das ist gar nicht so einfach.
Und jetzt schauen wir mal, wer von beiden da näher dran liegt.
Oder ob die beiden vielleicht genau das Gleiche sagen.
Schau dir bitte mal den Thermostat an der Wand an
und sage mir, auf welche Temperatur er ganz genau eingestellt ist.
Klar, ich sehe das Thermostat und es scheint gerade auf 22° eingestellt zu sein.
Wenn du noch etwas Spezielles wissen möchtest, sag einfach Bescheid.
Das war jetzt ChatGPT. Sieht wirklich sehr richtig aus.
22° kommt hier genau hin.
Als nächstes schauen wir uns an, was Gemini kann.
Ja, ich habe es schon gesagt.
Gemini hat in den letzten Monaten gewaltig aufgeholt.
Und das hat es auch beim Audiomodus.
Bei Gemini heißt das Ganze live.
Und wir machen wieder unseren Thermostat-Test.
Wir werden gleich feststellen, die Audioqualität ist nochmal eine ganze Spur besser.
Aber es gibt auch etwas, das geht bei JTGPT auch nicht.
Zumindest bisher noch nicht.
Ich kann nämlich die App per Sprachbefehl steuern.
Das heißt, ich kann auch einfach den Video-Stream aktivieren.
Und das ist natürlich richtig großes Kino,
weil ich da eben nicht wieder rumklicken muss, um extra den Video-Stream anzukriegen.
Und das gucken wir uns jetzt mal zusammen an.
Hey Gemini, kannst du bitte mal den Video-Stream aktivieren?
Ja, ich habe den Video-Stream gerade wieder aktiviert.
Vielen Dank dir. Schau dir bitte mal die Wand an.
Da ist ein Thermostat dran. Kannst du den erkennen?
Ja, ich sehe das Thermostat an der Wand. Kann ich dir irgendwie helfen?
Richtig. Guck mal bitte ganz genau, auf welche Temperatur das Thermostat eingestellt ist.
Ich sehe, dass das Thermostat auf 21 Grad eingestellt ist.
So, jetzt muss ich immer schnell die Unterhaltung pausieren,
sonst quakt er mir hier natürlich die ganze Zeit dazwischen.
Ja, 21, 22 Grad. Irgendwas so dazwischen ist es auch tatsächlich.
Ich habe das auch schon mal mit Carina angeguckt.
Es ist wirklich auch für das menschliche Auge unglaublich schwer,
da wirklich genau zu sagen, okay, er steht zwischen 20 und 25.
Ja, aber der Sprung ist tatsächlich so klein, dass man da wirklich schätzen muss.
Also ob nun 21 oder 22, schwer zu sagen. Aber auf jeden Fall in dem Dreh ist es.
Was aber auf jeden Fall bemerkenswert ist, ist die Akkuratheit,
mit der hier inzwischen vorgegangen wird.
Und wir gucken uns gleich nochmal ein Beispiel an.
Und hier starten wir jetzt mit Gemini.
Und zwar schauen wir jetzt einmal aus dem Fenster hier bei mir im Büro
und werden herausfinden, was da eigentlich los/zu sehen ist.
Ich habe dafür mein iPhone in Augenhöhe und mache einen Test,
der, glaube ich, sehr aussagekräftig ist.
"Gemini ist passiert. Geben wir noch einmal auf Pausieren."
Schaue bitte mal aus dem Fenster und beschreibe mir die Szenerie so,
wie sie ein Sehender mit natürlichen Augen erkennen würde.
"Ich sehe eine verschneite Landschaft. Es sieht ganz danach aus, als wäre es ein Wald.
Es gibt viele Bäume, die mit Schnee bedeckt sind. Der Himmel ist etwas bewölkt."
"Video-Speichern, die aktivieren. Bildschirm, Beigabel aktivieren.
Tasse, großes Ne. Unteranspruch pausieren. Tasse, unter..."
So, ich muss jetzt hier mal eingreifen und da haben wir jetzt einfach wieder den Klassiker.
Also das ist eben genau das, was die KI gerne mal veranstaltet.
Sie erzählt Schwachsinn. Natürlich hat es hier bei uns nicht geschneit.
Was ist? Wir gucken hier auf einen Parkplatz.
Ja, was wirklich ist, es liegt einiges an Laub rum.
Das war's dann aber auch.
Also die verschneiten Bäume, das ist hier nun wirklich der Künstler-Fantasie geschuldet.
Und da sieht man schon, okay, also Live-Szenerie, woran kann das liegen?
An vielen Dingen.
Tatsächlich habe ich hier keine neue Konversation angefangen.
Das kann ein Punkt sein und so kann das sich dann wirklich unterscheiden.
Aber wir machen den Versuch gleich nochmal mit GPT.
Schau bitte mal aus dem Fenster und beschreibe mir die Szene draußen so,
wie sie ein Mensch mit gesunden Augen erkennen würde.
Na klar, gern. Also wenn ich aus deinem Fenster schaue, sehe ich so eine Art Hof oder Parkplatz mit ein paar gepackten Autos.
Da sind so ein paar Gebäude drum herum, so eher städtische Häuser und es ist ein schöner blauer Himmel mit ein bisschen Wolken.
Also insgesamt eine ganz ruhige, freundliche Szene da draußen.
Kannst du Laub auf dem Boden erkennen?
Also ja, ich sehe tatsächlich ein bisschen Laub da unten auf dem Boden verteilt.
Es ist jetzt nicht komplett voller Blätter, aber so ein paar Laubhaufen oder einzelne Blätter liegen schon rum.
Das passt ja ganz gut zur Jahreszeit.
Jetzt spreche.
Also wir sehen hier ganz klare Unterschiede zwischen GPT und Gemini.
Ja, wer ist nun besser im Beschreiben von Szenerien?
Tatsächlich können das schon beide.
Man darf halt nur nicht vergessen, am Ende darf man auch nicht alles glauben, was die KI sagt.
Und ganz, ganz, ganz wichtig, wir müssen natürlich immer gucken, jeder hat seine Stärken.
Ja, jeder hat seine Stärken.
Und nicht zuletzt liegt die größte Stärke bei uns als Mensch, denn wir können unterscheiden.
Wir können unterscheiden, was ist echt und was kann einfach nicht hinkommen.
Wenn uns die KI in Sachsen Mitte Oktober erzählt, es hat angefangen zu schneien.
Okay, dann ist das rein theoretisch möglich.
Wenn ich aber zwei Stunden vorher beim Bäcker war und es da noch nicht geschneit hat, dann fällt das doch eher ins Reich der Fantasie.
Ich glaube, ihr habt heute alle mal gesehen, okay, da ist echt viel Potenzial drin und da wird auch noch richtig viel passieren,
wenn ich euch sage, dass mir inzwischen die KI oder eben diese audiovisuelle Assistenz von GPT eigentlich die liebste Putzhilfe ist.
Gerade bei Spiegeln, die ja immer richtig tricky sind oder auch als wenn wir mal graue Stellen an den Fliesenfugen hatten.
Da muss ich ganz ehrlich sagen, das sind schon richtig coole Sachen.
Tja, und wenn ihr jetzt noch Fragen habt, dann könnt ihr die gerne per Mail oder per WhatsApp stellen.
Info@schulze-graben.de oder an die bekannte WhatsApp-Nummer 08 232 50 31 303.
Ihr habt wie immer einen Song Zeit dazu.
Wenn du heute was mitgenommen hast, dann gib doch etwas zurück.
Das ist ganz einfach. Besuche die Seite danke.schulze-graben.de und zeige Joachim, ob dir seine Show gefallen hat.
Kleine Gesten machen den Unterschied.
Wieder einmal hieß es auf die Plätze, es geht los.
'Ne Arbeitsplatz-Ausstattung will zum Kunden, das ist groß.
Die Zugfahrt war total entspannt, die Sonne lachte auch.
Für den Hunger gab's bei Zwischenstopp dann auch was in den Bauch.
Kaum sind wir durch Sachsen-Anhalt, da sagt meine Frau,
Schatz, ich schlaf jetzt noch 'ne Runde, der Film hängt wie die Sau.
Offline in Niedersachsen, hier darf Handy-Netz noch wachsen.
Wenn ihr wissen wollt, wo's geht, schaut, dass ihr ein Festnetz seht.
Wow, ein Balken kommt und geht, man ich bitte, dass der steht.
Verdammt, der Haken wird nicht blau, ganz egal, wie oft ich schau.
Was ist hier los? Ich komm nicht mit. Deutscher Digital-Fortschritt.
Nach Ausliefern und Schulung geht's am Abend ins Hotel.
Ich will Bestellungen abarbeiten, das geht ja sonst ganz schnell.
Mein Login dauert ewig, jetzt denk ich, es ist vollbracht.
Die Zeit war überschritten, ich bin gesperrt für eine Nacht.
Wir unterhalten uns wie lang nicht mehr,
doch will man uns erreichen, wird das schwer.
Offline in Niedersachsen, hier darf Handy-Netz noch wachsen.
Wenn ihr wissen wollt, wo's geht, schaut, dass ihr ein Festnetz seht.
Wow, ein Balken kommt und geht, man ich bitte, dass der steht.
Verdammt, der Haken wird nicht blau, ganz egal, wie oft ich schau.
Was ist hier los? Ich komm nicht mit. Deutscher Digital-Fortschritt.
Guck mal, ach was wächst hier schönes Heidekraut.
Sorry, ich hab gerade nach Empfang geschaut.
Das sollte man hier wirklich lassen, sonst wird man die Natur verpassen.
Denn zwischen Heidekraut und Schafen kannst du digital nur schlafen.
Doch ich hab das Konzept begriffen, das wird an Chances hier ergriffen.
Denn ganz egal, wie sehr du flugst, wär besser, wenn du Ruhe suchst.
Denn davon gibt's hier ganz schön viel, wer weiß, vielleicht ist das ihr Ziel.
Wenn später keiner mehr was kann, fängt man hier wieder zu lernen an,
wie man sich per Sonne orientiert, wo dir bei Gewittern nichts passiert,
wie man mit Steinen Feuer macht, Latrinen gräbt bei Tag und Nacht.
Glaub mir, die Welt spendet Applaus, bist du wieder online und zu Haus.
Offline in Niedersachsen, hier darf Handynetz noch wachsen.
Wenn ihr wissen wollt, wo's geht, schaut, dass ihr ein Festnetz seht.
Wow, ein Balken kommt und geht, Mann, ich bete, dass der steht.
Verdammt, der Haken wird nicht blau, ganz egal, wie oft ich schau.
Was ist hier los? Ich komm nicht mit. Deutscher digital Fortschritt.
Tja, und wenn sich jetzt der eine oder andere fragt, ist das auch frei von der KI erfunden?
Nein, dieser Song basiert auf einer absolut wahren Geschichte.
Und ja, aus dem Jahr 2025.
Eine Frage ist gekommen vom Richard, und zwar fragt er,
Hallo, liebes Schulze-Team, wie sieht das bei Gemini und ChatGPT aus?
ChatGPT, schreibt er hier mit J, nein, schreibt man C-H-A-T, lieber Richard.
Kann ich damit auch verlegte Sachen wiederfinden?
Ja, eine gute Frage, tatsächlich muss ich dafür natürlich mit der Kamera
auch einmal über die verlegte Sache drüber zeigen, ansonsten klappt das nicht.
Und dafür muss man das System ein bisschen verstehen, denn er macht natürlich immer ein Foto,
wenn ich ihn dazu auffordere. Das heißt, wenn ich sage, schau mal, ob hier mein Schlüsselbund irgendwo liegt.
Und ich dann mit Weitwinkel im Querformat natürlich in den Raum fotografiere,
und er tatsächlich auch im Objektiv irgendwo den Schlüssel hat, wird er mir das sagen.
Wenn nicht, dann muss ich weiter gucken.
Das kann aber natürlich auch passieren, wenn ich nicht die richtige Ecke erwische, dass er ihn nicht findet.
Jetzt sagt der eine oder andere, ja, dann bringt das ja gar nichts.
Doch, das bringt einen Haufen, weil wenn ich auf Knien und Händen einen Raum absuche,
zum Beispiel nach einer runtergefallenen Batterie, das ist ja immer der Klassiker,
ganz ehrlich, dann dauert das wesentlich länger, als wenn ich mit der Kamera einmal grob durchzeige,
schau mal hier, schau mal da, schau mal dort, und jeweils, ja, und beschreibe mir den Ort, wo die Batterie liegt.
Also, das ist im Allgemeinen schon eine große Hilfe.
Natürlich kann ich auch sagen, ich mach das mit Be My Eyes, und hol mir da einen Menschen an die Kamera,
der ist vielleicht teilweise noch ein bisschen effektiver.
Ja, teilweise tatsächlich, habe ich da aber mit KI auch schon ganz bemerkenswerte Sachen geschafft.
Also, ich hab's auch schon hingekriegt in meinem Büro, wenn mir mal mein Infrarotthermometer runtergefallen ist,
und das Vieh springt immer sofort auf und zerteilt sich dann und verliert immer gerne seine beiden AAA-Batterien und seinen Deckel.
Und das führt dann eigentlich dazu, dass ich die erstmal suchen kann.
Wenn ich jetzt rumkriechen würde, dann würde das eine, ja, 10 Minuten oder Viertelstunde dauern.
Wenn ich das mit KI und Kamera mache, dann ist das auf jeden Fall, ja, in zwei, allerhöchstens drei Minuten passiert.
Denn, ja, im Allgemeinen ist mein Büro ja auch nicht so groß und recht zugänglich.
Von daher, ich höre ja ungefähr wo dieses, wo jenes hingerollt sein könnte, also einmal mit der Kamera im Querformat in die Richtung gezeigt,
guck mal und versuch mir den Ort zu beschreiben, wo die Batterie liegt, wo der Deckel liegt.
Ja, und dann klappt das eigentlich im Großen und Ganzen.
Und da sind wir wieder mal beim großen Thema. Die KI kann uns unterstützen, aber sie kann und darf uns niemals die Selbstbestimmtheit nehmen,
denn am Ende sind wir diejenigen, die die Künstliche Intelligenz meistern müssen und auch sollen.
Ja, und wenn ihr sagt, Mensch, das Thema interessiert mich, ich möchte gerne Künstliche Intelligenz in meinen Alltag integrieren,
wir zeigen euch gerne, wie es geht in einer unserer Fernschulungen ab 36 Euro, hier angefangene 30 Minuten.
Meldet euch per E-Mail oder WhatsApp. Wir haben noch Plätze frei für die nächsten Wochen.
Bis zur nächsten Veranstaltung am Samstag der SMU Tech Show. Bleibt mir gesund, bleibt mir gewogen
und vor allen Dingen unterstützt uns gerne mit euren Anfragen, aber auch über danke.schulze-graben.de,
um kostenlose Veranstaltungen, so wie die heutige, zu ermöglichen. Bis bald, euer Jockel Joachim Schulze.
SMU Tech, SMU Tech, er ist wieder da. Endlich gibt's was Neues, das ist wunderbar.
SMU Tech, SMU Tech, Trends und Technik satt. Endlich neuer Podcast, der einfach alles hat.
Schulze IT-Schulung und Dienstleistungen. Dein Spezialist für Audioanleitungen, Schulung, Fernwartung und Fritzbox-Optimierung.
Mehr Infos findest du auf www.schulze-graben.de