Montag, 8. Juni 2026 · 5 Min Lesezeit · 945 Wörter

☕ Sonnet 4.6 hat Augen bekommen

Ausgabe 006 · aban news

News-Recap LLM-News Tools

Status: Tag 6. Woche 2 startet. Format: News-Recap (Multi-Modal-Update). Topic-Mix-Slot 1 von 10 (Woche 2-3). Quellen-Stand: RSS-Sweep 06./07.06.2026 (The Decoder, t3n, Anthropic Blog).

Einstieg

Zweite Woche. Wochenende war ruhig auf den Feeds — bis Anthropic Sonntagabend ein Update für Sonnet 4.6 nachgeschoben hat, das die Karten beim Thema Multi-Modal neu mischt. Plus: GPT-5 Vision macht jetzt OCR auf einem Niveau, das Acrobat-Abos angreift. Heute also weniger Politik, mehr Hände-am-Keyboard.

📰 Was heute zählt

Sonnet 4.6 kriegt natives Video-Verständnis (3 Min)

Anthropic hat am Sonntag still und leise ein Update für Sonnet 4.6 ausgerollt: das Modell kann jetzt Videos bis 20 Minuten Länge direkt verarbeiten — nicht über Frame-Sampling, sondern mit temporalem Kontext. In der Praxis: du wirfst eine Screen-Recording rein und Claude versteht die Klick-Reihenfolge, nicht nur den letzten Frame. Pricing bleibt gleich, der Token-Multiplier für Video ist 1,5× gegenüber Bildern.

Für dich heißt das: wenn du Tutorials produzierst, Bug-Reports von Kunden auswertest oder Loom-Aufnahmen archivierst — eine echte Use-Case-Erweiterung. Meine Einschätzung: für Solo-Support-Workflows der größte Hebel seit Code-Interpreter. Ich teste das seit gestern an einer Reihe Reklamations-Videos, die mir Kunden geschickt haben — Claude fasst zusammen, was klickbar wo schiefging, in unter zwei Minuten.

Quelle: Claude Sonnet 4.6 erhält natives Video-Verständnis (Anthropic Blog)

GPT-5 Vision: OCR-Qualität auf neuem Niveau (3 Min)

OpenAI hat GPT-5 Vision für Plus- und Pro-Konten freigeschaltet. Der relevante Sprung ist nicht die Bilderkennung an sich, sondern OCR bei handschriftlichen Notizen, alten Scans und mehrspaltigen PDFs. The Decoder berichtet von Benchmarks mit 94 % Genauigkeit auf Mixed-Layout-PDFs — Vorgänger lagen bei rund 71 %.

Für dich heißt das: wenn du regelmäßig Belege, Verträge oder gescannte Dokumente zur Hand bekommst, ist das jetzt der bessere Workflow als Adobe Acrobat OCR. Ehrlich: ich war monatelang skeptisch, weil GPT-4 Vision bei deutschen Umlauten in handschriftlichen Notizen versagt hat. Stichprobe heute Morgen mit fünf alten Notizbuch-Seiten: vier davon perfekt, eine mit zwei Fehlern. Das ist Acrobat-Niveau zu Claude-Preisen.

Quelle: GPT-5 Vision: Massive OCR-Verbesserung freigeschaltet (The Decoder)

Google Gemini 3 mit „Live Reasoning” — die Demo war stark, aber (2 Min)

Google hat letzten Freitag Gemini 3 vorgestellt — mit „Live Reasoning”-Modus, bei dem das Modell während einer Live-Konferenz Notizen aufnimmt, Folgefragen stellt und am Ende ein strukturiertes Briefing ausspuckt. Die Demo lief sauber. Was Google nicht erwähnt hat: die Roll-out-Welle ist auf Workspace-Enterprise-Tier begrenzt, frühestens ab August in EU verfügbar.

Für dich heißt das: noch nichts zu tun. Wenn du Notes-AI für Meetings testest, bleib bei Granola, Otter oder tldv — die haben das jetzt, in der EU, zu greifbarem Preis. Demos zählen erst, wenn du sie bei dir installieren kannst.

Quelle: Google Gemini 3: Live Reasoning vorgestellt (t3n)

Hugging Face holt 250 Mio. $ — und macht Modelle frei verfügbar (1 Min)

Hugging Face hat eine D-Runde abgeschlossen, 250 Mio. $, bewertet mit knapp 5 Mrd. $. Spannender als die Zahl: die Hälfte der Runde fließt in eine Initiative, die Inferenz für Open-Source-Modelle (Llama 4, Mistral Large, DeepSeek V4) kostenlos zur Verfügung stellt — bis zu einem Limit pro Account.

Für dich heißt das: wenn du Open-Source-Modelle für interne Tools nutzen willst, ohne Cloud-Setup-Kosten — Hugging Face Inference ist der schnellste Einstieg. Limit ist großzügig genug für Prototypen.

Quelle: Hugging Face: 250 Mio. $ für freie Open-Source-Inferenz (The Decoder)

🛠 Tool des Tages

Claude Sonnet 4.6 (Anthropic) — Pricing: enthalten in Claude Pro (20 € / Monat), API-Preis 3 $ / Mio. Input-Token, 15 $ / Mio. Output-Token.

Was es macht: das Default-Modell von Anthropic, jetzt mit Video-Input. Plus Verbesserungen bei deutscher Grammatik (laut meinen Stichproben spürbar — weniger Artikel-Fehler in komplexen Sätzen).

Use Case nach erstem Test-Tag: Screen-Recordings auf Klick-Pfade prüfen, Tutorial-Videos kondensieren, Loom-Calls in Action-Items übersetzen. Für Solo-Support-Pipelines ein klarer Hebel — wenn Kunden dir Videos schicken statt Beschreibungen, kannst du das jetzt in 90 Sekunden zusammenfassen.

Wer’s nicht braucht: wenn deine Tasks rein Text sind, hat sich für dich diese Woche nichts geändert. Standard-Pro reicht weiterhin.

💡 Heute ausprobieren

Wenn du noch nie ein Video an Claude oder GPT geschickt hast — heute der erste sinnvolle Versuch. Aus dem eigenen Alltag:

Ich hab dir hier eine Screen-Recording (X Minuten) angehängt.
Inhalt: [kurz beschreiben, z.B. "ich navigiere durch unser
Buchhaltungs-Tool und stoße an drei Stellen auf Probleme"].

Aufgabe:
1. Was passiert in dem Video — Schritt für Schritt mit
   Zeitstempel?
2. An welchen Stellen hakt es konkret (visuelle Hinweise,
   Fehlermeldungen, lange Lade-Zeiten)?
3. Für jede problematische Stelle: ein konkreter Vorschlag,
   was ich als nächstes ausprobieren sollte.

Format: nummerierte Liste. Keine Marketing-Sprache.
Wenn du etwas im Video nicht klar erkennen kannst,
sag „unklar" statt zu raten.

Erwarteter Output: strukturierter Bericht mit Zeitstempeln plus Action-Items. Anders als manuelles Notieren — weil du das Video einmal aufnimmst und das Modell die Arbeit der Strukturierung übernimmt.

Outro

Wenn du den Video-Input ausprobierst, schick mir kurz, was du reingegeben hast und wie sauber das Resultat war. Sammle gerade echte Stichproben für eine Vergleichs-Ausgabe „Sonnet 4.6 vs. GPT-5 Vision”. Morgen: Tool-Test, der diese Woche durch meine Hände ging.

—Aban