Dienstag, 16. Juni 2026 · 5 Min Lesezeit · 953 Wörter

☕ Sieben Sachen, die Agenten 2026 nicht können

Ausgabe 012 · aban news

Tool-Test LLM-News Tools Prompts

Status: Tag 12. Woche 3. Format: Anti-Hype-Take „Was AI-Agents NICHT können”. Topic-Mix-Slot 7 von 10. Quellen-Stand: Eigene Praxis Juni 2026 + RSS-Sweep 14./15.06.2026.

Einstieg

Dienstag. Letzte Woche der nüchterne State-of-Agents-Report — heute die Konkret-Version: sieben konkrete Tasks, die in den letzten Monaten Agenten an mich rangetragen wurden, mit der Bitte „mach das doch mit AI”. Resultat: bei den meisten habe ich höflich abgesagt oder zurück zu manuell. Heute warum.

📰 Was heute zählt

Liste: was Agenten 2026 immer noch nicht zuverlässig können (5 Min)

Aus eigener Praxis und aus Anfragen von Kunden und Lesern in den letzten acht Wochen — sieben Tasks, bei denen jeder „Agent” derzeit scheitert:

1. Vollautomatische E-Mail-Antworten in deinem Namen. Klingt nach Traum, ist in der Praxis Albtraum. Tonalität-Drift, Kontext-Verluste über lange Threads, peinliche Faktenfehler vor wichtigen Kunden. Brauchbar: AI schreibt den Entwurf, du klickst „Senden”.

2. Kunden-Onboarding-Calls via Voice-Agent. Voice-Modelle (ElevenLabs, OpenAI Voice, Hume) klingen großartig in Demos. In echten Calls scheitern sie an Unterbrechungen, Akzenten und Schweigepausen. Kunden hören das. Brauchbar: AI fasst den Call nach, du machst ihn.

3. „Recherchier mir das Thema X” ohne Vorgaben. Open-Ended Research-Agenten (Perplexity Deep Research, ChatGPT Agent Mode) produzieren brauchbare Übersichten — und gelegentlich erfundene Zitate. Ohne mindestens grobe Quellen-Whitelist verschwendest du mehr Zeit beim Prüfen als beim manuell Suchen.

4. Buchhaltungs-Belege automatisch kategorisieren ohne Review. OCR ist gut geworden, Klassifizierung ist gut geworden. Aber: Sonderfälle (Reisekosten-Split, gemischte Rechnungen, ausländische Mehrwertsteuer) sind weiterhin Fehlerquelle. Brauchbar: AI macht 80 %, du prüfst die letzten 20 % aktiv.

5. LinkedIn-Posts „aus deinem Profil heraus” voll-automatisch. Ich kriege wöchentlich Pitches dazu. Tools, die das tun, produzieren erkennbar generischen Mist. Engagement bricht in vier bis sechs Wochen ein, weil dein Publikum den Bot-Ton bemerkt. Brauchbar: AI macht Draft, du editierst.

6. Sales-Outreach im Cold-Mail-Modus. Personalisierungs-Versprechen halten in der Praxis nicht. Empfänger erkennen AI-Outreach inzwischen in unter zehn Sekunden. Antwort-Quoten sind gegenüber 2024 messbar gesunken.

7. Code-Reviews mit Sicherheits-Implikationen. Agenten sind gut bei Style-Fehlern und offensichtlichen Bugs. Bei Security-relevanten Mustern (Auth-Logik, Input-Validation, Session-Handling) sind sie weiterhin unzuverlässig — und das, was sie übersehen, ist genau das, was teuer wird.

Quelle: Eigene Erfahrung Juni 2026, plus 18 Leser-Anfragen seit Launch von aban news.

Studie: 47 % der „autonomen” Agenten brauchen mehr Mensch-Stunden als manuelles Erledigen (3 Min)

Anschluss-Story: Forrester hat in einer aktuellen Untersuchung 240 Agent-Implementierungen in mittelständischen Unternehmen analysiert. Ergebnis: 47 % dieser Implementierungen brauchen am Ende mehr Human-Stunden (für Prompting, Review, Fehlerkorrektur), als die Original-Aufgabe manuell gekostet hätte.

Für dich heißt das: bevor du in einen Agenten Geld steckst, baue dir eine ehrliche Vorher-/Nachher-Zeitmessung. Eine Excel-Spalte reicht. Wer das nicht misst, weiß nicht, ob er spart oder zahlt.

Quelle: Forrester: Agent ROI Reality Check 2026 (Forrester)

OpenAI Agent Mode jetzt in Plus-Konten — mit Limit (1 Min)

OpenAI rollt Agent Mode (vorher Pro-only) auch in Plus-Konten aus, allerdings mit einem Limit von 10 Agent-Sessions pro Monat. Pricing bleibt 23 € / Monat.

Für dich heißt das: wenn du Agent Mode mal testen wolltest, ist die Hürde gefallen. Mein Vorschlag: nutze die ersten zwei Sessions an Tasks, die du manuell genau timst. Vergleich am Ende: Agent-Zeit vs. Manuell-Zeit, inklusive Setup. Dann entscheide.

Quelle: OpenAI Agent Mode für Plus-Konten (OpenAI Blog)

🛠 Tool des Tages

Toggl Track — Pricing: Free für Solo bis 5 Projekte, Pro 9 $ / Mo.

Was es macht: simpler Zeit-Tracker. Kein KI-Tool — Absicht.

Use Case heute besonders relevant: bevor du irgendeinen Agenten in einen Workflow einbaust, miss zwei Wochen lang manuell, wie lange die jeweilige Task ohne Agent dauert. Mit Toggl Track in 30 Sekunden eingerichtet. In zwei Wochen hast du einen Baseline-Wert, gegen den du den Agent messen kannst — und nicht nur ein Bauchgefühl.

Ehrlich: ich nutze das selbst seit drei Monaten für aban news. Resultat: ich weiß, dass die Recherche pro Ausgabe im Schnitt 47 Minuten dauert. Wenn ein neues Tool das verbessern soll, muss es messbar drunter kommen.

Wer’s nicht braucht: wenn du eh schon mit Clockify, Harvest oder einem anderen Tracker arbeitest — bleib dabei. Wechsel nicht wegen einer Ausgabe.

💡 Heute ausprobieren

Wenn dir gerade jemand einen Agenten verkauft (oder du selbst überlegst, einen zu bauen) — Reality-Check in 15 Minuten:

Hier die Task, die ein Agent für mich übernehmen soll:
[konkrete Task in 3-4 Sätzen]

Aktuelle Frequenz: [X mal pro Woche / Monat]
Manuelle Dauer pro Vorkommen: [Y Minuten]

Bevor ich Geld oder Zeit in einen Agenten stecke, beantworte:

1. Welche drei spezifischen Failure-Modes hat ein Agent bei
   dieser Task? (also: wo geht's konkret schief, wenn es schief
   geht?)
2. Wie viel Review-Zeit muss ich realistisch einplanen, wenn
   der Agent läuft?
3. Wie hoch wäre der Schaden bei einem unbemerkten Fehler?
   (Klein, mittel, geschäftskritisch — und warum?)
4. Lohnt sich der Build bei einer ehrlichen Rechnung:
   Setup-Zeit + Review-Zeit pro Vorkommen vs. manuelle Zeit?

Antworte direkt. Wenn die Antwort „der Build lohnt sich nicht"
ist, sag das.

Erwarteter Output: vier klare Antworten plus eine Empfehlung. Anders als „kann AI das übernehmen?” — weil du nach Failure-Modes und Schadensgröße fragst, nicht nach Machbarkeit.

Outro

Wenn du in den letzten drei Monaten einen Agenten gebaut hast, der entweder klar funktioniert oder kläglich gescheitert ist — schreib mir gerne, gerne anonym. Sammle echte Fall-Studien mit Zahlen. Morgen: Tool-Test, Notes-Apps im direkten Vergleich.

—Aban