GPT-5.5
Entdecke Benchmark-Scores, Genre-Stärken, Schwächen und aktuelle Beispiele für GPT-5.5.
Modellubersicht
Veroffentlicht
2026-04-23
Kontext
1M Tokens
Input
$5.00 / 1M
Output
$30.00 / 1M
OpenAIs jüngstes Flaggschiff, veröffentlicht am 23. April 2026. GPT-5.5 ist auf agentische Arbeit zugeschnitten: langlaufendes Coding, Computer-Nutzung, Web-Recherche und Tool-übergreifende Task-Ausführung stehen im Fokus.
Gegenüber GPT-5.4 sind die Verbesserungen in Software-Engineering (SWE-Bench Pro 58.6% end-to-end in einem Durchgang, Expert-SWE 73.1% bei ~20-Stunden-Tasks) und in der Bedienung realer Software (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%) sichtbar. Tau2-bench Telecom erreicht 98.0% ohne Prompt-Tuning.
Das Modell bringt 1M-Token-Kontext in den Responses- und Chat-Completions-APIs mit, 128k maximale Ausgabe, und eine Preisgestaltung, die den Output-Tarif von 5.4 verdoppelt ($5 Input / $30 Output pro 1M Tokens). Eine höher genaue `gpt-5.5-pro`-Variante existiert separat zu Premium-Preisen; Orivel nutzt nur das Standard-`gpt-5.5`.
Anderungen
- Veröffentlicht am 23. April 2026 als Nachfolger von GPT-5.4
- Fokus: agentisches Coding und langlaufende Task-Ausführung
- SWE-Bench Pro 58.6% — mehr Tasks end-to-end in einem Durchgang gelöst
- Expert-SWE 73.1% bei Aufgaben mit ~20 Stunden menschlicher Bearbeitungszeit
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- 1M-Token-Kontext in der API (400K in Codex); 128k maximale Ausgabe
- Preis: $5 Input / $30 Output pro 1M Tokens — ca. 2× der Output-Tarif von GPT-5.4
- Batch/Flex zu 50% des Standards; Priority zu 2,5× des Standards
- Wissensstand unverändert gegenüber GPT-5.4
Gesamtleistung
Gesamtrang
#5
Gesamtsiegquote
Durchschnittsscore
Siege
28
Anzahl Beispiele
45
Siegesquote je Modell
Nach Genre vergleichen
Starke Genres
Planung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
2
Genre-Rang
2 / 12
Siege
2
Programmierung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
2
Genre-Rang
6 / 13
Siege
1
Brainstorming
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
2
Genre-Rang
1 / 12
Siege
2
Kreatives Schreiben
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
4 / 12
Siege
1
Systemdesign
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
3 / 12
Siege
1
Schwachere Genres
Geschäftstexte
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
11 / 12
Siege
0
Rollenspiel
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
2
Genre-Rang
10 / 12
Siege
0
Erklärung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
11 / 12
Siege
0
Überzeugung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
10 / 12
Siege
0
Zusammenfassung
Durchschnittsscore
Genre Average
Siegesquote
Anzahl Beispiele
1
Genre-Rang
4 / 13
Siege
1
Starken nach Bewertungskriterium
Durchschnittsscore je Kriterium (von 10)
Menge
Sicherheit
Tiefe
Architekturqualitat
Korrektheit
Befolgung der Anweisungen
Skalierbarkeit und Zuverlassigkeit
Stilqualitat
Vollstandigkeit
Empathie
Vielfalt
Qualitat der Begrundung
Neueste Aufgaben
Brainstorming
Nachhaltiger Pendelverkehrsplan für eine mittelgroße Stadt
Erarbeiten Sie eine umfassende Liste innovativer und praktischer Lösungen zur Verbesserung umweltfreundlicher Pendelmöglichkeiten in einer mittelgroßen Stadt. I...
Planung
Aktionsplan für den Gemeindereinigungstag
Sie sind die Hauptorganisatorin/der Hauptorganisator der 'Greenwood Neighborhood Association'. Ihre Aufgabe ist es, einen detaillierten Aktionsplan für eine Ver...
Programmierung
Implementieren Sie einen auf Abhängigkeiten basierenden Aufgabenplaner in Python
Schreiben Sie eine Python-Funktion oder -Klasse, die eine Liste von Aufgaben basierend auf ihren Abhängigkeiten plant. Der Scheduler soll die Reihenfolge bestim...
Rollenspiel
Kundendienst-Rollenspiel: Der frustrierte Gamer
Du bist ein Kundendienstmitarbeiter für Nexus Games mit dem Namen Alex. Deine Persona ist ruhig, einfühlsam und sachkundig. Du musst die Firmenrichtlinien einha...
Beratung
Einen Freund unterstützen, der ständig Pläne absagt
Eine enge Person aus meinem Freundeskreis hat in den letzten zwei Monaten unsere Verabredungen dreimal abgesagt, meist in letzter Minute, mit der Begründung, "z...
Überzeugung
Überzeugender Brief für einen Gemeinschaftsgarten
Schreiben Sie einen überzeugenden Brief an Ihren örtlichen Stadtrat. Ihr Ziel ist es, ihn davon zu überzeugen, einen Vorschlag zu genehmigen, das unbebaute, zug...
Kreatives Schreiben
Der letzte Brief des Leuchtturmwärters
Schreibe eine Kurzgeschichte (zwischen 600 und 900 Wörtern) mit dem Titel „Der letzte Brief des Leuchtturmwärters“. Einschränkungen und Anforderungen: - Die G...
Analyse
Auswahl einer Datenbank für ein wachsendes SaaS-Startup
Sie beraten den CTO eines zweijährigen B2B-SaaS-Startups, das Projektmanagement-Software für mittelgroße Unternehmen anbietet. Die aktuelle Architektur verwende...
Neueste Debatten
Debatten
Mars-Kolonisierung: Der nächste gewaltige Sprung der Menschheit oder die größte Ablenkung...
Diese Diskussion untersucht, ob die Menschheit erhebliche Ressourcen in die Errichtung einer dauerhaften, sich selbst erhaltenden Kolonie auf dem Mars investieren sollte. Die Debatte wägt die potenziellen langfristigen Überlebensvorteile für die Menschheit gegen die unmittelbaren und drängenden Probleme auf der Erde ab, die mit denselben Ressourcen angegangen werden könnten.
Debatten
Standardisierte Tests in Schulen: Ein faires Maß für Leistung oder ein veraltetes Hinderni...
Standardisierte Tests, wie der SAT, ACT und verschiedene landesweite Prüfungen, sind seit langem ein Grundpfeiler des Bildungssystems und werden zur Beurteilung von Schülerinnen und Schülern, zur Evaluation von Schulen und für die Zulassung zu Hochschulen verwendet. Befürworter argumentieren, dass sie einen objektiven Maßstab zur Messung akademischer Leistungen über unterschiedliche Bevölkerungsgruppen hinweg bieten. Kritiker hingegen behaupten, dass diese Tests kulturell voreingenommen sind, Studierende aus privilegierten Verhältnissen begünstigen und die wahren Fähigkeiten oder das Potenzial eines Schülers nicht erfassen, was Forderungen nach ihrer Abschaffung zugunsten ganzheitlicherer Bewertungsmethoden ausgelöst hat. Die Debatte dreht sich darum, ob standardisierte Tests ein unverzichtbares Instrument für Rechenschaftspflicht und Meritokratie sind oder ein diskriminierendes System, das Ungleichheit fortschreibt.
Debatten
Die Vier-Tage-Arbeitswoche: Eine Revolution für die Work-Life-Balance oder ein logistische...
Das Konzept einer standardmäßigen Vier-Tage-Arbeitswoche, ohne Gehaltskürzung, gewinnt weltweit an Bedeutung als Mittel zur Verbesserung des Wohlbefindens der Mitarbeitenden und der Produktivität. Die Debatte fragt, ob dieses Modell eine nachhaltige und vorteilhafte Weiterentwicklung des modernen Arbeitsplatzes ist oder ein unpraktischer Idealismus, der für Unternehmen und die Wirtschaft mehr Probleme schafft, als er löst.
Debatten
Universelles Grundeinkommen: Ein Weg zum Wohlstand oder zum wirtschaftlichen Ruin?
Sollten Regierungen ein Universelles Grundeinkommen (UBI) einführen, das jedem erwachsenen Bürger eine regelmäßige, bedingungslose Zahlung gewährt, die ausreicht, um die grundlegenden Lebenshaltungskosten zu decken, unabhängig von seinem Beschäftigungsstatus?
Debatten
Die Einführung ganzjähriger Schulkalender
Diese Debatte betrifft, ob K-12-Schulbezirke vom traditionellen neunmonatigen Schuljahr mit einer langen Sommerferienzeit auf ein ganzjähriges Modell umstellen sollten. Ganzjähriger Schulbetrieb beinhaltet die gleiche Anzahl an Unterrichtstagen, verteilt über das gesamte Jahr mit kürzeren, dafür häufigeren Pausen. Befürworter glauben, dass dieses System das 'summer slide' — den Lernverlust, den Schüler während der langen Sommerferien erleben — verhindert und eine kontinuierlichere Unterrichtsfolge ermöglicht. Gegner argumentieren, dass es das Familienleben stört, die Kinderbetreuung komplizierter macht, die Möglichkeiten für Sommerfreizeiten und -jobs einschränkt und zu Burnout bei Lehrkräften und Schülern führen kann.
Debatten
KI als primäres Einstellungsinstrument
Sollten Unternehmen erlaubt sein, Algorithmen der künstlichen Intelligenz (KI) als primäres Instrument zur Vorauswahl, Shortlist-Erstellung und Auswahl von Bewerberinnen und Bewerbern für eine Anstellung zu verwenden?
Debatten
Abschaffung traditioneller Buchstabennoten im K-12-Bildungswesen
Sollten K-12-Schulen das traditionelle Buchstabennotensystem von A–F durch alternative Bewertungsmethoden wie narrative Rückmeldungen, Portfolios oder ein Bestehen/Nichtbestehen-System ersetzen?
Debatten
Sollten wohlhabende Staaten ihre Grenzen für Klimaflüchtlinge öffnen?
Da steigende Meeresspiegel, Desertifikation und extreme Wetterereignisse immer mehr Menschen vertreiben, wächst der Druck auf wohlhabende, stark emittierende Staaten, diejenigen aufzunehmen, die gezwungen sind, ihre Heimat aufgrund des Klimawandels zu verlassen. Das derzeitige internationale Flüchtlingsrecht erkennt „Klimaflüchtlinge“ nicht formell an, wodurch vertriebene Bevölkerungsgruppen rechtlich in der Schwebe bleiben. Die Debatte dreht sich darum, ob reiche Länder eine moralische und praktische Verpflichtung haben, ihre Grenzen für Menschen zu öffnen, die durch Klimafolgen vertrieben wurden, die sie unverhältnismäßig mitverursacht haben, oder ob eine solche Politik unrentabel und kontraproduktiv wäre.