Konfiguration

Modelle ueber Aliase, Tiers und Hybrid Billing steuern

In QuantenRam konfigurierst du keine rohen Upstream-Namen, sondern stabile Aliasfamilien. Genau diese Trennung macht Modellwahl alltagstauglich: Deine Clients bleiben gegenüber internen Katalogwechseln stabil, während du pro Rolle, Tier und Budget bewusst entscheiden kannst, welcher Pfad für eine Aufgabe sinnvoll ist.

Der wichtigste Grundsatz lautet: /v1/models ist immer die öffentliche Wahrheit für deinen aktuellen API-Key. Wenn ein Alias dort nicht auftaucht, ist er für diesen Key gerade nicht verfügbar, egal was in alten Screenshots, Team-Chats oder lokalen Defaults steht. Jede Modellkonfiguration sollte deshalb mit einem Blick auf die reale Freigabe beginnen und nicht mit Annahmen aus der Vergangenheit.

Start für planbare Baseline

quantenram-start/* ist der richtige Standard für Routinearbeit, Zusammenfassungen, normale Planungsloops und preisbewusste Assistenz. Im Hybrid-Billing des Start-Tiers passt diese Familie besonders gut als Default, weil sie gute Alltagstauglichkeit mit planbarer Zyklusnutzung verbindet.

Coding für Implementierung

quantenram-coding/* ist für Refactoring, Tool-gestützte Coding-Loops und sensible Entwicklungsarbeit gedacht. Diese Lane sollte in Agentenprofilen und Commands explizit für Umsetzungsarbeit eingetragen werden, statt sie indirekt ueber generische Standardmodelle zu erreichen.

Zenmaster für hochwertige Eskalation

quantenram-zenmaster/* lohnt sich bei schwierigen Reviews, Architekturfragen und teuren Fehlentscheidungen. Gerade weil das Tier als Premium- und API-first-Pfad gedacht ist, sollte es nicht als unbewusster Default, sondern als klarer Eskalationskanal konfiguriert werden.

Die richtige Aliasfamilie konfigurieren

Ein gutes Modell-Setup trennt Standard-, Reasoning-, Coding- und Review-Arbeit schon in der Grundkonfiguration. Damit verschiebst du Qualitäts- und Kostenentscheidungen aus dem Bauchgefühl in eine lesbare Konfigurationsdatei. In QuantenRam ist diese Trennung besonders wertvoll, weil Activity und Billing später genau zeigen, ob deine Modellstrategie im echten Betrieb aufgeht.

{
  "provider": {
    "type": "openai-compatible",
    "base_url": "https://quantenram.net/v1",
    "api_key_env": "QUANTENRAM_API_KEY"
  },
  "models": {
    "default": "quantenram-start/glm-5",
    "reasoning": "quantenram-start/deepseek-reasoner",
    "coding": "quantenram-coding/qwen3codernext",
    "review": "quantenram-zenmaster/gpt-5.4"
  },
  "fallbacks": {
    "default": "quantenram-start/deepseek-chat",
    "coding": "quantenram-coding/qwen3.5-9b",
    "review": "quantenram-start/glm-5"
  }
}

Dieses Muster gibt dir eine klare Eskalationsleiter. Routine und Reasoning bleiben im Start-Tier, Implementierung läuft ueber die Coding-Familie, und hochwertige Endabnahme wird erst auf Zenmaster gezogen, wenn der Auftrag es wirklich rechtfertigt.

Kontextfenster richtig lesen

Das Feld context_window ist keine Marketingzahl, sondern ein Arbeitsparameter. Wenn du lange Spezifikationen, grosse Diff-Kontexte oder mehrere Dateien gleichzeitig verarbeiten willst, solltest du das Kontextfenster genauso bewusst in deine Konfiguration aufnehmen wie Preis und Tier. Ein kleines, gut passendes Coding-Modell kann für tägliche Repo-Arbeit wertvoller sein als ein grosses Premiumfenster, das für jeden kleinen Schritt unnötig teuer ist.

curl https://quantenram.net/v1/models   -H "Authorization: Bearer $QUANTENRAM_API_KEY"

Die Antwort auf diesen Aufruf ist die Grundlage für jede echte Modellentscheidung. Du siehst dort nicht nur den Alias, sondern auch, was dein aktueller Key wirklich nutzen darf. Wenn du lange Sessions planst, prüfe vorab, ob der ausgewählte Pfad das benötigte Kontextfenster mitbringt, statt später mitten im Workflow improvisieren zu müssen.

Kosten, Qualität und Hybrid Billing gegeneinander abwägen

Im Start-Tier zählt nicht mehr bloss Request-Menge, sondern reale Nutzung innerhalb eines Hybrid-Billing-Rahmens. Darum ist quantenram-start/* als Default besonders stark: Du bekommst solide Qualität für Alltag und planst deine Nutzung gegen sichtbare Budgets statt gegen eine diffuse Premiumgewohnheit. Zenmaster dagegen ist der richtige Pfad, wenn die bessere Antwort den Mehrpreis rechtfertigt, etwa bei Architekturentscheidungen, Release-Reviews oder komplexen Risikoabwägungen.

Auch der Zugriff selbst ist konfigurierbar und tiergebunden. Im Modellkatalog wird ueber allowed_tiers festgelegt, welche Tiers einen Alias ueberhaupt sehen und nutzen dürfen. Deshalb ist eine fehlende Freigabe fast nie ein Clientproblem, sondern meist ein Thema von Key, Tier oder Katalogzustand. Die sauberste Diagnose lautet immer: erst /v1/models, dann Smoke-Request, dann Billing- oder Tierlogik prüfen.

Die beste Modellkonfiguration in QuantenRam ist selten ein Lieblingsmodell. Meist ist sie eine Staffelung: Start als Baseline im Hybrid-Billing, Coding für Umsetzungsdurchsatz und Zenmaster nur für die wenigen Schritte, bei denen Qualität den Mehrpreis sichtbar rechtfertigt.