Statt fallender Speicherpreise gibt es wohl bessere KI-Modelle. Wir erklären die Hintergründe des Kompressionsalgorithmus Turboquant. Eine Analyse von Johannes Hiltscher (KI, Google)
Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.