Compression 4 items

Everything Compression

💬 Reddit 2d ago

Ternary Bonsai: Top intelligence at 1.58 bits

Ternary Bonsai uses 1.58-bit weights {-1, 0, +1} to achieve 9x smaller memory footprint than 16-bit models while outperforming peers in standard benchmarks. Available in 8B, 4B, and 1.7B parameter sizes, it balances extreme compression with improved accuracy over 1-bit predecessors.

Models Quantization Compression

📑 arXiv 3d ago

When Flat Minima Fail: Characterizing INT4 Quantization Collapse After FP32 Convergence

Analysis of all 154 Pythia-160m checkpoints reveals INT4 quantization robustness diverges catastrophically (11% to 517% gap) late in training while FP32 perplexity plateaus, contradicting the assumption that converged models are quantization-ready. Divergence begins when FP32 perplexity stagnates, not during learning rate decay, suggesting flat minima in full precision don't guarantee quantization stability.

Quantization Training Compression

🤗 Hugging Face 4d ago

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

Switch-KD proposes a visual-switch distillation framework unifying vision-language knowledge transfer by addressing modality-specific supervision inconsistencies in VLM knowledge distillation. Current KD methods supervise modalities separately without explicitly addressing multimodal alignment, leading to inconsistent knowledge transfer. The approach enables efficient VLM deployment in resource-constrained scenarios.

Multimodal Training Compression

💬 Reddit 5d ago

How to Distill from 100B+ to <4B Models

Guide on distilling knowledge from 100B+ parameter models into sub-4B models. Addresses practical methods for compressing frontier model capabilities into efficient local deployments.

Distillation Training Compression

Ternary Bonsai: Top intelligence at 1.58 bits ↗

When Flat Minima Fail: Characterizing INT4 Quantization Collapse After FP32 Convergence ↗

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models ↗

How to Distill from 100B+ to &lt;4B Models ↗

Ternary Bonsai: Top intelligence at 1.58 bits

When Flat Minima Fail: Characterizing INT4 Quantization Collapse After FP32 Convergence

Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models

How to Distill from 100B+ to <4B Models