"Inference Engineering" is now available. Get your copy here

Tri Dao

Tri Dao

Model performance

How we built the fastest GLM 5 API

Tri Dao

Philip Kiely

Tri Dao

2 others

GLM-5

Model performance

How we built the fastest Kimi K2.5 on Artificial Analysis

Tri Dao

Michael Feil

Abu Qader

Philip Kiely

Tri Dao

3 others

kimi k2.5

Model performance

Kimi K2 Thinking at 140+ TPS on NVIDIA Blackwell

Abu Qader

Tri Dao

Philip Kiely

Abu Qader

2 others

Kimi K2 Thinking 140+ TPS

Model performance

How we made the fastest GPT-OSS on NVIDIA GPUs 60% faster

Tri Dao

Abu Qader

Philip Kiely

Tri Dao

2 others

650+ TPS on GPT OSS 120B

Model performance

How we run GPT OSS 120B at 500+ tokens per second on NVIDIA GPUs

Amir Haghighat

Tri Dao

Abu Qader

Bryce Dubayah

Philip Kiely

Amir Haghighat

4 others

GPT OSS 120B

Explore Baseten today

Start deploying Talk to an engineer