Posts

Making Reactive-Diffusion Systems Faster, A Deep Dive into Kernel Optimization with Triton

July 20, 2025 • 15 min read

Optimizing Gray-Scott reaction-diffusion simulations using Triton GPU kernels, achieving a 20x speedup through memory optimization and kernel fusion techniques.

Inferencing Transformers in Real-Time

May 13, 2025 • 20 min read

A journal on writing CUDA kernels from scratch to run GPT-2 at almost 70 tokens per second on an A40 GPU, exploring optimization techniques from tensor cores to flash attention.