Category: LLM
-
Speculative Decoding in LLMs: How Medusa and EAGLE Achieve 2-3x Inference Speedup
Testing Medusa and EAGLE speculative decoding on LLaMA 2: acceptance rates, memory overhead, and when 2-3x speedup claims actually hold in production.
-
vLLM vs TensorRT-LLM: Inference Speed Comparison on Consumer GPUs
Benchmarking vLLM vs TensorRT-LLM on RTX 4090 with Llama 3.1 8B. TensorRT-LLM delivers 2.3x throughput, but developer experience matters more than you think.
-
Hybrid Search for RAG: Combining BM25 and Vector Search for Better Retrieval Performance
Learn how to boost RAG retrieval accuracy by 20-40% with hybrid search. Practical guide to combining BM25 and vector search with Python code examples.
-
Attention is All You Need๋ถํฐ FlashAttention-3๊น์ง: Transformer Attention ๋ฉ์ปค๋์ฆ์ ์งํ์ O(1) ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ์ค์ ๊ตฌํ
Self-Attention์ O(nยฒ) ๋ฉ๋ชจ๋ฆฌ ๋ณ๋ชฉ์ O(n)์ผ๋ก ๊ทน๋ณตํ FlashAttention๋ถํฐ H100 ์ต์ ํ FlashAttention-3๊น์ง, Transformer ์ฑ๋ฅ ํ์ ์ ๋ชจ๋ ๊ฒ. ์ค์ PyTorch ์ฝ๋์ ๋ฒค์น๋งํฌ ํฌํจ.
-
RoPE vs Alibi vs xPos: Transformer ์์น ์ธ์ฝ๋ฉ ์๋ฒฝ ๋น๊ต ๊ฐ์ด๋ (๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์ต์ ํ)
RoPE, Alibi, xPos ์ธ ๊ฐ์ง Transformer ์์น ์ธ์ฝ๋ฉ ๊ธฐ๋ฒ์ ์์๊ณผ ์ฝ๋๋ก ๋น๊ต ๋ถ์ํฉ๋๋ค. ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ์ค์ ์ ํ ๊ฐ์ด๋์ ๊ตฌํ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
Knowledge Distillation ์ค์ ๊ฐ์ด๋: ๋ํ LLM์ ์ํ ๋ชจ๋ธ๋ก ์์ถํ๋ ์ฆ๋ฅ ๊ธฐ๋ฒ๊ณผ DistilBERT, TinyLlama ์ฌ๋ก ๋ถ์
๋ํ LLM์ ์ํ ๋ชจ๋ธ๋ก ์์ถํ๋ Knowledge Distillation ๊ธฐ๋ฒ์ ์ค๋ฌด ์ค์ฌ์ผ๋ก ํด์คํฉ๋๋ค. DistilBERT, TinyLlama, Gemma ์ฌ๋ก์ PyTorch ๊ตฌํ ์ฝ๋๋ฅผ ํตํด ์ฆ๋ฅ ์๋ฆฌ์ ์ค์ ์ ๋ต์ ๋ฐฐ์๋ณด์ธ์.
-
RAG ํ์ดํ๋ผ์ธ ์ต์ ํ ์์ ๊ฐ์ด๋: Naive RAG๋ถํฐ Agentic RAG๊น์ง
RAG ํ์ดํ๋ผ์ธ ์ต์ ํ ์์ ๊ฐ์ด๋. Naive RAG๋ถํฐ Agentic RAG๊น์ง ์งํ ๋จ๊ณ๋ฅผ ์ค๋ช ํ๊ณ , ์ฒญํน ์ ๋ต, ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์, ๋ฆฌ๋ญํน ๋ฑ ์ค์ ๊ตฌํ ๋ฐฉ๋ฒ์ ์ฝ๋์ ํจ๊ป ๋จ๊ณ๋ณ๋ก ์ ๋ฆฌํฉ๋๋ค.
-
Building Production Systems with Claude Code: Best Practices and Real-World Automation
Building production automation with Claude Code CLI: quota management, server-side math rendering, graceful degradation, and cost comparison vs API.