Category: LLM
-
Advanced Claude Code Techniques: Multi-Agent Workflows and Custom Skills
Multi-agent workflows in Claude Code fix the single-agent context problem. Practical patterns for agent pipelines, custom skills, and coordination that survive real-world use.
-
Claude Code: Getting Started with AI-Powered Development in Your Terminal
Claude Code runs in your terminal with full filesystem access. After three months of production use, here's what actually works and what doesn't.
-
LoRA vs QLoRA vs DoRA ์๋ฒฝ ๋น๊ต: ํ๋ผ๋ฏธํฐ ํจ์จ์ ํ์ธํ๋(PEFT) ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ ์ค์ ๊ฐ์ด๋
์ PEFT๊ฐ ํ์ํ๊ฐ? ์ต์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ธํ๋ํ๋ ค๋ฉด ์์ฒญ๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ด ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด LLaMA-2 7B ๋ชจ๋ธ์ ์ ์ฒด ํ์ธํ๋ํ๋ฉด ์ฝ 60GB ์ด์์ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ์ฃ . ํ์ง๋ง LoRA, QLoRA, DoRA ๊ฐ์ ํ๋ผ๋ฏธํฐ ํจ์จ์ ํ์ธํ๋(PEFT) ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ฉด 16GB GPU๋ก๋ ์ถฉ๋ถํ ํ์ธํ๋์ด ๊ฐ๋ฅํฉ๋๋ค. ํต์ฌ ํฌ์ธํธ: PEFT…
-
MoE (Mixture of Experts) ์ํคํ ์ฒ ์์ ์ ๋ณต: Mixtral๋ถํฐ DeepSeek-MoE๊น์ง ๊ตฌํ ์๋ฆฌ์ ์ค์ ์ต์ ํ ๊ธฐ๋ฒ
MoE๋ ๋ฌด์์ธ๊ฐ? Mixture of Experts (MoE)๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋๋ฆฌ๋ฉด์๋ ์ค์ ์ฐ์ฐ๋์ ์ฆ๊ฐ์ํค์ง ์๋ ํ์ ์ ์ธ ์ํคํ ์ฒ์ ๋๋ค. 2024๋ Mixtral, DeepSeek-MoE, Grok-1 ๋ฑ ์ต์ ๋ชจ๋ธ๋ค์ด ๋ชจ๋ MoE ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ฉด์ AI ์ ๊ณ์ ํต์ฌ ๊ธฐ์ ๋ก ์๋ฆฌ์ก์์ต๋๋ค. MoE์ ํต์ฌ ์์ด๋์ด: ๋ชจ๋ ์ ๋ฌธ๊ฐ(Expert)๋ฅผ ํญ์ ์ฌ์ฉํ๋ ๋์ , ์ ๋ ฅ์ ๋ฐ๋ผ…
-
RLHF vs DPO vs KTO: LLM ์ ๋ ฌ(Alignment) ๊ธฐ๋ฒ ์๋ฒฝ ๋น๊ต ๊ฐ์ด๋
๋ค์ด๊ฐ๋ฉฐ LLM(Large Language Model)์ ์ค๋ฌด์ ์ ์ฉํ ๋ ๊ฐ์ฅ ์ค์ํ ๊ณผ์ ์ค ํ๋๊ฐ ๋ฐ๋ก ์ ๋ ฌ(Alignment)์ ๋๋ค. ์๋ฌด๋ฆฌ ๊ฐ๋ ฅํ ์ธ์ด ๋ชจ๋ธ์ด๋ผ๋ ์ธ๊ฐ์ ์๋์ ๊ฐ์น๊ด์ ๋ง๊ฒ ์กฐ์ ๋์ง ์์ผ๋ฉด ์ ํดํ๊ฑฐ๋ ๋ถ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์ต๊ทผ LLM ์ ๋ ฌ ๊ธฐ๋ฒ์ผ๋ก RLHF(Reinforcement Learning from Human Feedback), DPO(Direct Preference Optimization), KTO(Kahneman-Tversky Optimization)๊ฐ ์ฃผ๋ชฉ๋ฐ๊ณ …