์ด ๋ฌธ์์์๋ Google Cloud Managed Lustre๋ฅผ ์ฌ์ฉํ์ฌ Google Kubernetes Engine (GKE)์ ๋ฐฐํฌ๋ AI ๋ฐ ML ์ํฌ๋ก๋์ ์ฑ๋ฅ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ๋ ์ฐธ์กฐ ์ํคํ ์ฒ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด ๋ฌธ์์ ์ฃผ์ ๋์์๋ Google Cloud์์ AI ์ํฌ๋ก๋์ ์คํ ๋ฆฌ์ง๋ฅผ ์ค๊ณ, ํ๋ก๋น์ ๋, ๊ด๋ฆฌํ๋ ์ค๊ณ์ ๋ฐ ๊ธฐ์ ์ค๋ฌด์๊ฐ ํฌํจ๋ฉ๋๋ค. ์ด ๋ฌธ์์์๋ ML ์๋ช ์ฃผ๊ธฐ, ํ๋ก์ธ์ค, ๊ธฐ๋ฅ์ ์ดํดํ๊ณ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
Managed Lustre๋ DDN์ EXAScaler Lustre๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์์ Google Cloud-๊ด๋ฆฌํ ์๊ตฌ ๋ณ๋ ฌ ํ์ผ ์์คํ (PFS)์ ๋๋ค. Managed Lustre๋ AI ํ์ต ๋ฐ ์ฒดํฌํฌ์ธํธ ์ํฌ๋ก๋์ ๊ถ์ฅ๋๋ ๊ธฐ๋ณธ ์๋ฃจ์ ์ ๋๋ค. Lustre ๋๋ ๊ธฐํ PFS ์๋ฃจ์ ์์ ๊ธฐ์กด ์ํฌ๋ก๋๋ฅผ ๋ง์ด๊ทธ๋ ์ด์ ํ๋ ๋ฐ ํนํ ํจ๊ณผ์ ์ ๋๋ค. ๋ฆฌ์์ค ํ์ฉ๋๋ฅผ ๊ทน๋ํํ๋ ค๋ฉด ํ์ต์ Managed Lustre๋ฅผ ์ฌ์ฉํ๋ ์ํฌ๋ก๋๋ ์๋น์ค ๋ฐ ์ถ๋ก ์๋ ๋์ผํ ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํด์ผ ํฉ๋๋ค.
Managed Lustre๋ ๋ค์ ๊ธฐ์ค์ ์ถฉ์กฑํ๋ AI ์ํฌ๋ก๋์ ๊ถ์ฅ๋๋ ์๋ฃจ์ ์ ๋๋ค.
- PiB ๊ท๋ชจ์ ์คํ ๋ฆฌ์ง ์ฉ๋์ด ํ์ํฉ๋๋ค.
- ์ต๋ 1TB/์ด์ ๋์ ์ฒ๋ฆฌ๋์ผ๋ก ๋งค์ฐ ์งง์ ์ง์ฐ ์๊ฐ (1๋ฐ๋ฆฌ์ด ๋ฏธ๋ง) ์ก์ธ์ค๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๋์ ์ด๋น ์ ์ถ๋ ฅ ์์ ์ (IOPS)๋ฅผ ์ ๊ณตํฉ๋๋ค.
Managed Lustre๋ AI ์ํฌ๋ก๋์ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ์ ๊ณตํฉ๋๋ค.
- ํ์ต์ ์ด์์ ๋น์ฉ (TCO) ์ ๊ฐ: ๊ด๋ฆฌํ Lustre๋ ์ปดํจํ ๋ ธ๋์ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ ๊ณตํ์ฌ ํ์ต ์๊ฐ์ ๋จ์ถํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ AI ๋ฐ ML ๋ชจ๋ธ ํ์ต์ ์ด ์์ ๋น์ฉ์ ์ค์ด๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ์๋น์ ์ํ TCO ์ ๊ฐ: Managed Lustre๋ ๋ชจ๋ธ ๋ก๋ ์๋๋ฅผ ๋์ด๊ณ ์ถ๋ก ์๋น์ ์ต์ ํํ๋ ๊ณ ์ฑ๋ฅ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ฉด ์ปดํจํ ๋น์ฉ์ ๋ฎ์ถ๊ณ ๋ฆฌ์์ค ์ฌ์ฉ๋ฅ ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
- ํจ์จ์ ์ธ ๋ฆฌ์์ค ํ์ฉ: Managed Lustre๋ฅผ ์ฌ์ฉํ๋ฉด ๋จ์ผ ์ธ์คํด์ค ๋ด์์ ์ฒดํฌํฌ์ธํธ์ ํ์ต์ ๊ฒฐํฉํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฆฌ์์ค ๊ณต์ ๋ฅผ ํตํด ๋จ์ผ ๊ณ ์ฑ๋ฅ ์คํ ๋ฆฌ์ง ์์คํ ์์ ์ฝ๊ธฐ ๋ฐ ์ฐ๊ธฐ ์ฒ๋ฆฌ๋์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ํคํ ์ฒ
๋ค์ ๋ค์ด์ด๊ทธ๋จ์ ๊ด๋ฆฌํ Lustre๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ํ์ต ์ํฌ๋ก๋์ ์ ๊ณต ์ํฌ๋ก๋์ ์ฑ๋ฅ์ ์ต์ ํํ๋ ์ํ ์ํคํ ์ฒ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ ์ํคํ ์ฒ์ ํ์๋ ์ํฌ๋ก๋๋ ์ดํ ์น์ ์์ ์์ธํ ์ค๋ช ํฉ๋๋ค. ์ด ์ํคํ ์ฒ์๋ ๋ค์ ๊ตฌ์ฑ์์๊ฐ ํฌํจ๋ฉ๋๋ค.
- Google Kubernetes Engine ํด๋ฌ์คํฐ: GKE๋ AI ๋ฐ ML ๋ชจ๋ธ ํ์ต ๋ฐ ์ ๊ณต ํ๋ก์ธ์ค๊ฐ ์คํ๋๋ ์ปดํจํ ํธ์คํธ๋ฅผ ๊ด๋ฆฌํฉ๋๋ค. GKE๋ ์ปจํธ๋กค ํ๋ ์ธ, ๋ ธ๋, ๋ชจ๋ ์์คํ ๊ตฌ์ฑ์์๋ฅผ ํฌํจํ์ฌ ํด๋ฌ์คํฐ์ ๊ธฐ๋ณธ ์ธํ๋ผ๋ฅผ ๊ด๋ฆฌํฉ๋๋ค.
- Kubernetes ์ค์ผ์ค๋ฌ: GKE ์ปจํธ๋กค ํ๋ ์ธ์ ์ํฌ๋ก๋๋ฅผ ์์ฝํ๊ณ ์๋ช ์ฃผ๊ธฐ, ํ์ฅ, ์ ๊ทธ๋ ์ด๋๋ฅผ ๊ด๋ฆฌํฉ๋๋ค.
- Virtual Private Cloud (VPC) ๋คํธ์ํฌ: ์ํคํ ์ฒ์ ์๋ ๋ชจ๋ Google Cloud ๋ฆฌ์์ค๋ ๋จ์ผ VPC ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Cloud Load Balancing: ์ด ์ํคํ ์ฒ์์ Cloud Load Balancing์ ์ ํ๋ฆฌ์ผ์ด์ ์ฌ์ฉ์์ ๋ค์ด์ค๋ ์ถ๋ก ์์ฒญ์ GKE ํด๋ฌ์คํฐ์ ์ ๊ณต ์ปจํ ์ด๋์ ํจ์จ์ ์ผ๋ก ๋ถ์ฐํฉ๋๋ค. Cloud Load Balancing์ ์ฌ์ฉํ๋ฉด AI ๋ฐ ML ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ณ ๊ฐ์ฉ์ฑ, ํ์ฅ์ฑ, ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์ฅํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ GKE ๋ถํ ๋ถ์ฐ ์ดํดํ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
- ๊ทธ๋ํฝ ์ฒ๋ฆฌ ์ฅ์น (GPU) ๋๋ Tensor ์ฒ๋ฆฌ ์ฅ์น (TPU): GPU์ TPU๋ AI ๋ฐ ML ์ํฌ๋ก๋์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ํน์ ๋จธ์ ๊ฐ์๊ธฐ์ ๋๋ค. ์ต์ ์ ํจ์จ์ฑ๊ณผ ํธํ์ฑ์ ๋ณด์ฅํ๋ ค๋ฉด ์ ์ฒด AI ๋ฐ ML ์ํฌ๋ก๋์ ๋์ผํ ์ ํ์ ๊ฐ์๊ธฐ๋ฅผ ์ฌ์ฉํ์ธ์. ์ ์ ํ ํ๋ก์ธ์ ์ ํ์ ์ ํํ๋ ๋ฐฉ๋ฒ์ ๊ดํ ์์ธํ ๋ด์ฉ์ ์ด ๋ฌธ์์ ๋ท๋ถ๋ถ์ ๋์ค๋ ์ก์ ๋ฌ๋ ์ดํฐ ์ต์ ์ ์ฐธ๊ณ ํ์ธ์.
- Managed Lustre: Managed Lustre๋ ์ง์ฐ ์๊ฐ์ด ์งง๊ณ ์ฒ๋ฆฌ๋์ด ๋์ ํ๊ฒฝ์ ์ต์ ํ๋ ๊ณ ์ฑ๋ฅ ์๊ตฌ PFS๋ฅผ ์ ๊ณตํ์ฌ AI ๋ฐ ML ํ์ต๊ณผ ์๋น์ ๊ฐ์ํํฉ๋๋ค. Cloud Storage๋ง ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋น๊ตํ ๋ ๊ด๋ฆฌํ Lustre๋ฅผ ์ฌ์ฉํ๋ฉด ํ์ต ์๊ฐ์ด ํฌ๊ฒ ์ค์ด๋ค๊ณ ์๋น์ค ์ ๊ณต ์ค ๋ชจ๋ธ์ ์๋ต์ฑ์ด ํฅ์๋ฉ๋๋ค. ์ด๋ฌํ ๊ฐ์ ์ฌํญ์ ๊ณต์ ๋ฐ์ดํฐ์ ๋น ๋ฅด๊ณ ์ผ๊ด๋๊ฒ ์ก์ธ์คํด์ผ ํ๋ ๊น๋ค๋ก์ด ์ํฌ๋ก๋์์ ํนํ ์คํ๋ฉ๋๋ค.
- Cloud Storage FUSE: Cloud Storage FUSE๋ AI ๋ฐ ML ์ํฌ๋ก๋์ ์๊ตฌ์ ์ด๊ณ ๋น์ฉ ํจ์จ์ ์ธ ์คํ ๋ฆฌ์ง๋ฅผ ์ ๊ณตํฉ๋๋ค. Cloud Storage๋ ์์ ํ์ต ๋ฐ์ดํฐ ์ธํธ, ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ, ๋ชจ๋ธ ๋ฐฑ์ ์ ์ค์ ์ ์ฅ์ ์ญํ ์ ํฉ๋๋ค. Cloud Storage๋ฅผ ์ฌ์ฉํ๋ฉด ๊ณ์ฐ์ ํ๋ฐํ๊ฒ ์ฌ์ฉ๋์ง ์๋ ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ๋ด๊ตฌ์ฑ, ์ฅ๊ธฐ ๊ฐ์ฉ์ฑ, ๋น์ฉ ํจ์จ์ฑ์ ๋ณด์ฅํ ์ ์์ต๋๋ค.
ํ์ต ์ํฌ๋ก๋
์ ์ํคํ ์ฒ์์ ๋ชจ๋ธ ํ์ต ์ค ๋ฐ์ดํฐ ํ๋ฆ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Cloud Storage์ ํ์ต ๋ฐ์ดํฐ ์ ๋ก๋: ํ์ต ๋ฐ์ดํฐ๋ฅผ Cloud Storage ๋ฒํท์ ์ ๋ก๋ํฉ๋๋ค. Cloud Storage ๋ฒํท์ ์์ ํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ์ค์ ์ ์ฅ์์ด์ ์ ๋ณด ์์ค ์ญํ ์ ํฉ๋๋ค.
- ๊ด๋ฆฌํ Lustre์ ๋ฐ์ดํฐ ๋ณต์ฌ: ํ์ต ๋ฐ์ดํฐ ์ฝํผ์ค๋ Cloud Storage์์ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค๋ก ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ ์ ์ก๋ฉ๋๋ค. ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ์กํ๋ฉด Managed Lustre์ ๊ณ ์ฑ๋ฅ ํ์ผ ์์คํ ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ ๋ชจ๋ธ ํ์ต ์ค์ ๋ฐ์ดํฐ ๋ก๋ ๋ฐ ์ฒ๋ฆฌ ์๋๋ฅผ ์ต์ ํํ ์ ์์ต๋๋ค.
- GKE์์ ํ์ต ์์ ์คํ: ๋ชจ๋ธ ํ์ต ํ๋ก์ธ์ค๊ฐ GKE ๋ ธ๋์์ ์คํ๋ฉ๋๋ค. Cloud Storage์์ ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ๋ ๋์ Managed Lustre๋ฅผ ๋ฐ์ดํฐ ์์ค๋ก ์ฌ์ฉํ๋ฉด GKE ๋ ธ๋๊ฐ ํจ์ฌ ๋น ๋ฅธ ์๋์ ๋ฎ์ ์ง์ฐ ์๊ฐ์ผ๋ก ํ์ต ๋ฐ์ดํฐ์ ์ก์ธ์คํ๊ณ ์ด๋ฅผ ๋ก๋ํ ์ ์์ต๋๋ค. ๋ํ Managed Lustre๋ฅผ ์ฌ์ฉํ๋ฉด ์ฒซ ๋ฐ์ดํธ๊น์ง์ ์๊ฐ (TTFB)์ผ๋ก ์ธก์ ๋๋ ์ฒซ ๋ฐ์ดํธ ์ ์ก ์์ ์๊ฐ์ด ๋จ์ถ๋ฉ๋๋ค. ๊ด๋ฆฌํ Lustre๋ฅผ ์ฌ์ฉํ๋ฉด ํนํ ์์ ์ฝ๊ธฐ ํ์ผ๊ณผ ๋ณต์กํ ๋ชจ๋ธ์ด ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ๋ก๋ ์๊ฐ์ ์ค์ด๊ณ ์ ์ฒด ํ์ต ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ํํ ์ ์์ต๋๋ค. ์ํฌ๋ก๋ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ GPU ๋๋ TPU๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ ์ ํ ํ๋ก์ธ์ ์ ํ์ ์ ํํ๋ ๋ฐฉ๋ฒ์ ๊ดํ ์์ธํ ๋ด์ฉ์ ์ด ๋ฌธ์์ ๋ท๋ถ๋ถ์ ๋์ค๋ ์ก์ ๋ฌ๋ ์ดํฐ ์ต์ ์ ์ฐธ๊ณ ํ์ธ์.
- ๊ด๋ฆฌํ Lustre์ ํ์ต ์ฒดํฌํฌ์ธํธ ์ ์ฅ: ํ์ต ๊ณผ์ ์์ ์ ์ํ ์ธก์ ํญ๋ชฉ ๋๋ ๊ฐ๊ฒฉ์ ๋ฐ๋ผ ์ฒดํฌํฌ์ธํธ๊ฐ ๊ด๋ฆฌํ Lustre์ ์ ์ฅ๋ฉ๋๋ค. ์ฒดํฌํฌ์ธํธ๋ ๋ชจ๋ธ์ ์ํ๋ฅผ ์์ฃผ ์บก์ฒํฉ๋๋ค. ์ฒดํฌํฌ์ธํธ๋ ์ฅ๊ธฐ ์ ์ฅ์ ์ํด ์ ํ์ ์ผ๋ก Cloud Storage๋ก ๋ด๋ณด๋ผ ์ ์์ต๋๋ค.
์ ๊ณต ์ํฌ๋ก๋
์ ์ํคํ ์ฒ์์ ๋ชจ๋ธ ์๋น ์ค ๋ฐ์ดํฐ ํ๋ฆ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์๋น์ ์ํด ๋ชจ๋ธ ๋ก๋: ๋ชจ๋ธ์ ๋ฐฐํฌํ ์ค๋น๊ฐ ๋๋ฉด GKE ํฌ๋๊ฐ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค์์ ํ์ต๋ ๋ชจ๋ธ์ ์๋น ๋ ธ๋๋ก ๋ก๋ํฉ๋๋ค. ํ์ต ์ค์ ์ฌ์ฉํ Managed Lustre ์ธ์คํด์ค์ IOPS ์ฉ๋์ด ์ถฉ๋ถํ๊ณ ์ก์ ๋ฌ๋ ์ดํฐ์ ๋์ผํ ์์ญ์ ์๋ ๊ฒฝ์ฐ ๋์ผํ Managed Lustre ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ ๊ณตํ ์ ์์ต๋๋ค. Managed Lustre ์ธ์คํด์ค๋ฅผ ์ฌ์ฌ์ฉํ๋ฉด ํ์ต๊ณผ ์๋น ๊ฐ์ ๋ฆฌ์์ค๋ฅผ ํจ์จ์ ์ผ๋ก ๊ณต์ ํ ์ ์์ต๋๋ค. ์ต์ ์ ์ฑ๋ฅ๊ณผ ํธํ์ฑ์ ์ ์งํ๋ ค๋ฉด ์๋น GKE ๋ ธ๋์ ์ ํํ ๊ฒ๊ณผ ๋์ผํ GPU ๋๋ TPU ํ๋ก์ธ์ ์ ํ์ ์ฌ์ฉํ์ธ์.
- ์ถ๋ก ์์ฒญ: ์ ํ๋ฆฌ์ผ์ด์ ์ฌ์ฉ์๊ฐ ์๋น ์๋ํฌ์ธํธ๋ฅผ ํตํด ์ถ๋ก ์์ฒญ์ ์ ์กํฉ๋๋ค. ์ด๋ฌํ ์์ฒญ์ Cloud Load Balancing ์๋น์ค๋ก ์ ์ก๋ฉ๋๋ค. Cloud Load Balancing์ ์์ ์์ฒญ์ GKE ํด๋ฌ์คํฐ์ ์๋น์ค ์ปจํ ์ด๋์ ๋ถ์ฐํฉ๋๋ค. ์ด๋ฌํ ๋ถ์ฐ์ ํตํด ๋จ์ผ ์ปจํ ์ด๋๊ฐ ๊ณผ๋ถํ๋์ง ์๊ณ ์์ฒญ์ด ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌ๋ฉ๋๋ค.
- ์ถ๋ก ์์ฒญ ์ฒ๋ฆฌ: ์ถ๋ก ์์ฒญ์ด ์์ ๋๋ฉด ์ปดํจํ ๋ ธ๋๊ฐ ๋ฏธ๋ฆฌ ๋ก๋๋ ๋ชจ๋ธ์ ์ก์ธ์คํ์ฌ ํ์ํ ๊ณ์ฐ์ ์คํํ๊ณ ์์ธก์ ์์ฑํฉ๋๋ค.
- ์๋ต ์ ์ก: ์ ๊ณต ์ปจํ ์ด๋๊ฐ Cloud Load Balancing์ ํตํด ์๋ต์ ๋ค์ ๋ณด๋ ๋๋ค. Cloud Load Balancing์ ์๋ต์ ์ ์ ํ ์ ํ๋ฆฌ์ผ์ด์ ์ฌ์ฉ์๋ก ๋ค์ ๋ผ์ฐํ ํ์ฌ ์ถ๋ก ์์ฒญ ์ฃผ๊ธฐ๋ฅผ ์๋ฃํฉ๋๋ค.
์ฌ์ฉ ์ ํ
์ด ์ฐธ์กฐ ์ํคํ ์ฒ์๋ ๋ค์๊ณผ ๊ฐ์ Google Cloud ์ ํ์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ๊ฐ์ ํ๋ผ์ด๋น ํด๋ผ์ฐ๋(VPC): Google Cloud ์ํฌ๋ก๋์ ํ์ฅ ๊ฐ๋ฅํ ์ ์ญ ๋คํธ์ํน ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ๊ฐ์ ์์คํ ์ ๋๋ค. VPC์๋ VPC ๋คํธ์ํฌ ํผ์ด๋ง, Private Service Connect, ๋น๊ณต๊ฐ ์๋น์ค ์ก์ธ์ค, ๊ณต์ VPC๊ฐ ํฌํจ๋ฉ๋๋ค.
- Cloud Load Balancing: ํ์ฅ ๊ฐ๋ฅํ ๊ณ ์ฑ๋ฅ ์ ์ญ ๋ฐ ๋ฆฌ์ ๋ถํ ๋ถ์ฐ๊ธฐ ํฌํธํด๋ฆฌ์ค์ ๋๋ค.
- Google Kubernetes Engine(GKE): Google ์ธํ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ์ปจํ ์ด๋ํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋๊ท๋ชจ๋ก ๋ฐฐํฌ ๋ฐ ์ด์ํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ Kubernetes ์๋น์ค์ ๋๋ค.
- Cloud Storage: ๋ค์ํ ๋ฐ์ดํฐ ์ ํ์ ์ ํฉํ ์ ๋น์ฉ, ๋ฌด์ ํ ๊ฐ์ฒด ์ ์ฅ์์ ๋๋ค. Google Cloud๋ด๋ถ ๋ฐ ์ธ๋ถ์์ ๋ฐ์ดํฐ์ ์ก์ธ์คํ ์ ์๊ณ ์ค๋ณต์ฑ์ ์ํด ์ฌ๋ฌ ์์น์ ๋ณต์ ๋ฉ๋๋ค.
- Google Cloud Managed Lustre: AI, ๊ณ ์ฑ๋ฅ ์ปดํจํ (HPC), ๋ฐ์ดํฐ ์ง์ค ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํ ์์ ๊ด๋ฆฌํ ๋ณ๋ ฌ ํ์ผ ์์คํ ์ ๋๋ค.
์ฌ์ฉ ์ฌ๋ก
Managed Lustre๋ PiB ๊ท๋ชจ์ ์คํ ๋ฆฌ์ง ์ฉ๋์ด ํ์ํ๊ณ ๋์ ์ฒ๋ฆฌ๋๊ณผ ๋์ IOPS๋ก ์ง์ฐ ์๊ฐ์ด ์งง์ (1๋ฐ๋ฆฌ์ด ๋ฏธ๋ง) ์ก์ธ์ค๋ฅผ ์ ๊ณตํด์ผ ํ๋ AI ์ํฌ๋ก๋์ ์ด์์ ์ ๋๋ค. ์ด ์น์ ์์๋ Managed Lustre๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ ์คํธ ๊ธฐ๋ฐ ์ฒ๋ฆฌ ๋ฐ ํ ์คํธ ์์ฑ
LLM์ ํ ์คํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ๋๋ก ํน๋ณํ ์ค๊ณ๋ ํนํ๋ AI ๋ชจ๋ธ์ ๋๋ค. LLM์ ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ ์ธํธ๋ก ํ์ต๋๋ฏ๋ก ๊ธฐ๊ณ ๋ฒ์ญ, ์ง๋ฌธ ๋ต๋ณ, ํ ์คํธ ์์ฝ ๋ฑ ๋ค์ํ ์์ ์ ์ํํ ์ ์์ต๋๋ค. ํจ์จ์ ์ธ ํ์ต๊ณผ ์ผ๊ด ์ฒ๋ฆฌ๋ฅผ ์ง์ํ๋ ค๋ฉด LLM์ด ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ์ง์ฐ ์๊ฐ์ด ์งง์ ์ก์ธ์ค๊ฐ ํ์ํฉ๋๋ค. Managed Lustre๋ ํ์ต๊ณผ ์ถ๋ก ๋ชจ๋์ ํ์ํ ๋์ ์ฒ๋ฆฌ๋๊ณผ ์งง์ ์ง์ฐ ์๊ฐ์ ์ ๊ณตํ์ฌ ๋ฐ์ดํฐ ์ง์ฝ์ ์ ํ๋ฆฌ์ผ์ด์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ฏ๋ก LLM ๊ธฐ๋ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์๋ต์ฑ์ด ํฅ์๋ฉ๋๋ค.
๊ณ ํด์๋ ์ด๋ฏธ์ง ๋๋ ๋์์ ์ฒ๋ฆฌ
์๋ฃ ์์ ๋ถ์์ด๋ ์์จ ์ฃผํ ์์คํ ๊ณผ ๊ฐ์ด ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ ๋์์์ ์ฒ๋ฆฌํ๋ ๊ธฐ์กด AI ๋ฐ ML ์ ํ๋ฆฌ์ผ์ด์ ๋๋ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ๋ชจ๋ธ์๋ ๋๊ท๋ชจ ์คํ ๋ฆฌ์ง ์ฉ๋๊ณผ ๋น ๋ฅธ ๋ฐ์ดํฐ ์ก์ธ์ค๊ฐ ํ์ํฉ๋๋ค. Managed Lustre๋ ์ ํ๋ฆฌ์ผ์ด์ ์ฑ๋ฅ์ ๊ฐ์ํํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ๋ก๋ํ ์ ์๋ ๊ณ ์ฑ๋ฅ ์๊ตฌ ํ์ผ ์์คํ ์ ์ ๊ณตํฉ๋๋ค. ์๋ฅผ ๋ค์ด Managed Lustre๋ MRI ๋ฐ CT ์ค์บ๊ณผ ๊ฐ์ ๋๋์ ํ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ ์ ์์ผ๋ฉฐ ๋ชจ๋ธ ํ์ต์ ์ํด ์ปดํจํ ๋ ธ๋๋ก์ ๋น ๋ฅธ ๋ฐ์ดํฐ ๋ก๋ฉ์ ์ง์ํ ์ ์์ต๋๋ค. ์ด ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ฉด AI ๋ฐ ML ๋ชจ๋ธ์ด ์ง๋จ ๋ฐ ์น๋ฃ๋ฅผ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ๋ถ์ํ ์ ์์ต๋๋ค.
์ค๊ณ ๋์
์ด ์น์ ์์๋ Google Cloud์์ AI ๋ฐ ML ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ํด ๊ณ ๋ คํ ์ ์๋ ๋์ฒด ์ค๊ณ ์ ๊ทผ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค.
์ปดํจํ ์ธํ๋ผ ๋์
์ด ๋ฌธ์์ ์ฐธ์กฐ ์ํคํ ์ฒ๋ AI ๋ฐ ML ์ํฌ๋ก๋์ GKE๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ํฌ๋ก๋์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ Slurm์ ์ฌ์ฉํ์ฌ Compute Engine์ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค๋ฅผ ๋ฐฐํฌํ ์๋ ์์ต๋๋ค. ํ์ฅ ๊ฐ๋ฅํ ํ๊ฒฝ์ ๋ ์ AI ์ง์ ์ฌ์ฐ (IP)์ ํตํฉํด์ผ ํ๊ณ ์ ๋ฌธ ์ํฌ๋ก๋์ ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํด ์ ์ฐ์ฑ๊ณผ ์ ์ด๊ฐ ํ์ํ ๊ฒฝ์ฐ ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ต๋๋ค.
Compute Engine์ ์ฌ์ฉํ๋ฉด GKE์ ๋นํด ์ด์์ฒด์ ์์ค ์ ์ด๋ฅผ ๋ ์ธ๋ถ์ ์ผ๋ก ์ ์ดํ ์ ์์ต๋๋ค. Compute Engine์ ์ฌ์ฉํ๋ฉด ๋ค์ ์์ ์ ํ ์ ์์ต๋๋ค.
- ๊ฐ์ ๋จธ์ ๋ด์์ OS ํ๊ฒฝ์ ์ ํ, ๊ตฌ์ฑ, ๊ด๋ฆฌํ์ฌ ํน์ ์ํฌ๋ก๋ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑํฉ๋๋ค.
- ํน์ VM ๋จธ์ ์ ํ์ ์ ํํ๋ ๋ฑ ์ ํํ ์๊ตฌ์ฌํญ์ ๋ง๊ฒ ์ธํ๋ผ๋ฅผ ๋ง์ถค์ค์ ํฉ๋๋ค.
- AI ์ํฌ๋ก๋์ ์ฑ๋ฅ์ ํฅ์ํ๋ ค๋ฉด ๊ฐ์๊ธฐ ์ต์ ํ ๋จธ์ ๊ณ์ด์ ์ฌ์ฉํ์ธ์.
Slurm์ ๊ตฌ์ฑ ๊ฐ๋ฅ์ฑ์ด ๋์ ์คํ์์ค ์ํฌ๋ก๋ ๋ฐ ๋ฆฌ์์ค ๊ด๋ฆฌ์์ ๋๋ค. Slurm์ AI ์ํฌ๋ก๋๋ฅผ ๊ด๋ฆฌํ๋ ๊ฐ๋ ฅํ ์ต์ ์ ์ ๊ณตํ๋ฉฐ ์ปดํจํ ๋ฆฌ์์ค์ ๊ตฌ์ฑ๊ณผ ๊ด๋ฆฌ๋ฅผ ์ ์ดํ ์ ์์ต๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ ค๋ฉด Slurm ๊ด๋ฆฌ ๋ฐ Linux ์์คํ ๊ด๋ฆฌ์ ๋ํ ์ ๋ฌธ ์ง์์ด ํ์ํฉ๋๋ค. GKE๋ ํด๋ฌ์คํฐ ๊ด๋ฆฌ๋ฅผ ์๋ํํ๋ ๊ด๋ฆฌํ Kubernetes ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
Slurm ๋ฐฐํฌ์ ๋ํ ์์ธํ ๋ด์ฉ์ Slurm์ ํตํ HPC ํด๋ฌ์คํฐ ๋ฐฐํฌ๋ฅผ ์ฐธ๊ณ ํ์ธ์. Managed Lustre ์คํํฐ ์ฒญ์ฌ์ง๊ณผ ํจ๊ป Cluster Toolkit์ ์ฌ์ฉํ์ฌ ๋ฐฐํฌํ ์๋ ์์ต๋๋ค.
๊ฐ์๊ธฐ ์ต์
๋จธ์ ๊ฐ์๊ธฐ๋ AI ๋ฐ ML ์ํฌ๋ก๋์ ํ์ํ ๊ณ์ฐ ์๋๋ฅผ ๋์ด๋๋ก ์ค๊ณ๋ ํน์ ํ๋ก์ธ์์ ๋๋ค. GPU ๋๋ TPU๋ฅผ ์ ํํ ์ ์์ต๋๋ค.
- GPU ๊ฐ์๊ธฐ๋ ๊ทธ๋ํฝ ๋ ๋๋ง, ๋ฅ ๋ฌ๋ ํ์ต, ๊ณผํ ์ปดํจํ ๋ฑ ๋ค์ํ ์์ ์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. Google Cloud ๋ ๋ค์ํ ์ฑ๋ฅ ๋ฐ ๊ฐ๊ฒฉ๋์ ํญ๋์ GPU ์ต์ ์ ์ ๊ณตํฉ๋๋ค. GPU ๋ชจ๋ธ ๋ฐ ๊ฐ๊ฒฉ์ ๋ํ ์์ธํ ๋ด์ฉ์ GPU ๊ฐ๊ฒฉ ์ฑ ์ ์ ์ฐธ๊ณ ํ์ธ์.
- TPU๋ ๋๊ท๋ชจ AI ๋ชจ๋ธ์ ํ์ต๊ณผ ์ถ๋ก ์ ์ต์ ํ๋ ๋ง์ถค ์ค๊ณ๋ AI ๊ฐ์๊ธฐ์ ๋๋ค. TPU๋ ์ฑ๋ด, ์ฝ๋ ์์ฑ, ๋ฏธ๋์ด ์ฝํ ์ธ ์์ฑ, ํฉ์ฑ ์์ฑ, ๋น์ ์๋น์ค, ์ถ์ฒ ์์ง, ๋ง์ถค์ค์ ๋ชจ๋ธ ๋ฑ ๋ค์ํ ์ฌ์ฉ ์ฌ๋ก์ ์ ํฉํฉ๋๋ค. TPU ๋ชจ๋ธ ๋ฐ ๊ฐ๊ฒฉ์ ๋ํ ์์ธํ ๋ด์ฉ์ TPU ๊ฐ๊ฒฉ ์ฑ ์ ์ ์ฐธ๊ณ ํ์ธ์.
์คํ ๋ฆฌ์ง ๋์
Anywhere Cache๊ฐ ํฌํจ๋ Cloud Storage FUSE๋ ํ์ต, ์ฒดํฌํฌ์ธํธ, ์ํฌ๋ก๋ ์ ๊ณต์ ์ฌ์ฉํ ์ ์์ต๋๋ค. Anywhere Cache๊ฐ ์ ์ฉ๋ Cloud Storage FUSE๋ Managed Lustre์ ๋นํด ๋น์ฉ์ด ์ ๋ ดํ๊ณ ๋ฉํฐ ๋ฆฌ์ ์ถ๋ก ์ด ์ฉ์ดํ๋ฏ๋ก ์๋น ๋ฐ ์ถ๋ก ์ ๊ถ์ฅ๋๋ ์คํ ๋ฆฌ์ง ์๋ฃจ์ ์ ๋๋ค. ์ต๊ณ ์์ค์ ๊ฐ์ฉ์ฑ์ ๋ณด์ฅํ๋ ค๋ฉด Anywhere Cache ๋ฐ ๋ฉํฐ ๋ฆฌ์ ๋๋ ์ด์ค ๋ฆฌ์ ๋ฒํท๊ณผ ํจ๊ป Cloud Storage FUSE๋ฅผ ์ฌ์ฉํ์ธ์. ์ด ๊ตฌ์ฑ์ ์ฌ์ฉํ๋ฉด ํ์ต๋ AI ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฆฌ์ ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ํ์ง๋ง ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค์ ๋น๊ตํ๋ฉด Cloud Storage FUSE์ VM๋น ์ฒ๋ฆฌ๋์ด ๋ฎ์ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ Cloud Storage FUSE๋ก AI ๋ฐ ML ์ํฌ๋ก๋ ์ต์ ํ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
์ค๊ณ ๊ณ ๋ ค์ฌํญ
Google Cloud์์ AI ๋ฐ ML ์ํฌ๋ก๋์ ๋ณด์, ์์ ์ฑ, ๋น์ฉ, ์ด์, ์ฑ๋ฅ์ ์ต์ ํํ๋ Managed Lustre ๋ฐฐํฌ๋ฅผ ์ค๊ณํ๋ ค๋ฉด ๋ค์ ์น์ ์ ๊ฐ์ด๋๋ผ์ธ์ ๋ฐ๋ฅด์ธ์.
Google Cloud์์ AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ์ํคํ ์ฒ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ ๋ํ ๊ฐ์๋ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ ์ ์ฐธ๊ณ ํ์ธ์.
๋ณด์, ๊ฐ์ธ ์ ๋ณด ๋ณดํธ, ๊ท์ ์ค์
์ด ์น์ ์์๋Google Cloud ์์ ๋ณด์, ๊ฐ์ธ ์ ๋ณด ๋ณดํธ, ๊ท์ ์ค์ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑํ๋ AI ๋ฐ ML ์ํฌ๋ก๋์ ๋ํ ๊ณ ๋ ค์ฌํญ์ ์ค๋ช ํฉ๋๋ค.
SSH ๋ณด์
GKE์์ ์คํ๋๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ก์ธ์ค ์ ์ด๋ฅผ ๊ฐํํ๋ ค๋ฉด IAP (Identity-Aware Proxy)๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฉ๋๋ค. IAP๋ GKE ์ธ๊ทธ๋ ์ค ๋ฆฌ์์ค์ ํตํฉ๋๋ฉฐ ์ฌ๋ฐ๋ฅธ Identity and Access Management (IAM) ์ญํ ์ ๊ฐ์ง ์ธ์ฆ๋ ์ฌ์ฉ์๋ง ์ ํ๋ฆฌ์ผ์ด์ ์ ์ก์ธ์คํ ์ ์๋์ง ํ์ธํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ์์ธํ ๋ด์ฉ์ GKE์ IAP ์ฌ์ฉ ์ค์ ๋ฐ IAM์ผ๋ก ์ก์ธ์ค ์ ์ด๋ฅผ ์ฐธ๊ณ ํ์ธ์.
๋ฐ์ดํฐ ์ํธํ
๊ธฐ๋ณธ์ ์ผ๋ก ๊ด๋ฆฌ Lustre ์ธ์คํด์ค์ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ GKE์ ๋ฐ์ดํฐ๋ Google-owned and Google-managed encryption keys๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฅ ๋ฐ์ดํฐ์ ์ ์ก ์ค ๋ฐ์ดํฐ ์ํ๋ก ์ํธํ๋ฉ๋๋ค. ๋ฏผ๊ฐํ ์ ๋ณด์ ๋ํ ์ถ๊ฐ ๋ณด์ ๋ ์ด์ด๋ก์ Cloud Key Management Service (Cloud KMS)์์ ์ฌ์ฉ์๊ฐ ์์ ํ๊ณ ๊ด๋ฆฌํ๋ ํค๋ฅผ ์ฌ์ฉํ์ฌ ์ ํ๋ฆฌ์ผ์ด์ ๋ ์ด์ด์ ๋ฐ์ดํฐ๋ฅผ ์ํธํํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ์ ํ๋ฆฌ์ผ์ด์ ๋ ์ด์ด์์ ๋ณด์ ๋น๋ฐ ์ํธํ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
GKE Standard ํด๋ฌ์คํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ ์ถ๊ฐ ๋ฐ์ดํฐ ์ํธํ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- Confidential Google Kubernetes Engine ๋ ธ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ ์ค ๋ฐ์ดํฐ (์ฆ, ๋ฉ๋ชจ๋ฆฌ์ ์๋ ๋ฐ์ดํฐ)๋ฅผ ์ํธํํฉ๋๋ค. Confidential GKE Node์ ๊ธฐ๋ฅ, ๊ฐ์ฉ์ฑ, ์ ํ์ฌํญ์ ๋ํ ์์ธํ ๋ด์ฉ์ Confidential GKE Node๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ ์ค์ธ ์ํฌ๋ก๋ ๋ฐ์ดํฐ ์ํธํ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
- GKE ๋ ธ๋ ๊ฐ ํฌ๋ ํธ๋ํฝ์ ์ํธํํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ํธํ ํค๋ฅผ ๋ ์ธ๋ฐํ๊ฒ ์ ์ดํด์ผ ํ๋ ๊ฒฝ์ฐ ๊ด๋ฆฌํ๋ ํค๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ก ์ค ๋ฐ์ดํฐ๋ฅผ ์ํธํํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ์ฌ์ฉ์ ๊ด๋ฆฌ ์ํธํ ํค๋ก GKE์์ ์ ์ก ์ค ๋ฐ์ดํฐ ์ํธํ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
๋ฐ์ดํฐ ๊ฒฉ๋ฆฌ
๋ณด์์ ๊ฐํํ๊ณ ๋ฐ์ดํฐ ๋ณดํธ๋ฅผ ๊ฐ์ ํ๋ ค๋ฉด ์ฒดํฌํฌ์ธํธ์ ํ์ต๋ ๋ชจ๋ธ๊ณผ๋ ๋ณ๋์ ๊ด๋ฆฌ Lustre ์ธ์คํด์ค์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ์ธ์. ๋ณ๋์ ์คํ ๋ฆฌ์ง ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ ๊ฒฉ๋ฆฌ๊ฐ ์ ๊ณต๋๊ณ , ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ฒฉ๋ฆฌํ์ฌ ๋ณด์์ด ๊ฐํ๋๋ฉฐ, ๋ฐ์ดํฐ ๋ณดํธ๊ฐ ๊ฐ์ ๋ฉ๋๋ค. ์ก์ธ์ค ์ ์ด ๋ชฉ๋ก์ ์ฌ์ฉํ๋ฉด ๋จ์ผ ์ธ์คํด์ค ๋ด์์ ๋ณด์์ ๊ด๋ฆฌํ ์ ์์ง๋ง ๋ณ๋์ ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ๊ฐ๋ ฅํ ๋ณด์ ๊ฒฝ๊ณ๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค.
์ถ๊ฐ ๋ณด์ ๊ณ ๋ ค์ฌํญ
Autopilot ๋ชจ๋์ ์์ ์์๋ GKE๊ฐ ํด๋ฌ์คํฐ๋ฅผ ์ฌ์ ๊ตฌ์ฑํ๊ณ ๋ณด์ ๊ถ์ฅ์ฌํญ์ ๋ฐ๋ผ ๋ ธ๋๋ฅผ ๊ด๋ฆฌํ๋ฏ๋ก ์ํฌ๋ก๋๋ณ ๋ณด์์ ์ง์คํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ GKE Autopilot ๋ณด์ ๊ธฐ๋ฅ ๋ฐ GKE Autopilot์ ์ฌ์ฉํ ์ด์ ์ง์ Kubernetes ๋ณด์์ ์ฐธ๊ณ ํ์ธ์.
๋ฐ์ดํฐ์ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ๋ฅผ ๋ณดํธํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ฏผ๊ฐํ ์ ๋ณด ๋ณดํธ ๊ฐ์ ๋ฐ ์คํ ๋ฆฌ์ง ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ฏผ๊ฐํ ์ ๋ณด ๊ฒ์ฌ๋ฅผ ์ฐธ๊ณ ํ์ธ์. Google Cloud
AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ๋ณด์ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ : ๋ณด์์ ์ฐธ๊ณ ํ์ธ์.
์์ ์ฑ
์ด ์น์ ์์๋ ์ด ์ฐธ์กฐ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ Google Cloud์์ ๋ฆฌ์ ๋ฐฐํฌ๋ฅผ ์ํ ์์ ์ ์ธ ์ธํ๋ผ๋ฅผ ๋น๋ํ๊ณ ์ด์ํ ๋ ๊ณ ๋ คํด์ผ ํ๋ ์ค๊ณ ์์๋ฅผ ์ค๋ช ํฉ๋๋ค.
์ธํ๋ผ ์ค๋จ์ ๋ํ ๊ฒฌ๊ณ ์ฑ
์ด ์ํคํ ์ฒ์ ์ฌ์ฉ๋๋ Autopilot ๋ชจ๋์ ์์ ์์๋ GKE๊ฐ ๋ค์๊ณผ ๊ฐ์ ์์ ์ฑ ๊ธฐ๋ฅ์ ๊ธฐ๋ณธ ์ ๊ณตํฉ๋๋ค.
- ์ํฌ๋ก๋์์ ๋ฆฌ์ ๋ณ GKE ํด๋ฌ์คํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ปจํธ๋กค ํ๋ ์ธ๊ณผ ์์ปค ๋ ธ๋๊ฐ ๋ฆฌ์ ๋ด 3๊ฐ ์์ญ์ ๋ถ์ฐ๋ฉ๋๋ค. ์์ญ ์ค๋จ์ด ๋ฐ์ํ๋๋ผ๋ ์ํฌ๋ก๋๊ฐ ์ด์๋ฉ๋๋ค. ๋ฆฌ์ GKE ํด๋ฌ์คํฐ์ ์ ํ์ ์๋น์ค์์ค๊ณ์ฝ (SLA)์ด ์์ญ ํด๋ฌ์คํฐ๋ณด๋ค ๋์ต๋๋ค.
- ๋ ธ๋๋ฅผ ๋ง๋ค๊ฑฐ๋ ๋ ธ๋ ํ์ ๊ด๋ฆฌํ ํ์๊ฐ ์์ต๋๋ค. GKE๋ ์ํฌ๋ก๋ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ๋ ธ๋ ํ์ ์๋์ผ๋ก ๋ง๋ค๊ณ ์๋์ผ๋ก ํ์ฅํฉ๋๋ค.
์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฐ์ฉ์ฑ์ ๋์ด๋ ค๋ฉด ๊ฐ ์์ญ์ Managed Lustre ์ธ์คํด์ค๋ฅผ ๋ฐฐํฌํ์ฌ ์ฌ๋ฌ ์์ญ์์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ๊ณตํ๋ฉด ๋ฉ๋๋ค.
ํด๋ฌ์คํฐ ์ฉ๋ ๊ณํ
GKE ํด๋ฌ์คํฐ์ ์๋ ํ์ฅ์ ํ์ํ ๊ฒฝ์ฐ ์ถฉ๋ถํ GPU ์ฉ๋์ ์ฌ์ฉํ ์ ์๋๋ก ์์ฝ ๊ธฐ๋ฅ์ ๋ง๋ค์ด ์ฌ์ฉํ๋ฉด ๋ฉ๋๋ค. ์์ฝ์ ์ง์ ๋ ๋ฆฌ์์ค์ ๋ํด ํน์ ์์ญ์์ ๋ณด์ฅ๋ ์ฉ๋์ ์ ๊ณตํฉ๋๋ค. ์์ฝ์ ํ๋ก์ ํธ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ง์ ํ ์ ์๊ณ ์ฌ๋ฌ ํ๋ก์ ํธ ๊ฐ์ ๊ณต์ ํ ์ ์์ต๋๋ค. ๋ฆฌ์์ค๊ฐ ํ๋ก๋น์ ๋๋๊ฑฐ๋ ์ฌ์ฉ๋์ง ์๋๋ผ๋ ์์ฝ๋ ๋ฆฌ์์ค์ ๋ํ ์๊ธ์ด ๋ฐ์ํฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ์์ฝ๋ ์์ญ๋ณ ๋ฆฌ์์ค ์ฌ์ฉ์ ์ฐธ๊ณ ํ์ธ์.
๋ฐ์ดํฐ ๋ด๊ตฌ์ฑ
GKE์์ ์ํฌ๋ก๋๋ฅผ ๋ฐฑ์ ํ๊ณ ๋ณต์ํ๋ ค๋ฉด ๊ฐ ํด๋ฌ์คํฐ์์ Backup for GKE๋ฅผ ์ฌ์ฉ ์ค์ ํ์ธ์. Backup for GKE๋ ์ฌํด ๋ณต๊ตฌ, CI/CD ํ์ดํ๋ผ์ธ, ์ํฌ๋ก๋ ํด๋ก , ์ ๊ทธ๋ ์ด๋ ์๋๋ฆฌ์ค์ ์ ์ฉํฉ๋๋ค.
๋ฐฑ์ ๋ฐ ๋ณต์ํ๋ ค๋ ํน์ ์ํฌ๋ก๋ ๋๋ ๋ชจ๋ ์ํฌ๋ก๋๋ฅผ ์ ํํ ์ ์์ต๋๋ค. ํ ํด๋ฌ์คํฐ์์ ์ํฌ๋ก๋๋ฅผ ๋ฐฑ์ ํ๊ณ ์ด๋ฅผ ๋ค๋ฅธ ํด๋ฌ์คํฐ๋ก ๋ณต์ํ ์๋ ์์ต๋๋ค. ์ํฌ๋ก๋ ๋ค์ดํ์์ ์ค์ด๋ ค๋ฉด ์ฌ๊ณ ๋ฐ์ ์ ์ํฌ๋ก๋๋ฅผ ๋น ๋ฅด๊ฒ ๋ณต๊ตฌํ ์ ์๋๋ก ๋ฐฑ์ ์ ์์ฝํ์ฌ ์๋์ผ๋ก ์คํํ๋ฉด ๋ฉ๋๋ค.
์ถ๊ฐ ์์ ์ฑ ๊ณ ๋ ค์ฌํญ
AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ์์ ์ฑ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ : ์์ ์ฑ์ ์ฐธ๊ณ ํ์ธ์.
๋น์ฉ ์ต์ ํ
์ด ์น์ ์์๋ Google Cloud์์ AI ๋ฐ ML ์ํฌํ๋ก๋ฅผ ์ค์ ํ๊ณ ์ด์ํ๋ ๋น์ฉ์ ์ต์ ํํ ์ ์๊ฒ ๋์์ค๋๋ค.
Managed Lustre ์ฑ๋ฅ ๋ฑ๊ธ
Managed Lustre ์ธ์คํด์ค๋ฅผ ๋ง๋ค ๋ ์ฑ๋ฅ ๋ฑ๊ธ์ ์ ํํด์ผ ํฉ๋๋ค. ์ํฌ๋ก๋์ ์ฑ๋ฅ ๋ฐ ๋น์ฉ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ์ ์ ํ ๋ฑ๊ธ์ ์ ํํฉ๋๋ค.
๋ ธ๋ ํ๋ก๋น์ ๋ ๋ชจ๋ธ
Autopilot ๋ชจ๋์์ GKE๋ ์ํฌ๋ก๋ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ํด๋ฌ์คํฐ ์ธํ๋ผ์ ํจ์จ์ฑ์ ์ต์ ํํฉ๋๋ค. ๋น์ฉ์ ๊ด๋ฆฌํ๊ธฐ ์ํด ๋ฆฌ์์ค ์ฌ์ฉ๋ฅ ์ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๊ฑฐ๋ ์ฉ๋์ ๊ด๋ฆฌํ ํ์๊ฐ ์์ต๋๋ค.
Autopilot ํด๋ฌ์คํฐ์ CPU, ๋ฉ๋ชจ๋ฆฌ, ์์ ์คํ ๋ฆฌ์ง ์ฌ์ฉ๋์ ์์ธกํ ์ ์์ผ๋ฉด ์ฝ์ ์ฌ์ฉ ํ ์ธ์ ๋ฐ์ ์ ์์ต๋๋ค. ์ ํ๋ฆฌ์ผ์ด์ ์คํ ๋น์ฉ์ ์ค์ด๋ ค๋ฉด GKE ๋ ธ๋์ ์คํ VM์ ์ฌ์ฉํ๋ฉด ๋ฉ๋๋ค. ์คํ VM์ ํ์ค VM๋ณด๋ค ๊ฐ๊ฒฉ์ด ์ ๋ ดํ์ง๋ง ๊ฐ์ฉ์ฑ์ ๋ณด์ฅํ์ง ์์ต๋๋ค.
๋ฆฌ์์ค ๊ด๋ฆฌ
ํจ์จ์ ์ธ ๊ด๋ฆฌ๋ฅผ ํตํด ๋น์ฉ๊ณผ ์ฑ๋ฅ์ ์ต์ ํํ๋ ค๋ฉด ๋์ ์ํฌ๋ก๋ ์ค์ผ์ค๋ฌ๋ฅผ ์ฌ์ฉํ์ธ์. ๋์ ์ํฌ๋ก๋ ์ค์ผ์ค๋ฌ๋ AI ๊ฐ์๊ธฐ (GPU ๋ฐ TPU)์ ๋ํ ์ก์ธ์ค๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ๋์์ด ๋๋ ๋ฆฌ์์ค ๊ด๋ฆฌ ๋ฐ ์์ ์ค์ผ์ค๋ฌ์ ๋๋ค. ๋์ ์ํฌ๋ก๋ ์ค์ผ์ค๋ฌ๋ ๋ชจ๋ ๊ฐ์๊ธฐ๋ฅผ ๋์์ ์์ฝํ๋ฉฐ ์ ์๋ ๊ฐ์๊ธฐ ์ฉ๋ ๊ด๋ฆฌ๋ก ์คํ ํผํฌํ์์ ์คํํ ์ ์์ต๋๋ค. ๋์ ์ํฌ๋ก๋ ์ค์ผ์ค๋ฌ๋ ์์ ์ ์ ๋ต์ ์ผ๋ก ์์ฝํ์ฌ ๊ฐ์๊ธฐ ํ์ฉ๋ฅ ์ ๊ทน๋ํํ๊ณ , ์ ํด ์๊ฐ์ ์ค์ด๋ฉฐ, ํด๋ผ์ฐ๋ ์ง์ถ์ ์ต์ ํํฉ๋๋ค.
๋ฆฌ์์ค ์ฌ์ฉ๋ฅ
๋ฆฌ์์ค ์ฌ์ฉ๋ฅ ์ ๊ทน๋ํํ๋ ค๋ฉด ํ์ต ๋ฐ ์ ๊ณต์ ํ๋์ Managed Lustre ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ์ธ์. ํ์ต ๋ฐ ์ ๊ณต ์ํฌ๋ก๋๋ฅผ ๋จ์ผ ๊ด๋ฆฌ Lustre ์ธ์คํด์ค๋ก ํตํฉํ๋ฉด ์ค๋ณต ์ธํ๋ผ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ฆฌ์์ค ๊ด๋ฆฌ๋ฅผ ๊ฐ์ํํ์ฌ ๋น์ฉ์ ์ต์ํํ ์ ์์ต๋๋ค. ํ์ง๋ง ๋ ์ํฌ๋ก๋ ๋ชจ๋ ์ฒ๋ฆฌ๋ ์๊ตฌ์ฌํญ์ด ๋์ ๊ฒฝ์ฐ ๋ฆฌ์์ค ๊ฒฝํฉ์ด ๋ฐ์ํ ์ ์์ต๋๋ค. ํ์ต ํ ์ฌ์ IOPS๊ฐ ์๋ ๊ฒฝ์ฐ ๋์ผํ ์ธ์คํด์ค๋ฅผ ์ฌ์ฉํ๋ฉด ์๋น์ ์ํ ๋ชจ๋ธ ๋ก๋ฉ์ ๊ฐ์ํํ ์ ์์ต๋๋ค. Cloud Monitoring์ ์ฌ์ฉํ์ฌ ์ฒ๋ฆฌ๋ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑํ๊ธฐ์ ์ถฉ๋ถํ ๋ฆฌ์์ค๋ฅผ ํ ๋นํ๋์ง ํ์ธํฉ๋๋ค.
์คํ ๋ฆฌ์ง ๋น์ฉ์ ์ต์ํํ๋ ค๋ฉด ํ์ต ๋ฐ ์ฒดํฌํฌ์ธํธ ํ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค์์ ๋ฐ์ดํฐ๋ฅผ ๋น์ฉ์ด ์ ๋ ดํ Cloud Storage ํด๋์ค๋ก ๋ด๋ณด๋ด์ธ์. ๋ฐ์ดํฐ๋ฅผ Cloud Storage๋ก ๋ด๋ณด๋ด๋ฉด ์ํฌ๋ก๋์ ํ์ํ ๊ฒฝ์ฐ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค๋ฅผ ์ญ์ ํ๊ณ ๋ค์ ๋ง๋ค ์๋ ์์ต๋๋ค.
Cloud Storage ๋ฒํท์ ๋น์ฉ์ ๊ด๋ฆฌํ๋ ค๋ฉด ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ ๋๋ ์๋ ํด๋์ค๋ฅผ ์ฌ์ฉ ์ค์ ํ์ธ์. ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ๋ ์ค์ ํ ๊ท์น์ ๋ฐ๋ผ ์ค๋๋๊ฑฐ๋ ์ฌ์ฉ ๋น๋๊ฐ ๋ฎ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ดํ ์คํ ๋ฆฌ์ง ํด๋์ค๋ก ์๋ ์ด๋ํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํฉ๋๋ค. ์๋ ํด๋์ค๋ ์ก์ธ์ค ํจํด์ ๋ฐ๋ผ ์คํ ๋ฆฌ์ง ํด๋์ค ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ํฉ๋๋ค. ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ ๋๋ Autoclass๋ฅผ ์ฌ์ฉํ๋ฉด ๋น์ฉ์ ์ต์ํํ๊ณ ์๊ธฐ์น ์์ ๊ฒ์ ๋น์ฉ์ ๋ฐฉ์งํ์ฌ ๋ฐ์ดํฐ ์ฌ์ฉ์ ๊ฐ์ฅ ๋น์ฉ ํจ์จ์ ์ธ ์คํ ๋ฆฌ์ง ํด๋์ค๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ถ๊ฐ ๋น์ฉ ๊ณ ๋ ค์ฌํญ
AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ๋น์ฉ ์ต์ ํ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ : ๋น์ฉ ์ต์ ํ๋ฅผ ์ฐธ๊ณ ํ์ธ์. GKE์์ ๋น์ฉ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ๋ด์ฉ์ GKE์์ ๋น์ฉ์ ์ต์ ํ๋ Kubernetes ์ ํ๋ฆฌ์ผ์ด์ ์ ์คํํ๊ธฐ ์ํ ๊ถ์ฅ์ฌํญ์ ์ฐธ๊ณ ํ์ธ์.
์ด์ ์ฐ์์ฑ
์ด ์น์ ์์๋ ํจ์จ์ ์ผ๋ก ์ด์ํ ์ ์๋ AI ๋ฐ ML ์ํฌํ๋ก์ฉ ์ธํ๋ผ๋ฅผ ์ค๊ณํ๋ ๋ฐ ๋์์ด ๋๋ ์๋ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ชจ๋ธ ๊ด๋ฆฌ
๋ฐ์ด๋๋ฆฌ ๋ฐ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ๋น๋กฏํ ๋ชจ๋ธ ์ํฐํฉํธ๋ฅผ ์ถ์ ํ๊ณ ๊ด๋ฆฌํ๋ ค๋ฉด Vertex AI Model Registry๋ฅผ ์ฌ์ฉํ์ธ์. ์ด ๋ ์ง์คํธ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ ๋ฒ์ ์ ์ํํ๊ฒ ์ ์ฅ, ์ ๋ฆฌ, ๋ฐฐํฌํ ์ ์์ต๋๋ค.
๋ชจ๋ธ ์์ ์ฑ์ ์ต์ ํํ๋ ค๋ฉด Vertex AI ๋ชจ๋ธ ๋ชจ๋ํฐ๋ง์ ๊ตฌํํ์ฌ ๋ฐ์ดํฐ ๋๋ฆฌํํธ๋ฅผ ๊ฐ์งํ๊ณ , ์ฑ๋ฅ์ ์ถ์ ํ๊ณ , ํ๋ก๋์ ์์ ์ด์์น๋ฅผ ์๋ณํ์ธ์.
GKE ํด๋ฌ์คํฐ ์๋ ํ์ฅ
Autopilot ํด๋ฌ์คํฐ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ธ๋ ํ์ ํ๋ก๋น์ ๋ํ๊ฑฐ๋ ๊ด๋ฆฌํ ํ์๊ฐ ์์ต๋๋ค. ๋ ธ๋ ํ์ ๋ ธ๋ ์๋ ํ๋ก๋น์ ๋์ ํตํด ์๋์ผ๋ก ํ๋ก๋น์ ๋๋๊ณ ์ํฌ๋ก๋ ์๊ตฌ์ฌํญ์ด ์ถฉ์กฑ๋๋๋ก ์๋์ผ๋ก ํ์ฅ๋ฉ๋๋ค.
GKE Standard ํด๋ฌ์คํฐ์ ๊ฒฝ์ฐ ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ฒ๋ฆฌ๋ ์ํฌ๋ก๋ ์๊ตฌ์ ๋ฐ๋ผ ๋ ธ๋ ํ ๋ด์ ๋ ธ๋ ์๋ฅผ ์๋์ผ๋ก ์กฐ์ ํฉ๋๋ค. ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ฒ๋ฆฌ์ ์๋ ํ์ฅ ๋์์ ์ ์ดํ๋ ค๋ฉด ๋ ธ๋ ํ์ ์ต์ ๋ฐ ์ต๋ ํฌ๊ธฐ๋ฅผ ์ง์ ํ๋ฉด ๋ฉ๋๋ค.
GKE ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ฒ๋ฆฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ํด๋ฌ์คํฐ ๋ ธ๋์ ๋ํด Compute Engine ๊ด๋ฆฌํ ์ธ์คํด์ค ๊ทธ๋ฃน (MIG) ์๋ ํ์ฅ์ ์ฌ์ฉ ์ค์ ํ์ง ๋ง์ธ์. GKE ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ฒ๋ฆฌ๋ Compute Engine ์๋ ํ์ฅ ์ฒ๋ฆฌ์ ๊ตฌ๋ถ๋ฉ๋๋ค. GKE ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ฒ๋ฆฌ๋ ๊ธฐ๋ณธ MIG๋ฅผ ๋น๋กฏํ GKE ํด๋ฌ์คํฐ ์ ๋ฐ์ ๋ฆฌ์์ค ์ฌ์ฉ๋ฅ ์ ๋ถ์ํ์ฌ ์ํฌ๋ก๋๋ฅผ ํ์ฅํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋ ์๋ ํ์ฅ ์ฒ๋ฆฌ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ฉด ํ์ฅ ๊ฒฐ์ ์ด ์ถฉ๋ํ ์ ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ GKE ํด๋ฌ์คํฐ ์๋ ํ์ฅ ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํ์ธ์.
์ธก์ ํญ๋ชฉ ๋ชจ๋ํฐ๋ง
๋ณ๋ชฉ ํ์์ ์๋ณํ๋ ค๋ฉด ์ง์ฐ ์๊ฐ, ์ค๋ฅ์จ, ๋ฆฌ์์ค ์ฌ์ฉ๊ณผ ๊ฐ์ ์ฃผ์ ์ธก์ ํญ๋ชฉ์ ๋ชจ๋ํฐ๋งํ๊ณ Cloud Monitoring์ ์ฌ์ฉํ์ธ์. Cloud Monitoring์ ๋ฆฌ์์ค ์ฌ์ฉ ํจํด์ ์ถ์ ํ๊ณ ์ ์ฌ์ ์ธ ๋นํจ์จ์ฑ์ ์๋ณํ ์ ์๋ ์ค์๊ฐ ๊ฐ์์ฑ์ ์ ๊ณตํฉ๋๋ค.
์คํ ๋ฆฌ์ง ๊ด๋ฆฌ
Cloud Storage ๋ฒํท์ ์ฌ์ฉ๋์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ ๊ด๋ฆฌ๋ฅผ ์๋ํํ๋ ค๋ฉด ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ ๋๋ ์๋ ํด๋์ค๋ฅผ ์ฌ์ฉ ์ค์ ํ์ธ์. ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ๋ ์ค์ ํ ๊ท์น์ ๋ฐ๋ผ ์ค๋๋๊ฑฐ๋ ์ฌ์ฉ ๋น๋๊ฐ ๋ฎ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ดํ ์คํ ๋ฆฌ์ง ํด๋์ค๋ก ์๋ ์ด๋ํ๊ฑฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํฉ๋๋ค. ์๋ ํด๋์ค๋ ์ก์ธ์ค ํจํด์ ๋ฐ๋ผ ์คํ ๋ฆฌ์ง ํด๋์ค ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ํฉ๋๋ค. ๊ฐ์ฒด ์๋ช ์ฃผ๊ธฐ ๊ด๋ฆฌ ๋๋ Autoclass๋ฅผ ์ฌ์ฉํ๋ฉด ์คํ ๋ฆฌ์ง ์ธํ๋ผ ์ ๋ฐ์์ ์ผ๊ด๋ ์ ์ฑ ์ ์ฉ์ ๋ณด์ฅํ๊ณ ์ ์ฌ์ ์ธ ์ธ์ ์ค๋ฅ๋ฅผ ์ค์ผ ์ ์์ผ๋ฏ๋ก ์๋ ๊ฐ์ ์์ด ์ฑ๋ฅ๊ณผ ๋น์ฉ ์ ๊ฐ ํจ๊ณผ๋ฅผ ๋ชจ๋ ์ป์ ์ ์์ต๋๋ค.
์ถ๊ฐ ์ด์ ๊ณ ๋ ค์ฌํญ
AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ์ด์ ์ฐ์์ฑ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ : ์ด์ ์ฐ์์ฑ์ ์ฐธ๊ณ ํ์ธ์.
์ฑ๋ฅ ์ต์ ํ
์ด ์น์ ์์๋ Google Cloud์์ AI ๋ฐ ML ์ํฌํ๋ก์ ์ฑ๋ฅ์ ์ต์ ํํ๋ ๋ฐ ๋์์ด ๋๋ ์๋ด๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด ์น์ ์ ์๋ด๋ ์ผ๋ถ์ผ ๋ฟ ๋ชจ๋ ๋ด์ฉ์ ํฌํจํ์ง๋ ์์ต๋๋ค. Google Cloud Managed Lustre ํ๊ฒฝ์ ์ฑ๋ฅ ์ต์ ํ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ฑ๋ฅ ๊ณ ๋ ค์ฌํญ์ ์ฐธ๊ณ ํ์ธ์.
ํ์ต ๊ณ ๋ ค์ฌํญ
๊ฐ A3 ๋๋ A4 VM์ ๊ด๋ฆฌ Lustre ์ธ์คํด์ค์์ 20GB/s(GPU๋น ์ฝ 2.5GB/s)๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค. ํ์ต์ด ์์๋๊ธฐ ์ ์ ํ์ต ์ค์ ์ง์ฐ ์๊ฐ์ ์ต์ํํ๋ ค๋ฉด Cloud Storage์์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ ธ์ ๊ด๋ฆฌํ Lustre๋ก ๊ฐ์ ธ์์ผ ํฉ๋๋ค. ํ์ต ์ํฌ๋ก๋์ ์ฒ๋ฆฌ๋์ ์ต๋ํํ๋ ค๋ฉด ์ฒ๋ฆฌ๋ ๋ฐ ์คํ ๋ฆฌ์ง ์ฉ๋ ์๊ตฌ์ฌํญ์ ๋ง๊ฒ Managed Lustre ์ธ์คํด์ค๋ฅผ ํ๋ก๋น์ ๋ํ์ธ์. ์๋ฅผ ๋ค์ด 20TiB ๊ด๋ฆฌ Lustre ์ธ์คํด์ค๋ ์ ํํ ์ฑ๋ฅ ๋ฑ๊ธ์ ๋ฐ๋ผ ๋ชจ๋ ํด๋ผ์ด์ธํธ์์ 2.5GB/s~20GB/s์ ์ง๊ณ ์ฒ๋ฆฌ๋์ ์ ๊ณตํฉ๋๋ค. ํ์ต์ ๋ ๋์ ์ฒ๋ฆฌ๋์ด ํ์ํ ๊ฒฝ์ฐ ์ด์ ๋ฐ๋ผ Managed Lustre ์ธ์คํด์ค ํฌ๊ธฐ๋ฅผ ๋๋ ค์ผ ํฉ๋๋ค.
์ฒดํฌํฌ์ธํธ ๊ณ ๋ ค์ฌํญ
๊ด๋ฆฌํ Lustre๊ฐ ์ ๊ณตํ๋ ๋์ ์ฐ๊ธฐ ์ฒ๋ฆฌ๋์ ํ์ฉํ๊ณ ํ์ต ์๊ฐ์ ์ต์ํํ๋ ค๋ฉด ํ์ต๊ณผ ์ฒดํฌํฌ์ธํธ ๋ชจ๋์ ๊ด๋ฆฌํ Lustre๋ฅผ ์ฌ์ฉํ์ธ์. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ๋ฆฌ์์ค๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๊ณ ํ์ต๊ณผ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ต๋ํ ๋น ๋ฅด๊ฒ ์ ์งํ์ฌ GPU ๋ฆฌ์์ค์ ์ด์์ ๋น์ฉ์ ๋ฎ์ถ ์ ์์ต๋๋ค. ๋น ๋ฅธ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ฌ์ฑํ๋ ค๋ฉด ๋ถ์ฐ ๋น๋๊ธฐ ์ฒดํฌํฌ์ธํธ๋ฅผ ์คํํ๋ฉด ๋ฉ๋๋ค. Managed Lustre๋ ์๊ตฌ์ ์ด๋ฏ๋ก ๋์ผํ ์ธ์คํด์ค ๋ด์ ์ฒดํฌํฌ์ธํธ๋ฅผ ์ ์ฅํ ์ ์์ต๋๋ค. ์ถ๊ฐ ๋น์ฉ ์ต์ ํ ๋ฐ ์ฅ๊ธฐ ์คํ ๋ฆฌ์ง๋ฅผ ์ํด ์ฒดํฌํฌ์ธํธ๋ฅผ Cloud Storage ๋ฒํท์ผ๋ก ๋ด๋ณด๋ด๋ ๊ฒ์ด ์ข์ต๋๋ค.
์ ๊ณต ๊ณ ๋ ค์ฌํญ
์๋น ์ค์ ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ค๋ฉด ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํ๋ ๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ์ต์ํํด์ผ ํฉ๋๋ค. Managed Lustre๋ VM๋น 20GB/s ์ด์์ ๋์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํ์ฌ ๋์ ์ง๊ณ ํด๋ฌ์คํฐ ์ฒ๋ฆฌ๋์ ์ ๊ณตํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ฉด ์์ฒ ๊ฐ์ VM์์ ๋ชจ๋ธ ๋ก๋ ์๊ฐ์ ์ต์ํํ ์ ์์ต๋๋ค. ๋ณ๋ชฉ ํ์์ ์๋ณํ ์ ์๋ ์ฃผ์ ์ธก์ ํญ๋ชฉ์ ์ถ์ ํ๋ ค๋ฉด Cloud Monitoring์ ์ฌ์ฉํ๊ณ ์คํ ๋ฆฌ์ง ์ฉ๋์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋๋๋ก ์ถฉ๋ถํ ์ฉ๋์ ๋ฐฐํฌํ๋์ง ํ์ธํ์ธ์.
๋ฆฌ์์ค ๋ฐฐ์น
์ง์ฐ ์๊ฐ์ ์ต์ํํ๊ณ ์ฑ๋ฅ์ ์ต๋ํํ๋ ค๋ฉด GPU ๋๋ TPU ์ปดํจํ ํด๋ผ์ด์ธํธ์ ์ง๋ฆฌ์ ์ผ๋ก ๊ฐ๊น์ด ๋ฆฌ์ ์ ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค๋ฅผ ๋ง๋์ธ์. ์ด ๋ฌธ์์์ ์ค๋ช ํ๋ ์ฐธ์กฐ ์ํคํ ์ฒ์์ GKE ์ปจํ ์ด๋์ ํ์ผ ์์คํ ์ ๋์ผํ ์์ญ์ ์์ต๋๋ค.
- ํ์ต ๋ฐ ์ฒดํฌํฌ์ธํธ: ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ํด ํด๋ผ์ด์ธํธ์ ๊ด๋ฆฌ Lustre ์ธ์คํด์ค๋ฅผ ๋์ผํ ์์ญ์ ๋ฐฐํฌํฉ๋๋ค. ์ด๋ฌํ ๊ณต๋ ๋ฐฐ์น๋ก ๋ฐ์ดํฐ ์ ์ก ์๊ฐ์ด ์ต์ํ๋๊ณ ๊ด๋ฆฌํ Lustre ์ฐ๊ธฐ ์ฒ๋ฆฌ๋์ ํ์ฉ๋๊ฐ ๊ทน๋ํ๋ฉ๋๋ค.
- ์๋น: ๋์ผํ ์์ญ์ ์ปดํจํ ํด๋ผ์ด์ธํธ์ ๊ณต๋ ๋ฐฐ์นํ๋ ๊ฒ์ด ์ด์์ ์ด์ง๋ง ๋ฆฌ์ ๋น ๊ด๋ฆฌํ Lustre ์ธ์คํด์ค ํ๋๋ก ์ถฉ๋ถํ ์ ์์ต๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ์ฌ๋ฌ ์ธ์คํด์ค๋ฅผ ๋ฐฐํฌํ๋ ๋ฐ ๋๋ ์ถ๊ฐ ๋น์ฉ์ ๋ฐฉ์งํ๊ณ ์ปดํจํ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์์ต๋๋ค. ํ์ง๋ง ์ถ๊ฐ ์ฉ๋์ด๋ ์ฒ๋ฆฌ๋์ด ํ์ํ ๊ฒฝ์ฐ ๋ฆฌ์ ๋น ์ธ์คํด์ค๋ฅผ ๋ ๊ฐ ์ด์ ๋ฐฐํฌํ๋ ๊ฒ์ด ์ข์ต๋๋ค.
๊ด๋ฆฌํ Lustre ์ธ์คํด์ค์ ์ง์๋๋ ๋ฆฌ์ ๋ฐ ์์ญ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์ง์๋๋ ์์น๋ฅผ ์ฐธ๊ณ ํ์ธ์.
์ถ๊ฐ ์ฑ๋ฅ ๊ณ ๋ ค์ฌํญ
AI ๋ฐ ML ์ํฌ๋ก๋์ ๊ด๋ จ๋ ์ฑ๋ฅ ์ต์ ํ ์์น ๋ฐ ๊ถ์ฅ์ฌํญ์ Well-Architected Framework์ AI ๋ฐ ML ๊ด์ : ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ฐธ๊ณ ํ์ธ์.
๋ฐฐํฌ
๊ด๋ฆฌํ Lustre ์ธ์คํด์ค๋ฅผ ๋ง๋ค๊ณ ๋ง์ดํธํ๋ ค๋ฉด Cluster Toolkit์์ ์ ๊ณต๋๋ ๊ด๋ฆฌํ Lustre ๋ชจ๋์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ต๋๋ค. ํด๋ฌ์คํฐ ํดํท์Google Cloud์์ ๋ฐ๋ณต ๊ฐ๋ฅํ AI ๋ฐ ML ํ๊ฒฝ์ ๋ฐฐํฌํ๋๋ก ์ค๊ณ๋ ๋ชจ๋์ Terraform ๊ธฐ๋ฐ ํดํท์ ๋๋ค.
GKE์ Managed Lustre๋ฅผ ์๋์ผ๋ก ๋ฐฐํฌํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ๋ด์ฉ์ Managed Lustre ์ธ์คํด์ค ๋ง๋ค๊ธฐ ๋ฐ Google Kubernetes Engine์์ ๊ธฐ์กด Managed Lustre ์ธ์คํด์ค์ ์ฐ๊ฒฐ์ ์ฐธ๊ณ ํ์ธ์.
๊ด๋ฆฌํ Lustre์ฉ VPC ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ๋ด์ฉ์ VPC ๋คํธ์ํฌ ๊ตฌ์ฑ์ ์ฐธ๊ณ ํ์ธ์.
๋ค์ ๋จ๊ณ
- HPC ์ํฌ๋ก๋์ฉ ๋ณ๋ ฌ ํ์ผ ์์คํ ์ฌ์ฉ ๋ฐฉ๋ฒ์ ์์ธํ ์์๋ณด์ธ์.
- Google Cloud์์ ๋จธ์ ๋ฌ๋์ ๊ตฌํํ๊ธฐ ์ํ ๊ถ์ฅ์ฌํญ์ ๋ํด ์์ธํ ์์๋ณด์ธ์.
- Google Cloud์์ AI ๋ฐ ML ์ํฌ๋ก๋๋ฅผ ์ํ ์คํ ๋ฆฌ์ง๋ฅผ ์ค๊ณํ๋ ๋ฐฉ๋ฒ์ ์์ธํ ์์๋ณด์ธ์.
- GKE์์ Keras๋ฅผ ์ฌ์ฉํ์ฌ TensorFlow ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์์ธํ ์์๋ณด์ธ์.
- ๊ทธ ๋ฐ์ ์ฐธ์กฐ ์ํคํ ์ฒ, ๋ค์ด์ด๊ทธ๋จ, ํํ ๋ฆฌ์ผ, ๊ถ์ฅ์ฌํญ์ ์์๋ณด๋ ค๋ฉด ํด๋ผ์ฐ๋ ์ํคํ ์ฒ ์ผํฐ๋ฅผ ํ์ธํ์ธ์.
์ฐธ์ฌ์
์ ์: ์ฌ๋ง๋ค ํค | ๊ธฐ์ ๋ฌธ์ ์์ฑ์
๊ธฐํ ์ฐธ์ฌ์:
- ๋ ํ๋ฐ๋ธ๋๋ | CTO์ค ๊ธฐ์ ์ด์ฌ
- ์ ์: ์ฟ ๋ง๋ฅด ๋ค๋๊ณ ํ | ํฌ๋ก์ค ํ๋ก๋ํธ ์๋ฃจ์ ๊ฐ๋ฐ์
- ์ ๋ฐ๋งํด | ์คํ ๋ฆฌ์ง ๋ถ๋ฌธ ๊ทธ๋ฃน ์ ํ ๊ด๋ฆฌ์