Google Cloud์์ Spark์ ๋ชจ๋ ์ ์ฌ๋ ฅ์ ํ์ฉํ์ธ์. ์๋ฒ๋ฆฌ์ค์ ํธ๋ฆฌํจ ๋๋ ํด๋ฌ์คํฐ ์ ์ด ์ค์์ ์ ํํ์ธ์. ๊ณ ์ ์ฒ๋ฆฌ, AI ์ง์, ์ํํ ๊ฐ๋ฐฉํ ๋ ์ดํฌํ์ฐ์ค ์ฐ๊ฒฐ๋ก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
์ด์
๋ชจ๋ ๋ฐ์ดํฐ ์ฌ์ฉ์๋ฅผ ์ํ ์ํํ Spark
์๋ฒ๋ฆฌ์ค Spark๋ฅผ ํตํ ์ด์ ๊ฐ์ํ
Apache Spark์ฉ Google Cloud ์๋ฒ๋ฆฌ์ค๋ ์ฆ๊ฐ์ ์ธ ์๋ ํ์ฅ๊ณผ ๊ฑฐ์ ์ ๋ก์ ๊ฐ๊น์ด ๊ตฌ์ฑ์ ์ ๊ณตํฉ๋๋ค. Lightning Engine(ํ๋ฆฌ๋ทฐ)์ผ๋ก ์ฟผ๋ฆฌ ์ฑ๋ฅ์ 3.6๋ฐฐ ํฅ์*ํ์ธ์. Dataplex ๋ฒ์ฉ ์นดํ๋ก๊ทธ๋ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ์์ ์ ๊ฐ์ํํฉ๋๋ค.
์ํ๋ ๋ฐฉ์์ผ๋ก Spark ์คํ
ํ๋์ ๊ธฐ์ ๋ก ๋ชจ๋ ๊ฒ์ ์ด๋ฃฐ ์๋ ์์ต๋๋ค. Google Cloud๋ฅผ ์ฌ์ฉํ๋ฉด ์๋ฒ๋ฆฌ์ค, ๊ด๋ฆฌํ ํด๋ฌ์คํฐ, ์ปดํจํ ํด๋ฌ์คํฐ ์ค์์ Spark ์ํฌ๋ก๋์ ๋ง๋ ํด๋ฌ์คํฐ๋ฅผ ์ ์ฐํ๊ฒ ์ ํํ ์ ์์ต๋๋ค.
์ฃผ์ ํน์ง
Apache Spark์ฉ Google Cloud ์๋ฒ๋ฆฌ์ค๋ฅผ ์ฌ์ฉํ์ฌ Lightning Engine* ๋ฐ Gemini๋ก ์์ฐ์ฑ๊ณผ ์ฑ๋ฅ์ ํฅ์ํฉ๋๋ค. ์ด ํ๊ฒฝ์ BigQuery์์ Apache Spark ๋ฐ SQL ์ํฌ๋ก๋๋ฅผ ์ง์ ์คํํ ์ ์๋๋ก ๊ธด๋ฐํ๊ฒ ํตํฉ๋ ํ๊ฒฝ์ ๋๋ค. ํตํฉ ๋ณด์, BigLake metastore๋ฅผ ์ฌ์ฉํ ๋ฐํ์ ๋ฉํ๋ฐ์ดํฐ, Dataplex ๋ฒ์ฉ ์นดํ๋ก๊ทธ๋ฅผ ํตํ ๊ฑฐ๋ฒ๋์ค๋ฅผ ์ ๊ณตํฉ๋๋ค. ํตํฉ๋ CI/CD, ๋ ธํธ๋ถ์ Gemini๋ฅผ ํตํด ์์ฐ์ฑ์ ๊ทน๋ํํ๊ณ Apache Spark ํด๋ฌ์คํฐ ๊ด๋ฆฌ๋ฅผ ์์ฑ๋๋ค.
*์ฟผ๋ฆฌ๋ TPC-DS ํ์ค ๋ฐ TPC-H ํ์ค์์ ํ์๋์์ผ๋ฉฐ, ์ด๋ฌํ ์คํ์ TPC-DS ํ์ค ๋ฐ TPC-H ํ์ค ์ฌ์์ ๋ชจ๋ ์๊ตฌ์ฌํญ์ ์ค์ํ์ง ์์ผ๋ฏ๋ก ๊ฒ์๋ TPC-DS ํ์ค ๋ฐ TPC-H ํ์ค ๊ฒฐ๊ณผ์ ๋น๊ตํ ์ ์์ต๋๋ค.
Dataproc์ ์ ์ฉ Spark, Hadoop, 30๊ฐ ์ด์์ ์คํ์์ค ๋๊ตฌ๋ก ๊ตฌ์ฑ๋ ๊ด๋ฒ์ํ ์ํ๊ณ๋ฅผ ๋ฐฐํฌํ๊ณ ์ด์ํ๊ธฐ ์ํ ํ์ฅ์ฑ์ด ๋ฐ์ด๋ ์์ ๊ด๋ฆฌํ ์๋น์ค์ ๋๋ค. Google Compute Engine ๊ธฐ๋ฐ Dataproc(ํ๋ฆฌ๋ฏธ์ ๋ฑ๊ธ)์ฉ Lightning Engine์ ๋น๋กฏํ ๋ ๊ด๋ฒ์ํ Google Cloud ์ ํ ๋ฐ ์๋น์ค์ ํตํฉ๋์ด ๋ฐ์ดํฐ ๋ ์ดํฌ ํ๋ํ, ํจ์จ์ ์ธ ETL ํ์ดํ๋ผ์ธ, ํด๋ฌ์คํฐ ์ ์ด๊ฐ ๋ฌด์๋ณด๋ค ์ค์ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ๊ณผํ ์ด๋์ ํฐ๋ธ์ ์ ํฉํฉ๋๋ค.
Apache Spark์ฉ Google Cloud ์๋ฒ๋ฆฌ์ค์ ์ ๋ก์ต์ค ๋จ์์ฑ์ ์ ํธํ๋ ๊ด๋ฆฌํ Dataproc ํด๋ฌ์คํฐ์ ์ ์ด๋ฅผ ์ ํธํ๋ ์ ์ฒด ๋จธ์ ๋ฌ๋ ์๋ช ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ํํ ์ ์์ต๋๋ค. ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ๋๋ฆฌ์ธ์.
Vertex AI๋ฅผ ์ฌ์ฉํด ๋ฐ์ดํฐ ๊ณผํ์ ์ํ Spark๋ฅผ ์ํํ๊ฒ ๊ฐ๋ฐํ๊ณ ์ด์ํ์ธ์. Vertex AI Workbench์ Spark๋ฅผ ์ฌ์ฉํ์ฌ ๋ณด์ ๊ธฐ๋ฅ์ด ๊ธฐ๋ณธ ์ ๊ณต๋๋ฉฐ Gemini์ ์ง์์ ๋ฐ๋ ๋ํํ ๊ฐ๋ฐ์ ์ํํ์ธ์. ๊ฐ๋ ฅํ MLOps๋ฅผ ์ํด Spark ์ฒ๋ฆฌ๋ฅผ Vertex AI Pipelines์ ํตํฉํฉ๋๋ค.
Google Cloud์ Spark ์ ํ์ Apache Iceberg, Delta Lake, Hudi์ ๊ฐ์ ์คํ์์ค ํ์๊ณผ ๊ฐ๋ ฅํ ํธํ์ฑ์ ์ ๊ณตํฉ๋๋ค. BigLake Metastore ๋๋ Dataproc Metastore๋ฅผ ํ์ฉํ์ฌ ํ์ ์ ๋ฐ์์ ํตํฉ๋ ๋ฉํ๋ฐ์ดํฐ ๊ด๋ฆฌ๋ฅผ ์ง์ํ๋ฏ๋ก, ์ํ๋ Spark ์์ง์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๊ฐ๋ฐฉํ ๋ ์ดํฌํ์ฐ์ค ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
Apache Spark๋ Apache Software Foundation์ ์ํ์ ๋๋ค.
ํด๊ฒฐํด์ผ ํ๋ ๋ฌธ์ ๋ฅผ ์๋ ค์ฃผ์ธ์. ๊ฐ์ฅ ์ ํฉํ ์๋ฃจ์ ์ ์ฐพ์ ์ ์๋๋ก Google Cloud ์ ๋ฌธ๊ฐ๊ฐ ๋์๋๋ฆฝ๋๋ค.