Apache Spark on Google Cloud

Google Cloud์—์„œ Spark์˜ ๋ชจ๋“  ์ž ์žฌ๋ ฅ์„ ํ™œ์šฉํ•˜์„ธ์š”. ์„œ๋ฒ„๋ฆฌ์Šค์˜ ํŽธ๋ฆฌํ•จ ๋˜๋Š” ํด๋Ÿฌ์Šคํ„ฐ ์ œ์–ด ์ค‘์—์„œ ์„ ํƒํ•˜์„ธ์š”. ๊ณ ์† ์ฒ˜๋ฆฌ, AI ์ง€์›, ์›ํ™œํ•œ ๊ฐœ๋ฐฉํ˜• ๋ ˆ์ดํฌํ•˜์šฐ์Šค ์—ฐ๊ฒฐ๋กœ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

์ด์ 

๊ฐœ๋ฐœ์ž ์ƒ์‚ฐ์„ฑ์„ ๋†’์ด๊ณ  ์‹ ์†ํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ ์ธ์‚ฌ์ดํŠธ ํŒŒ์•…

๋ชจ๋“  ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ์ž๋ฅผ ์œ„ํ•œ ์›ํ™œํ•œ Spark

์„œ๋ฒ„๋ฆฌ์Šค ๋˜๋Š” ๊ด€๋ฆฌํ˜• ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” BigQuery, Vertex AI ๋ฐ IDE๋กœ Spark๋ฅผ ๊ฐ„ํŽธํ•˜๊ฒŒ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฝ”๋“œ ๋ฐ ์šด์˜์„ ์œ„ํ•œ Gemini๋ฅผ ์‚ฌ์šฉํ•ด ์ปค์Šคํ…€ ํ†ตํ•ฉ์„ ์ œ๊ฑฐํ•˜๊ณ  ETL์—์„œ ML ์›Œํฌํ”Œ๋กœ๊นŒ์ง€ ๊ฐ„์†Œํ™”ํ•˜๋ฉฐ ์ƒ์‚ฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.


์„œ๋ฒ„๋ฆฌ์Šค Spark๋ฅผ ํ†ตํ•œ ์šด์˜ ๊ฐ„์†Œํ™”

Apache Spark์šฉ Google Cloud ์„œ๋ฒ„๋ฆฌ์Šค๋Š” ์ฆ‰๊ฐ์ ์ธ ์ž๋™ ํ™•์žฅ๊ณผ ๊ฑฐ์˜ ์ œ๋กœ์— ๊ฐ€๊นŒ์šด ๊ตฌ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. Lightning Engine(ํ”„๋ฆฌ๋ทฐ)์œผ๋กœ ์ฟผ๋ฆฌ ์„ฑ๋Šฅ์„ 3.6๋ฐฐ ํ–ฅ์ƒ*ํ•˜์„ธ์š”. Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์ž‘์—…์„ ๊ฐ„์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.

์›ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ Spark ์‹คํ–‰

ํ•˜๋‚˜์˜ ๊ธฐ์ˆ ๋กœ ๋ชจ๋“  ๊ฒƒ์„ ์ด๋ฃฐ ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค. Google Cloud๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์„œ๋ฒ„๋ฆฌ์Šค, ๊ด€๋ฆฌํ˜• ํด๋Ÿฌ์Šคํ„ฐ, ์ปดํ“จํŒ… ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์—์„œ Spark ์›Œํฌ๋กœ๋“œ์— ๋งž๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์œ ์—ฐํ•˜๊ฒŒ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

Google Cloud์—์„œ Spark๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•

Apache Spark์šฉ Google Cloud ์„œ๋ฒ„๋ฆฌ์Šค

Apache Spark์šฉ Google Cloud ์„œ๋ฒ„๋ฆฌ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Lightning Engine* ๋ฐ Gemini๋กœ ์ƒ์‚ฐ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด ํ™˜๊ฒฝ์€ BigQuery์—์„œ Apache Spark ๋ฐ SQL ์›Œํฌ๋กœ๋“œ๋ฅผ ์ง์ ‘ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ธด๋ฐ€ํ•˜๊ฒŒ ํ†ตํ•ฉ๋œ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ํ†ตํ•ฉ ๋ณด์•ˆ, BigLake metastore๋ฅผ ์‚ฌ์šฉํ•œ ๋Ÿฐํƒ€์ž„ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ, Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ๋ฅผ ํ†ตํ•œ ๊ฑฐ๋ฒ„๋„Œ์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํ†ตํ•ฉ๋œ CI/CD, ๋…ธํŠธ๋ถ์˜ Gemini๋ฅผ ํ†ตํ•ด ์ƒ์‚ฐ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  Apache Spark ํด๋Ÿฌ์Šคํ„ฐ ๊ด€๋ฆฌ๋ฅผ ์—†์•ฑ๋‹ˆ๋‹ค.

*์ฟผ๋ฆฌ๋Š” TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€์—์„œ ํŒŒ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹คํ–‰์€ TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€ ์‚ฌ์–‘์˜ ๋ชจ๋“  ์š”๊ตฌ์‚ฌํ•ญ์„ ์ค€์ˆ˜ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ฒŒ์‹œ๋œ TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€ ๊ฒฐ๊ณผ์™€ ๋น„๊ตํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

Dataproc์„ ์‚ฌ์šฉํ•˜๋Š” ๊ด€๋ฆฌํ˜• Spark, Hadoop, OSS ํด๋Ÿฌ์Šคํ„ฐ

Dataproc์€ ์ „์šฉ Spark, Hadoop, 30๊ฐœ ์ด์ƒ์˜ ์˜คํ”ˆ์†Œ์Šค ๋„๊ตฌ๋กœ ๊ตฌ์„ฑ๋œ ๊ด‘๋ฒ”์œ„ํ•œ ์ƒํƒœ๊ณ„๋ฅผ ๋ฐฐํฌํ•˜๊ณ  ์šด์˜ํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ์„ฑ์ด ๋›ฐ์–ด๋‚œ ์™„์ „ ๊ด€๋ฆฌํ˜• ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค. Google Compute Engine ๊ธฐ๋ฐ˜ Dataproc(ํ”„๋ฆฌ๋ฏธ์—„ ๋“ฑ๊ธ‰)์šฉ Lightning Engine์„ ๋น„๋กฏํ•œ ๋” ๊ด‘๋ฒ”์œ„ํ•œ Google Cloud ์ œํ’ˆ ๋ฐ ์„œ๋น„์Šค์™€ ํ†ตํ•ฉ๋˜์–ด ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ํ˜„๋Œ€ํ™”, ํšจ์œจ์ ์ธ ETL ํŒŒ์ดํ”„๋ผ์ธ, ํด๋Ÿฌ์Šคํ„ฐ ์ œ์–ด๊ฐ€ ๋ฌด์—‡๋ณด๋‹ค ์ค‘์š”ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ด๋‹ˆ์…”ํ‹ฐ๋ธŒ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

Google Cloud์—์„œ Apache Spark๋ฅผ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™

Apache Spark์šฉ Google Cloud ์„œ๋ฒ„๋ฆฌ์Šค์˜ ์ œ๋กœ์˜ต์Šค ๋‹จ์ˆœ์„ฑ์„ ์„ ํ˜ธํ•˜๋“  ๊ด€๋ฆฌํ˜• Dataproc ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ œ์–ด๋ฅผ ์„ ํ˜ธํ•˜๋“  ์ „์ฒด ๋จธ์‹ ๋Ÿฌ๋‹ ์ˆ˜๋ช… ์ฃผ๊ธฐ๋ฅผ ๊ฐ€์†ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด์ ์„ ๋ˆ„๋ฆฌ์„ธ์š”.

  • ์›ํ™œํ•œ ํ†ตํ•ฉ: ๋ฐ์ดํ„ฐ ์•ก์„ธ์Šค๋ฅผ ์œ„ํ•œ BigQuery์™€ MLOps๋ฅผ ์œ„ํ•œ Vertex AI๋ฅผ ์†์‰ฝ๊ฒŒ ์—ฐ๊ฒฐํ•˜์—ฌ ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋นŒ๋“œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฐœ๋ฐœ์ž ์ƒ์‚ฐ์„ฑ: Gemini๋ฅผ ํ™œ์šฉํ•˜์—ฌ BigQuery Studio ๋ฐ Vertex AI Workbench์™€ ๊ฐ™์€ ๋…ธํŠธ๋ถ ํ™˜๊ฒฝ์—์„œ ์ฝ”๋”ฉ ์ธ์‚ฌ์ดํŠธ์™€ ์ง€์›์„ ๋ฐ›์œผ์„ธ์š”.
  • AI/ML ์ค€๋น„: ๊นŒ๋‹ค๋กœ์šด ํ•™์Šต ๋ฐ ์ถ”๋ก  ํƒœ์Šคํฌ๋ฅผ ์œ„ํ•ด ์„œ๋ฒ„๋ฆฌ์Šค Spark ๋ฐ Dataproc ํด๋Ÿฌ์Šคํ„ฐ ๋ชจ๋‘์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ์ „ ํŒจํ‚ค์ง•๋œ ML ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ GPU ๊ฐ€์†ํ™”๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋” ๋น ๋ฅธ ๋ฐ˜๋ณต: ๋ฌด์—‡์„ ์„ ํƒํ•˜๋“  ๊ฐœ๋ฐœ๊ณผ ์‹คํ—˜์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Vertex AI๋ฅผ ํ†ตํ•œ Spark

Vertex AI๋ฅผ ์‚ฌ์šฉํ•ด ๋ฐ์ดํ„ฐ ๊ณผํ•™์„ ์œ„ํ•œ Spark๋ฅผ ์›ํ™œํ•˜๊ฒŒ ๊ฐœ๋ฐœํ•˜๊ณ  ์šด์˜ํ•˜์„ธ์š”. Vertex AI Workbench์˜ Spark๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณด์•ˆ ๊ธฐ๋Šฅ์ด ๊ธฐ๋ณธ ์ œ๊ณต๋˜๋ฉฐ Gemini์˜ ์ง€์›์„ ๋ฐ›๋Š” ๋Œ€ํ™”ํ˜• ๊ฐœ๋ฐœ์„ ์ˆ˜ํ–‰ํ•˜์„ธ์š”. ๊ฐ•๋ ฅํ•œ MLOps๋ฅผ ์œ„ํ•ด Spark ์ฒ˜๋ฆฌ๋ฅผ Vertex AI Pipelines์— ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

๋ ˆ์ดํฌํ•˜์šฐ์Šค๋ฅผ ์œ„ํ•œ ์˜คํ”ˆ์†Œ์Šค ํ…Œ์ด๋ธ” ํ˜•์‹ ์ง€์›

Google Cloud์˜ Spark ์ œํ’ˆ์€ Apache Iceberg, Delta Lake, Hudi์™€ ๊ฐ™์€ ์˜คํ”ˆ์†Œ์Šค ํ˜•์‹๊ณผ ๊ฐ•๋ ฅํ•œ ํ˜ธํ™˜์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. BigLake Metastore ๋˜๋Š” Dataproc Metastore๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ˜•์‹ ์ „๋ฐ˜์—์„œ ํ†ตํ•ฉ๋œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ๋ฅผ ์ง€์›ํ•˜๋ฏ€๋กœ, ์›ํ•˜๋Š” Spark ์—”์ง„์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐœ๋ฐฉํ˜• ๋ ˆ์ดํฌํ•˜์šฐ์Šค ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


Apache Spark๋Š” Apache Software Foundation์˜ ์ƒํ‘œ์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ ๋‹จ๊ณ„ ์ˆ˜ํ–‰

ํ•ด๊ฒฐํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์•Œ๋ ค์ฃผ์„ธ์š”. ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์†”๋ฃจ์…˜์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก Google Cloud ์ „๋ฌธ๊ฐ€๊ฐ€ ๋„์™€๋“œ๋ฆฝ๋‹ˆ๋‹ค.

  • ๋””์ง€ํ„ธ ํ˜์‹  ๊ฐ€์†ํ™”
  • ๋””์ง€ํ„ธ ํ˜์‹ ์„ ์ด์ œ ๋ง‰ ์‹œ์ž‘ํ•œ ๊ธฐ์—…์ด๋“  ์ด๋ฏธ ์ผ์ • ์ˆ˜์ค€์— ๋„๋‹ฌํ•œ ๊ธฐ์—…์ด๋“  Google Cloud๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ฐ€์žฅ ๊นŒ๋‹ค๋กœ์šด ๋„์ „๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ถ”์ฒœ ์ œํ’ˆ
  • ํˆฌ๋ช…ํ•œ ๊ฐ€๊ฒฉ ์ฑ…์ • ๋ฐฉ์‹์œผ๋กœ ๋น„์šฉ ์ ˆ๊ฐ
  • Google Cloud๋Š” ์‚ฌ์šฉํ•œ ๋งŒํผ๋งŒ ์ง€๋ถˆํ•˜๋Š” ๊ฐ€๊ฒฉ ์ฑ…์ • ๋ฐฉ์‹์œผ๋กœ ์›”๋ณ„ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ์„ ๋ถˆ ๋ฆฌ์†Œ์Šค์˜ ํ• ์ธ์œจ์„ ๊ธฐ์ค€์œผ๋กœ ์ž๋™ ํ• ์ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ Google์— ๋ฌธ์˜ํ•˜์—ฌ ๊ฒฌ์ ์„ ๋ฐ›์•„๋ณด์„ธ์š”.
Google Cloud