Dataproc

Spark, Hadoop, ์˜คํ”ˆ์†Œ์Šค ๋ถ„์„์„ ์œ„ํ•œ ๊ด€๋ฆฌํ˜• ํ”Œ๋žซํผ

์™„์ „ ๊ด€๋ฆฌํ˜• Apache Spark, Hadoop, 30๊ฐœ ์ด์ƒ์˜ ์˜คํ”ˆ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์†์‰ฝ๊ฒŒ ์ œ์–ดํ•˜์—ฌ ์‹คํ–‰ํ•˜์„ธ์š”. Lightning Engine์œผ๋กœ Compute Engine์˜ Spark๋ฅผ ๊ฐ€์†ํ™”ํ•˜๊ณ  Google Cloud์˜ ๊ฐœ๋ฐฉํ˜• ๋ ˆ์ดํฌํ•˜์šฐ์Šค์™€ ํ†ตํ•ฉํ•˜์„ธ์š”.

Apache Spark๋Š” Apache Software Foundation์˜ ์ƒํ‘œ์ž…๋‹ˆ๋‹ค.

๊ธฐ๋Šฅ

๊ฐ•๋ ฅํ•œ Hadoop ์ƒํƒœ๊ณ„ ์ง€์›

Dataproc์€ Spark ์™ธ์—๋„ ์ „์ฒด Apache Hadoop ์Šคํƒ(๋งต๋ฆฌ๋“€์Šค, HDFS, YARN)๊ณผ Flink, Trino, Hive, ๊ธฐํƒ€ 30๊ฐœ ์ด์ƒ์˜ ์˜คํ”ˆ์†Œ์Šค ๋„๊ตฌ๋ฅผ ์œ„ํ•œ ์™„์ „ ๊ด€๋ฆฌํ˜• ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„œ๋น„์Šค๋ฅผ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด Dataproc์€ ์™„์ „ ๊ด€๋ฆฌํ˜• Hive Metastore ์„œ๋น„์Šค์ธ Dataproc Metastore์™€ ํ†ตํ•ฉํ•˜์—ฌ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ๊ตฌ์„ฑ์š”์†Œ์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ๋ฅผ ๊ฐ„์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ์›Œํฌ๋กœ๋“œ๋ฅผ ํ˜„๋Œ€ํ™”ํ•˜๊ฑฐ๋‚˜ ์„ ํ˜ธํ•˜๋Š” ์—”์ง„์œผ๋กœ ์ƒˆ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๋นŒ๋“œํ•˜์„ธ์š”.

Lightning Engine์„ ์‚ฌ์šฉํ•œ ๊ด€๋ฆฌํ˜• Spark

๊ด€๋ฆฌํ˜• Dataproc ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ œ์–ด ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ๊นŒ๋‹ค๋กœ์šด Spark ์›Œํฌ๋กœ๋“œ๋ฅผ ์‹คํ–‰ํ•˜์„ธ์š”. ํ˜„์žฌ ํ”„๋ฆฌ๋ทฐ ๋ฒ„์ „์˜ Lightning Engine**์œผ๋กœ ์ฟผ๋ฆฌ ์†๋„๊ฐ€ 3.6๋ฐฐ* ๋นจ๋ผ์กŒ์Šต๋‹ˆ๋‹ค. Spark SQL ๋ฐ DataFrame ์ž‘์—…์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋ฒ„์ „ ๋ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์„ ํƒํ•˜์—ฌ ํ•„์š”์— ๋”ฐ๋ผ Spark ํ™˜๊ฒฝ์„ ์ •ํ™•ํ•˜๊ฒŒ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

*์ฟผ๋ฆฌ๋Š” TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€์—์„œ ํŒŒ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹คํ–‰์€ TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€ ์‚ฌ์–‘์˜ ๋ชจ๋“  ์š”๊ตฌ์‚ฌํ•ญ์„ ์ค€์ˆ˜ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ฒŒ์‹œ๋œ TPC-DS ํ‘œ์ค€ ๋ฐ TPC-H ํ‘œ์ค€ ๊ฒฐ๊ณผ์™€ ๋น„๊ตํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

**Compute Engine ๊ธฐ๋ฐ˜ Dataproc ํ”„๋ฆฌ๋ฏธ์—„ ๋“ฑ๊ธ‰์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์œ ์—ฐํ•œ ํด๋Ÿฌ์Šคํ„ฐ ๊ตฌ์„ฑ ๋ฐ ๊ด€๋ฆฌ

๋‹ค์–‘ํ•œ ๋จธ์‹  ์œ ํ˜•(GPU ํฌํ•จ), ์„ ์ ํ˜• VM, ๋””์Šคํฌ ์˜ต์…˜, ์ž๋™ ํ™•์žฅ ์ •์ฑ…, ์ดˆ๊ธฐํ™” ์ž‘์—…, ์ปจํ…Œ์ด๋„ˆ/์ด๋ฏธ์ง€, ์„ ํƒ์  ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Dataproc ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋งž์ถค์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์›Œํฌํ”Œ๋กœ ํ…œํ”Œ๋ฆฟ๊ณผ ๊ฐ™์€ ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ์ž‘์—…์„ ์กฐ์ •ํ•˜๊ณ  ์ฝ˜์†”, gcloud, API ๋˜๋Š” ํด๋ผ์ด์–ธํŠธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ํฌ๊ด„์ ์ธ ์ธก์ •ํ•ญ๋ชฉ, ๋Œ€์‹œ๋ณด๋“œ, ์•Œ๋ฆผ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” Cloud Monitoring๊ณผ ํ†ตํ•ฉํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ ์„ฑ๋Šฅ ๋ฐ ์ƒํƒœ์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ๊ฐ€์‹œ์„ฑ์„ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค.

๊ฐœ๋ฐฉํ˜• ๋ ˆ์ดํฌํ•˜์šฐ์Šค ์—ฐ๊ฒฐ

Dataproc ํด๋Ÿฌ์Šคํ„ฐ๋Š” BigLake Metastore์™€ ๊ธฐ๋ณธ์ ์œผ๋กœ ํ†ตํ•ฉ๋˜๋ฏ€๋กœ Cloud Storage ๊ธฐ๋ฐ˜ Apache Iceberg์™€ ๊ฐ™์€ ๊ฐœ๋ฐฉํ˜• ํ˜•์‹์œผ๋กœ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ Hive ๊ธฐ๋ฐ˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์š”๊ตฌ์‚ฌํ•ญ์˜ ๊ฒฝ์šฐ ๊ด€๋ฆฌํ˜• Dataproc Metastore ์„œ๋น„์Šค์™€ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค. Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ ˆ์ดํฌํ•˜์šฐ์Šค ์• ์…‹ ์ „๋ฐ˜์—์„œ ํ†ตํ•ฉ ํƒ์ƒ‰, ๊ณ„๋ณด, ๊ฑฐ๋ฒ„๋„Œ์Šค๋ฅผ ์‹คํ˜„ํ•˜์„ธ์š”. Dataproc์„ BigQuery, Vertex AI, Spanner, Pub/Sub, Data Fusion์— ์—ฐ๊ฒฐํ•˜์—ฌ ๊ฐ•๋ ฅํ•œ ์—”๋“œ ํˆฌ ์—”๋“œ ์†”๋ฃจ์…˜์„ ๋งŒ๋“ค์–ด ๋ฐ์ดํ„ฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ํ™•์žฅํ•˜์„ธ์š”.

์˜คํ”ˆ์†Œ์Šค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ณด์•ˆ

Google Cloud์˜ ๊ฐ•๋ ฅํ•œ ๋ณด์•ˆ ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•˜์„ธ์š”. Kerberos๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ , IAM์œผ๋กœ ์•ก์„ธ์Šค๋ฅผ ๊ด€๋ฆฌํ•˜๊ณ , VPC ์„œ๋น„์Šค ์ œ์–ด๋กœ ๋„คํŠธ์›Œํฌ ์ •์ฑ…์„ ์ ์šฉํ•˜๊ณ , CMEK๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ์™€ ํ†ตํ•ฉํ•˜์—ฌ ์ค‘์•™ ์ง‘์ค‘์‹ ์ •์ฑ… ๊ด€๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ  BigLake๋กœ ์„ธ๋ถ„ํ™”๋œ ์•ก์„ธ์Šค ์ œ์–ด๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด์™€ ๋ฐ์ดํ„ฐ ๊ณผํ•™์ž์˜ ์—ญ๋Ÿ‰ ๊ฐ•ํ™”

๋…ธํŠธ๋ถ์—์„œ ์‹คํ–‰๋˜๋Š” Jupyter ๋ฐ VS Code IDE์™€ ๊ฐ™์€ ์ต์ˆ™ํ•œ ๋„๊ตฌ์™€ IDE๋ฅผ ํ™œ์šฉํ•˜์—ฌ Dataproc ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ๋Œ€ํ™”ํ˜• Spark ๊ฐœ๋ฐœ์„ ์œ„ํ•ด Dataproc์„ Vertex AI Workbench์™€ ํ†ตํ•ฉํ•˜๊ณ  ์—”๋“œ ํˆฌ ์—”๋“œ Vertex AI๋ฅผ ์‚ฌ์šฉํ•œ AI/ML ํŒŒ์ดํ”„๋ผ์ธ์„ ๋นŒ๋“œํ•˜์„ธ์š”.

์ž‘๋™ ๋ฐฉ์‹

๊ฐ•๋ ฅํ•œ ๋ถ„์„์„ ์œ„ํ•œ ๊ฐ„์†Œํ™”๋œ ํด๋Ÿฌ์Šคํ„ฐ ์ž‘์—…

์ผ๋ฐ˜์ ์ธ ์šฉ๋„

๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ํ˜„๋Œ€ํ™” ๋ฐ Hadoop ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜

๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ํ˜„๋Œ€ํ™”

์˜จํ”„๋ ˆ๋ฏธ์Šค Hadoop ๋ฐ Spark ์›Œํฌ๋กœ๋“œ๋ฅผ ํด๋ผ์šฐ๋“œ๋กœ ๊ฐ„ํŽธํ•˜๊ฒŒ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ํ•˜์„ธ์š”. Dataproc์„ ์‚ฌ์šฉํ•˜์—ฌ Dataproc Metastore์™€ ํ†ตํ•ฉ๋˜๊ณ  Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ๋กœ ์ œ์–ด๋˜๋Š” Cloud Storage์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋งต๋ฆฌ๋“€์Šค, Hive, ํ”ผ๊ทธ, Spark ์ž‘์—…์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ํ˜„๋Œ€ํ™”

์˜จํ”„๋ ˆ๋ฏธ์Šค Hadoop ๋ฐ Spark ์›Œํฌ๋กœ๋“œ๋ฅผ ํด๋ผ์šฐ๋“œ๋กœ ๊ฐ„ํŽธํ•˜๊ฒŒ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ํ•˜์„ธ์š”. Dataproc์„ ์‚ฌ์šฉํ•˜์—ฌ Dataproc Metastore์™€ ํ†ตํ•ฉ๋˜๊ณ  Dataplex ๋ฒ”์šฉ ์นดํƒˆ๋กœ๊ทธ๋กœ ์ œ์–ด๋˜๋Š” Cloud Storage์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋งต๋ฆฌ๋“€์Šค, Hive, ํ”ผ๊ทธ, Spark ์ž‘์—…์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Spark ๋ฐ Hadoop์„ ์‚ฌ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ์ผ๊ด„ ETL

์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์ผ๊ด„ ์ฒ˜๋ฆฌ

Compute Engine ๊ธฐ๋ฐ˜ Dataproc์˜ Lightning Engine์œผ๋กœ ๊ฐ€์†ํ™”๋œ Spark ๋˜๋Š” ๋งž์ถค์„ค์ • ๊ฐ€๋Šฅํ•œ Dataproc ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋งต๋ฆฌ๋“€์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ ๋ณต์žกํ•œ ETL ํŒŒ์ดํ”„๋ผ์ธ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์„ ์ ˆ๊ฐํ•ฉ๋‹ˆ๋‹ค.

    ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ์ผ๊ด„ ์ฒ˜๋ฆฌ

    Compute Engine ๊ธฐ๋ฐ˜ Dataproc์˜ Lightning Engine์œผ๋กœ ๊ฐ€์†ํ™”๋œ Spark ๋˜๋Š” ๋งž์ถค์„ค์ • ๊ฐ€๋Šฅํ•œ Dataproc ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋งต๋ฆฌ๋“€์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ ๋ณต์žกํ•œ ETL ํŒŒ์ดํ”„๋ผ์ธ์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์„ ์ ˆ๊ฐํ•ฉ๋‹ˆ๋‹ค.

      ๊ตฌ์„ฑ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐ ML ํ™˜๊ฒฝ

      ๋Œ€๊ทœ๋ชจ ์ปค์Šคํ…€ ๋ฐ์ดํ„ฐ ๊ณผํ•™

      ํŠน์ • ๋ฒ„์ „์˜ Spark, Jupyter, ํ•„์š”ํ•œ ML ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉ์ ์— ๋งž๊ฒŒ ๋นŒ๋“œ๋œ Dataproc ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๊ฐ€๋™ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ํ˜‘์—…์˜ ๋ชจ๋ธ ํ•™์Šต ๋ฐ ๊ณ ๊ธ‰ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. MLOps๋ฅผ ์œ„ํ•œ Vertex AI์™€ ํ†ตํ•ฉํ•˜์„ธ์š”.


      ๋Œ€๊ทœ๋ชจ ์ปค์Šคํ…€ ๋ฐ์ดํ„ฐ ๊ณผํ•™

      ํŠน์ • ๋ฒ„์ „์˜ Spark, Jupyter, ํ•„์š”ํ•œ ML ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉ์ ์— ๋งž๊ฒŒ ๋นŒ๋“œ๋œ Dataproc ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๊ฐ€๋™ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ํ˜‘์—…์˜ ๋ชจ๋ธ ํ•™์Šต ๋ฐ ๊ณ ๊ธ‰ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. MLOps๋ฅผ ์œ„ํ•œ Vertex AI์™€ ํ†ตํ•ฉํ•˜์„ธ์š”.


      ๋‹ค์–‘ํ•œ ์˜คํ”ˆ์†Œ์Šค ๋ถ„์„ ์—”์ง„ ์‹คํ–‰

      ์œ ์—ฐํ•œ OSS

      ๋Œ€ํ™”ํ˜• SQL์„ ์œ„ํ•œ Trino, ๊ณ ๊ธ‰ ์ŠคํŠธ๋ฆผ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ Flink ๋˜๋Š” ๊ธฐํƒ€ ํŠนํ™”๋œ ์˜คํ”ˆ์†Œ์Šค ์—”์ง„๊ณผ ํ•จ๊ป˜ Spark ๋ฐ Hadoop์„ ์‚ฌ์šฉํ•ด ์ „์šฉ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋ฐฐํฌํ•˜์„ธ์š”. ๋ชจ๋‘ Dataproc์—์„œ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

      ์œ ์—ฐํ•œ OSS

      ๋Œ€ํ™”ํ˜• SQL์„ ์œ„ํ•œ Trino, ๊ณ ๊ธ‰ ์ŠคํŠธ๋ฆผ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ Flink ๋˜๋Š” ๊ธฐํƒ€ ํŠนํ™”๋œ ์˜คํ”ˆ์†Œ์Šค ์—”์ง„๊ณผ ํ•จ๊ป˜ Spark ๋ฐ Hadoop์„ ์‚ฌ์šฉํ•ด ์ „์šฉ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋ฐฐํฌํ•˜์„ธ์š”. ๋ชจ๋‘ Dataproc์—์„œ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

      ์†”๋ฃจ์…˜ ์ƒ์„ฑ
      ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ํ•˜์‹œ๋‚˜์š”?
      What you'll get:
      ๋‹จ๊ณ„๋ณ„ ์•ˆ๋‚ด
      ์ฐธ์กฐ ์•„ํ‚คํ…์ฒ˜
      ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์‚ฌ์ „ ๋นŒ๋“œ ์†”๋ฃจ์…˜
      ์ด ์„œ๋น„์Šค๋Š” Vertex AI๋กœ ๋นŒ๋“œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์„œ๋น„์Šค๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ๋งŒ 18์„ธ ์ด์ƒ์ด์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฏผ๊ฐํ•œ ์ •๋ณด, ๊ธฐ๋ฐ€ ์ •๋ณด ๋˜๋Š” ๊ฐœ์ธ ์ •๋ณด๋ฅผ ์ž…๋ ฅํ•˜์ง€ ๋งˆ์„ธ์š”.

      ๊ฐ€๊ฒฉ ์ฑ…์ •

      ๊ด€๋ฆฌํ˜• ํด๋Ÿฌ์Šคํ„ฐ์˜ Dataproc ๊ฐ€๊ฒฉ ์ฑ…์ •Dataproc์€ ์‚ฌ์šฉํ•œ ๋งŒํผ๋งŒ ์ง€๋ถˆํ•˜๋Š” ๋ฐฉ์‹์˜ ๊ฐ€๊ฒฉ ์ฑ…์ •์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ž๋™ ํ™•์žฅ ๋ฐ ์„ ์ ํ˜• VM์œผ๋กœ ๋น„์šฉ์„ ์ตœ์ ํ™”ํ•˜์„ธ์š”. Compute Engine ํ”„๋ฆฌ๋ฏธ์—„ ๋“ฑ๊ธ‰์€ Lightning Engine์„ ํ†ตํ•ด ๋” ๋น ๋ฅธ Spark๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

      ์ฃผ์š” ๊ตฌ์„ฑ์š”์†Œ:

      • Compute Engine ์ธ์Šคํ„ด์Šค(vCPU, ๋ฉ”๋ชจ๋ฆฌ)
      • Dataproc ์„œ๋น„์Šค ์š”๊ธˆ(vCPU-์‹œ๊ฐ„๋‹น)
      • ์˜๊ตฌ ๋””์Šคํฌ


      ์˜ˆ:

      ๊ฐ๊ฐ 2์‹œ๊ฐ„ ๋™์•ˆ ์‹คํ–‰๋œ CPU๊ฐ€ 4๊ฐœ์ด๊ณ  ๋…ธ๋“œ(๊ธฐ๋ณธ 1๊ฐœ + ์ž‘์—…์ž 5๊ฐœ)๊ฐ€ 6๊ฐœ์ธ ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋น„์šฉ์€ $0.48์ž…๋‹ˆ๋‹ค. Dataproc ์š”๊ธˆ = vCPU ์ˆ˜ * ์‹œ๊ฐ„ * Dataproc ๊ฐ€๊ฒฉ = 24 * 2 * $0.01 = $0.48

      ๊ด€๋ฆฌํ˜• ํด๋Ÿฌ์Šคํ„ฐ์˜ Dataproc ๊ฐ€๊ฒฉ ์ฑ…์ •

      Dataproc์€ ์‚ฌ์šฉํ•œ ๋งŒํผ๋งŒ ์ง€๋ถˆํ•˜๋Š” ๋ฐฉ์‹์˜ ๊ฐ€๊ฒฉ ์ฑ…์ •์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ž๋™ ํ™•์žฅ ๋ฐ ์„ ์ ํ˜• VM์œผ๋กœ ๋น„์šฉ์„ ์ตœ์ ํ™”ํ•˜์„ธ์š”. Compute Engine ํ”„๋ฆฌ๋ฏธ์—„ ๋“ฑ๊ธ‰์€ Lightning Engine์„ ํ†ตํ•ด ๋” ๋น ๋ฅธ Spark๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

      ์ฃผ์š” ๊ตฌ์„ฑ์š”์†Œ:

      • Compute Engine ์ธ์Šคํ„ด์Šค(vCPU, ๋ฉ”๋ชจ๋ฆฌ)
      • Dataproc ์„œ๋น„์Šค ์š”๊ธˆ(vCPU-์‹œ๊ฐ„๋‹น)
      • ์˜๊ตฌ ๋””์Šคํฌ


      ์˜ˆ:

      ๊ฐ๊ฐ 2์‹œ๊ฐ„ ๋™์•ˆ ์‹คํ–‰๋œ CPU๊ฐ€ 4๊ฐœ์ด๊ณ  ๋…ธ๋“œ(๊ธฐ๋ณธ 1๊ฐœ + ์ž‘์—…์ž 5๊ฐœ)๊ฐ€ 6๊ฐœ์ธ ํด๋Ÿฌ์Šคํ„ฐ์˜ ๋น„์šฉ์€ $0.48์ž…๋‹ˆ๋‹ค. Dataproc ์š”๊ธˆ = vCPU ์ˆ˜ * ์‹œ๊ฐ„ * Dataproc ๊ฐ€๊ฒฉ = 24 * 2 * $0.01 = $0.48

      ๊ฐ€๊ฒฉ ๊ณ„์‚ฐ๊ธฐ

      ๋ฆฌ์ „๋ณ„ ๊ฐ€๊ฒฉ ๋ฐ ์ˆ˜์ˆ˜๋ฃŒ๋ฅผ ํฌํ•จํ•œ ์›”๋ณ„ Dataproc ๋น„์šฉ์„ ์˜ˆ์ธกํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      ์ปค์Šคํ…€ ๊ฒฌ์ 

      ์˜์—…ํŒ€์— ๋ฌธ์˜ํ•˜์—ฌ ์กฐ์ง์— ๋Œ€ํ•œ ์ปค์Šคํ…€ ๊ฒฌ์ ์„ ๋ฐ›์•„ ๋ณด์„ธ์š”.

      ์ง€๊ธˆ ์‹œ์ž‘ํ•˜๊ธฐ

      ์‹ ๊ทœ ๊ณ ๊ฐ์„ ์œ„ํ•œ $300์˜ ๋ฌด๋ฃŒ ํฌ๋ ˆ๋”ง

      ๋Œ€๊ทœ๋ชจ ํ”„๋กœ์ ํŠธ๊ฐ€ ์žˆ๋‚˜์š”?

      Google Cloud ์ฝ˜์†”์„ ์‚ฌ์šฉํ•˜์—ฌ Dataproc ํด๋Ÿฌ์Šคํ„ฐ ๋งŒ๋“ค๊ธฐ

      Apache Spark๋กœ Cloud Storage ์ปค๋„ฅํ„ฐ ์‚ฌ์šฉ

      ์•„ํ‚คํ…์ฒ˜ ์„ผํ„ฐ์—์„œ ๋‹ค์–‘ํ•œ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ ์ฃผ์ œ ๋ฐ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•œ ์ฝ˜ํ…์ธ  ๋ฆฌ์†Œ์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค

      Dataproc
      • ๋””์ง€ํ„ธ ํ˜์‹  ๊ฐ€์†ํ™”
      • ๋””์ง€ํ„ธ ํ˜์‹ ์„ ์ด์ œ ๋ง‰ ์‹œ์ž‘ํ•œ ๊ธฐ์—…์ด๋“  ์ด๋ฏธ ์ผ์ • ์ˆ˜์ค€์— ๋„๋‹ฌํ•œ ๊ธฐ์—…์ด๋“  Google Cloud๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ฐ€์žฅ ๊นŒ๋‹ค๋กœ์šด ๋„์ „๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์ถ”์ฒœ ์ œํ’ˆ
      • ํˆฌ๋ช…ํ•œ ๊ฐ€๊ฒฉ ์ฑ…์ • ๋ฐฉ์‹์œผ๋กœ ๋น„์šฉ ์ ˆ๊ฐ
      • Google Cloud๋Š” ์‚ฌ์šฉํ•œ ๋งŒํผ๋งŒ ์ง€๋ถˆํ•˜๋Š” ๊ฐ€๊ฒฉ ์ฑ…์ • ๋ฐฉ์‹์œผ๋กœ ์›”๋ณ„ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ์„ ๋ถˆ ๋ฆฌ์†Œ์Šค์˜ ํ• ์ธ์œจ์„ ๊ธฐ์ค€์œผ๋กœ ์ž๋™ ํ• ์ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ Google์— ๋ฌธ์˜ํ•˜์—ฌ ๊ฒฌ์ ์„ ๋ฐ›์•„๋ณด์„ธ์š”.
      Google Cloud