์ค์๊ฐ ๋ฐ์ดํฐ์ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ์ธ์. Dataflow๋ ์ฌ์ฉํ๊ธฐ ์ฝ๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์ ๊ด๋ฆฌํ ์คํธ๋ฆฌ๋ฐ ํ๋ซํผ์ผ๋ก, ์ค์๊ฐ ์์ฌ ๊ฒฐ์ ๊ณผ ๊ณ ๊ฐ ๊ฒฝํ์ ๊ฐ์ํํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
์ ๊ท ๊ณ ๊ฐ์๊ฒ๋ Dataflow์ ์ฌ์ฉํ ์ ์๋ $300์ ๋ฌด๋ฃ ํฌ๋ ๋ง์ด ์ ๊ณต๋ฉ๋๋ค.
๊ธฐ๋ฅ
์ค์๊ฐ ๋ฐ์ดํฐ๋ AI/ML ๋ชจ๋ธ์ ์ต์ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ์์ธก ์ ํ๋๋ฅผ ํฅ์์ํต๋๋ค. Dataflow ML์ ์ ์ฒด ML ํ์ดํ๋ผ์ธ์ ๋ฐฐํฌ ๋ฐ ๊ด๋ฆฌ๋ฅผ ๊ฐ์ํํฉ๋๋ค. Google์์๋ ๋ง์ถค ์ถ์ฒ, ์ฌ๊ธฐ ๊ฐ์ง, ์ํ ๋ฐฉ์ง ๋ฑ์ ์ํด ์ฆ์ ์ฌ์ฉ ๊ฐ๋ฅํ ํจํด์ ์ ๊ณตํฉ๋๋ค. Vertex AI, Gemini ๋ชจ๋ธ, Gemma ๋ชจ๋ธ๋ก ์คํธ๋ฆฌ๋ฐ AI๋ฅผ ๋น๋ํ๊ณ , ์๊ฒฉ ์ถ๋ก ์ ์คํํ๊ณ , MLTransform์ผ๋ก ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ๊ฐ์ํํฉ๋๋ค. Dataflow GPU ๋ฐ ์ ํฉ ๋ง์ถค ๊ธฐ๋ฅ์ผ๋ก MLOps ๋ฐ ML ์์ ํจ์จ์ฑ์ ํฅ์ํ์ธ์.
Dataflow๋ ์คํ์์ค Apache Beam SDK๋ฅผ ์ฌ์ฉํ์ฌ ์ํฐํ๋ผ์ด์ฆ ๊ท๋ชจ๋ก ๊ณ ๊ธ ์คํธ๋ฆฌ๋ฐ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ง์ํ๋ ์์ ๊ด๋ฆฌํ ์๋น์ค์ ๋๋ค. ์ํ ๋ฐ ์๊ฐ, ๋ณํ, I/O ์ปค๋ฅํฐ๋ฅผ ์ํ ํ๋ถํ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. Dataflow๋ ์์ ๋น ์์ ์ 4,000๋ช ์ผ๋ก ํ์ฅ๋๋ฉฐ ์ ๊ธฐ์ ์ผ๋ก ํํ๋ฐ์ดํธ ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ผ๊ด ๋ฐ ์คํธ๋ฆฌ๋ฐ ํ์ดํ๋ผ์ธ์์ ๋ฆฌ์์ค ์ฌ์ฉ๋ฅ ์ ์ต์ ํํ๊ธฐ ์ํ ์๋ ํ์ฅ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
Dataflow๋ฅผ ์ฌ์ฉํ๋ฉด ์ด๋ฏธ์ง, ํ ์คํธ, ์ค๋์ค์ ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ๋์์ ์์งํ๊ณ ๋ณํํ ์ ์์ต๋๋ค. ๊ฐ ํ์์ ํน์ํ ํน์ฑ ์ถ์ถ์ ์ ์ฉํ ๋ค์ ์ด๋ฌํ ํน์ฑ์ ํตํฉ ํํ์ผ๋ก ์ตํฉํฉ๋๋ค. ์ด๋ฌํ ์ตํฉ๋ ๋ฐ์ดํฐ๊ฐ ์์ฑํ AI ๋ชจ๋ธ์ ํผ๋๋์ด ๋ค์ํ ์ ๋ ฅ๊ฐ์ผ๋ก ์๋ก์ด ์ฝํ ์ธ ๋ฅผ ๋ง๋ค ์ ์๊ฒ ๋์์ต๋๋ค. Google ๋ด๋ถํ์ Dataflow์ FlumeJava๋ฅผ ํ์ฉํ์ฌ ์ง์ฐ ์๊ฐ ์๊ตฌ์ฌํญ ์์ด ์ฌ์ฉ ๊ฐ๋ฅํ ์ ๋ ฅ ๋ฐ์ดํฐ ํ์ ๋ํ ๋ชจ๋ธ ์์ธก์ ๊ตฌ์ฑํ๊ณ ๊ณ์ฐํฉ๋๋ค.
Dataflow์๋ ์ฝ๊ฒ ์์ํ ์ ์๋ ๋๊ตฌ๊ฐ ์์ต๋๋ค. Dataflow ํ ํ๋ฆฟ์ ์คํธ๋ฆผ ๋ฐ ์ผ๊ด ์ฒ๋ฆฌ๋ฅผ ์ํด ์ฌ์ ์ค๊ณ๋ ์ฒญ์ฌ์ง์ผ๋ก, ํจ์จ์ ์ธ CDC ๋ฐ BigQuery ๋ฐ์ดํฐ ํตํฉ์ ์ต์ ํ๋์ด ์์ต๋๋ค. Vertex AI ๋ ธํธ๋ถ์ ์ฌ์ฉํ์ฌ ์ฒ์๋ถํฐ ์ต์ ๋ฐ์ดํฐ ๊ณผํ ํ๋ ์์ํฌ๋ก ํ์ดํ๋ผ์ธ์ ๋ฐ๋ณต ๋น๋ํ๊ณ Dataflow ์คํ๊ธฐ๋ก ๋ฐฐํฌํ์ธ์.Dataflow ์์ ๋น๋๋ Google Cloud ์ฝ์์์ ์ฝ๋๋ฅผ ์์ฑํ์ง ์๊ณ Dataflow ํ์ดํ๋ผ์ธ์ ๋น๋ํ๊ณ ์คํํ๊ธฐ ์ํ ์๊ฐ์ UI์ ๋๋ค.
Dataflow๋ ํฌ๊ด์ ์ธ ์ง๋จ ๋ฐ ๋ชจ๋ํฐ๋ง ๋๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋์ค ํญ๋ชฉ ๊ฐ์ง๋ ์ฑ๋ฅ ๋ณ๋ชฉ ํ์์ ์๋์ผ๋ก ์๋ณํ๋ฉฐ, ๋ฐ์ดํฐ ์ํ๋ง์ ์ฌ์ฉํ๋ฉด ๊ฐ ํ์ดํ๋ผ์ธ ๋จ๊ณ์์ ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ ์ ์์ต๋๋ค. Dataflow ํต๊ณ๋ ์์ ๊ฐ์ ์ ์ํ ๊ถ์ฅ์ฌํญ์ ์ ๊ณตํฉ๋๋ค. Dataflow UI๋ ์์ ๊ทธ๋ํ, ์คํ ์ธ๋ถ์ ๋ณด, ์ธก์ ํญ๋ชฉ, ์๋ ํ์ฅ ๋์๋ณด๋, ๋ก๊น ๋ฑ ๋ค์ํ ๋ชจ๋ํฐ๋ง ๋๊ตฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. Dataflow์๋ ๊ฐํธํ ๋น์ฉ ์ถ์ ์ ์ํ ์์ ๋น์ฉ ๋ชจ๋ํฐ๋ง UI๋ ์์ต๋๋ค.
Dataflow๋ฅผ ์ฌ์ฉํ๋ฉด ์ปจํผ๋ด์ VM ์ง์์ ํตํด ์ฌ์ฉ ์ค ๋ฐ์ดํฐ ์ํธํ, ๊ณ ๊ฐ ๊ด๋ฆฌ ์ํธํ ํค(CMEK), VPC ์๋น์ค ์ ์ด ํตํฉ, ๊ณต๊ฐ IP ์ฌ์ฉ ์ค์ง ๋ฑ ๋ค์ํ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณดํธํ ์ ์์ต๋๋ค. Dataflow ๊ฐ์ฌ ๋ก๊น ์ ์กฐ์ง์ Dataflow ์ฌ์ฉ๋์ ๋ํ ๊ฐ์์ฑ์ ์ ๊ณตํ๋ฉฐ '๋๊ฐ, ์ธ์ , ์ด๋์, ๋ฌด์์ ํ๋์ง'๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ ๋ฐ ๋์์ด ๋์ด ๊ฑฐ๋ฒ๋์ค๋ฅผ ๊ฐ์ ํ ์ ์์ต๋๋ค
์๋ ๋ฐฉ์
Dataflow๋ ์ผ๊ด ๋ฐ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์์ ๊ด๋ฆฌํ ํ๋ซํผ์ ๋๋ค. ์๋ฒ๋ฆฌ์ค Google Cloud ์ธํ๋ผ์์ Apache Beam์ ํตํฉ ๋ชจ๋ธ์ ์ฌ์ฉํ ํ์ฅ ๊ฐ๋ฅํ ETL ํ์ดํ๋ผ์ธ, ์ค์๊ฐ ์คํธ๋ฆผ ๋ถ์, ์ค์๊ฐ ML, ๋ณต์กํ ๋ฐ์ดํฐ ๋ณํ์ ์ง์ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ์ฉ๋
์ค์๊ฐ ๋ถ์ ๋ฐ ์ด์ ํ์ดํ๋ผ์ธ์ ์ํ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ๊ฐ์ ธ์ค๊ธฐ
์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ์์ค(Pub/Sub, Kafka, CDC ์ด๋ฒคํธ, ์ฌ์ฉ์ ํด๋ฆญ์คํธ๋ฆผ, ๋ก๊ทธ, ์ผ์ ๋ฐ์ดํฐ)๋ฅผ BigQuery, Google Cloud Storage ๋ฐ์ดํฐ ๋ ์ดํฌ, Spanner, Bigtable, SQL ์ ์ฅ์, Splunk, Datadog ๋ฑ์ ํตํฉํ์ฌ ๋ฐ์ดํฐ ์คํธ๋ฆฌ๋ฐ ์ฌ์ ์ ์์ํ์ธ์. ์ฝ๋ ์์ด ํด๋ฆญ ๋ช ๋ฒ๋ง์ผ๋ก ํ์ดํ๋ผ์ธ์ ์ค์ ํ๋ ์ต์ ํ๋ Dataflow ํ ํ๋ฆฟ์ ์ดํด๋ณด์ธ์. ํตํฉ UDF ๋น๋๋ฅผ ์ฌ์ฉํ์ฌ ํ ํ๋ฆฟ ์์ ์ ์ปค์คํ ๋ก์ง์ ์ถ๊ฐํ๊ฑฐ๋ Beam ๋ณํ ๋ฐ I/O ์ปค๋ฅํฐ ์ํ๊ณ์ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ์ปค์คํ ETL ํ์ดํ๋ผ์ธ์ ์ฒ์๋ถํฐ ๋ง๋ค ์ ์์ต๋๋ค. ๋ํ Dataflow๋ ๋น ๋ฅธ ์กฐํ์ ์ต์ข ์ฌ์ฉ์ ์ ๊ณต์ ์ํด BigQuery์์ OLTP ์ ์ฅ์๋ก ETL ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ์ญ๋ฐฉํฅ์ผ๋ก ์ ์กํ๋ ๋ฐ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ Dataflow์์ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ์คํ ๋ฆฌ์ง ์์น์ ์ฐ๋ ์ผ๋ฐ์ ์ธ ํจํด์ ๋๋ค.
์ฒซ Dataflow ์์ ์ ์คํํ๊ณ Dataflow ๊ธฐ์ด์ ๊ดํ ์ ํ ๊ฐ์ด๋ ๊ณผ์ ์ ์ด์ํ์ธ์.
์ค์๊ฐ ๋ถ์ ๋ฐ ์ด์ ํ์ดํ๋ผ์ธ์ ์ํ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ๊ฐ์ ธ์ค๊ธฐ
์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ์์ค(Pub/Sub, Kafka, CDC ์ด๋ฒคํธ, ์ฌ์ฉ์ ํด๋ฆญ์คํธ๋ฆผ, ๋ก๊ทธ, ์ผ์ ๋ฐ์ดํฐ)๋ฅผ BigQuery, Google Cloud Storage ๋ฐ์ดํฐ ๋ ์ดํฌ, Spanner, Bigtable, SQL ์ ์ฅ์, Splunk, Datadog ๋ฑ์ ํตํฉํ์ฌ ๋ฐ์ดํฐ ์คํธ๋ฆฌ๋ฐ ์ฌ์ ์ ์์ํ์ธ์. ์ฝ๋ ์์ด ํด๋ฆญ ๋ช ๋ฒ๋ง์ผ๋ก ํ์ดํ๋ผ์ธ์ ์ค์ ํ๋ ์ต์ ํ๋ Dataflow ํ ํ๋ฆฟ์ ์ดํด๋ณด์ธ์. ํตํฉ UDF ๋น๋๋ฅผ ์ฌ์ฉํ์ฌ ํ ํ๋ฆฟ ์์ ์ ์ปค์คํ ๋ก์ง์ ์ถ๊ฐํ๊ฑฐ๋ Beam ๋ณํ ๋ฐ I/O ์ปค๋ฅํฐ ์ํ๊ณ์ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ์ปค์คํ ETL ํ์ดํ๋ผ์ธ์ ์ฒ์๋ถํฐ ๋ง๋ค ์ ์์ต๋๋ค. ๋ํ Dataflow๋ ๋น ๋ฅธ ์กฐํ์ ์ต์ข ์ฌ์ฉ์ ์ ๊ณต์ ์ํด BigQuery์์ OLTP ์ ์ฅ์๋ก ETL ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ์ญ๋ฐฉํฅ์ผ๋ก ์ ์กํ๋ ๋ฐ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ Dataflow์์ ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ์คํ ๋ฆฌ์ง ์์น์ ์ฐ๋ ์ผ๋ฐ์ ์ธ ํจํด์ ๋๋ค.
์ฒซ Dataflow ์์ ์ ์คํํ๊ณ Dataflow ๊ธฐ์ด์ ๊ดํ ์ ํ ๊ฐ์ด๋ ๊ณผ์ ์ ์ด์ํ์ธ์.
์ค์๊ฐ ๋ฐ์ดํฐ๋ก ๋ฐ์ดํฐ ํ๋ซํผ ํ๋ํ
์ค์๊ฐ ETL ๋ฐ ํตํฉ ํ๋ก์ธ์ค์ ๋ฐ์ดํฐ ์ฆ์ ์์ฑ์ ์ง์ํ์ฌ ์ ์ํ ๋ถ์๊ณผ ์์ฌ ๊ฒฐ์ ์ ์ง์ํฉ๋๋ค. Dataflow์ ์๋ฒ๋ฆฌ์ค ์ํคํ ์ฒ ๋ฐ ์คํธ๋ฆฌ๋ฐ ๊ธฐ๋ฅ์ ์ค์๊ฐ ETL ํ์ดํ๋ผ์ธ์ ๋น๋ํ๋ ๋ฐ ์ด์์ ์ ๋๋ค. Dataflow์ ์๋ ํ์ฅ ๊ธฐ๋ฅ์ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ์ ๋ณด์ฅํ๋ ๋์์ ๋ค์ํ ๋ฐ์ดํฐ ์์ค ๋ฐ ๋์์ ์ง์ํ๋ฏ๋ก ํตํฉ์ด ๊ฐ์ํ๋ฉ๋๋ค.
์ด Google Cloud Skills Boost ๊ณผ์ ์ ํตํด Dataflow์ ์ผ๊ด ์ฒ๋ฆฌ๋ก ๊ธฐ์ด๋ฅผ ๊ตฌ์ถํ์ธ์.
์ค์๊ฐ ๋ฐ์ดํฐ๋ก ๋ฐ์ดํฐ ํ๋ซํผ ํ๋ํ
์ค์๊ฐ ETL ๋ฐ ํตํฉ ํ๋ก์ธ์ค์ ๋ฐ์ดํฐ ์ฆ์ ์์ฑ์ ์ง์ํ์ฌ ์ ์ํ ๋ถ์๊ณผ ์์ฌ ๊ฒฐ์ ์ ์ง์ํฉ๋๋ค. Dataflow์ ์๋ฒ๋ฆฌ์ค ์ํคํ ์ฒ ๋ฐ ์คํธ๋ฆฌ๋ฐ ๊ธฐ๋ฅ์ ์ค์๊ฐ ETL ํ์ดํ๋ผ์ธ์ ๋น๋ํ๋ ๋ฐ ์ด์์ ์ ๋๋ค. Dataflow์ ์๋ ํ์ฅ ๊ธฐ๋ฅ์ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ์ ๋ณด์ฅํ๋ ๋์์ ๋ค์ํ ๋ฐ์ดํฐ ์์ค ๋ฐ ๋์์ ์ง์ํ๋ฏ๋ก ํตํฉ์ด ๊ฐ์ํ๋ฉ๋๋ค.
์ด Google Cloud Skills Boost ๊ณผ์ ์ ํตํด Dataflow์ ์ผ๊ด ์ฒ๋ฆฌ๋ก ๊ธฐ์ด๋ฅผ ๊ตฌ์ถํ์ธ์.
์คํธ๋ฆฌ๋ฐ ML/AI๋ฅผ ์ฌ์ฉํ ์ค์๊ฐ ์กฐ์น
์๊ฐ์ ๊ฒฐ์ ์ด ๋น์ฆ๋์ค ๊ฐ์น๋ฅผ ๋์ ๋๋ค. ๊ณ ๊ฐ์ Dataflow Streaming AI ๋ฐ ML์ ํตํด ์ง์ฐ ์๊ฐ์ด ์งง์ ์์ธก ๋ฐ ์ถ๋ก , ์ค์๊ฐ ๋ง์ถค์ค์ , ์ํ ๊ฐ์ง, ์ฌ๊ธฐ ๋ฐฉ์ง ๋ฑ ์ค์๊ฐ ์ธํ ๋ฆฌ์ ์ค๊ฐ ์ค์ํ ๋ค์ํ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๊ตฌํํ ์ ์์ต๋๋ค. MLTransform์ผ๋ก ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ: ๋ณต์กํ ์ฝ๋ ์์ฑ์ด๋ ๊ธฐ๋ณธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ด๋ฆฌ์์ ๋ฒ์ด๋ ๋ฐ์ดํฐ ๋ณํ์ ์ง์คํ ์ ์์ต๋๋ค. RunInference๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ AI ๋ชจ๋ธ์ ๋ํด ์์ธก์ ์ํํ ์ ์์ต๋๋ค.
์คํธ๋ฆฌ๋ฐ ML/AI๋ฅผ ์ฌ์ฉํ ์ค์๊ฐ ์กฐ์น
์๊ฐ์ ๊ฒฐ์ ์ด ๋น์ฆ๋์ค ๊ฐ์น๋ฅผ ๋์ ๋๋ค. ๊ณ ๊ฐ์ Dataflow Streaming AI ๋ฐ ML์ ํตํด ์ง์ฐ ์๊ฐ์ด ์งง์ ์์ธก ๋ฐ ์ถ๋ก , ์ค์๊ฐ ๋ง์ถค์ค์ , ์ํ ๊ฐ์ง, ์ฌ๊ธฐ ๋ฐฉ์ง ๋ฑ ์ค์๊ฐ ์ธํ ๋ฆฌ์ ์ค๊ฐ ์ค์ํ ๋ค์ํ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๊ตฌํํ ์ ์์ต๋๋ค. MLTransform์ผ๋ก ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ: ๋ณต์กํ ์ฝ๋ ์์ฑ์ด๋ ๊ธฐ๋ณธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ด๋ฆฌ์์ ๋ฒ์ด๋ ๋ฐ์ดํฐ ๋ณํ์ ์ง์คํ ์ ์์ต๋๋ค. RunInference๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ AI ๋ชจ๋ธ์ ๋ํด ์์ธก์ ์ํํ ์ ์์ต๋๋ค.
์ค์๊ฐ ํต๊ณ๋ก ๋ง์ผํ ํ์
์ค์๊ฐ ๋ง์ผํ ์ธํ ๋ฆฌ์ ์ค๋ ํ์ฌ ์์ฅ, ๊ณ ๊ฐ, ๊ฒฝ์์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ ๋ณด์ ์ ๊ฐํ ์ ์ํ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ํธ๋ ๋, ํ๋, ๊ฒฝ์ ํ๋์ ๋ฏผ์ฒฉํ๊ฒ ๋์ํ์ฌ ๋ง์ผํ ํ์ ์ ์ง์ํฉ๋๋ค. ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ค์๊ฐ ํต๊ณ๋ก ๋ง์ผํ ํ์
์ค์๊ฐ ๋ง์ผํ ์ธํ ๋ฆฌ์ ์ค๋ ํ์ฌ ์์ฅ, ๊ณ ๊ฐ, ๊ฒฝ์์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ ๋ณด์ ์ ๊ฐํ ์ ์ํ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ํธ๋ ๋, ํ๋, ๊ฒฝ์ ํ๋์ ๋ฏผ์ฒฉํ๊ฒ ๋์ํ์ฌ ๋ง์ผํ ํ์ ์ ์ง์ํฉ๋๋ค. ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์น ๋ฐ ์ฑ ํ๊ฒฝ ์ต์ ํ ๋ฐ ๋ง์ถค์ค์
์ค์๊ฐ ํด๋ฆญ์คํธ๋ฆผ ๋ถ์์ ํตํด ๋น์ฆ๋์ค๋ ์น์ฌ์ดํธ ๋ฐ ์ฑ์์์ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ฆ์ ๋ถ์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ค์๊ฐ ๋ง์ถค์ค์ , A/B ํ ์คํธ, ์ ์ ๊ฒฝ๋ก ์ต์ ํ๊ฐ ๊ฐ๋ฅํด์ ธ ์ฐธ์ฌ๋ ํฅ์, ์ ํ ๊ฐ๋ฐ ์๋ ํฅ์, ์ดํ๋ฅ ๊ฐ์, ์ ํ ์ง์ ํฅ์์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก๋ ๋ฐ์ด๋ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ๊ณตํ๊ณ ์ ๋์ ์ธ ๊ฐ๊ฒฉ๊ณผ ๋ง์ถคํ ์ถ์ฒ์ ํตํด ๋น์ฆ๋์ค ์ฑ์ฅ์ ์ด์งํฉ๋๋ค.
์น ๋ฐ ์ฑ ํ๊ฒฝ ์ต์ ํ ๋ฐ ๋ง์ถค์ค์
์ค์๊ฐ ํด๋ฆญ์คํธ๋ฆผ ๋ถ์์ ํตํด ๋น์ฆ๋์ค๋ ์น์ฌ์ดํธ ๋ฐ ์ฑ์์์ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ฆ์ ๋ถ์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ค์๊ฐ ๋ง์ถค์ค์ , A/B ํ ์คํธ, ์ ์ ๊ฒฝ๋ก ์ต์ ํ๊ฐ ๊ฐ๋ฅํด์ ธ ์ฐธ์ฌ๋ ํฅ์, ์ ํ ๊ฐ๋ฐ ์๋ ํฅ์, ์ดํ๋ฅ ๊ฐ์, ์ ํ ์ง์ ํฅ์์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก๋ ๋ฐ์ด๋ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ๊ณตํ๊ณ ์ ๋์ ์ธ ๊ฐ๊ฒฉ๊ณผ ๋ง์ถคํ ์ถ์ฒ์ ํตํด ๋น์ฆ๋์ค ์ฑ์ฅ์ ์ด์งํฉ๋๋ค.
์ค์ ์ง์ค์ ๋ก๊ทธ ๊ด๋ฆฌ ๋ฐ ๋ถ์
Google Cloud ๋ก๊ทธ๋ Dataflow๋ฅผ ์ฌ์ฉํ์ฌ Splunk์ ๊ฐ์ ์๋ ํํฐ ํ๋ซํผ์ ๋ณต์ ํ์ฌ ๊ฑฐ์ ์ค์๊ฐ ๋ก๊ทธ ์ฒ๋ฆฌ ๋ฐ ๋ถ์์ ์ํํ ์ ์์ต๋๋ค. ์ด ์๋ฃจ์ ์ ์ค์ ์ง์ค์ ๋ก๊ทธ ๊ด๋ฆฌ, ๊ท์ ์ค์, ๊ฐ์ฌ, ๋ถ์ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ๋์์ ๋น์ฉ์ ์ ๊ฐํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
์ค์ ์ง์ค์ ๋ก๊ทธ ๊ด๋ฆฌ ๋ฐ ๋ถ์
Google Cloud ๋ก๊ทธ๋ Dataflow๋ฅผ ์ฌ์ฉํ์ฌ Splunk์ ๊ฐ์ ์๋ ํํฐ ํ๋ซํผ์ ๋ณต์ ํ์ฌ ๊ฑฐ์ ์ค์๊ฐ ๋ก๊ทธ ์ฒ๋ฆฌ ๋ฐ ๋ถ์์ ์ํํ ์ ์์ต๋๋ค. ์ด ์๋ฃจ์ ์ ์ค์ ์ง์ค์ ๋ก๊ทธ ๊ด๋ฆฌ, ๊ท์ ์ค์, ๊ฐ์ฌ, ๋ถ์ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ ๋์์ ๋น์ฉ์ ์ ๊ฐํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
๊ฐ๊ฒฉ ์ฑ ์
Dataflow ๊ฐ๊ฒฉ ์ฑ ์ ๋ฐฉ์ | Dataflow์ ์ฒญ๊ตฌ ๋ฐ ๋ฆฌ์์ค ๋ชจ๋ธ์ ์ดํด๋ด ๋๋ค. | |
---|---|---|
์๋น์ค ๋ฐ ์ฌ์ฉ๋ | ์ค๋ช | ๊ฐ๊ฒฉ ์ฑ ์ |
Dataflow ์ปดํจํ ๋ฆฌ์์ค | ์ปดํจํ ๋ฆฌ์์ค์ ๋ํ Dataflow ์ฒญ๊ตฌ์๋ ๋ค์์ด ํฌํจ๋ฉ๋๋ค. | ๊ฐ๊ฒฉ ์ฑ ์ ํ์ด์ง์์ ์์ธํ ์์๋ณด๊ธฐ |
๊ธฐํ Dataflow ๋ฆฌ์์ค | ๋ชจ๋ ์์ ์ ๋ํด ์๊ธ์ด ์ฒญ๊ตฌ๋๋ ๊ธฐํ Dataflow ๋ฆฌ์์ค์๋ Persistent Disk, GPU, ์ค๋ ์ท์ด ํฌํจ๋ฉ๋๋ค. | ๊ฐ๊ฒฉ ์ฑ ์ ํ์ด์ง์์ ์์ธํ ์์๋ณด๊ธฐ |
Dataflow ์ฝ์ ์ฌ์ฉ ํ ์ธ(CUD) | Dataflow CUD๋ ์ฝ์ ๊ธฐ๊ฐ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ์์ค์ ํ ์ธ์ ์ ๊ณตํฉ๋๋ค.
| Dataflow CUD ์์ธํ ์์๋ณด๊ธฐ |
Dataflow ๊ฐ๊ฒฉ ์ฑ ์ ์ ์์ธํ ์์๋ณด์ธ์. ๋ชจ๋ ๊ฐ๊ฒฉ ์ฑ ์ ์ธ๋ถ์ ๋ณด ๋ณด๊ธฐ
Dataflow ๊ฐ๊ฒฉ ์ฑ ์ ๋ฐฉ์
Dataflow์ ์ฒญ๊ตฌ ๋ฐ ๋ฆฌ์์ค ๋ชจ๋ธ์ ์ดํด๋ด ๋๋ค.
Dataflow ์ปดํจํ ๋ฆฌ์์ค
์ปดํจํ ๋ฆฌ์์ค์ ๋ํ Dataflow ์ฒญ๊ตฌ์๋ ๋ค์์ด ํฌํจ๋ฉ๋๋ค.
๊ฐ๊ฒฉ ์ฑ ์ ํ์ด์ง์์ ์์ธํ ์์๋ณด๊ธฐ
๊ธฐํ Dataflow ๋ฆฌ์์ค
๋ชจ๋ ์์ ์ ๋ํด ์๊ธ์ด ์ฒญ๊ตฌ๋๋ ๊ธฐํ Dataflow ๋ฆฌ์์ค์๋ Persistent Disk, GPU, ์ค๋ ์ท์ด ํฌํจ๋ฉ๋๋ค.
๊ฐ๊ฒฉ ์ฑ ์ ํ์ด์ง์์ ์์ธํ ์์๋ณด๊ธฐ
Dataflow ์ฝ์ ์ฌ์ฉ ํ ์ธ(CUD)
Dataflow CUD๋ ์ฝ์ ๊ธฐ๊ฐ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ์์ค์ ํ ์ธ์ ์ ๊ณตํฉ๋๋ค.
Dataflow CUD ์์ธํ ์์๋ณด๊ธฐ
Dataflow ๊ฐ๊ฒฉ ์ฑ ์ ์ ์์ธํ ์์๋ณด์ธ์. ๋ชจ๋ ๊ฐ๊ฒฉ ์ฑ ์ ์ธ๋ถ์ ๋ณด ๋ณด๊ธฐ
๋น์ฆ๋์ค ์ฌ๋ก
์ต๊ณ ์ ๊ณ ๊ฐ๋ค์ด Dataflow๋ฅผ ์ ํํ๋ ์ด์ ์์๋ณด๊ธฐ
๋๋ฏธํ ๋น์์ด ์ฟ ๋ง๋ฅด, ANZ Bank์ Google Cloud SRE ์ ํ ์์ ์
"Dataflow๋ ์ผ๊ด ์ฒ๋ฆฌ์ ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ๋ชจ๋ ์ง์ํ๋ฏ๋ก ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ ๋ ์ดํฌ์์ ๋ฐ์ดํฐ์ ์ ์์ฑ์ด ์ ์ง๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ถ์/์์ฌ๊ฒฐ์ ์ ๋ฐ์ดํฐ ๋ค์ด์คํธ๋ฆผ ์ฌ์ฉ๋ ๋ฐ ์๋งค์ ๊ณ ๊ฐ์๊ฒ ์ค์๊ฐ ์๋ฆผ์ ์ ๋ฌํ๋ ๋ฐ๋ ๋์์ด ๋ฉ๋๋ค."
Google์ ์ด๋ฒคํธ ์คํธ๋ฆผ ์ฒ๋ฆฌ์ ๊ด๋ จํด ๊ณ ๊ฐ์ด ์ ํํ ์ ํ์ผ๋ก ๋๋ฃ๋ค์ ์ธ์ ์ ๋ฐ๊ณ ์์ต๋๋ค.
๋ณด๊ณ ์ ๋ฐ๊ธฐ
Spotify๋ก ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ํ๊ฒฝ์ ML ๊ธฐ๋ฅ ํ์ฉํ๊ธฐ
๋์์ ๋ณด๊ธฐ
๋ ๊ฐ์ง ์คํธ๋ฆฌ๋ฐ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์ํด Dataflow์ ์์ฒด ๊ด๋ฆฌํ Apache Flink ๋น๊ตํ Yahoo
๋ธ๋ก๊ทธ ์ฝ๊ธฐ
Dataflow์ ์ด์
๊ฐํธํ ML ์คํธ๋ฆฌ๋ฐ
AI/ML์ ์คํธ๋ฆฌ๋ฐ์ ๋์ ํ๋ ํดํค ๊ธฐ๋ฅ: ์ถ๋ก ์ ์ํ RunInference, ๋ชจ๋ธ ํ์ต ์ ์ฒ๋ฆฌ๋ฅผ ์ํ MLTransform, Feature Store ์กฐํ๋ฅผ ์ํ ๋ณด๊ฐ, ๋์ GPU ์ง์ ๋ฑ ๋ชจ๋ ์ ํ๋ GPU ๋ฆฌ์์ค์ ๋ํ ๋ญ๋น๋๋ ๋น์ฉ ์์ด ๋ฐ๋ณต ์ ๋ฌด๋ฅผ ์ค์ฌ์ค๋๋ค.
๊ฐ๋ ฅํ ๋๊ตฌ๋ก ์ต์ ์ ๊ฐ๊ฒฉ ๋๋น ์ฑ๋ฅ ์คํ
Dataflow๋ ์ฑ๋ฅ๊ณผ ๋ฆฌ์์ค ์ฌ์ฉ์ ๊ทน๋ํํ ์ ์๋๋ก ์๋ํ๋ ์ต์ ํ์ ํจ๊ป ๋น์ฉ ํจ์จ์ ์ธ ์คํธ๋ฆฌ๋ฐ์ ์ ๊ณตํฉ๋๋ค. ์ฝ๊ฒ ํ์ฅ๋์ด ๋ชจ๋ ์ํฌ๋ก๋๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ AI ๊ธฐ๋ฐ ์๊ฐ ๋ณต๊ตฌ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ๊ฐ๋ ฅํ ๋๊ตฌ๋ ์ด์๊ณผ ์ดํด์ ๋์์ด ๋ฉ๋๋ค.
๊ฐ๋ฐฉ์ฑ, ์ด๋์ฑ, ํ์ฅ์ฑ
Dataflow๋ ํตํฉ๋ ์ผ๊ด ๋ฐ ์คํธ๋ฆฌ๋ฐ ์ง์์ ๊ฐ์ถ ์คํ์์ค Apache Beam์ฉ์ผ๋ก ๋น๋๋์ด ํด๋ผ์ฐ๋, ์จํ๋ ๋ฏธ์ค ๋๋ ์์ง ๊ธฐ๊ธฐ ๊ฐ์ ์ํฌ๋ก๋๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค.
ํํธ๋ ๋ฐ ํตํฉ
๋ชจ๋ ๊ท๋ชจ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ ์ ๊ฐ๋ ฅํ๊ณ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ์ํํ ์ ์๋๋ก Google Cloud ํํธ๋๊ฐ Dataflow์์ ํตํฉ ๊ธฐ์ ์ ๊ฐ๋ฐํ์ต๋๋ค. ์ง๊ธ ์คํธ๋ฆฌ๋ฐ ์ฌ์ ์ ์์ํ๋ ค๋ฉด ๋ชจ๋ ํํธ๋๋ฅผ ํ์ธํ์ธ์.