์ด ํ์ด์ง์์๋ Dataflow์ ๊ด๋ จ๋ ๊ณต๊ฐ ๊ธฐ์ฌ, ๋์์, ํ์บ์คํธ์ ๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ณต์ง์ฌํญ
๊ณต์ง ๋ฐ ์ ๋ฐ์ดํธ์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ค์ ๋ฆฌ์์ค๋ฅผ ์ฐธ์กฐํ์ธ์.
- Dataflow ๋ด์ค: Google Cloud ๋ธ๋ก๊ทธ
- Dataflow ์ ๋ฐ์ดํธ: Dataflow ์ถ์ ๋ ธํธ
- Apache Beam ์ ๋ฐ์ดํธ: Apache Beam SDK ์ถ์ ๋ ธํธ
Dataflow ์ํ๊ณ
- ๋ฐ์ดํฐ ๋ถ์์ ์ค์ถ์ธ Dataflow
- Dataflow ์ฌ์ธต ํ๊ตฌ: ํ์ ์คํ ๋ฆฌ 1๋ถ, 2๋ถ, 3๋ถ
- Apache Beam ์คํ์์ค ๋ฌธ์๋ฅผ ์ฐธ์กฐํ์ฌ ํตํฉ ๋ชจ๋ธ ๊ฐ๋ฐ, ํ์ดํ๋ผ์ธ ์ ์, Dataflow ๋๋ Apache Beam ์ง์ ๋ถ์ฐ ๋ฐฑ์๋ ์ค ํ๋์์ ํ์ดํ๋ผ์ธ ์คํ ๋ฐฉ๋ฒ์ ์์ธํ ์์๋ณด์ธ์.
๊ณ ๊ฐ ์ฌ๋ก
๊ณต๊ฐ ์๋ฃ
- Dataflow ์คํ ๋ฆฌ ์ปฌ๋ ์ - ๋งค์ฒด ๊ฐํ๋ฌผ
- Dataflow, 2021๋ ์คํธ๋ฆฌ๋ฐ ๋ถ์ ๋ถ๋ถ์์ ์ ๋ ์ ํ์ผ๋ก ์ ์ - Forrester Wave
- ์ค์ ์์ฒญ์์ ๊ดํ ํผ๋๋ฐฑ์ ์ค์๊ฐ์ผ๋ก ์ ๊ณตํ๋ ๋๊ตฌ ๋น๋ - ITV
- Dataflow ํ์ดํ๋ผ์ธ ๋ชจ๋ํฐ๋ง - ๋งค์ฒด ๊ฐํ๋ฌผ
- ํ์ฅ์ฑ์ด ์ฐ์ํ๊ณ ์ง์ฐ ์๊ฐ์ด ์งง์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์คํ ๋ชจ๋ธ - ๋งค์ฒด ๊ฐํ๋ฌผ
- GPU๋ฅผ ์ฌ์ฉํ์ฌ Dataflow์์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ถ๋ก ๊ฐ์ํ - Nvidia
- ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ก ์ปดํจํ ์ํ - Pandora
- Wrapped 2020์ ์ํ ์ต๋ ๊ท๋ชจ์ Dataflow ์์ ์ต์ ํ - Spotify
- Dataflow๋ฅผ ์ฌ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ์์ญ์ต ๊ฐ์ ์ด๋ฒคํธ ์ฒ๋ฆฌ - Twitter
- ์ค๋งํธ ํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ Dataflow - Nest
- BigQuery JSON ์ ํ ์ด๋ก JSON ๋ฉ์์ง ์คํธ๋ฆฌ๋ฐ - Medium
์ฐ์์ฌ๋ก
- AXA Switzerland: Google Cloud ๋ถ์ ์๋ฃจ์ ์ ์ฌ์ฉํ์ฌ ๋ด๋ถ ํ๋ก์ธ์ค ๊ฐํ ๋ฐ ์๋น์ค ๊ฐ๋ฐ
- Bayer Crop: BigQuery ๋ฐ Dataflow์์ ์ง๋ฆฌ์ ๋ณด ๋ถ์์ผ๋ก ํ ์ ์ํ ๋ฐ ์๋ฌผ ๊ด๋ฆฌ ๊ฐ์
- Dow Jones: 30๋ ์ด์์ ๋ด์ค ์ฝํ ์ธ ์ ๊ธฐ๋ก๋ ์ฃผ์ ์ฌ๊ฑด์ ๊ดํ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ
- HSBC: ํด๋ผ์ฐ๋๋ฅผ ๋์ ํ์ฌ ์ ์ํ ํต๊ณ ๋ฐ ๋ถ์ ๊ธฐ๋ฅ์ผ๋ก ์ํ ๋ ธ์ถ ๊ฐ์
- Nintendo: Dataflow ๋ฐ Pub/Sub๋ฅผ ์ฌ์ฉํ์ฌ BigQuery์์ ๊ฒ์ ์ฌ์ฉ๋ ๋ก๊ทธ ์์ง ๋ฐ ๋ถ์
- Quantiphi: ์๋ฒ๋ฆฌ์ค ์ค์๊ฐ ์ ์ฉ์นด๋ ์ฌ๊ธฐ ๊ฐ์ง ์๋ฃจ์ ๋น๋
- SoFi Stadium: ๋ชจ๋ ์ฌ์ฉ์๋ฅผ ์ํด ๊ฒฝ๊ธฐ์ผ ํ๊ฒฝ์ ๋ง์ถค์ค์ ํ๋ ํฌ ์ง์ ๊ฐ์ธ ์ปจ์์ด์ง ์ฑ ๋น๋
- Spotify: Dataflow์์ ์คํธ๋ฆผ ์ฒ๋ฆฌ ์คํ
- Subaru Corporation: Google Cloud AI ๋ฐ ๋จธ์ ๋ฌ๋์ ์ฌ์ฉํ์ฌ ๊ฐ๋ฐ ๊ฐ์ํ
- Telus: ๋ฐ์ดํฐ ๊ณผํ์ผ๋ก ํ๋ํ ๊ฐ์ํ
- Tokopedia: Google Cloud์ ๊ณ ๊ฐ ๋ฐ์ดํฐ ํ๋ซํผ ์์ฑ
- Tyson Foods: ์๋น์ค๋ก์ ์์ง์ ๊ฐ๋ฐํ์ฌ ๋ฐ์ดํฐ ํ๋ซํผ ์ฌ์ ๋ฆฝ
- Vodafone: Google Cloud ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ํ๊ฒ ํด๋์ ํ ๋ฐ์ดํฐ ๊ณต์
๋์์
๊ธฐ์ ์๋ด
์๊ฐ ๋์์
๋์๋ง
- ๋ฐ์ดํฐ ์์ง๋์ด๋ง ๊ธฐ๋ฐ ์กฐ์ง ๊ตฌ์ถ
- ๋ชจ๋ Dataflow ํ์ดํ๋ผ์ธ์์ ํ ํ๋ฆฟ ๋ง๋ค๊ธฐ
- Elastic Cloud์ฉ Dataflow ํ ํ๋ฆฟ
- Dataflow ํ์ดํ๋ผ์ธ์ผ๋ก ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋๊ท๋ชจ๋ก ๋ฐฐํฌ ๋ฐ ๊ด๋ฆฌ
- 3๋ฐฐ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ BigQuery์ฉ Dataflow ์๋ ์ค๋ฉ
- Dataflow ํ ํ๋ฆฟ์ ์ฌ์ฉํ์ฌ Elastic Stack์ผ๋ก Google Cloud ๋ฐ์ดํฐ ๋ด๋ณด๋ด๊ธฐ
- UDF๋ก Dataflow ํ ํ๋ฆฟ ํ์ฅ
- Dataflow์์ ๋จ ํ ๋ฒ์ ์ฒ๋ฆฌ 1๋ถ, 2๋ถ, 3๋ถ
- Dataflow GPU๋ก ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ฑ๋ฅ ํฅ์
- Dataflow ๋ฐ Pub/Sub๋ฅผ ์ฌ์ฉํ์ฌ ์คํธ๋ฆฌ๋ฐ ํ์ดํ๋ผ์ธ์ ์ค๋ณต ๋ฐ์ดํฐ ์ฒ๋ฆฌ
- Google ํ๊ทธ ๊ด๋ฆฌ์ ๋ฐ์ดํฐ์ ํด๋ฆญ์คํธ๋ฆผ ์ฒ๋ฆฌ๋ฅผ ํตํ Apache Beam ํจํด ์์๋ณด๊ธฐ
- Apache Beam ๋ฐ Dataflow Runner์ ๋จธ์ ๋ฌ๋ ํจํด
- BigQuery Storage Write API๋ฅผ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ BigQuery๋ก ์คํธ๋ฆฌ๋ฐํ๊ธฐ
- Dataflow Prime์ผ๋ก ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ฐ์ํ ๋ฐ ์๋ํ
- Dataflow๊ฐ ๊ณ ๊ฐ์๊ฒ ROI๋ฅผ ์ ๊ณตํ๋ 3๊ฐ์ง ๋ฐฉ๋ฒ
- ์ฌ๊ธฐ ๋ฐฉ์ง๋ฅผ ์ํ ์ค์๊ฐ ์ด์ ๊ฐ์ง ์ฐธ์กฐ ํจํด ํ์ฉ
- ๋๊ท๋ชจ ML ์ถ๋ก ํจํด์ Dataflow์ TFX ์ถ๋ก ์ฌ์ฉ
- Dataflow ๋ฐฐํฌ์ Flex ํ ํ๋ฆฟ์ ์ฌ์ฉํด์ผ ํ๋ ์ด์
- ํ์ฅ์ฑ์ ์ผ๋์ ๋ Dataflow ํ์ดํ๋ผ์ธ ์์ฑ
- ์ผ๋ฐ์ ์ธ Dataflow ์ฌ์ฉ ์ฌ๋ก ํจํด ๊ฐ์ด๋: 1๋ถ, 2๋ถ
๋ฐ์ดํฐ ๋ฐ ๋ถ์ ๋์์
๋ฌธ์ ํด๊ฒฐ ๋ฐ ๋ชจ๋ํฐ๋ง
๋์์
๋์๋ง
ํ์บ์คํธ
- Google Cloud ํ์บ์คํธ ์ํผ์๋ 81 - ํ๋์์ค ํ๋ฆฌ์ ํจ๊ปํ๋ Dataflow
- ์ํํธ์จ์ด ์์ง๋์ด๋ง ์ผ์ผ ํ์บ์คํธ - ์๋ฆญ ์ค๋์จ๊ณผ ํจ๊ปํ๋ Dataflow
- ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ผ๋์ค ํ์บ์คํธ ์ํผ์๋ 272: Apache Beam