custom_classifier
!ADD_REGEXยถ
์ฌ์ฉ์ ์ง์ ๋ถ๋ฅ์์ ์นดํ ๊ณ ๋ฆฌ ๋ฐ ์ ๊ท์์ ์ถ๊ฐํ๊ณ ์ ํ์ ์ผ๋ก ์ด ์ด๋ฆ ๋ฐ ์ค๋ช ์ ๋ํ ์ ๊ท์์ ์ง์ ํฉ๋๋ค.
๊ตฌ๋ฌธยถ
<custom_classifier>!ADD_REGEX(
'<semantic_category>' ,
'<privacy_category>' ,
'<value_regex>' ,
[ <column_name_regex> ] ,
[ <description> ] ,
[ <threshold> ]
)
์ธ์ยถ
ํ์:
semantic_category
์๋ฏธ ์ฒด๊ณ ์นดํ ๊ณ ๋ฆฌ์ ์๋ณ์(์ด๋ฆ)๋ฅผ ์ง์ ํฉ๋๋ค.
์๋ฏธ ์ฒด๊ณ ์นดํ ๊ณ ๋ฆฌ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์์คํ ํ๊ทธ ๋ฐ ์นดํ ๊ณ ๋ฆฌ ์น์ ์ ์ฐธ์กฐํ์ญ์์ค.
privacy_category
'IDENTIFIER'
,'QUASI_IDENTIFIER'
๋๋'SENSITIVE'
๊ฐ ์ค ํ๋๋ฅผ ์ง์ ํฉ๋๋ค.๊ฐ์ธ์ ๋ณด ๋ณดํธ ์นดํ ๊ณ ๋ฆฌ์ ๋ํ ์์ธํ ๋ด์ฉ์ ์์คํ ํ๊ทธ ๋ฐ ์นดํ ๊ณ ๋ฆฌ ์น์ ์ ์ฐธ์กฐํ์ญ์์ค.
value_regex
์ด์ ๊ฐ๊ณผ ์ผ์นํ๋ ์ ๊ท์์ ์ง์ ํฉ๋๋ค.
REGEXP_LIKE ํจ์๋ฅผ ํธ์ถํ์ฌ ์ ๊ท์์ ๊ตฌ๋ฌธ์ ํ ์คํธํ ์ ์์ต๋๋ค.
์ ํ ์ฌํญ:
column_name_regex
๋ถ๋ฅํ๋ ค๋ ์ด์ ์ด๋ฆ๊ณผ ์ผ์นํ๋ ์ ๊ท์์ ์ง์ ํฉ๋๋ค.
description
์ธ์คํด์ค์ ์ถ๊ฐํ๋ ๊ฐ์ ๋ํ ์ค๋ช ์ ์ง์ ํฉ๋๋ค.
threshold
์ฑ์ ๊ท์น์ ๋ํ ์๊ณ๊ฐ์ ์ง์ ํฉ๋๋ค.
ํ์ฉ ๋ฒ์๋
0.0
๋ณด๋ค ํฌ๊ณ1.0
๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ต๋๋ค.๊ธฐ๋ณธ๊ฐ:
0.8
.
์ถ๋ ฅยถ
์นดํ
๊ณ ๋ฆฌ์ ์ฌ์ฉ์ ์ง์ ๋ถ๋ฅ์์ ์ฐ๊ฒฐ์ ๋ํ๋ด๋ ์ํ ๋ฉ์์ง๋ฅผ classifier_name:category_name
ํ์์ผ๋ก ๋ฐํํฉ๋๋ค.
์ก์ธ์ค ์ ์ด ์๊ตฌ ์ฌํญยถ
์ด ์์ ์ ์คํํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ญํ ์๋ ์ต์ํ ๋ค์ ๊ถํ ์ด ์์ด์ผ ํฉ๋๋ค.
์ธ์คํด์ค ์ญํ |
์ค๋ธ์ ํธ |
์ฐธ๊ณ |
---|---|---|
|
์ฌ์ฉ์ ์ง์ ๋ถ๋ฅ ์ธ์คํด์ค. |
์ด ๋ฉ์๋๋ฅผ ํธ์ถํ๋ ๊ณ์ ์ญํ ์๋ ์ฌ์ฉ์ ์ง์ ๋ถ๋ฅ์์ ๋ํด ์ด ์ธ์คํด์ค ์ญํ ์ ๋ถ์ฌํด์ผ ํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ธ์คํด์ค ์์ฑ์ ์ฌ์ฉ๋๋ ๊ณ์ ์ญํ ์ ์ด ๋ฉ์๋๋ฅผ ํธ์ถํ ์ ์์ต๋๋ค. |
์คํค๋ง์ ๋ชจ๋ ์ค๋ธ์ ํธ์ ๋ํด ์์ ์ ์ํํ๋ ค๋ฉด ์์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ฐ ์คํค๋ง์ ๋ํ USAGE ๊ถํ.
์ง์ ๋ ๊ถํ ์ธํธ๋ก ์ฌ์ฉ์ ์ง์ ์ญํ ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ํ ์ง์นจ์ ์ฌ์ฉ์ ์ง์ ์ญํ ๋ง๋ค๊ธฐ ์น์ ์ ์ฐธ์กฐํ์ญ์์ค.
๋ณด์ ์ค๋ธ์ ํธ ์ ๋ํด SQL ์์ ์ ์ํํ๊ธฐ ์ํ ์ญํ ๊ณผ ๊ถํ ๋ถ์ฌ์ ๋ํ ์ผ๋ฐ์ ์ธ ์ ๋ณด๋ ์ก์ธ์ค ์ ์ด์ ๊ฐ์ ์น์ ์ ์ฐธ์กฐํ์ญ์์ค.
์ฌ์ฉ๋ฒ ๋ ธํธยถ
์ด ๋ฉ์๋๋ฅผ ์ฌ๋ฌ ๋ฒ ํธ์ถํ๋ฉด ์ธ์คํด์ค์ ๊ด๋ จ๋ ์ ๊ท์ ์์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ์ถ๊ฐ๋ก ์ ๊ณต๋ฉ๋๋ค.
๋ณ๋์ SQL ๋ฌธ์์ ๊ฐ ๋ฉ์๋๋ฅผ ํธ์ถํฉ๋๋ค(๋ฉ์๋ ์ฐ๊ฒฐ ์์).
๋ถ๋ฅ ๋ชฉ์ ์ ๋ชจ๋ ์ ๊ท์ ๊ฒ์์ ๋/์๋ฌธ์๋ฅผ ๊ตฌ๋ถํ์ง ์์ต๋๋ค.
์ฌ์ฉ์ ์ง์ ๋ถ๋ฅ ์ธ์คํด์ค์ ์ ๊ท์์ ์ถ๊ฐํ๊ธฐ ์ ์ ์ ๊ท์์ ํ ์คํธํ์ญ์์ค. ์๋ฅผ ๋ค์ด, ์ ๊ท์๊ณผ ์ผ์นํ๋ ๊ฐ๋ง ๊ฒฐ๊ณผ์ ๋ฐํ๋๋๋ก ํ๋ ค๋ฉด [ NOT ] REGEXP ํจ์๋ฅผ ์ฌ์ฉํ์ญ์์ค.
SELECT <col_to_classify> FROM <table_with_col_to_classify> WHERE <col_to_classify> REGEXP('<regex>');
์์ธํ ๋ด์ฉ์ ๋ฌธ์์ด ํจ์(์ ๊ท์) ์น์ ์ ์ฐธ์กฐํ์ญ์์ค.
์ยถ
medical_codes
์ธ์คํด์ค์ ์นดํ
๊ณ ๋ฆฌ์ ์ ๊ท์์ ์ถ๊ฐํฉ๋๋ค.
CALL medical_codes!ADD_REGEX(
'ICD_10_CODES',
'IDENTIFIER',
'[A-TV-Z][0-9][0-9AB]\.?[0-9A-TV-Z]{0,4}',
'ICD.*',
'Add a regex to identify ICD-10 medical codes in a column',
0.8
);
๋ฐํ ๊ฒฐ๊ณผ:
+---------------+
| ADD_REGEX |
+---------------+
| ICD_10_CODES |
+---------------+