티스토리 뷰

생활/책

[책] 데이터 품질의 비밀

Jaeyeon Baek 2023. 5. 28. 17:00

데이터 품질의 비밀

 

오롯이 데이터에 집중해서 주변 기술을 정리하고 설명하는 책이 출간되었습니다. 디코딩이라고 하는 한빛미디어 임프린트 브랜드에서 번역서로 나왔는데요. 데이터 품질의 비밀입니다. 아주 재밌는 것은 역자로 등록된 게 커뮤니티라는 점입니다. "데이터야놀자"에서 번역을 진행했네요. 데이터야놀자와는 2017년에 인연이 있습니다.

각설하고, 이 책은 데이터 품질부터 시작해서 다룹니다. 품질이란 무엇이며 데이터 다운타임이 주는 의미를 다시금 생각할 수 있게 합니다. 그리고 많은 사람들이 그 개념에 대해 아직 팽팽하게 논의하는 "데이터 웨어하우스"와 "데이터 레이크"에 대해서 다루고 있고요. 뭐 이것 또한 유행의 흐름이라고 생각합니다. 시간이 조금 더 지나야 조금 더 명확해질 것으로 보입니다. "데이터 레이크 하우스"라는 용어까지 나오는 걸 보면 아직 갈길이 남아있는 것 같네요. 

또한, 무릇 데이터를 다룬다고 하면 ETL 즉, 추출(Extract), 변환(Transform), 로드(Load)를 빼놓을 수 없는데요. 이것도 한 개 파트를 할애해서 내용을 담고 있습니다. 이 과정에서 Amazon Kinesis와 Apache kafka를 통한 사례를 이야기합니다. 그리고 Apache Airflow는 빼놓을 수 없겠죠. 데이터 품질 관리를 위해 Airflow를 어떻게 사용할 수 있는지 설명합니다. 후반부로 가서는 End to End 데이터 계보 구축, 데이터 품질 민주화 등 용어만 들어도 잔뜩 기대되는 것들이 등장합니다. 이미 우리 데이터팀이 하고 있는 업무일 수도 있고, 계획된 것들도 보일 겁니다. 만약 그렇다고 하면 이 책을 통해 용어와 개념을 다시 정리하는 시간을 가질 수 있을 것이고 그렇지 않다면 적극 도입을 검토할만한 액션 아이템을 건질 수 있을 겁니다.

특히 데이터 메시는 아주 재밌는 주제인데요. 이 책을 통해 그 개념을 배울 수 있습니다. 그리고 현재 데이터 업무에 종사하고 있다면 이것을 도입해야 할지, 말아야 할지 점검해 볼 수 있습니다. "데이터 메시 점수 계산"을 통해서 말이죠. 이 점수는 데이터 소스의 양, 데이터 팀의 규모, 데이터 도메인 수, 데이터 엔지니어링 병목현상, 데이터 거버넌스로 계산됩니다. 아마 엔터프라이즈급의 회사가 아니라면 대부분 필요하지 않다로 점수가 나올 테지만 이론일 뿐, 현업에서는 다시 꼼꼼히 따져봐야 할 겁니다. 실제 이론을 만든 Zhamak Dehghani 역시 아직 이 모델이 "진화의 초기 단계"라고 말했으니까 말입니다. 자마크의 도서(데이터 메시)에서 자세한 내용을 살펴볼 수 있을 듯한데 아마 조만간 번역서가 나오지 않을까요? 

그렇게 두껍지도 않은 책인데 아주 많은 내용을 알차게 담고 있습니다. 데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 데이터와 관련된 업에 종사하고 있다면 이 책을 통해 데이터 트렌드를 확인해 보시길 바랍니다. 책장에 두고 여러 번 꺼내보게 될 것 같네요 :) 

 


한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

댓글
최근에 올라온 글
최근에 달린 댓글
글 보관함
Total
Today
Yesterday