지인의 선물로 데이터 거버넌스 : 사람, 기술, 도구, 프로세스를 읽었습니다. 요즘 거버넌스는 너무 폭넓은 뜻으로 해석되고 있는데 이 책에서는 데이터를 다루는 데 있어서 필요한 전부를 칭합니다. 책의 저자가 이야기하는 데이터 거버넌스는 아래와 같이 정의됩니다.데이터 거버넌스(data governance)는 무엇보다도 조직이 수집한 데이터의 품질, 무결성, 보안, 사용성을 보장하는 하나의 데이터 관리 기능(data management funcion)이다. 데이터 거버넌스는 데이터를 수집, 생성한 시점부터 데이터를 폐기, 보관하는 시점까지 내내 작동해야 한다. 데이터의 그러한 수명 주기 전체에서 데이터 거버넌스는 데이터를 모든 이해관계자가 각자 손쉽게 접근할 수 있는 형태로 만드는 데 주력한다. 또한 이해관..
오롯이 데이터에 집중해서 주변 기술을 정리하고 설명하는 책이 출간되었습니다. 디코딩이라고 하는 한빛미디어 임프린트 브랜드에서 번역서로 나왔는데요. 데이터 품질의 비밀입니다. 아주 재밌는 것은 역자로 등록된 게 커뮤니티라는 점입니다. "데이터야놀자"에서 번역을 진행했네요. 데이터야놀자와는 2017년에 인연이 있습니다. 각설하고, 이 책은 데이터 품질부터 시작해서 다룹니다. 품질이란 무엇이며 데이터 다운타임이 주는 의미를 다시금 생각할 수 있게 합니다. 그리고 많은 사람들이 그 개념에 대해 아직 팽팽하게 논의하는 "데이터 웨어하우스"와 "데이터 레이크"에 대해서 다루고 있고요. 뭐 이것 또한 유행의 흐름이라고 생각합니다. 시간이 조금 더 지나야 조금 더 명확해질 것으로 보입니다. "데이터 레이크 하우스"라는..
한빛미디어에서 발간된 데이터 스토리는 구성이 굉장히 재미있다. 짤막짤막하게 데이터 관련된 이야기를 풀어내고 있고 여러 가지 상황에서 제안서나 보고, 발표에 쓰이는 다양한 기법이 잘 풀어져서 스토리를 이루고 있다. 책 제목이 내용과 제법 잘 어울린다. 각 챕터가 짧게 구성되어 있기 때문에 빠르게 읽을 수 있고 중간에 잠시 책을 덮어 두더라도 전혀 부담이 없다. 챕터 구분도 깔끔해서 언제든 필요한 부분을 되짚어볼 수 있다. 책 읽는 속도가 느린 편인 본인도 2-3시간 만에 전체를 빠르게 완독 할 수 있었다. 그리고 적절한 위치에 등장하는 차트, 다이어그램은 읽는 재미를 더 해준다. 발표를 위한 장표를 만들 때 보통은 글자를 최대한 빼고 숫자, 그림을 많이 보여 주는 게 좋은 발표라고 이야기를 한다. 장표에 ..
이전 편에서 데이터를 Google Cloud의 BigQuery에 담는 것 까지 진행을 했다. 사실 빅쿼리가 오버스펙이기는 하지만 쿼리 감각이 5년 전에서 멈춰있었기 때문에 이쯤에 개인 프로젝트로 쿼리 감을 되찾자는 것도 있었고, 빅쿼리를 통해 연동되는 GCP( Google Cloud Platform )의 여러 가지 부가적인 기능을 공부하자는 목적도 있었다. 아무튼, 지난시간까지 데이터를 적재하는 부분은 어느 정도 끝났기 때문에 데이터 모양새는 꽤 나쁘지 않게 쌓이고 있다. 현재는 대략 한 달치 이상의 데이터가 쌓이기를 기다리고 있는 시기인데 데이터가 충분히 쌓였을 때 다음 계획에 대해서 이것저것 생각해보고 있다. 사실 프로젝트의 목적은 "용인-> 강남 버스 출근 앉아가기"지만 이미 적은 데이터로도 앉을 ..
이번에는 프로젝트를 진행하면서 놓친 부분을 언급하고 끝내려고 한다. 프로젝트를 시작한 지 이제 일주일 정도 되었고 데이터는 쌓이고 있지만 매우 중요한 부분이기 때문에 누군가 나와 비슷한 계획으로 움직이려고 한다면 미리 생각해야 할 부분일 것이다. 첫 번째로 이야기하는 건 타깃 정류소의 위치다. 이 프로젝트의 핵심은 내가 타고자 하는 정류소의 데이터를 수집하고 수집된 데이터 안에서 버스의 빈자리를 확인하는 데 있다. 예를 들어 특정 시간대에 빈자리가 항상 5자리 있다고 생각해보면 나는 그 시간대에 버스를 타기 위해 움직이면 된다는 이야기다. 여기서 매우 중요한 부분이 간과되고 있는데 바로 그 정류소에서 대기하고 있는 사람의 수이다. 이미 여섯명이 기다리고 있다면 나는 그 정류소에 제때 도착해봐야 앉을 수 ..
데이터 분석에는 다양한 데이터베이스가 사용되고 단연 SQL 은 빠질 수 없는 소스일 것이다. 사실 DBA 도 아니고 데이터는 적당히 때려넣고 쿼리 날라가는 것만 확인되면 OK 인 것처럼 지내왔다. (글의 흐름을 위한 과장이고 엔진 튜닝이나 쿼리 튜닝도 소소하게 진행했다 ^^;;) 아무튼 SQL 책이라고는 대략 8년전 회사에서 굴러다니는 MySQL+PHP 를 쿡북처럼 잠깐잠깐 필요할 때 살펴본 것이 전부라 전문적인 지식은 아무래도 많이 미흡했는데 그런 부족한 부분을 든든하게 채워주는 책이 한빛미디어에서 출간되었다. 바로 데이터 분석을 위한 SQL 레시피. 이미 SNS 나 주변에서는 좋은 책이라는 평가로 한바탕 난리가 난 책이다. 하지만 그다지 호락호락하기 볼 수만은 없는 책이기 때문에 SQL과 친숙하지..
- Total
- Today
- Yesterday