빅데이터 전문가?


데이터 엔지니어 vs 데이터 분석가 vs 데이터 사이언티스트

전)비트윈 창업자
현)쏘카
김상우 데이터 전문가님(이자 저의 선생님)


  • 데이터 엔지니어
    데이터를 수집하고, 관리하며 유지하는 일

기업에서 발생하는 엄청난 양의 데이터를 수집하고 관리하며, 찾아내어 전달하는 일이다. 그렇기 때문에 핵심 역량은 ‘데이터를 잘 쌓는 것, 잘 관리하는 것, 이러한 구조를 잘 세우는 것’이다.

계속 수업을 들으면서 든 개인적인 생각은 정말 많이 알아야한다. 하루에 쌓이는 데이터의 양, 회사 내부의 자금 사정에 따라서 오픈소스, 클라우드등의 신기술을 적절히 선택해야하고, 그렇기 때문에 폭넓은 이해가 요구된다. 그리고 사실 엔지니어라는 영역으로 구분했지만, 실제 분석 업무나 인포그래퍼와 같은 앞단의 역할도 해야하는 것이 현실. 그렇기 때문에 꾸준히 공부해야한다.

다시 짧게 이야기하면 데이터 수집과 처리 정도로 생각하면된다.


  • 데이터 분석가
    비즈니스에 어떻게하면 도움이 될 지? 파악하고 문제를 해결하는 업무이다. 사실 수학적인 알고리즘이나 비즈니스 모델을 만드는 능력을 갖췄다고 보기는 힘들다. 더욱 간단하게 말하면 정형데이터(수치화 되고, 정제된)데이터에서 통계적 기법을 사용하는 전문가라고 할까?

추가로, 통계학과를 생각하면 더 편할까? 그런데 빅데이터 출현이후에 무언가 분석을하는 접근이 모호해지고 있다. 통계적인 지식이 없어도 먼저 머신러닝부터 내려가면서 배워도되고, 통계적인 지식을 bottom으로 보고 머신러닝 파트를 top으로 봤을 때 bottom-up이나 top-down이나 학습의 방향은 자신이 설정하는 것이다.

예전에 김도남님의 유투브 강의를 본적이 있는데 통계적, 수학적인 기본 지식은 차후에 쌓아가는 것도 이 빅데이터 분석 분야에서는 허용이된다고 들었다. 저도 동의하는 부분이고… 다만 bottom-up이 더 수월 할 것 같긴하다. 하지만 현실의 주요 기술을 사용하는데까지 도달하는데 오래걸리지 않을까?


  • 데이터 사이언티스트 (데이터 엔지니어 + 데이터 분석가)
    기본적으로 엔지니어라면 데이터 파이프라인을 구축하고 자료를 정제하는데 적합한 언어를 하나는 다룰줄 안다. 물론 hadoop eco system이나 그 외의 오픈소스 그리고 클라우드도 어느정도는 다루거나 지식이 있어야한다. 어떻게 데이터를 수집하고 흘려보내고 정제하고 표현할지 생각하고, 구현해야하기 때문에…

데이터 분석가는 위에서 말했듯이 비즈니스 문제를 해결하는데 집중하는 것이다.

지금부터는 저의 개인적인 생각인데, 회사의 규모나 사정에 따라서 엔지니어는 분석가의 역할을 해야하기도 하고, 분석가는 엔지니어의 역할을 하거나 이해하는 능력이 필요할 수 있다. 그렇기 때문에 앞으로 빅데이터 전문가라는 역영에 발을 딪고 싶은 사람이 있다면 전 분야에 관심을 가지자.

분석에 뛰어난 사람이라도 실시간이나 깔끔하거나 혹은 그 어떤 목적에 맞는 데이터가 있어야 분석하지 않을까?

반대로 데이터를 잘 다루지만 분석 능력이 없으면 비즈니스 문제 혹은 우리 사회의 문제를 해결할 수 있을까?

그러니까 어느 한 부분도 놓칠 순 없다.

데이터 사이언티스트 한줄 정리

머신러닝, 파이썬, 통계 등 다양한 방법을 활용하여 데이터에서 인사이트를 뽑아낼 수 있는 유형. 데이터를 다루는 스킬과 데이터를 분석해 의미를 도출하는 등 다양한 업무를 담당할 수 있는 사람.

참고, 분명 이해하지 못하고 틀린 부분이 있을 수 있습니다.