통계학, 빅데이터를 잡다
2019년 12월까지,
초등학교 6학년을 끝으로 독서란것을 언제한지 기억조차 나지 않았던 40대아재였다.
무슨 이유인지 책을 한권 읽고나서 2020년 한달에 4권씩 독서 목표를 세웠다.
그결과 61권의 책을 읽게 되었다.
2021년은 새로운 독서목표를 세웠다.
한달에 한가지 주제를 선정해 4권씩 책을 읽어보자!
책을 읽고 기억은 나지 않지만, 서평을 작성해보자.
1월의 주제는 수학으로 선정하였고, 첫번째 책은 '이토록아름다운수학이라면' 이고,
두번째 책은 '통계학, 빅데이터를잡다'이다.
첫 사회에서 나의 월급을 책임져줄 직무는 CRM 이였다.
회사에 있는 DB를 추출하여 가공하고 분석하여 인사이트를 찾아 고객을 재 구매하는 부서!!
이 직무를 거의 10년을 하였다.
회사에서는 분석을 하지 않는 분야가 없다. 직장생활 10년을 해보니 이제 알겠더라~
매년 위기이고, 비상경영체제이란것을~
그래서, 난 항상 매출의 부진사유를 고객으로 분석을 하는일이 너무나 많았다. (OTL=3)
그때 마다 어려운 주제가 나타날때 마다, 말도 안되는 주제로 날 괴롭힐 때 마다,
(이직은 안하였지만) 이직에 대한 제의가 올때 마다!!!! 통계에 대한 관심이 많았으나,
나의 30대는 늘 궁금하기만 하였던것이였다. (노는게 제일 좋아~♪)
먼저 이 책에서는 빅데이터를 설명하고 왜 독자들에게 최근 통계학이 주목을 받고있는지 설명하였다.
* 빅데이터란?
흔히 3V라는 것을 빅데이터의 두드러진 특징으로 일컫고 있는데, 데이터의 양(Volume)과 다양성(Variety) 그리고 속도(Velocity)가 그것이다. 정보통신기술의 발달로 인해 생산되는 디지털 데이터의 양이 급속도로 많아진것, 그리고 데이터의 전달이나 저장, 분석 속도가 빨라진 없겠다. 양과 속도 못지않게 중요한 것은 데이터의 종류와 내용이다. 음성 데이터, 영상 데이터, 자연언어 데이터 등 과거에는 데이터라고 생각하지도 못했던 것들까지 데이터가 되었다.
즉, 빅데이터란 다양한 많은 양의 빠르게 생성되는 데이터.
(이렇게 정의 할 수 있지 않을까? 빅데이터가 무엇인지 뭐 중요한것은 아니니깐.)
통계학이 빅데이터와 융합할때 가장 시너지가 나는 분야라고 생각하시는것 같다.
뭐 하도 빅데이터! 빅데이터! 4~5년 들은것 같다~! 갑자기 상무님 생각이....휴~~ 저 잠시 눈물 좀....ㅠ
내가 학부생일때 2학년 전공과목 중 BI(Business Intelligence) 수업이있었다. [20년 전이라니.....]
Data를 가공하여 Information이 되고,
Information을 가공하여 Knowledge가 되고,
Knowledge를 가공하여 Business Intelligence 가 된다.
갑자기 옛추억을 끄집어 낸것은~
빅데이터가 또한 저런 절차를 통해 Output을 생성해 낸다는것이다.
이 책을 읽기전 CRM담당자로써 어떠한 기법이 유행인지, 워드클라우드니, 히트맵이니, 회귀분석이니, 등등
기법에 대한 인터넷서치만을 했다.
어떠한 통계 기법을 사용해야 하는것에만 고민을 했다.
책에서는 분석을 위해서는 일단 데이터가 준비되어 있어야 하는데 질 좋은 데이터가 풍부할수록 더 만족스러운 결과가 나온다. 어떤 복잡한 통계분석법도 데이터를 훌쩍 뛰어넘는 새로운 정보를 찾아내주지는 못하기 때문이다.
분석에 대한 목적과 그 결과를 도출하기 위해서 어떤 Data가 필요한지 고민이 우선이 되어야 한다는것이다.
그 이후 적절한 통계기법을 활용하여 우리가 필요한 분석을 시행하면 되는것이고, 이것은 컴퓨터 프로그래밍이 해결해 줄것이다. (제가 파이썬을 공부하는 이유 중 하나입니다.)
최근 DX(Digital Transformation) / Data Science 등으로 Data 분석가의 스트레스가 이만 저만 아닐것 같다.
너무 고차원적인 분석기법을 사용한다 하더라도 어차피 보고받으시는 분들은 이해 못한다.
현상에 대한 고민을 통해 원인을 찾기 위한 가설을 잘 세우고
Data 수집 또는 Data 추출을 통해 적절한 기법(가장 유명한 기법, ex. 회귀분석)을 사용하여 결과를 도출
쉽게 표현하는 연습이 중요할것 같다.
[40대아재는 그렇게 생각합니다.]
- 40대아재-