데이터 과학자 되는 법

티스토리 뷰

데이터사인언스 입문하기/1. 책

데이터 과학자 되는 법

믿다 2022. 7. 27. 01:40

< 목차 >

1. 책 선정 이유

2. 책 내용

3. 느낀점

책 선정 이유
대학교 2학년때 컴퓨터공학과 친구로부터 파이썬을 처음 배웠다. 당시 그것을 배울 때, 나는 컴퓨터 언어를 흥미롭게 공부했지만 정작 내 분야에서는 쓸 일이 없을 줄 알았다. 내가 몸담고 있는 분야는 산림자원학인데 대부분의 선배들이 공무원 아니면 산림조합과 같은 산림조사나 엔지니어링 분야로 취업했기 때문이다. 그래서 나도 공무원을 준비하거나, 현장 직무에 맞는 기술들을 익히기 위해 노력했었고 컴퓨터 공부에는 시간을 쏟을 수 없었다.

허나 4학년이 되고 학과에 산림생명유전체학이 신설되었다. 나는 호기심에 이끌려 산림생명유전체학과(수강), 산림생명정보분석(청강)을 들었다. (아래에 생명정보분석은 청강이라 취득내용이 없다.)

이 분야에 관련된 기초지식이 없음에도 불구하고, 나는 유전체 데이터를 컴퓨터로 가공하여 처리하는 것에 매력을 느꼈다. 그래서 나는 담당교수에게 찾아가 어떠한 공부를 해야할지 물었다. 분자생물학, 통계학, 파이썬 등의 공부가 필요할 것이란 답변을 듣게 되었다. (아래 커리어DB의 상담내용이 간소화 되어있다.)

그러나 이것만으로는 막연한 느낌이 들었고, 정확히 어떻게 취업에 관한 커리어를 쌓아야 하는지 궁금하였다. 나는 구글에 검색하여 자료를 찾아보다가 내가 되고 싶은 것이 데이터사이언티스트라는 것을 알게 됐다. 그래서 관련된 책중 이것을 읽게 되었다.
책 내용
책은 1. 데이터과학 시작하기 2. 데이터 과학 직무 찾기 3. 데이터 과학자로 자리잡기 4. 데이터 과학자로 성장하기 로 구성되어있다. 이제막 공부하기 시작한 나한테 맞는 내용은 1장이므로 해당 내용만 다루겠다.
< Chapter 1 >
1-1) 데이터 과학이란
데이터 과학은 현실의 문제를 해결하고 이해하는 데 데이터를 사용하는 과정이다. 이를 위해 데이터 과학자는 컴퓨터 코드로 데이터를 변환하거나 집계 및 통계 분석, 머신러닝 모델을 훈련할 수 있다. 데이터 과학을 배우기 위해선 <수학과 통계학>, <프로그래밍과 데이터베이스>, <*도메인지식>에 대한 이해가 필요하다.(* 특정한 분야의 기초지식)
기본적인 수준에서 수학과 통계학 지식은 데이터 활용 능력이다. 클러스터링 방법을 익히는 것이 이에 해당한다.

프로그래밍과 데이터베이스는 데이터베이스에서 데이터를 가져와 효율적이고 유지 보수가 되는 코드를 작성하는데 필요한 역량이다. 데이터사이언스에서 이를 위해 'R'이나 '파이썬', 'SQL', 'Git' 등을 이용한다.
<프로그래밍 언어>
-'R'은 통계학 기반 언어라 통계분석 및 모델링, 시각화, 결과 보고서 생성 등에 적합하다.
-'파이썬'은 대용량 데이터셋 작업, 머신러닝 및 실시간 알고리즘에서 훌륭하다.
< 그 외 >
-'SQL'은 데이터베이스 작업을 위해 사용한다. 데이터베이스에서 데이터를 조작 및 추출 시 사용한다.
-'Git': 버전 관리에 사용되는 시스템이다. 이것은 이전 코드가 어떻게 변경됐는지 추적하는 버전 관리이다. 웹 기반으로 호스팅한 github와 결합하여 사용된다. 깃은 commit을 통해 변경사항을 저장하고 되돌릴수 있다.

1-2) 여러가지 데이터 과학 업무
데이터과학의 핵심기술은 데이터과학자의 핵심역량이고 서로 결합되어 <분석>, <머신러닝>, <의사결정>이라는 영역과 연결된다. 세 영역은 기업에서 다른 목적과 결과물을 전달한다.

<데이터 분석가>: 데이터 분석가는 회사 내부의 데이터를 가져와 형식에 맞게 정리하고 효과적으로 정리하며 담당자에게 전달한다. 이를 위해 데이터를 전달할 대시보드와 보고서를 만든다. 통계학 및 머신러닝 지식은 필요하지 않다.
<머신러닝 엔지니어>: 데이터의 시각화 보다는 프로그래밍 업무에 더 많은 시간을 투자한다. 연속으로 실행되는 모델을 만들어 내야한다.
<의사결정 전문가>: 기존 데이터를 의사결정하는 데 도움을 주는 정보로 바꾼다. 수학과 통계적 방법을 이해하고 비즈니스 의사결정에 익숙해야 한다.

이외에도 비즈니스 인텔리전스 분석가, 데이터엔지니어, 연구원 등이 있다.

< Chapter 2 >
2장은 데이터과학기업을 대/중/소 기업을 구분하여 각 기업의 장단점과 각 직무에서 살펴봐야 할 기술 스택을 평가한다. 각 기업의 장단점을 비교분석하는 것은 면접시 상담한 도움이 되면 만족스러운 근무를 할 가능성을 높여준다. 때문에 관료주의, 기술 스택, 자유도, 급여, 안정성, 학습기회와 같은 요소로 커버레터를 작성해 평가하는 것이 좋다.
(이 이상은 관심 내용 밖이라 생략합니다.)

< Chapter 3 >
데이터 과학 기술 습득방법은 4가지 뿐이다.
1) 데이터 관련 분야 대학원 학위 취득
- 광범위한 교육과 이를 감당할 수 있는 사람에게 적합하다. 데이터 과학의 모든 요소를 차근차근 배우기 때문에 오랜 시간이 걸린다. 실무와 관련이 없는 경우도 많아 대학원 과정 동안 인턴십으로 실무 경험을 쌓아야만 학위를 높일 수 있다.
2) 데이터 과학 부트캠프 참여
- 회사에서 집중 강좌로 개설하는 캠프이다. 매일 8시간 이상의 데이터 과학 기술을 배우며 실무자의 강연을 듣고 프로젝트를 진행하며 시간을 보낸다. 이 과정을 마치면 *캡스톤 프로젝트를 발표하고, 이것으로 면접의 기회를 얻게 된다.
프로그래밍 및 통계의 기초 지식은 익히고 참여하는게 좋다.
*캡스톤 프로젝트: 졸업 전시회라고도 불림.
<장점>
- 기술: 기초통계학, 머신러닝 기법, 중급 프로그래밍, 실사용 등의 기존 교육을 보충하기 적합
- 프로젝트: 실무 기술과 일치하는 기술을 적용해 볼 수 있음
- 인맥: 부트캠프는 해당 기업에 발을 놓을 수 있는 인맥 네트워크를 운영한다.
<단점>
- 비용
3) 현재 회사에서 데이터 과학 업무 진행
- 작은 데이터 과학 프로젝트에 협업 직원으로 들어가 데이터 사이언스를 익히는 방법이다. 부담을 주지 않는 선에서 적극적으로 행동해야 한다.
4) 온라인 강의와 데이터 과학 서적 독학
- 온라인 강의, 책 등이다. 선생님이나 롤모델이 없으니 추천하지 않는다.

< Chapter 4 >
포트폴리오를 훌륭하게 작성하는 방법
<데이터 과학 프로젝트 만들기>, <깃하브 이용하기>, <블로그 시작하기>등이 있다.

1) 프로젝트 만들기
- 자신의 도메인 지식의 데이터를 활용하여 프로젝트를 진행할 수 있다. 또는 캐글(기업 데이터셋 문제 풀기), 뉴스 데이터셋 정리, API(application programming interface, 기업의 데이터에 직접 접근할 수 있는 개발자 도구), 정부 공공 데이터, 자체 데이터, 웹 스크래핑(API가 없는 웹사이트에서 데이터 추출) 등을 활용할 수 있다.

2) 깃허브의 리드미 채우기
- 깃허브 저장소를 효과적으로 이용하기 위해선 리드미 파일을 작성하는게 좋다. 이 프로젝트는 무엇인가, 어떤 데이터를 사용하는가, 무슨 질문에 답하는가, 출력 형태가 무엇인가 등등이다. 코드를 보며 이해하는 것은 어렵기 때문에 깃허브에 리드미를 작성 후 블로그에 알려주는 것 또한 중요하다.

3) 블로그 시작하기
- 자신의 생각과 프로젝트를 자랑하는 곳이다. 데이터 과학자는 항상 자신의 결과를 일반인에게 전달해야 한다. 블로그는 데이터 과학의 모든 과정을 비즈니스 언어로 바꾸는 경험을 가져다 줄수 있다.
블로그를 할 때 <코드 중심>, <이론(도메인 지식) 중심>, <프로젝트>, <경험> 등으로 나눠서 정리하는 것이 좋다.
블로그는 R로 만들 수 있는 블로그다운 패키지와 같이 본인만의 웹사이트를 만들 수도 있고, 현재 이 글을 읽고 있는 T-STORY와 같이 블로그 플랫폼을 이용할 수도 있다. 주의할 점으로 게시물을 너무 장황하지 않게 만드는게 좋다.
느낀점
책이 경험적인 기술이 많다는 것을 한눈에 알 수 있었다. 실용적으로 어떻게 데이터 과학자가 되는지의 과정을 알기 쉽게 순차적으로 알려준다.
감사의 글을 보면 많은 리뷰어와 인터뷰어를 대상으로 조사하고 책을 썻다고 한다. 그래서인지 현재 내가 선택할 수 있는 여러개의 대안들을 눈으로 생생하게 보는 느낌이었다. 특히나 내가 어떤 공부를 선행할지에 대해 조바심을 느끼고 있었는데 이 책이 여러 카테고리를 보여주며 세부적인 설명을 해주었다. 각 카테코리를 따라 내가 도달할 수 있는 직무 또는 방향성에 대해 생각하게 되었고 전보다 생각이 명확해졌다.
내가 데이터사이언스를 배울수 있는 길은 대학원 진학이 맞다고 판단된 것이다. 이를 위해 이번 학기에 기초통계학, 파이썬 프로그래밍, 도메인지식을 필수로 잡고 갈 것이다. 시간이 된다면 Git과 SQL도 접해볼 예정이다.
깃허브와 블로그의 중요성에 대해서는 전에도 얼핏 들어보았지만 크게 와닿지 않았었다. 그러나 이 책을 통해 그것들이 나를 표현해줄 수단이 된다는 것을 느꼈다. 그리고 내가 잘 알지 못했던 내용을 깨닫는 데 도움이 된다는 것을 알게 되었다. (이 글을 작성하면서도 내가 책에서 놓쳤던 내용들을 확인할 수 있었다.) 그러므로 블로그도 시간이 나면 천천히 올려볼 생각이다.