개발 워크플로우를 혁신하기 위해서 Docker는 Keep it SImple 친숙한 CLI 환경에서 어플리케이션을 빌드, 공유, 실행하는 행위를 간편하게 제공하고. Move Fast 단일 패키지로 몇분만에 시작할 수 있으며, 로컬과 개발 운영환경을 동일하게 할수 있으며. Collaborate 인증된 곳에서 제공하는 이미지를 프로젝트에 사용하고 팀원들간 협업을 가능하게 함.
도커는 점차 복잡해지는 개발 및 운영 환경 속에서 개발 워크플로우에 효율성을 증대시키기 위한 Tool 이다.
나는 웹 개발자로 일하고 있다. 주력은 Java, spring이지만 다양한 바운더리에서 기술스택을 쌓으면서 맡은바 업무를 충실히 해나고 있는평범한 IT 노동자이다. 그럼에도 웹 개발과는 큰 관련 없는 데이터 분석을 공부하게된 이유는 데이터 분석의 가치와 장래성 때문에 공부하게 되었다.
수 많은 책 중에 왜? 혼자 공부하는 데이터 분석을 선택했는가!!!
책 구성과 방향성 제시가 좋았고, 혼공단 좋았다.
데이터 분석에 대한 관심으로 ADsP 자격증은 취득하였지만, 실제 데이터 분석을 어떻게 하는지 잘 모른다. 뭔가 실무의 영역까지는 아니지만 간접 경험으로 경험해 보고 싶었다. 학습을 마친 후에는 인공지능 또는 딥러닝, 머신러닝과 같은 로드맵을 희망하기도 했다. 이러한 요건을 충족하는 책이 혼자 공부하는 데이터 분석 책 이었기에 선택하게 되었다.
혼공단이라는 런닝 메이트 같다 라는 느낌이 든다. 출판사에서 하는 프로그램이긴 하지만 뭔가 계획한 목표에 맞추어 과제를 올리고 그에 따라 선물도 주는 것이 포상을 받는 느낌이었다. 직장 생활을 하며 공부하기 위한 동기부여가 되었기에 좋았다.
책 구성이 무엇이 좋았나? 실무에 바로 적용 가능한가?
스토리 텔링 형식의 책 구성이 좋았다. 글을 자연스럽게 읽어나가며 손코딩을 하고 결과를 확인하는 과정속에서 데이터 분석의 흐름을 알게된 것이 마치 꽉찬 알밤 처럼 알차고 좋았다.
책의 구성
첨부한 사진 처럼 첫장에 무엇을 배우는지 그리고 스토리 형식으로 풀어가나며 해당 내용을 학습해 나가는 형식이다. 데이터 분석을 위한 파이썬 코드는 무엇인지 해당 기능에 대해서 자세히 설명하고 실제로 손코딩을 해봄으로써 결과를 확인 하는 과정까지 자연스럽게 이어지게 되어 있다. 장의 마지막에는 배운것에 대한 정리가 되어 있기에 공부한 내용에 대해서 리마인드 할 수 있는 구조이다.
여담이지만, 파이썬을 완벽하게 잘 할 필요는 없는듯 하다. Java, javascript 등 다른 언어를 경험해 보았다면 쉽게 이해가 될거라고 생각한다. 따라서, with 파이썬에 겁먹지 않아도 될 것 같다.
이 책 한권으로 데이터 분석 실무를 할 수는 없다. 실무는 분명 책의 내용보다 더 복잡하고 다양한 문제가 있기 때문이다. 하지만, 데이터 분석의 흐름과 향후 공부 방향에 대해서는 잡을수 있다고 생각한다.
마치며
일을 하며 공부하는 것에 대한 부담도 있었지만 혼공단과 함께 끝까지 달려갈 수 있었던 것에 감사하게 된다. 한권을 다 읽었다고 끝난게 아니라 이제 본격적인 시작이라고 생각한다.
과제 (1) [필수] p.182의 확인 문제 2번 풀고 인증하기 (2) [선택] p.219의 확인 문제 5번 풀고 인증하기
(1) [필수] p.182의 확인 문제 2번 풀고 인증하기
p182 ~ 183 2번 문제
(2) [선택] p.219의 확인 문제 5번 풀고 인증하기
p.218 ~ 219 5번 문제
Chatper03
keypoint: 데이터에 숨어 있는 잘못된 데이터를 찾아 조치하는 방법에 대해 학습.
Chatper03에서는 데이터 분석하면서 발생할 수 있는 분석에 불필요한 데이터를 변환하는 과정 데이터 랭글링(데이터 먼징)에 대해서 학습할 수 있었다. 데이터 프레임속에서 잘못된 행이나 없는 데이터를 찾아 조치하는 과정을 통해 데이터 분석에 가장 적합하게 처리하는 방법에 대해서 학습 할 수 있었다.
2장에서는 다양한 방법을 이용해서 데이터를 끌어 오는 방법을 배웁니다. API 방식과 원리 그리고 절차에 대해서 학습 할 수있고, API 방식으로 데이터를 가져올때 겪을수 있는 다양한 상황들에 대하여 알수 있습니다. HTTP 방식에서 Get방식과 Post 그리고 데이터 포맷인 JSON과 XML에 대해서 학습 할 수 있습니다.
인공지능(AI), 머신러닝, 딥러닝, LLM, 빅데이터가 세상을 뒤집어 놓고 있다. 세상의 변화에 따라가기 위한 학습이 필요하다. 그런데, 무엇을 어디서 부터 배워야 할지 막막하다. 막막함 가운데 나침판이 되어줄 길잡이로 "혼자 공부하는 데이터 분석 with 파이썬"과 함께 해보고자 한다.
왜? "혼자 공부하는 데이터 분석 with 파이썬"
첫번째, 저자 Pick
박해선님은 인공지능과 머신러닝, 딥러닝 관련 다수의 책을 집필했다. 현재 구글 ML GDE(Machine Learning Google Developer Expert) 포지션으로 활약 중이다.
두번째, 책 구성 Pick
출처 : 교보문고_ 상세페이지
혼자 학습하는 사람을 위한 구성이 마음에 들었다. 인터넷 강의와 수 많은 데이터 분석 관련 책들이 있지만 이 책만이 가지고 있는 구성이 맘에 들었다.
세번째, 학습이 이후 방향성 제시 Pick
출처 : https://tensorflow.blog/author/haesunpark/
사실 이 책을 선택한 가장 큰 이유가 로드맵 때문이다. 데이터 분석, 머신러닝, 딥러닝, 수학, 통계, 프로그래밍 모두가 중요하다고 하는데 어디서 부터 시작해야 할지 막막하다. 이러한 상황이기 때문에 나침판과 지도가 필요했다. "혼자 공부하는 데이터 분석 with 파이썬" 이책은 나에게 나침판과 지도와 같았다.
첫 걸음
광화문 교보문고
찾았다 요놈
시작
혼자 공부하는 데이터 분석 with 파이썬을 시작하면서 우연한 기회에 혼공이라는 그룹 스터디에 참여하게 되었다.
주관은 한빛미디어에서 하고, 혼자공부하는 시리즈 별로 주차별 커리큘럼을 소화하고 과제를 인증하는 형식을 진행된다.
커리큘럼
커리큘럼은 위의 표와 같다.
해당 커리큘럼에 맞게 진도를 진행하고 필수 과제를 블로그나 인스타와 같은 매체에 올린 후 링크를 공유하면 된다.
참여하게 된 계기는 한번 끝까지 완주해보자는 의지로써 참여하게 되었다.
완벽함 보다는 완주를 위해!!
관심 있는 분들은 아래 사이트를 참고하여 어떠한 곳인지 살펴보는 것도 좋을듯하다.
스터디는 단순 공부하는 것을 공유하는 것에서 끝나지 않고, 간식도 챙겨주니 공부하도 하고 간식도 먹는 도랑치고 가재잡는 좋은 기회인듯 하다.
종속변수와 독립변수는 ADsP / 빅데이터분석기사 / ADP 시험과 같이 통계와 관련된 시험에서 개념 또는 응용문제로 빈번히 출제되는 개념이다. 그렇기에 종속변수와 독립변수에 대해서 명확히 개념 정리 해보고자 한다.
1. 종속변수 (Dependent Variable, DV)
종속 = 자주성이 없이 주가 되는 것에 딸려 붙음 / Dependent = 의존적인, 의지하는 어딘가에 의존하는 변수가 종속변수라면 어디에 의존하는 것 일까? 바로 독립변수에 의존/영향을 받는 변수가 종속변수이다.
정의 : 종속변수는 독립변수의 변화에 따라 영향을 받거나 변화하는 결과 변수. 연구자가 알고 싶어 하는 주요 관심 대상이자 측정하고자 하는 대상. '종속(dependent)'이라는 말 그대로, 다른 변수에 의존하여 값이 결정된다는 것을 뜻 한다.
Other Word : 결과 변수(Outcome Variable), 반응 변수(Response Variable), 피예측변수(Predicted Variable)
2. 독립변수 (Independent Variable, IV)
독립 = 다른 것에 의존하거나 예속되지 않고 홀로 섬 / Independent = 독립적인, 독립된 영향을 받지 않는 변수가 독립변수이다. 영향을 받지 않는 데이터, 값이기에 종속변수에 변화를 줄 수 있는 것이다.
정의 : 독립변수는 종속변수에 영향을 주거나, 그 변화를 일으키는 원인 변수. 연구자가 의도적으로 조작하거나 변화시키는 변수. '독립(independent)'이라는 말처럼, 다른 변수에 의해 영향을 받지 않고 독립적으로 존재하며, 종속변수에 영향을 미치는 변수를 뜻 한다.
Other Word : 원인 변수(Cause Variable), 설명 변수(Explanatory Variable), 예측 변수(Predictor Variable)
Point : 원인과 결과
독립변수가 원인(Cause)이고 종속변수가 결과(Effect) 라는 관계 이다. Ex) 과도한 지출 - 원인, 홀쭉해진 지갑 - 결과
구체적인 예시
질문
독립변수 (원인)
종속변수 (결과)
설명
광고비 지출에 따른 제품 판매량 변화
광고비 지출 (예: 100만 원, 200만 원, 300만 원)
제품 판매량 (예: 100개, 150개, 220개)
광고비가 늘어남에 따라 제품 판매량이 어떻게 변하는지 알고 싶을 때, 광고비는 연구자가 조절하는 원인이 되고, 판매량은 그 결과로 나타나는 값.
수면 시간에 따른 다음 날 시험 성적
수면 시간 (예: 4시간, 7시간, 10시간)
시험 성적 (예: 60점, 85점, 90점)
수면 시간이 시험 성적에 어떤 영향을 미치는지 알아보고자 할 때, 수면 시간은 조절 가능한 원인이 되고, 시험 성적은 그에 따른 결과.
운동량에 따른 체중 변화
일주일 운동 시간 (예: 0시간, 3시간, 7시간)
체중 (예: 70kg, 68kg, 65kg)
운동량이 늘어날수록 체중이 어떻게 변하는지 연구할 때, 운동 시간은 독립적으로 조절되는 변수이고, 체중은 그 영향으로 변화하는 변수.
비료 종류에 따른 식물 성장 높이
비료 종류 (예: A비료, B비료, C비료)
식물 성장 높이 (예: 10cm, 15cm, 12cm)
어떤 비료가 식물 성장에 더 효과적인지 알아볼 때, 비료 종류는 연구자가 투입하는 원인이고, 식물 높이는 그 결과.
카페인 섭취량에 따른 집중력 변화
카페인 섭취량 (예: 0mg, 100mg, 200mg)
집중력 점수 (예: 5점, 7점, 6점)
카페인 섭취가 집중력에 미치는 영향을 알아볼 때, 카페인 섭취량은 조작되는 원인 변수이고, 집중력 점수는 그 결과로 측정되는 변수.
가정 소득 수준에 따른 자녀의 학업 성취도
가정 소득 수준 (예: 낮음, 중간, 높음)
자녀 학업 성취도 (예: 평균 학점, 시험 점수)
사회학 연구에서 가정 소득이 자녀 교육에 미치는 영향을 볼 때, 소득 수준은 독립변수이며, 학업 성취도는 그에 종속되는 결과 변수입니다. (이 경우 연구자가 소득을 직접 조작하는 것이 아님)
계절(온도)에 따른 아이스크림 판매량
계절 또는 온도 (예: 여름-더움, 겨울-추움)
아이스크림 판매량 (예: 높음, 낮음)
계절이나 온도는 인간이 직접 조작할 수 없지만, 아이스크림 판매량에 영향을 미치는 독립적인 요인으로 간주됩니다. 아이스크림 판매량은 이 요인에 따라 변하는 종속변수입니다.
그래프를 통한 예시
학습시간과 시험성적의 관계
그래프 : 산점도 (Scatter Plot)
설명 : 독립변수 - 다른 변수에 영향을 미치는 변수 / 종속변수 - 독립변수의 영향을 받아 변화하는 변수
독립변수 (X축): 공부 시간 (Study Hours)
공부 시간이 길수록 시험 성적이 달라질 것이라는 가정하에, 공부 시간은 시험 성적에 영향을 주는 원인 변수. 연구자가 통제하거나 변화를 주고자 하는 변수/ 데이터.
종속변수 (Y축): 시험 성적 (Exam Scores)
공부 시간에 따라 시험 성적이 어떻게 변화하는지 측정하고자 하는 결과 변수입. 공부 시간에 '종속'되어 값이 결정.
해석
점들의 분포: 그래프의 점들이 오른쪽 위로 향하는 경향을 알 수 있음. 이는 공부 시간이 늘어날수록 시험 성적도 대체로 증가한다는 것을 시각적으로 확인 할 수 있음. 즉, 공부 시간(독립변수)이 시험 성적(종속변수)에 긍정적인 영향을 미친다는 관계를 나타냄.
관계의 방향 및 강도: 점들이 대략적인 선형 관계를 따르고 있음을 알 수 있음. 이처럼 독립변수 값이 증가할 때 종속변수 값도 증가하면 '양의 상관관계'가 있다고 알 수 있음. 점들이 이 가상의 선 주변에 얼마나 밀집해 있느냐에 따라 관계의 강도를 파악할 수 있음.
원인과 결과의 시각화: 이 산점도를 통해 우리는 '공부 시간을 늘리는 것'이 '시험 성적을 향상시키는 것'의 원인 중 하나가 될 수 있다는 가설을 시각적으로 뒷받침할 수 있음. 물론, 이 그래프 하나만으로 인과관계를 100% 확정할 수는 없지만, 두 변수 간의 관계를 직관적으로 이해하는 데 큰 도움이 됨.