主页

DataEngineer 02 - 기초 지식

REF 패스트캠퍼스 - 데이터 엔지니어 강의 / 한승수 강사

DataEngineer 02 - UNIX 환경 및 커맨드

UNIX / Shell Commands UNIX 기본 Command Terminal Shortcut Ctrl + L : clear Navigating Files and Directions cd path : 경로 진입 ls path : 경로 내 리스트 ls al : 숨긴파일 포함 보기 ls al path : symlink 보기 pwd : 현 위치 경로 반환 .. : 상위 경로 . : 해당 폴더 Files and Directories cp old new : 파일 복사 rm path : 파일 삭제 mkdir path : 폴더 생...

DataEngineer 01 - 데이터 아키텍처

데이터 엔지니어의 필요성 문제 해결을 위한 가설 검증 단계 모든 비지니스가 동일한 데이터 분석 환경을 갖출 수가 없다 성장 단계에 따라 선택 집중해야 하는 분석 환경이 다르다 ⇒ **本该加粗却没加粗** - 本该成序列却没成序列 ⇒ ⇒ 데이터 기반 가설 검증단계 데이터 아키텍처 시 고려사항 비지니스 모델 상 가장 중요한 데이터는 무엇? 비용 대비 비지니스 임팩트가 높은 데이터 확보 데이터 거버넌스(Data Governance) 원칙(Principle) 조직(Organizat...

빅데이터 - 데이터 분석 유형

page : /bigdata/DataAnalysisType#excerpt 1. Descriptive analisys 기술적 데이터 분석 주어진 데이터를 요약/집계해서 결과를 도출 과거의 데이터를 단순 계산/집계해서 얻은 사실이므로 분석 결과를 따로 해석하지 않는다 이달의 매출액, 평균 세션 타임, 설문조사의 남녀비율 등 시각화 : 그래프(Pie chart, Box plot, Bar plot), 요약 형식의 테이블 2. Exploratory analysis(EDA) 탐색적 데이터 분석 REF EDA(Exploratory Data Analysis) 탐색적 데이터 분석 ...

빅데이터 - 데이터 분석

데이터 분석가 REF 데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량 (2016.02.26) 데이터 싸이언티스트, 데이터 애널리스트, 데이터 엔지니어, 비즈니스 애널리스트 등 다양한 직군 → 여기에서는 데이터 분석하는 사람을 ‘데이터 분석가’로 통칭 필요한 역량 데이터에 대한 이해 데이터베이스에서 데이터 추출 능력 : RDBMS(SQL), MongoDB(JSON) 등 통계 및 분석 방법에 대한 이해 데이터 분석을 하기 위해서는 통계적 지식이 필수 다양한 분석 기법 습득 : 온라인 강의 참고 지도학습, 비지도학습 영역 별로 사실 자주 사용되는 기본 분석 ...

통계학 - 확률변수와 확률분포

확률변수와 확률분포 확률변수(random variable, X) 실험의 결과(사건)에 실수값을 대응시키고 그 값에 확률을 부여한 것 실험을 마친 후 어떤 결과가 몇 번 발생했는지 이 결과의 수에 확률이 부여된 것 이산 확률변수(discrete random variable) 셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 것 독립적으로 발생하는 사건에 대한 확률변수 사건에 대한 실수값에 확률을 부여한 것 → 각 사건의 확률을 적시하는 확률변수를 기준으로 합산하여 계산 eg. 동전 던지기, 주사위 던지기, 윳놀이 등과 같이 모두 독립적으로 발생하는 사건에서 이산 확률변수 확인...

Jekyll - Category 설정

MEMO 나는 Jekyll-TeXt-Theme을 사용하고 있어서 해당 프로젝트를 바탕으로 작성함 Navigation Bar에 카테고리를 설정하고 싶어서 방법을 찾아보았다. 설정하는 법 catetory list /category 폴더 생성 파일명 [category name].md 형식으로 각 카테고리별 파일 생성 recently --- title: Algorithm permalink: /algorithm --- Before --- layout: category title: Algorithm permalink: /algorithm sidebar: ...

마크다운 사용하기

MEMO Jekyll-TeXt-Theme을 사용하면서 적용한 부분이 있음 직접 커스터마이징한 부분이 많으므로 기본 마크다운에서는 적용이 안될 수 있으니 추가 설정 필수 Link 새 창 열기 : {:target='_blank'} [link](https://willnfate.github.io){:target='_blank'} link Image markdown 테두리 : {:.border} 스타일 : {:width='600px' height='300px'} 코멘트 : *comment* ![GitHub Pages](/assets/images/blog/GitHubPages/img01.p...

Dijkstra's Algorithm

다익스트라 알고리즘(Dijkstra Algorithm, 데이크스트라 알고리즘 다이나믹 프로그래밍을 활용한 대표적인 최단거리 알고리즘 도로 교통망 같은 곳에서 나타날 수 있는 그래프에서 꼭짓점 간의 최단 경로를 찾는 알고리즘 특정한 하나의 정점에서 다른 모든 정점으로 가는 최단 경로를 알려줌 음의 간선(간선의 비용이 음수) 사용 불가능 : 현실에서는 일어나지 않으므로 현실 세계에 적용하기 적합 a와 b 사이의 최단 경로를 찾는 데이크스트라의 알고리즘이다. 가장 낮은 값을 가진 방문하지 않은 꼭짓점을 선택하고, 방문하지 않은 각 인접 노드와의 거리를 계산하고, 작을 경우 인접 거리를 업데이트한다...

빅데이터 - 파이썬을 이용한 빅데이터 분석

분석 도구 프로그래밍 언어 파이썬(Python) 파이썬의 데이터 분석 패키지 판다스(Pandas) 파이썬의 머신러닝&인공지능 라이브러리인 싸이킷런(scikit-learn) 데이터 분석 과정 데이터 로딩 : read_csv 시각화 및 가설 : seaborn, matplotlib 전처리(Preprocessing) : DecisionTree를 사용하기 위해서 데이터를 숫자로 가공 데이터 준비 : feature와 label을 사용해 X_train, X_test, y_train 데이터 생성 학습(Train) : DecisionTree를 사용해 데이터 학습(fit) 및 예측(pr...