DataEngineer 02 - 기초 지식
REF
패스트캠퍼스 - 데이터 엔지니어 강의 / 한승수 강사
DataEngineer 02 - UNIX 환경 및 커맨드
UNIX / Shell Commands
UNIX 기본 Command
Terminal Shortcut
Ctrl + L : clear
Navigating Files and Directions
cd path : 경로 진입
ls path : 경로 내 리스트
ls al : 숨긴파일 포함 보기
ls al path : symlink 보기
pwd : 현 위치 경로 반환
.. : 상위 경로
. : 해당 폴더
Files and Directories
cp old new : 파일 복사
rm path : 파일 삭제
mkdir path : 폴더 생...
DataEngineer 01 - 데이터 아키텍처
데이터 엔지니어의 필요성
문제 해결을 위한 가설 검증 단계
모든 비지니스가 동일한 데이터 분석 환경을 갖출 수가 없다
성장 단계에 따라 선택 집중해야 하는 분석 환경이 다르다
⇒
**本该加粗却没加粗**
- 本该成序列却没成序列
⇒
⇒
데이터 기반 가설 검증단계
데이터 아키텍처 시 고려사항
비지니스 모델 상 가장 중요한 데이터는 무엇?
비용 대비 비지니스 임팩트가 높은 데이터 확보
데이터 거버넌스(Data Governance)
원칙(Principle)
조직(Organizat...
빅데이터 - 데이터 분석 유형
page : /bigdata/DataAnalysisType#excerpt
1. Descriptive analisys
기술적 데이터 분석
주어진 데이터를 요약/집계해서 결과를 도출
과거의 데이터를 단순 계산/집계해서 얻은 사실이므로 분석 결과를 따로 해석하지 않는다
이달의 매출액, 평균 세션 타임, 설문조사의 남녀비율 등
시각화 : 그래프(Pie chart, Box plot, Bar plot), 요약 형식의 테이블
2. Exploratory analysis(EDA)
탐색적 데이터 분석
REF EDA(Exploratory Data Analysis) 탐색적 데이터 분석
...
빅데이터 - 데이터 분석
데이터 분석가
REF 데이터 분석가(Data scientist)에게 꼭 필요한 4가지 역량 (2016.02.26)
데이터 싸이언티스트, 데이터 애널리스트, 데이터 엔지니어, 비즈니스 애널리스트 등 다양한 직군 → 여기에서는 데이터 분석하는 사람을 ‘데이터 분석가’로 통칭
필요한 역량
데이터에 대한 이해
데이터베이스에서 데이터 추출 능력 : RDBMS(SQL), MongoDB(JSON) 등
통계 및 분석 방법에 대한 이해
데이터 분석을 하기 위해서는 통계적 지식이 필수
다양한 분석 기법 습득 : 온라인 강의 참고
지도학습, 비지도학습 영역 별로 사실 자주 사용되는 기본 분석 ...
통계학 - 확률변수와 확률분포
확률변수와 확률분포
확률변수(random variable, X)
실험의 결과(사건)에 실수값을 대응시키고 그 값에 확률을 부여한 것
실험을 마친 후 어떤 결과가 몇 번 발생했는지 이 결과의 수에 확률이 부여된 것
이산 확률변수(discrete random variable)
셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 것
독립적으로 발생하는 사건에 대한 확률변수
사건에 대한 실수값에 확률을 부여한 것 → 각 사건의 확률을 적시하는 확률변수를 기준으로 합산하여 계산
eg. 동전 던지기, 주사위 던지기, 윳놀이 등과 같이 모두 독립적으로 발생하는 사건에서 이산 확률변수 확인...
Jekyll - Category 설정
MEMO
나는 Jekyll-TeXt-Theme을 사용하고 있어서 해당 프로젝트를 바탕으로 작성함
Navigation Bar에 카테고리를 설정하고 싶어서 방법을 찾아보았다.
설정하는 법
catetory list
/category 폴더 생성
파일명 [category name].md 형식으로 각 카테고리별 파일 생성
recently
---
title: Algorithm
permalink: /algorithm
---
Before
---
layout: category
title: Algorithm
permalink: /algorithm
sidebar:
...
마크다운 사용하기
MEMO
Jekyll-TeXt-Theme을 사용하면서 적용한 부분이 있음
직접 커스터마이징한 부분이 많으므로 기본 마크다운에서는 적용이 안될 수 있으니 추가 설정 필수
Link
새 창 열기 : {:target='_blank'}
[link](https://willnfate.github.io){:target='_blank'}
link
Image
markdown
테두리 : {:.border}
스타일 : {:width='600px' height='300px'}
코멘트 : *comment*
 사용 불가능 : 현실에서는 일어나지 않으므로 현실 세계에 적용하기 적합
a와 b 사이의 최단 경로를 찾는 데이크스트라의 알고리즘이다. 가장 낮은 값을 가진 방문하지 않은 꼭짓점을 선택하고, 방문하지 않은 각 인접 노드와의 거리를 계산하고, 작을 경우 인접 거리를 업데이트한다...
빅데이터 - 파이썬을 이용한 빅데이터 분석
분석 도구
프로그래밍 언어 파이썬(Python)
파이썬의 데이터 분석 패키지 판다스(Pandas)
파이썬의 머신러닝&인공지능 라이브러리인 싸이킷런(scikit-learn)
데이터 분석 과정
데이터 로딩 : read_csv
시각화 및 가설 : seaborn, matplotlib
전처리(Preprocessing) : DecisionTree를 사용하기 위해서 데이터를 숫자로 가공
데이터 준비 : feature와 label을 사용해 X_train, X_test, y_train 데이터 생성
학습(Train) : DecisionTree를 사용해 데이터 학습(fit) 및 예측(pr...