7월 25일
- 프로젝트 발표
- 비지도 학습
- 차원 축소
- 차원의 저주 -> 고차원에서 데이터 밀도가 낮아지고 용량이 높아지는 현상
- PCA(Principal Component Analysis)
- SVD
- TruncatedSVD (aka LSA)
- LatenetDirichletAllocation
- NMF (비음수 행렬 분해, Non-Negative Matrix Factorization)
- TSNE(T-Distributed Stochastic Neighbor Embedding)
np.argsort
-> 정렬 후 정렬된 인덱스 배열을 반환
7월 26일
- 특이값 분해를하면 정보를 잃어버릴 수 있는데, 용량이 작아지고 정보가 요약됨
- 토픽 모델링
- 잠재 의미 분석(LSI)
- pyLDAvis
- 코사인 유사도: 다차원의 양수 공간에서 사용
df.loc[조건, 열]
- RFM 분석
- ARPU / ARPPU
7월 27일
- RFM 분석 (Recency, Frequency, Monetary Analysis)
- 가치있는 고객을 추출해내어 고객을 분류할 수 있는 분석 방법
- 구매 가능성이 높은 고객을 선정하기 위한 데이터 분석 방법
- yellowbrick <- 시각화 기능
- Clustering
- 대표적인 비지도 학습 방법
- 데이터들의 특성을 고려해 데이터 집단(cluster)을 정의하고 대표하는 대표점을 찾는 데이터 마이닝 방법
- 좋은 군집
- 전체 실루엣 계수의 평균값 0~1 사이, 1에 가까울수록
- 개별 군집과 전체 군집의 실루엣 평균값의 편차가 크지 않은 것
7월 28일
- 인싸이트 타임
- 테스트 커버리지
- 테스트가 얼마나 촘촘하게 작성되었는지 알려주는 지표
pytest-cov
- 논리 부정(logical negation; not)과 비트와이즈 부정(bitwise negation; ~)
- 논리 부정: 피연산자도 bool, 결과값도 bool (True이면 False로, False이면 True로)
- 비트와이즈 부정: 피연산자도 int, 결과값도 int (모든 비트를 뒤집은 결과값, 즉 2의 보수를 반환)
- 단, numpy와 pandas에서는 비트와이즈 부정 연산자(~)를 논리부정 연산자로 재정의
- 모의 객체 (mock object)
- 실제 객체랑 겉보기엔 비슷하나, 실제로는 아무 일도 수행하지 않는 가짜 객체
- 단위 테스트에서 원하는 코드만 정확히 테스트하기 위해 사용
pytest-mock
7월 29일
- 정렬 알고리즘
- 페이지 교체 알고리즘
- LRU
- 실전 문제 풀이
Comments powered by Disqus.