본문 바로가기

분류 전체보기83

회귀 분석의 종류 및 개념 정리 지도학습의 회귀분석에는 여러 분석방법이 있다. '단순 선형회귀' '다중 선형회귀' '다항 회귀' '로지스틱 회귀' 등등 1. 단순선형회귀분석(Simple Linear Regression Analysis) 두 변수간의 인과관계를 조사하는 방법, 원하는 데이터를 예측하는 알고리즘 의미, 가장 쉽고 기초가 되는 알고리즘이 단순선형회귀분석이다. 하나의 종속변수에 하나의 독립변수가 있을 때 단순선형회귀분석 2개 이상의 독립변수가 있을 때는 다중회귀분석이라고 한다. ex) 데이터 : N개의 광고 예산과 판매량 목표 : 광고에 얼마나 투자했을 때 얼마나 팔릴까? 가정 : 광고예산과 판매량은 선형적 관계를 가진다. 문제 : 어떤 기울기와 절편(b0, b1) 이 가장 좋은 것일까? y = ax + b y추세선? , a기.. 2021. 10. 24.
군집(Clustering) VS 분류(Classification) 차이점?? 공부한 내용을 정리하다가 궁금한 점이 생겼다. 군집과 분류의 차이점은 무엇일까? 얼핏 보기에는 대상을 구분하여 나눈다는 점에서 둘 다 비슷해 보인다. 1. 군집(Clustering) 군집분석은 비지도 학습의 방법으로 군집의 수, 속성 등 label이 사전에 설정되어있지 않을 때 사용하는 분석 방법이다. 군집분석이란 데이터 간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐가는 방법을 말한다. ex) 3명(할머니, 20대 남자, 20대 여자) 이 있을 경우 성별에 따른 분류 -> 할머니, 20대 여성 / 20대 남성 나이에 따른 분류 -> 20대 여성, 20대 남성 / 할머니 키에 따른 분류, 인상착의에 따른 분류 등등 다양한 label에 따라 군집화가 가능하다. 이처럼 군집은 label(ca.. 2021. 10. 23.
Pandas 개념 및 기본정리 Pandas 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리. Array 계산에 특화된 numpy를 기반으로 만들어져서 다양한 기능을 제공한다. Series : numpy array가 보강된 형태, data와 index를 가지고 있다.numpy array에서 사용했던 연산자들을 활용할 수 있다.DataFrame : 여러 개의 Series가 모여서 행과 열을 이룬 데이터를 말한다. numpy array에서 사용했던 sum, mean 등을 사용할 수 있다(정수일 경우) # import pandas as pd df.isnull() 누락된 데이터 체크 df.notnull() 누락된 데이터 체크 df.dropna() 누락된 데이터 제거 df.fillna('aaaa') 누락된 데이터를 'aa.. 2021. 9. 26.
Numpy 개념 및 기본정리 Numpy Numerical Python, 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리. Python List와 다르게 array는 단일 타입으로 구성 #import numpy as np arr.dtype #데이터 타입 확인 arr.astype(int) #데이터 타입 int로 변경 np.array([1,2,3,4,5]) #리스트 생성#array([1,2,3,4,5,]) np.array([0,10,2]) #범위와 간격을 설정할 수 있다 #array([0,2,4,6,8]) 마지막은 포함x np.zero(10, dtype=int) #int타입의 0값을 가진 10개의 인덱스를 생성 #array([0,0,0,0,0,0,0,0,0,0]) np.ones((3, 5) dtype=float) #fl.. 2021. 9. 26.