본문 바로가기

엘리스AI트랙4

Pandas 개념 및 기본정리 Pandas 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리. Array 계산에 특화된 numpy를 기반으로 만들어져서 다양한 기능을 제공한다. Series : numpy array가 보강된 형태, data와 index를 가지고 있다.numpy array에서 사용했던 연산자들을 활용할 수 있다.DataFrame : 여러 개의 Series가 모여서 행과 열을 이룬 데이터를 말한다. numpy array에서 사용했던 sum, mean 등을 사용할 수 있다(정수일 경우) # import pandas as pd df.isnull() 누락된 데이터 체크 df.notnull() 누락된 데이터 체크 df.dropna() 누락된 데이터 제거 df.fillna('aaaa') 누락된 데이터를 'aa.. 2021. 9. 26.
Numpy 개념 및 기본정리 Numpy Numerical Python, 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리. Python List와 다르게 array는 단일 타입으로 구성 #import numpy as np arr.dtype #데이터 타입 확인 arr.astype(int) #데이터 타입 int로 변경 np.array([1,2,3,4,5]) #리스트 생성#array([1,2,3,4,5,]) np.array([0,10,2]) #범위와 간격을 설정할 수 있다 #array([0,2,4,6,8]) 마지막은 포함x np.zero(10, dtype=int) #int타입의 0값을 가진 10개의 인덱스를 생성 #array([0,0,0,0,0,0,0,0,0,0]) np.ones((3, 5) dtype=float) #fl.. 2021. 9. 26.
머신러닝(Machine Learning) 이란? 머신러닝 데이터 과학의 한 영역, 예측과 패턴 분석(Prediction & Pattern Analysis)으로 이루어져 있다. 컴퓨터가 데이터로 부터 스스로 규칙과 패턴을 찾아 스스로 학습할 수 있도록 프로그래밍하는 과학적인 활동 (현상,실제문제, 가설-> 검증해 나아가는 과정) 현실의 문제를 해결해 나아가는 과정이며 의사결정을 지원하고 수익화를 극대화 시키는데 그 목적이 있다. 머신러닝이 필요한 상황 수작업, 긴 규칙, 규모가 큰 작업 : 인간이 관리하기 어렵고, 맡은 관리자가 다른 사람으로 대체되기 어렵다는 한계 전통적인 접근 & 잘 작동하지 않는 경우 새로운 데이터를 적용해야 할 때 : 시간이 지남에 따라 끊임없이 다양하고 새로운 데이터가 쌓이며, 조건과 환경이 변한다. 이에 따라 새로운 규칙과 패.. 2021. 9. 19.
데이터 사이언티스트(Data Scientist) 란? 데이터 과학 - 현실에서 발생하는 문제를 해결하기 위해 컴퓨터를 활용하여 데이터를 분석하는 작업 전반을 의미한다. 데이터 과학자는 주로 팀을 이루어서 프로젝트를 수행한다. 정해진 기한과 업무량을 혼자서 해 낼 수 있는 경우는 거의 없기 때문이다.( 혼자 다 할 수 있는 역량을 가진 사람을 유니콘이라고도 함). 데이터 과학자가 갖춰야 할 자질에는 협업을 위한 의사소통 능력이 있다.(팀 단위로 프로젝트 진행하기 때문) 또한 비즈니스 실무자와 IT엔지니어 사이에서 소통하는 역할도 있다. 데이터 과학자에게 요구되는 실무 능력에는 아래 3가지가 있다. 프로그래밍 스킬 수학 & 통계학 지식 도메인 전문성 도메인 전문성이란 무엇일까? 내용을 정리하면 비즈니스에 대한 이해력을 갖춘 사람, 실무자, 문제 해결을 위한 가.. 2021. 9. 18.