본문 바로가기

개인 공부4

Pandas 개념 및 기본정리 Pandas 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리. Array 계산에 특화된 numpy를 기반으로 만들어져서 다양한 기능을 제공한다. Series : numpy array가 보강된 형태, data와 index를 가지고 있다.numpy array에서 사용했던 연산자들을 활용할 수 있다.DataFrame : 여러 개의 Series가 모여서 행과 열을 이룬 데이터를 말한다. numpy array에서 사용했던 sum, mean 등을 사용할 수 있다(정수일 경우) # import pandas as pd df.isnull() 누락된 데이터 체크 df.notnull() 누락된 데이터 체크 df.dropna() 누락된 데이터 제거 df.fillna('aaaa') 누락된 데이터를 'aa.. 2021. 9. 26.
Numpy 개념 및 기본정리 Numpy Numerical Python, 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리. Python List와 다르게 array는 단일 타입으로 구성 #import numpy as np arr.dtype #데이터 타입 확인 arr.astype(int) #데이터 타입 int로 변경 np.array([1,2,3,4,5]) #리스트 생성#array([1,2,3,4,5,]) np.array([0,10,2]) #범위와 간격을 설정할 수 있다 #array([0,2,4,6,8]) 마지막은 포함x np.zero(10, dtype=int) #int타입의 0값을 가진 10개의 인덱스를 생성 #array([0,0,0,0,0,0,0,0,0,0]) np.ones((3, 5) dtype=float) #fl.. 2021. 9. 26.
List comprehension(LC)과 삼항연산자 List Comprehension(LC) List Comprehension 간단히 말하면 리스트를 쉽게, 짧게 줄여 쓴 파이썬 문법이라고 생각하면 된다. #List Comprehension 의 기본 문법 [ ( 변수를 활용한 값 ) for ( 사용할 변수 이름 ) in ( 순회할 수 있는 값 )] 만약 파이썬에서 보통의 방법으로 각 원소의 인덱스에 2를 곱한 값을 할당하는 코드를 만든다고 한다면 아래와 같다. size = 10 arr = [0] * size for i in range(len(size)): arr[i] = i * 2 #arr에는 0,2,4...18 #파이썬 앞선 코드를 List Comprehension 을 이용하여 만들면 size = 10 arr = [i * 2 for i in range(.. 2021. 9. 25.
데이터 사이언티스트(Data Scientist) 란? 데이터 과학 - 현실에서 발생하는 문제를 해결하기 위해 컴퓨터를 활용하여 데이터를 분석하는 작업 전반을 의미한다. 데이터 과학자는 주로 팀을 이루어서 프로젝트를 수행한다. 정해진 기한과 업무량을 혼자서 해 낼 수 있는 경우는 거의 없기 때문이다.( 혼자 다 할 수 있는 역량을 가진 사람을 유니콘이라고도 함). 데이터 과학자가 갖춰야 할 자질에는 협업을 위한 의사소통 능력이 있다.(팀 단위로 프로젝트 진행하기 때문) 또한 비즈니스 실무자와 IT엔지니어 사이에서 소통하는 역할도 있다. 데이터 과학자에게 요구되는 실무 능력에는 아래 3가지가 있다. 프로그래밍 스킬 수학 & 통계학 지식 도메인 전문성 도메인 전문성이란 무엇일까? 내용을 정리하면 비즈니스에 대한 이해력을 갖춘 사람, 실무자, 문제 해결을 위한 가.. 2021. 9. 18.