본문 바로가기

코딩/Pandas

비전공자의 코딩 독학 - 파이썬&판다스(1)

반응형

안녕하세요.

오늘의 파이썬 코딩 독학 주제는 판다스입니다.

 

 

1. 판다스(Pandas)란?

판다스는 파이썬에서 사용가능한 데이터 분석 라이브러리입니다.

주로 수치형 표와 시계열 데이터를 다루기 위해 사용하는 툴로써

엑셀처럼 행과 열로 이루어진 데이터를 처리하는데 특화되어있으며

대용량의 데이터를 다루는데 유용한 툴입니다.

 

1-1. 여기서 시계열 데이터란?

예를 들면

'지난 10년간의 월별 평균 기온'과 같은

일정 시간간격마다 관측값이 기록되어있는 데이터로 

주로 예측 업무에 사용됩니다.

 

 

2. 판다스는 주로 어디에 쓰나요?

최근 빅데이터에 대한 관심이 커지면서

누구나 빅데이터라는 단어를 한번쯤은 들어봤을겁니다.

판다스는 바로 그 빅데이터를 분석하기 쉽게 도와주는 도구입니다.

 

.csv확장자의 엑셀 파일을 저장하거나 불러올 수 있으며

대용량의 데이터를 딥러닝 등 원하는 용도로 사용할 수 있도록 가공해주는 역할을 합니다.

 

또한 내부적으로 넘파이(Numpy) 라이브러리를

수치계산 라이브러리로 사용하고 있기에

계산 속도도 무척 빠른 편입니다.

 

엑셀의 단점 중 하나가

데이터 양이 많아질수록 로드 속도도 느려지고,

데이터와 수식을 추가하는데에도 많은 시간이 요구되므로

대용량 데이터를 다루기에 적합하지 않다는 것인데

 

판다스로 엑셀 파일을 읽어들이면 메모리가 받쳐주는 한 자유롭게 전처리 할 수 있으며

파이썬 스크립트를 사용해

컴퓨터가 반복업무를 자동으로 수행하게 할 수 있습니다.

 

이처럼 판다스는 데이터 분석, 데이터 전처리, 시각화, 시계열 분석, 업무 자동화 등

다양한 분야에서 활용되고 있습니다.

 

2-1. 빅데이터(Big Data)란?

빅데이터란 디지털 환경에서 짧은 주기로 방대하게 생성되는 대규모의 데이터를 의미합니다.

데이터의 양과 생성 속도, 형태의 다양성을 특징으로 가지고 있으며

최근 저장장치와 인터넷 등 반도체와 통신 기술의 발달로

수치 데이터 뿐만 아니라 문자와 영상 등 다양한 데이터를

엄청난 양으로 저장 및 전송할 수 있게 되었으며

이런 막대한 양의 데이터를 일상적으로 생성해낼 수 있는 환경이 조성되었습니다.

이와 같은 발전이 있었기에 오늘날 빅데이터를

유의미하게 사용할 수 있게 되었습니다.

 

이러한 빅데이터는

주로 공공기관에서 찾아볼 수 있으며

대표적인 빅데이터 제공 사이트로는

공공데이터 포털사이트(data.go.kr)와

구글 데이터셋 서치(google dataset search)가 있습니다.

 

대부분의 정보사이트에서는 데이터를 '.CSV'로 제공하는데

CSV란 콤마로 나누어진 값을 파일로 만든 것입니다.

 

 

3. 판다스의 단점

앞서 말했듯

데이터가 아무리 커도 시스템의 메모리만 충분하다면

원활한 연산 및 처리가 가능하지만

반대로 말하면 

메모리가 부족할땐 원활한 연산이 불가능하고

심할 경우 먹통이 될수도 있습니다.

 

 

4. 판다스에서 사용가능한 자료형

(1) 시리즈(Series)

1차원 배열의 자료형으로

복수의 행으로 이루어진 하나의 열

또는 복수의 열로 이루어진 하나의 행을 의미합니다.

각 값의 인덱스(Index)를 제공하여 원하는 자료의 검색이 용이하며

시리즈가 모이면 데이터프레임이 됩니다.

 

(2) 데이터 프레임(Data Frame)

다수의 시리즈 데이터를 모아놓은 자료형으로

표 형태의 데이터를 출력가능합니다.

데이터 프레임이라는 객체에 행과 열로 이루어진 정보를 담을 수 있으며

역시 인덱스가 제공되어 특정 자료를 검색할 수 있습니다.

 

 

5. 파이썬으로 csv 파일 불러오기

판다스에 포함된

pd.read_csv()

함수로 csv파일을 불러올 수 있습니다.

 

 

6. 판다스 다운로드 받기

기본적으로 아나콘다를 설치시하면 함께 설치됩니다.

 

만약 아나콘다를 설치하지 않으셨다면

아래 사진과 같이

윈도우키+R을 누르셔서

프로그램 실행창을 띄우시고

[열기(O)]란에 cmd라고 입력하신 후 확인을 누르시면

아래 사진과 같이 명령 프롬프트가 실행됩니다.

명령어 입력창에 아래와 같은 명령어를 입력하시면 판다스 설치가 진행됩니다.

pip install pandas

 

 

오늘은 판다스에 대해 알아보았습니다.

판다스와 관련된 책을 한권 구매하고싶은데

나중에 해당 책을 통해 더 깊이 공부해보고 싶네요.

 

이상으로 오늘의 코딩독학을 마치겠습니다.

감사합니다.

반응형