파이썬 데이터분석을 위한 판다스 사용 가이드

Pandas란? 우리가 생각하는 귀여운 판다panda의 복수형pandas을 뜻하는 게 아닙니다. 판다스는 데이터 조작과 분석을 위한 파이썬 소프트웨어 라이브러리입니다. 그리고 아래 내용들을 상세히 실습하고 싶다면 colab 링크를 참조해주세요!

https://colab.research.google.com/drive/1V5TDHcnieWYwQ_cLPK-Pua6M1pz9g36t?usp=sharing

판다스 설치

! pip install pandas

1.Series

pandas에는 Series와 DataFrame이라는 두 종류의 자료구조가 있습니다. pandas의 Series는 1차원 배열과 같은 자료구조입니다. 1차원 데이터(정수, 실수, 문자열 등) 간단하게 2022년 10월 기준 네이버 주삭의 가격으로 시리즈를 생성해 봅시다.

from pandas import Series 

naver = Series([160000,167000,163000,157000,154000]) 
print(naver)

# 출력 내용
0    160000
1    167000
2    163000
3    157000
4    154000
dtype: int64

#Series 인덱스 추가
naver = Series([160000,167000,163000,157000,154000], index=['10/3','10/4','10/5','10/6','10/7'])
print(naver)

# 10/4일 인덱스 데이터 출력
naver['10/4']

2.DataFrame

pandas의 Series가 1차원 형태의 자료구조라면 DataFrame은 여러 개의 칼럼(Column)으로 구성된 2차원 형태의 자료구조입니다.

import pandas as pd

raw_data = {'col0':[1,2,3,4],
            'col1':[5,6,7,8],
            'col2':[9,10,11,12],
            'col3':[13,14,15,16]}

pd.DataFrame(raw_data)

pd.DataFrame(raw_data, index=[1,2,3,4])

3.DataFrame 객체 생성(Column 지정)

df = pd.DataFrame(raw_data, columns=['col2','col3'])

df

df = pd.DataFrame(raw_data, columns=['col0','col3'])

df

Index

#색인
df = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df

df.index

df.index = ['x', 'y', 'z']
df

df.set_index('b', inplace=True)
df

df.reset_index(inplace=True)
df

4.파일 저장 및 열기

#csv 파일 저장
import pandas as pd
df.to_csv('test.csv')

import pandas as pd
#csv 파일 읽어오기 
pd.read_csv('/content/test.csv')

5.데이터 확인

캐글 :

https://www.kaggle.com/datasets/datasnaek/youtube-new?resource=download

유투브 트렌드 데이터를 사용하여 아래 실습 진행 usvideo.csv 파일 사용 상세 실습을 원한다면 위에 코랩링크를 참조해 주세요~

youtube_trend = pd.read_csv('/content/USvideos.csv', encoding="latin")

youtube_trend

[embed]https://www.youtube.com/shorts/ifzy-jQRRpk[/embed]