부스트캠프에서 새롭게 알게 된 사실들

판다스

  • 구조화된 데이터의 처리를 지원하는 파이썬 라이브러리
  • 파이썬계의 엑셀

데이터 로딩

import pandas as pd

data_url = 'https://~~~'

# 데이터는 url에서 불러와도 되고, 디릭토리에서 불러와도 된다
df_data = pd.read_csv(data_url, sep='\s+', header=None)

df_data.head()
# 컬럼 이름이 없다면 지정해줄 수 있다
df_data.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM']

Series

  • 시리즈의 특성은 옆에 인덱스 값을 가지고 있다는 것이다
from pandas import Series

list_data = [1, 2, 3]
series = Series(data=list_data)

# 인덱스 이름을 지정해줄 수 도 있다
series = Seires(data=list_data, index=list_name)

# dict 타입의 데이터를 통해 인덱스와 값을 한 번에 지정해 줄 수도 있다.
# 인덱스에 접근
series.index

# 값에 접근
series.values

DataFrame

# 특정 컬럼으로만 이루어진 데이터 프레임 만들고 싶을 떄
df = DataFrame(raw_data, columns = ['first_name', 'age', 'city'])

# 특정 컬럼으로 이루어진 데이터 프레임 추출하고 싶을 때
df["first_name"]
df[["fist_name", "city"]]

# 새로운 컬럼 추가하고 싶을 때
df = DataFrame(raw_data, columns = ['first_name', 'age', 'city', 'debt'])
# Series 데이터로 추출하고 싶을 때 두 가지 방법

df.first_name

df["first_name"]
# 넘파이 배열로
df.values

# csv 형태로
df.to_csv()

Tags:

Categories:

Updated: