본문 바로가기
ABC부트캠프

ABC 부트캠프 9일차(07.13)

by attack_u 2023. 7. 14.

조건에 맞는 데이터 추출하기

# mpg 데이터에서 category가 2seater인 경우만 추출
mpg_df.query("category == '2seater'") #""를 사용해야 ''사용 가능

# mpg 데이터에서 category가 minivan이 아닌 경우만 추출
mpg_df.query("category != 'minivan'")

초과, 미만, 이상, 이하 조건 걸기

# 연식이 2000년 초과인 경우
mpg_df.query("year > 2000")

# 연식이 2000년 미만인 경우
mpg_df.query("year < 2000")

# 연식이 2000년 이상인 경우
mpg_df.query("year >= 2000")

# 차종이 minivan 이거나, 2seater거나 pickup인 경우
mpg_df.query("category == 'minivan' | category == '2seater' | category == 'pickup' ")

# 차종이 minivan 이거나, 2seater거나 pickup인 경우 in을 사용하여 간단하게 추출
mpg_df.query("category in ['minivan', '2seater', 'pickup'] ")

필요한 변수만 추출하기

# 차종만 추출 데이터 프레임으로 추출하고 싶으면 [] 한번 더 씌어주기
mpg_df[['category']]

# 모델, 연식, 차종만 추출
mpg_df[['model', 'year', 'category']]

변수 제거하기

# category 삭제
mpg_df.drop(columns='category')

# category, model 삭제
mpg_df.drop(columns = ['category', 'model'])

#inplace = True 사용시 mpg_df 삭제 후 적용
mpg_df.drop(columns = ['category', 'model'], inplace = True)

 

순서대로 정렬하기

# 자동차 연식 기준으로 정렬하기 (오름차순)
mpg_df.sort_values('year')

# 자동차 연식 기준으로 정렬하기 (내림차순)
mpg_df.sort_values('year', ascending=False)

# 자동차 차종(오름차순), 연식(내림차순) 기준으로 정렬하기
mpg_df.sort_values(['category', 'year'], ascending = [True, False])

파생변수 추가하기

# total(도시연비+고속도로연비/2) 변수 추가
mpg_df.assign(total = (mpg_df['cty']+mpg['hwy'])/2)#.sort_values('total')

# total(도시연비+고속도로연비) 변수
# mean(도시연비+고속도로연비/2) 통합 평균연비 변수
mpg_df = mpg_df.assign(total = mpg_df['cty']+mpg['hwy'],
              mean = (mpg_df['cty']+mpg['hwy'])/2)

집단별로 요약 통계량 구히가

# 차종별로 통합연비 평균 구하기
mpg_df.groupby('category').agg(mean_total = ('total', 'mean'))

# 제조회사별로 구동 방식별로 분리 -> 도시 연비의 평균
# F는 Front Wheel: 전륜, R은 Rear Wheel: 후륜, 4: 사륜
mpg.groupby(['manufacturer', 'drv']).agg(mean_cty = ('cty', 'mean') )

# audi의 구동방식별 차량의 수
# 1) audi 추출
# 2) 구동방식별 분류 groupby
# 3) 차량의 빈도 구하기 agg -> count
mpg.query("manufacturer == 'audi'").groupby('drv').agg(n = ('drv', 'count'))

산점도 그리기

# x축 displ(배기량), y축 hwy(고속도로 연비)나타내는 산점도 만들기
sns.scatterplot(data = mpg, x = 'displ', y = 'hwy')

# x축 displ(배기량), y축 cty(도시 연비)나타내는 산점도 만들기 -> 구동방식(drv) 색으로 표시
sns.scatterplot(data = mpg, x = 'displ', y = 'cty', hue = 'drv')

막대 그래프 그리기

# 구동방식별 고속도로 연비의 평균표 만들기
df_mpg = mpg.groupby('drv', as_index=False).agg(mean_hwy = ('hwy', 'mean'))
sns.barplot(df_mpg, x = 'drv', y = 'mean_hwy')

# 구동방식별 빈도표 만들기
df_mpg = mpg.groupby('drv', as_index=False).agg(n = ('drv', 'count'))
sns.barplot(data = df_mpg.sort_values('n', ascending=False), x = 'drv', y = 'n')

집가서 주술회전+피자+맥주 최고의 조합😊

 

'ABC부트캠프' 카테고리의 다른 글

ABC 부트캠프 11일차(07.17)  (0) 2023.07.22
ABC 부트캠프 10일차(07.14)  (0) 2023.07.14
ABC 부트캠프 8일차(07.12)  (0) 2023.07.13
ABC 부트캠프 7일차(07.11)  (0) 2023.07.11
ABC 부트캠프 6일차(07.10)  (0) 2023.07.11