최종 프로젝트 1주차 : 컬럼 확인 및 테이블 합치기
어제 API 조회하는 방법을 알아냈다면, 오늘은 본격적으로 뽑아내기 시작했다
어제 정리했던 카테고리 코드를 통해서 카테고리당 판매 데이터를 10000개씩 추출했다.
여기에 미국 외에 다른 국가들도 추가적으로 더 추출해보기로 했다.
미국, 영국, 호주 중심으로 분석 : 각 대륙별 매출 1위 시장이며 판매량이 풍부
이후엔 카테고리 코드가 말썽이었다.
대분류 카테고리 코드를 통해서 데이터를 추출했지만, 중분류/소분류 카테고리의 경우 정렬 상태가 엉망이었다.
코드만 보고 중분류인지 소분류인지 구별해야하는데, 리소스의 소모가 너무 클 것 같았다.
그래서 itemsummery에 있는 leaf-category를 사용하여 대분류/leaf 카테고리만 사용하기로 결정했다.
# 대분류 category 추출
def get_main_category(categories):
for cat in categories:
name = cat.get("categoryName")
if name in main_categories:
return name, main_categories[name]
return np.nan, np.nan
df[["category_main_name", "category_main_id"]] = df["categories"].apply(
lambda cats: pd.Series(get_main_category(cats))
)
# 리프 카테고리 이름 추출
def get_leaf_names(categories, leaf_ids):
return [
cat["categoryName"]
for cat in categories
if cat.get("categoryId") in leaf_ids
]
df["leaf_category_names"] = df.apply(
lambda row: get_leaf_names(row["categories"], row["leafCategoryIds"]),
axis=1
)
다음 주에는 본격적인 전처리 과정을 진행할 예정이다. 차분하게 결측치 / 이상치 확인, 스케일링, 인코딩을 고민해보자.
'TIL (Today I Learn)' 카테고리의 다른 글
TIL [내배캠] 77일차 (0) | 2025.06.10 |
---|---|
TIL [내배캠] 76일차 (0) | 2025.06.09 |
TIL [내배캠] 74일차 (0) | 2025.06.04 |
TIL [내배캠] 73일차 (0) | 2025.06.02 |
TIL [내배캠] 72일차 (0) | 2025.05.30 |