TIL (Today I Learn)

TIL [내배캠] 75일차

dataguard 2025. 6. 5. 21:36
최종 프로젝트 1주차 : 컬럼 확인 및 테이블 합치기
어제 API 조회하는 방법을 알아냈다면, 오늘은 본격적으로 뽑아내기 시작했다

 

어제 정리했던 카테고리 코드를 통해서 카테고리당 판매 데이터를 10000개씩 추출했다.

 

여기에 미국 외에 다른 국가들도 추가적으로 더 추출해보기로 했다.

미국, 영국, 호주 중심으로 분석 : 각 대륙별 매출 1위 시장이며 판매량이 풍부

 

이후엔 카테고리 코드가 말썽이었다.

대분류 카테고리 코드를 통해서 데이터를 추출했지만, 중분류/소분류 카테고리의 경우 정렬 상태가 엉망이었다.

코드만 보고 중분류인지 소분류인지 구별해야하는데, 리소스의 소모가 너무 클 것 같았다.

그래서 itemsummery에 있는 leaf-category를 사용하여 대분류/leaf 카테고리만 사용하기로 결정했다.

# 대분류 category 추출
def get_main_category(categories):
    for cat in categories:
        name = cat.get("categoryName")
        if name in main_categories:
            return name, main_categories[name]
    return np.nan, np.nan
df[["category_main_name", "category_main_id"]] = df["categories"].apply(
    lambda cats: pd.Series(get_main_category(cats))
)
# 리프 카테고리 이름 추출
def get_leaf_names(categories, leaf_ids):
    return [
        cat["categoryName"]
        for cat in categories
        if cat.get("categoryId") in leaf_ids
    ]
df["leaf_category_names"] = df.apply(
    lambda row: get_leaf_names(row["categories"], row["leafCategoryIds"]),
    axis=1
)

 

 

다음 주에는 본격적인 전처리 과정을 진행할 예정이다. 차분하게 결측치 / 이상치 확인, 스케일링, 인코딩을 고민해보자.

'TIL (Today I Learn)' 카테고리의 다른 글

TIL [내배캠] 77일차  (0) 2025.06.10
TIL [내배캠] 76일차  (0) 2025.06.09
TIL [내배캠] 74일차  (0) 2025.06.04
TIL [내배캠] 73일차  (0) 2025.06.02
TIL [내배캠] 72일차  (0) 2025.05.30