최종 프로젝트 2주차 시작
데이터 수집과정을 마무리하고, 본격적인 전처리 과정으로 들어갔다
- 결측치가 많아 제거할 컬럼
- buyingOptions (리스트 형태)
- leafCategoryIds (리스트 형태)
- shipping_shippingCost_0
- shipping_minEstimatedDeliveryDate
- shipping_maxEstimatedDeliveryDate
- ItemId 중복 제거
df.drop_duplicates(subset=['ItemId'],inplace=True)
print(df['ItemId'].value_counts())
>>> 785,672 rows
결측치 대치
‼️ issue 발생 ‼️
- category_main_id 컬럼에서 결측치(NaN) 발견 (41,326 rows) → L1 카테고리 ID를 기준으로 데이터를 수집했는데, L1 카테고리에서 결측치 발생
- leaf_categoryIds 는 정상적으로 존재
- currency, listingMarketplaceId에 해당하는 국가 데이터가 다름 카테고리 ID가 국가별로 다르다면, → cross-border 판매 존재
원인 추정
- 코드 문제로 추정 (기존 cateogires 컬럼에서 정확한 카테고리명, id가 일치해야만 category_main_id 끌어오도록 함 )
해결방안
- 3개국가 union한 csv에서 categoreies 컬럼을 제거하지 않고 그대로 가져오면서 나머지 컬럼 풀기 → cateogories 컬럼에서 매칭가능한 category_main_id, category_main_name을 뽑아서 채워넣기
- 3개 각각의 csv파일에서 다음과 같은 경우 발견
- 같은 category id 이지만 이름이 미세하게 다른 경우
- 특정 국가에는 이 category가 존재하고 다른 국가들에는 존재하지 않는 경우 → 미국(US) 의 카테고리 이름으로 3개 국가를 모두 통일한 후 union 진행해보는 건 어떨까?
'TIL (Today I Learn)' 카테고리의 다른 글
TIL [내배캠] 78일차 (0) | 2025.06.11 |
---|---|
TIL [내배캠] 77일차 (0) | 2025.06.10 |
TIL [내배캠] 75일차 (1) | 2025.06.05 |
TIL [내배캠] 74일차 (0) | 2025.06.04 |
TIL [내배캠] 73일차 (0) | 2025.06.02 |