TL;DR
- 이메일이 적고 HS가 희소한 건 버그가 아니라 수집 전략의 맥락 — 초기 Alibaba(기업) 중심 → 일본 피벗 → GPU(H100) 상실로 중단.
- 3.6M은 실시간 RFQ·완성된 리드가 아니라 등기부·디렉토리·무역 데이터를 모은 대량 기업 코퍼스 (일본 1.22M + 호주 1.0M 위주).
- 즉시 개선안: raw_json의 실제 HS 코드 116,678개를 승격(빠른 개선) + AI 파생 HS를 HS6까지 정밀화 + GPU 복구 시 일본 enrichment 완료.
200K
일본 enrich 완료 (총 1M 중)
1. 이메일·HS가 적은 이유 맥락 (버그 아님)
- Alibaba 중심 시작 — 개인이 아닌 기업 대상이라, 초기 row 상당수는 애초에 찾을 수 있는 이메일이 없음.
- 일본으로 피벗 — 일본은 약 100만 row. 그중 약 20만만 enrich해서 이메일 4.3만 확보(적중률 양호). H100 GPU를 잃어 enrichment를 끝내지 못함.
- HS 코드 희소 — 스크래핑한 소스 대부분이 HS 코드를 공개하지 않음. 없는 경우 AI/결정론적 산업 라벨을 대신 부여. 해당 소스에서 더 뽑아낼 것이 없음.
2. 3.6M이 무엇인가
- 등기부 + 디렉토리 + 무역 데이터를 합친 대량 기업 코퍼스 — 360만 건의 실시간 RFQ나 준비된 리드가 아님.
- 구성은 대부분 일본 1.22M · 호주 1.0M.
- 6월의 "일단 다 수집하고 분류·dedup은 나중에" 방식으로 모은 것 — 현재 이 단계는 의도적으로 일시정지 상태.
3. 할 수 있는 것 개선안
- 실제 HS 승격 (빠른 개선) — raw_json에 있는 진짜 HS 코드 116,678개를 hs_codes 컬럼으로 올리고 hs_source='customs'로 태깅해 파생 코드와 구분. "진짜 HS가 없다"는 지적을 직접 해소.
- AI 파생 HS 정밀화 — 나머지는 프롬프트를 개선해 2자리 chapter에서 HS6까지 내림. 회사명 + brief + 부분 코드를 함께 투입. 여전히 추정이지만 훨씬 정밀.
- 일본 enrichment 완료 — GPU를 다시 확보하면 이어서 진행해 이메일 base를 4.3만 이상으로 확장.