데이터 코퍼스 분석 · 정정 및 보완

기존 분석은 대체로 맞지만, 놓친 중요한 지점이 몇 가지 있습니다

이메일 수가 적은 이유, HS 코드가 희소한 이유, 그리고 3.6M이 실제로 무엇인지에 대한 맥락 정리입니다. 버그가 아니라 수집 전략의 결과입니다.

1 이메일이 적고 HS가 희소한 이유 버그 아님 · 맥락

알리바바 중심으로 시작했습니다 (일부는 기업, 일부는 개인). 그래서 초기 데이터의 상당수는 이메일을 찾을 수 없습니다 — 개인의 경우 이름만 있고 다른 데이터가 없었기 때문입니다.
이후 일본으로 방향을 전환했습니다. JP는 약 100만 행 규모인데, 그중 약 20만 건만 인리치(enrich)해서 43,000개 이메일을 확보했습니다 — 준수한 히트율입니다. 다만 H100 GPU를 잃으면서 끝까지 마치지 못했습니다.
HS 코드가 희소한 건, 우리가 스크랩한 대부분의 소스가 애초에 HS 코드를 공개하지 않기 때문입니다. 없는 경우에는 대신 AI/결정론적(deterministic) 업종 라벨을 부여합니다. 해당 소스에서 더 끌어올 것은 없습니다.

2 3.6M이 실제로 무엇인가

이것은 대량 기업 코퍼스(등기부 + 디렉토리 + 무역 데이터)입니다. 360만 건의 실시간 RFQ나 즉시 활용 가능한 리드가 아닙니다.
대부분 일본(1.22M)과 호주(1.0M)이며, 6월의 "일단 전부 수집하고(ingest-all), 분류·중복제거는 나중에" 방식으로 모은 것입니다. 이 단계는 현재 의도적으로 일시정지 상태입니다.

3.6M

전체 기업 코퍼스

1.22M

일본

1.0M

호주

43K

확보 이메일 (JP)

3 앞으로 할 수 있는 것 실행안

실제 HS 코드 116,678개를 승격: raw_json에 있는 진짜 HS 코드를 hs_codes 컬럼으로 올리고 hs_source='customs'로 태깅해서 파생 코드와 구분합니다. 빠른 성과(quick win)이며 "실제 HS 없음"이라는 핵심 지적을 바로 해소합니다.
AI 파생 HS 개선: 나머지는 프롬프팅으로 분류기를 2자리 챕터에서 HS6까지 내립니다. 회사명 + 브리프 + 부분 코드를 함께 넣어줍니다. 여전히 추정치지만 훨씬 정밀해집니다.
일본 인리치 완료: GPU를 되찾으면 일본 인리치를 마저 끝내 이메일 베이스를 43K보다 훨씬 위로 끌어올립니다.