실제 텍스트 데이터 분석 흐름
현실 텍스트 데이터에서 EDA와 실험 순서를 복원하는 실무 체크리스트
Posted
By okorion
실제 텍스트 데이터 분석 흐름
이 프로젝트의 목적은 정확한 분류기 생성이 아니다.
실제 텍스트 데이터가 주어졌을 때, 어떤 순서로 생각하고 실험해야 하는지를 복원하는 데 있다.
YELP 리뷰는 정제된 예제가 아니라
NLP가 현실에서 어떻게 깨지는지를 드러내는 데이터다.
데이터 탐색의 중요성
왜 먼저 봐야 하는가 (체크리스트)
- 리뷰 길이가 균일한가?
- 긍정/부정 분포가 균형적인가?
- 불필요한 메타데이터가 섞여 있는가?
- 동일한 표현이 반복되는가?
이 단계를 건너뛰면:
- 벡터화 전략이 엇나가고
- 모델 성능 해석이 왜곡된다
👉 텍스트 분석에서 EDA는 선택이 아니라
문제 정의의 일부다.
시각화가 의미 있었던 이유
숫자만으로 부족한 지점
- 평균 길이
- 단어 수
- 클래스 비율
이 정보만으로는 데이터 감각이 생기지 않는다.
시각화가 준 것 (체크리스트)
- 리뷰 길이 분포의 꼬리
- 극단적으로 긴/짧은 문서 존재 여부
- 특정 평점에 쏠린 표현 패턴
👉 시각화는 결과를 예쁘게 만드는 도구가 아니라
실험 방향을 결정하는 장치다.
연습 문제들의 역할
이 프로젝트의 연습 문제들은
정답을 맞히기 위한 것이 아니다.
사고 훈련 관점에서의 역할
- 같은 데이터를 다른 기준으로 분류해보기
- 일부 전처리를 제거했을 때 변화 관찰
- 성능이 나빠지는 지점 확인
핵심 효과:
- “왜 이 선택을 했는가”를 말할 수 있게 된다
- 모델보다 의사결정 과정이 남는다
👉 연습 문제는
사고 실험용 안전 구역이다.
결과 해석 시 주의점
수치 맹신 경계 체크리스트
- 정확도가 높아진 이유를 설명할 수 있는가?
- 특정 클래스에만 유리한 결과는 아닌가?
- 데이터 분포 변화에도 유지될 것 같은가?
특히 YELP 같은 데이터에서는:
- 리뷰 스타일 변화
- 유행어
- 플랫폼 정책 변화
가 성능을 쉽게 무너뜨린다.
👉 결과 수치는 결론이 아니라
의심의 출발점이다.
전체 흐름 요약 (체크리스트)
- 데이터 직접 확인
- 분포 시각화
- 표현 방식 선택
- 간단한 모델 적용
- 결과 해석 및 의심
이 흐름이 고정되면,
데이터가 바뀌어도 NLP 분석은 다시 시작할 수 있다.
