#Archive
04. 스팸 & 햄 SMS 데이터
Gom Guard
2017. 11. 28. 23:33
반응형
데이터명
SPAM & HAM SMS DATA SET
스팸SMS 데이터 셋
레코드수
5559 개
컬럼개수
2개 (TYPE [ HAM OR SPAM] , TEXT)
데이터 설명
- Tiago A. Almeida 에서 제공한 데이터 입니다.
- 425개의 스팸 메시지 컬렉션은 Grumbletext Web site에서 구한 TEXT 입니다. : http://www.grumbletext.co.uk/.
- 3,375개의 햄 메시지는 Department of Computer Science at the National University of Singapore 에서 모은 데이터 입니다. : http://www.comp.nus.edu.sg/~rpnlpir/downloads/corpora/smsCorpus/
- 추가로 450개의 햄 메시지는 Caroline Tag's PhD 로 부터 제공받았습니다. : http://etheses.bham.ac.uk/253/1/Tagg09PhD.pdf
- 마지막으로 SMS Spam Corpus v.0.1 의 데이터와 병합하는 과정을 진행했습니다. 이 데이터는 1,002개의 햄 메시지와 322개의 스팸메시지를 가지고 있었습니다. : http://www.esp.uem.es/jmgomez/smsspamcorpus/
- 기존 데이터는 총 5574 개 였으나, 정제 과정을 거쳐 5559 개의 데이터만 선별하였습니다.
컬럼 설명
- 데이터는 2개의 컬럼으로 이루어져 있으며, 두번째 컬럼인 TEXT 는 메시지 이며 첫번째 컬럼인 TYPE 는 그 메시지가 햄인지 스팸인지 구별하는 FACTOR 입니다.
데이터 파일
sms_spam.csv
- http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
반응형