‣
이 외에도 TinyBERT, DistilBERT, ALBERT 등의 경량 모델 존재
: BERT 모델을 축소시킨 형태로, 경량화된 버전의 BERT를 제공하여 자원 효율성을 높임
- TinyBERT:
- TinyBERT는 BERT 모델을 축소한 경량화된 버전
- 원래의 BERT와 비교하여 모델 크기와 파라미터 수가 줄어듬
- TinyBERT는 자원이 제한된 환경에서 효율적으로 사용할 수 있다.
- DistilBERT:
- DistilBERT는 BERT의 경량화된 버전으로, 모델 크기와 파라미터 수를 줄이면서 원래 BERT와 유사한 성능 보임
- Knowledge Distillation 기술을 사용하여 학습되었기 때문에 더 빠른 추론 속도를 제공(실험필요)
- DistilBERT는 자원이 제한된 환경에서도 효과적으로 사용할 수 있는 경량화된 BERT 모델
위 2개 중 하나로 추가하여 진행(가능하다면 다?)
DATASET
- Text Classification:
- IMDB 리뷰 데이터셋: 영화 리뷰에 대한 긍정 또는 부정을 분류하는 작업에 사용
- Text Generation:
- WikiText: 위키피디아에서 가져온 텍스트 데이터셋
- Question Answering:
- SQuAD: 질문과 그에 대한 답변이 포함된 데이터셋
- 주어진 문맥에서 질문에 대한 정확한 답변을 찾는 작업에 사용
- 다양한 질문 유형과 답변 유형을 가지고 있음,
- Language Modeling:
- Penn Treebank: 영어 텍스트로 이루어진 데이터셋
난이도별 데이터셋 추천:
쉬운 난이도:
- IMDB 리뷰 데이터셋:
- 이유: IMDB 리뷰 데이터셋은 감정 분석을 위한 간단한 이진 분류 작업에 적합
- 사이즈도 크지 않다.
- 20 Newsgroups 데이터셋:
- 이유: 20 Newsgroups 데이터셋은 다양한 주제를 가진 뉴스 그룹 게시물을 분류하는 작업에 사용
- 각 문서의 길이가 다양하고 클래스 간 균형이 잘 맞춰져 있다.
- SMS Spam Collection 데이터셋:
- 이유: SMS Spam Collection 데이터셋은 스팸과 non spam 메시지를 분류하는 작업에 사용
- 상대적으로 balanced!, 길이도 부담 X
중간 난이도:
- AG News 데이터셋:
- 이유: AG News 데이터셋은 뉴스 기사를 네 가지 주제로 분류하는 작업에 사용
- 각 기사의 길이가 다양하고, 클래스 간 균형이 잘 맞춰져 있다.
- Yelp 리뷰 데이터셋:
- 이유: Yelp 리뷰 데이터셋은 다섯 개의 별점으로 리뷰를 분류하는 작업에 사용
- 데이터 크기가 중간 수준이며, 각 리뷰의 길이가 다양하여 모델의 일반화 능력을 평가하기에 적합