✅ 파라미터 학습 내용

🗨️ 지은

랭체인 파라미터

embedding 방법

중요성 :텍스트를 벡터화해서 input값의 유사도를 계산 -> answer 생성
유료 embedding 방법 : OpenAi, Amazon
로컬 embedding 방법 : HuggingFace

https://littlefoxdiary.tistory.com/124

https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard

찾아보니, HuggingFace LLM leaderboard 한국어 embedding에 특화된 모델이 있음

chunk_size, chunk_overlap 방법
중요성 : 문서를 나눠 chunk별로 처리, 긴 문서를 그냥 나누면 정보 상실 될 수 있음. 따라서 chunk를 나눌 때 독립적으로 의미를 갖도록 나눠야 한다.
langchain이 제공하는 최적 크기 결정 방식이 있음. (1) 단순하게 나누기(CharacterTextSplitter) (2) 문자 단위로 나누기 - separator : 특정 문자열을 기준으로 나눌 수 있음 (비워두면 각 글자를 기준으로 분할) - (*중요) chunk_size : 청크의 길이 - (*중요) chunk_overlap : 청크 사이에 중복으로 포함될 문자 수 - length_function : 청크의 길이를 계산하는 함수 -> python의 len함수 사용.
    -> chunk_size, chunk_overlap 잘 입력하면 텍스트의 의미적 연속성 유지하면서도 작은 단위로 분할 가능. 
(3) 의미적으로 나누기(RecursiveCharacterTextSplitter) : seperator를 굳이 지정하지 않아도 잘 나눠줌. (['\n\n', /\n', '', "]) 문자 순서대로 사용하여 텍스트 분할 -> 분할된 청크들이 chunk_size 보다 작아질 때까지 반복.
*** 현재 수집한 리뷰 데이터의 특징**

한국어.

리뷰의 길이가 제각각.

글의 의미가 명확히 드러남.

*** 적합해 보이는 파라미터**

한국어 -> 한국어에 특화된 HuggingFace 의 embedding 모델 쓰면 좋을 듯합니다.

리뷰의 길이가 제각각 -> chunk_size의 설정이 중요할 것 같습니다. 리뷰의 길이를 python len함수로 출력하고, 가장 긴 리뷰의 길이를 기준으로 설정하면 되지 않을까요?

글의 의미가 명확히 드러남 -> chunk_overlap의 설정이 중요할 것 같습니다. chunk간 일관성을 유지하기 위한 파라미터이지만, 애초에 글의 의미가 명확히 나타나는 텍스트리뷰라면, chunk_overlap은 낮게 설정해도 되지 않을까요?

- LLM

LLM은 대량의 텍스트 데이터를 학습하여 자연어 이해와 생성 작업을 수행하는 인공지능 모델
주요 특징

대규모 데이터 학습
범용성 : 문장 생성, 문장 완성, 텍스트 분류 등 다양한 자연어 처리 작업에 확용
문맥파악 : 문맥파악을 통해 적절한 응답을 생성

LLM 사용 : LLM 모델을 선택 -> 딥러닝에서 사용하던 학습률, 배치크기, 에포크 등등 을 설정 ( 이거는 파인튜닝 하면 될 거같음 )

- 랭체인

LLM을 효과적으로 사용할 수 있도록 돕는 프레임워크. 다양한 데이터 소스와 통합을 지원
주요 기능
1. 여러 LLM 호출을 체인으로 연결하여 복잡한 작업 수행
2. 외부 DB, API, 파일 시스템 등과 통합지원
랭체인을 활용한 리뷰 라벨링을 위한 과정

https://velog.io/@ji1kang/랭체인LangChain과-함께-LLM-활용하기-1-프롬프팅-인풋아웃풋-포맷팅-작업-줄이기
1. 프롬프트 템플릿 작성
  - 가이드라인 작성 ex) 텍스트를 바탕으로 혐오 + 악플/욕설 + 선플 중 하나로 분류 ex) 혐오표현일 경우 혐오 카테고리 중에서 해당되는 카테고리를 multi-label 로 분류
2. 프롬프트 포맷팅 : 가이드 라인 + input text + output 작성
3. 모델 실행
4. 프롬프트 개선 : 임베딩 사용
  - Example Selector 텍스트를 임베딩으로 변환 + 여러개의 임베딩을 찾아내는 기능, + 임베딩에 대응하는 예제를 프롬프트에 주입하는기능이 있음.
랭체인 라벨링을 위한 방법 https://everyshare.co.kr/langchain-embeddings/
1. Embedding 방법
  
  : 임베딩은 텍스트 데이터를 벡터 형태로 변환하여 머신 러닝 모델이 이해할 수 있게 함. LangChain에서는 다양한 임베딩 모델을 지원
  
  https://wikidocs.net/233777
  1. OpenAI : 다양한 크기의 텍스트 데이터를 임베딩할 수 있으며, 범용적인 언어 이해에 적합
  - 대규모 텍스트 데이터로 학습되어 문맥적 정보를 포착할 수 있기 때문에, 문서의 의미를 효과적으로 인코딩 ex) BERT, GPT
  1. Amazon : e-커머스 데이터와 사용자 리뷰에 최적화. 상품 설명과 리뷰 사이의 상관관계를 파악하는 데 뛰어난 능력을 보이며, 추천 시스템과 검색 엔진 최적화에 주로 사용
  2. HuggingFace : 매우 정교한 언어 이해를 필요로 하는 작업에서 주로 활용 -> Hugging Face Inference API를 통해 임베딩 모델에 접근 가능 → 한국어에 특화된 모델을 가져오면 되지않을까싶음
    
    https://teddylee777.github.io/huggingface/bert-kor-text-classification/
    
    https://wikidocs.net/233817
  3. ko-sbert-nli : 자연어 추론(Natural Language Inference, NLI) 작업에 적합하도록 튜닝. 이는 한국어 문장이나 문단의 의미를 벡터화하는 데 특화