- 앞으로는 수//목,일 미팅 진행 예정
- pretraining 안 건드리고 .. 아키텍처?
동현님의 연구 방향 및 내역 소개
-
Neural network
-
decomposition (분해방법) ← tensor 분해하는 방법 사용 → 연산의 효율성 up
-
3D Convolution 축소 ← tensorflow 축소 활용 (동시에 적용)
- 성능은 오름
- self attention block
-
강화학습으로 진행했다.
-
R-Ram, P램 등 반도체 분야
-
spiking neural network (input , activation 스파이크 형태로 되어 있는 네트워크)
- spike → membrane 형태로 input → threshold에 다다르면 spike가 튀고 자극 전달됨. (생물학적 특성 그대로 resemble ; LLM 상에서 spikeGPT라는 논문이 있는데 이를 제외하면 딱히 merit가 없음.)
- 아키텍처
- on-device가 대세이니 이쪽으로 ,,
- 양자역학 쪽에서도 브레인스토밍 필요
[ Big Picture ]
- 난이도 없이? 순차적 vs 다 때려박은 애
- 한 가지 task ← 보다는 난이도를 나눌 수 있는(ex. 수학 데이터)
- 아키텍처 ← fine tuning 해야 함
- LLama2 ← 쓰레기다. 다른 모델(mistral) 혹은 fine tuning
- QLoRA
-
미스트랄 // LLaMA2
-
순서 4-5번, 비순서 4-5번 // 평균값 도출해서 (initialization variance) 고려
3) QLoRA 리서치 & 코드 구현(~수 or 목) : MAIN