728x90
논문 결과를 reproducing하는데 결과가 제대로 안나와서 골머리를 앓았다. 저자와 메일을 나눠서 파라미터랑 train set에 대해 조언을 받고 다시 실험을 돌려봤는데도 여전히 결과가 잘 나오지 않았다... 논문에서는 backbone model로 alpaca-7b 모델을 사용했다고 하는데 alpaca는 llama를 finetuning 한 모델이고... 그럼 "tloen/alpaca-lora" 에서 안내한 모델을 reproduce해서 그걸 한번 더 finetuning 해야하는 건지, 아니면 "huggyllama/llama-7b" 에 LoRA를 finetuning하면 그게 alpaca가 되는 거라서 그대로 사용하면 되는건지... 어렵도다.... 사실 내가 LLM implement에 대해 미숙하기도 해서..
돌리려는 코드가 원래 GPU 기반으로 짜여진 코드인데, CPU 환경에서 돌리니 나는 오류였다. 모델을 불러올 때, (.from_pretrained), 데이터 타입이 float16 으로 되어 있는게 문제가 되는 것 같다. 문제가 되는 것으로 추정되는 부분model = LlamaForCausalLM.from_pretrained( base_model, # load_in_8bit=True, torch_dtype=torch.float16, device_map=device_map, )참고한 링크들에 따르면 몇 가지 방법이 있었는데 코드 주석 처리 (실패) torch.set_default_tensor_type(torch.cuda.HalfTensor) 이 코드를 주석 처리 하라고 하는데, 나는 이 코드가 어디 있는지 ..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.