HuggingFace(허깅페이스) 모델 Fine-Tuning(Trainer 사용)

<출처 및 참고자료>

https://huggingface.co/learn/nlp-course/chapter3/1

Introduction - Hugging Face NLP Course

2. Using 🤗 Transformers 3. Fine-tuning a pretrained model 4. Sharing models and tokenizers 5. The 🤗 Datasets library 6. The 🤗 Tokenizers library 9. Building and sharing demos new

huggingface.co

0. 정리

- transformers의 Trainer를 사용하면 간단하게 fine-tuning이 가능함.

- NLP목적에 맞게 모델을 불러와서 사용(분류, 생성 등)

- 전체 코드를 제시하고 코드 설명

- hugging face의 코드를 참고하였음.

- torch.utils.data.Dataset 으로 pytorch 데이터셋 만드는 법을 알고 있어야 함(자신만의 데이터셋으로 훈련)

1. 전체코드 및 설명

#라이브러리 불러오기(A)
import torch

from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification #분류 모델을 학습
from transformers import AdamW #optimizer 불러오기 

#모델 및 토크나이저 불러오기(B)
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2) #정답의 labels 수 지정

#데이터불러오기(C)
from datasets import load_dataset
raw_datasets = load_dataset('glue', 'mrpc')

#토크나이저 일괄적용을 위한 함수(D)
def tokenizer_function(example): 
  return tokenizer(example['sentence1'], example['sentence2'], truncation=True)

#raw_dataset의 map 함수를 사용해서 tokenizer_function을 모든 데이터에 적용(E)
tokenized_datasets = raw_datasets.map(tokenizer_function, batched=True)

#동적padding을 위한 함수 만들기(F)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

#평가 함수 만들기(G)
import evaluate
import numpy as np
def compute_metrics(eval_preds):
  metric = evaluate.load('glue', 'mrpc')
  logits, labels = eval_preds
  predictions = np.argmax(logits, axis=-1)
  return metric.compute(predictions=predictions, references=labels)

#Train에 사용할 파라미터 설정(H)
from transformers import TrainingArguments
training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch") #저장위치"test-trainer"만 설정, epoch단위로 출력

#Trainer 불러오고 정의(I)
from transformers import Trainer
trainer = Trainer(
    model, 
    training_args,
    train_dataset = tokenized_datasets['train'],
    eval_dataset = tokenized_datasets['validation'],
    data_collator=data_collator, #Trainier의 기본 data_collator는 DataCollatorWithPadding이라서 생략가능하지만 써주는 것이 좋음.
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

#fine-tuning(J)
trainer.train()

2. 자신의 데이터로 fine-tuning

- 데이터의 형태와 평가 함수를 수정해주어야 함.

- 데이터가 torch.utils.data.Dataset 형식으로 아래와 같은 형태로 Trainer의 train_dataset, eval_dataset에 들어가야 함.

{'input_ids': [[  101,  2572,  3217,  5831,  5496,  2010,  2567,  1010,  3183,  2002,
           2170,  1000,  1996,  7409,  1000,  1010,  1997,  9969,  4487, 23809,
           3436,  2010,  3350,  1012,   102,  7727,  2000,  2032,  2004,  2069,
           1000,  1996,  7409,  1000,  1010,  2572,  3217,  5831,  5496,  2010,
           2567,  1997,  9969,  4487, 23809,  3436,  2010,  3350,  1012,   102]],
 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1]],
 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1]],
 'label': 1}

- Dataset 만들기(예시)

from torch.utils.data import Dataset

class MyMapDataset(Dataset):

    #데이터셋 정의(초기화) (A)
    def __init__(self, data):
        self.data = data

    #데이터셋 길이(B)
    def __len__(self):
        return len(self.data)

    #출력 (C)
   def __getitem__(self, index):
   	return {'input_ids': self.data['input_ids'][index], 
                'token_type_ids': self.data['token_type_ids'][index], 
                'attention_mask': self.data['attention_mask'][index], 
                'label': self.data['label'][index]}

- 출력(C) 부분이 아래와 같이 dict 형태로 나오도록 수정

{'input_ids': [[  101,  2572,  3217,  5831,  5496,  2010,  2567,  1010,  3183,  2002,
           2170,  1000,  1996,  7409,  1000,  1010,  1997,  9969,  4487, 23809,
           3436,  2010,  3350,  1012,   102,  7727,  2000,  2032,  2004,  2069,
           1000,  1996,  7409,  1000,  1010,  2572,  3217,  5831,  5496,  2010,
           2567,  1997,  9969,  4487, 23809,  3436,  2010,  3350,  1012,   102]],
 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1]],
 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
          1, 1]],
 'label': 1}

- 평가함수를 sklearn의 accuracy_socore, f1_score로 수정

import numpy as np
from sklearn.metrics import accuracy_score, f1_score

def compute_metrics(eval_preds):
  logits, labels = eval_preds
  predictions = np.argmax(logits, axis=-1)
  #딕셔너리의 key를 평가 지표 이름으로 설정
  return {'accuracy': accuracy_score(labels, predictions), 'f1': f1_score(labels, predictions)}

- 최종 수정 코드

#라이브러리 불러오기(A)
import torch

from transformers import AutoTokenizer
from transformers import AutoModelForSequenceClassification #분류 모델을 학습
from transformers import AdamW #optimizer 불러오기 

#모델 및 토크나이저 불러오기(B)
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2) #정답의 labels 수 지정

#데이터불러오기(C)
#pytorch 데이터셋 형식으로 변환
from datasets import load_dataset
raw_datasets = load_dataset('glue', 'mrpc')

#데이터 형식 변환, 함수를 사용해서 변환 예정(D)
#pytorch 데이터셋 __ini__ 부분에 넣어도 됨.
train_data = {'input_ids': [],
              'token_type_ids': [],
              'attention_mask': [],
              'label': []}

for i in range(3668):
  tokenize = tokenizer(raw_datasets['train']['sentence1'][i], raw_datasets['train']['sentence2'][i], truncation=True)
  train_data['input_ids'].append(tokenize['input_ids']) 
  train_data['token_type_ids'].append(tokenize['token_type_ids'])
  train_data['attention_mask'].append(tokenize['attention_mask'])
  train_data['label'].append(raw_datasets['train']['label'][i])
  

valid_data = {'input_ids': [],
              'token_type_ids': [],
              'attention_mask': [],
              'label': []}

for i in range(408):
  tokenize = tokenizer(raw_datasets['validation']['sentence1'][i], raw_datasets['validation']['sentence2'][i], truncation=True)
  valid_data['input_ids'].append(tokenize['input_ids']) 
  valid_data['token_type_ids'].append(tokenize['token_type_ids'])
  valid_data['attention_mask'].append(tokenize['attention_mask'])
  valid_data['label'].append(raw_datasets['validation']['label'][i])   
  
  
#pytorch dataset으로 변환(E)
from torch.utils.data import Dataset

class TestDataset(Dataset):

    def __init__(self, data):
    #(D)부분을 데이터셋 크기에 따라서 동적으로 변환 가능하게 수정해서 넣는 것이 좋음
        self.data = data

    def __len__(self):
        return len(self.data['label'])

    def __getitem__(self, index):
        return {'input_ids': self.data['input_ids'][index], 
                'token_type_ids': self.data['token_type_ids'][index], 
                'attention_mask': self.data['attention_mask'][index], 
                'label': self.data['label'][index]}
                
train_dataset = TestDataset(train_data)
eval_dataset = TestDataset(valid_data)


#동적padding을 위한 함수 만들기(F)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

#평가 함수 만들기(G)
import numpy as np
from sklearn.metrics import accuracy_score, f1_score
def compute_metrics(eval_preds):
  logits, labels = eval_preds
  predictions = np.argmax(logits, axis=-1)
  return {'accuracy': accuracy_score(labels, predictions), 'f1': f1_score(labels, predictions)}

#Train에 사용할 파라미터 설정(H)
from transformers import TrainingArguments
training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch") #저장위치"test-trainer"만 설정, epoch단위로 출력

#Trainer 불러오고 정의(I)
from transformers import Trainer
trainer = Trainer(
    model, 
    training_args,
    train_dataset = train_dataset,
    eval_dataset = eval_dataset,
    data_collator=data_collator, #Trainier의 기본 data_collator는 DataCollatorWithPadding이라서 생략가능하지만 써주는 것이 좋음.
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

#fine-tuning(J)
trainer.train()

저작자표시 (새창열림)

'NLP > Hugging Face' 카테고리의 다른 글

HuggingFace(허깅페이스) 모델 Fine-Tuning(Pytorch 사용) (0)	2023.06.26
허깅페이스 pipeline 사용법 (0)	2023.04.03

Python & Data

HuggingFace(허깅페이스) 모델 Fine-Tuning(Trainer 사용)

'NLP > Hugging Face' 카테고리의 다른 글

티스토리툴바

HuggingFace(허깅페이스) 모델 Fine-Tuning(Trainer 사용)

'NLP > Hugging Face' 카테고리의 다른 글

'NLP/Hugging Face' Related Articles

티스토리툴바