📚 STUDY/AI

    NLI (Natural Language Inference, 자연어 추론)

    NLI (Natural Language Inference, 자연어 추론) 자연어 추론(NLI)는 자연어 처리(NLP, Natural language Processing)의 task의 일종이다. 주어진 문장(가설, hypohesis)이 다른 문장(전제, premise)에 대해 논리적으로 들어 맞는지 판단하는 것을 목표로 한다. NLI는 NLP의 대표적인 task로 AI 모델이 문장들 간의 의미와 관계를 잘 이해하는지 평가하는 데 사용 되기도 한다. 1.Premise, 전제 : 문맥이나 배경 정보를 제공 하는 단일 문장 또는 문장의 집합이다. Hypothesis를 비교하는 기준이 된다. 2.Hypothesis, 가설 : Premise와의 관계를 비교해야 하는 문장이다. NLI는 이 hypothesis가 pr..

    [추천시스템] 8. Hybrid Recommender Systems

    Sparsity of Users’ Feedback User-Item interaction 메트릭스는 굉장히 크고 sparse 할 수 있다. 이 부분이 추천의 성능에 어려움을 가져다 주게 된다. 이럴 때, 주어진 User-Item interaction 외에 Auxiliary content information이 도움이 될 수 있다. Hybrid Recommender Systems Hybrid Recommender Systems는 content-based와 collaborative filtering 방식을 합친 특수한 추천 시스템이다. content-based : 아이템을 벡터화해서 유저가 선호하는 아이템을 추천 collaborative filtering : 유저-아이템 상호작용을 활용하여 유저가 선호하는 ..

    [추천시스템] 7. Deep Learning for Recommender Systems

    추천시스템을 위해 DNNs을 활용하는 방법 Contextual Information 유저와 아이템의 Contextual Information을 통합하기 위해, 부가적인 정보를 어떻게 활용해서 의미있는 feature를 잡아내고, 그 features들을 추천시스템에 통합할 수 있을지 고민해야한다. User-Item Score Modeling Top-k recommendation을 위한 이전의 방식 (BPR, CML) 각 유저 u에 대한 각 아이템 i의 점수를 모델링을 할 때, User Encoder, Item Encoder를 이용해 유저와 아이템 임베딩 메트릭스 U와 V를 생성한다. 이렇게 얻은 두 메트릭스의 벡터 유사도(inner product 또는 유클리디안 거리...)를 통해 User-Item Scor..

    [추천시스템] 6. Top-K Recommendation

    Rating Prediction > Explicit feedback의 단점 Latent factor model은 보통 rating prediction 태스크에 집중되었다. 유저의 명시적인 선호도 점수(explicit preference rating)는 user-item 매트릭스로 표현된다. 하지만, 실제 시나리오(real-world scenarios)에서 명시적인 피드백 데이터는 얻기 어렵다는 단점이 있다.. 때문에 MC를 내재적 피드백 매트릭스로 확장하는 방법에 대한 연구가 이뤄졌다. 내재적 피드백(implicit feedback)의 종류로는 클릭이나 조회 여부가 있고, 메트릭스에서 이진값(0/1) 로 표현된다. > 한계점 일반적인 MC의 objective function을 사용하게 되면 모든 unob..

    [추천시스템] 5. Factorization Machines

    Factorization Machines (FM) FMs은 real-valued features를 latent factor space에 맵핑하는 일반적인 지도 학습 모델이다. MF와 FM의 목표는 둘다 input에 대해 파악되지 않은 rating을 예측하는 것이다. 일반적인 MF 알고리즘들은 더 일반적이거나 유연한 FM 모델 클래스의 특수한 케이스로 재구성 할 수 있다. MF의 latent space는 아이템에 대한 유저의 rating에 대한 것을 담았다. 이 경우 유저와 아이템의 수가 많으면 많은 weight를 사용해 오버피팅이 될 가능성이 높다. FM의 latent space는 아이템과 유저에 관한 정보를 one-hot encoding 하고 concat 하고 부가적인 features를 추가하여 spa..