(3) [Python/NLP] 텍스트 전처리
이전 글에서 KCI에서 제공하는 OpenAPI를 사용해 데이터를 받아오는 작업까지 했다. 이번 글에서는 받아온 데이터를 모델이 학습할 수 있도록 전처리 해 볼 것이다. 1. XML을 DataFrame으로 변환하기 우선 받아온 데이터의 태그를 살펴보자 여기서 내가 쓰려고 하는 태그명만 따로 name_list에 저장하고 해당 태그의 내용을 data_list에 담아 저장했다. # 데이터 확인 후 필요한 열만 리스트화 하여 정보 추출 name_list = [ 'pub-year' ,'pub-mon' ,'article-title-original' ,'article-title-english' ,'author' ,'abstract-original' ,'abstract-english' ,'url' ] data_lis..