💻 PROJECTS/논문 분석하기

    (3) [Python/NLP] 텍스트 전처리

    이전 글에서 KCI에서 제공하는 OpenAPI를 사용해 데이터를 받아오는 작업까지 했다. 이번 글에서는 받아온 데이터를 모델이 학습할 수 있도록 전처리 해 볼 것이다. ​ 1. XML을 DataFrame으로 변환하기 우선 받아온 데이터의 태그를 살펴보자 여기서 내가 쓰려고 하는 태그명만 따로 name_list에 저장하고 해당 태그의 내용을 data_list에 담아 저장했다. # 데이터 확인 후 필요한 열만 리스트화 하여 정보 추출 name_list = [ 'pub-year' ,'pub-mon' ,'article-title-original' ,'article-title-english' ,'author' ,'abstract-original' ,'abstract-english' ,'url' ] data_lis..

    (2) [Python/Colab] KCI Open API 사용하기

    ​ 이제 발급받은 인증키로 KCI Open API를 사용해봅시다! 저는 구글에서 제공하는 colaboratory를 사용했어요 ​ ​ 1. 필요한 모듈 받아오기 ​ API로 요청을 보내고 나면 xml 형식으로 응답이 오기 때문에 응답을 처리하여 출력하기 위한 모듈들을 받아옵니다. # 라이브러리 import import requests # API 요청 보내기 위함 import pprint # xml 출력 확인 import urllib # url 관련 작업 ​ 2. API 요청하기 요청할 내용을 정합니다. key에는 발급받은 KCI 인증키를 입력합니다. 저는 코로나를 검색해보겠습니다. 검색할 단어를 URL로 인코딩 해서 URL을 만든 뒤 API 요청을 보냅니다 # url 입력 key = # KCI API 키 ..

    (1) [OpenAPI] KPI Open API 인증키 발급받기

    논문을 검색하면 키워드 기준으로 정말 다양한 주제의 논문들이 조회된다. 그렇게 조회되는 다양한 주제의 논문들을 비슷한 것들 끼리 모아서 보는 것이 하고 싶다! 웹크롤링을 고려해보기도 했지만 웹크롤링은 불법으로 간주된다고 한다. (참고: https://brunch.co.kr/@8d1b089f514b4d5/33) 알아본 것이 KCI Open API 였다 1. KCI API 인증키 발급받기 한국학술지인용색인(KCI; KOREA CITATION INDEX)은 국내 학술지 정보, 논문 정보 (원문) 및 참고문헌을 DB화하여 논문 간 인용관계를 분석하는 시스템입니다. 링크: https://www.kci.go.kr/kciportal/main.kci 회원가입을 하고 로그인 > 상단의 메뉴에 '정보마당' > 카드 메뉴의..