728x90
이전 글에서 KCI에서 제공하는 OpenAPI를 사용해 데이터를 받아오는 작업까지 했다. 이번 글에서는 받아온 데이터를 모델이 학습할 수 있도록 전처리 해 볼 것이다. 1. XML을 DataFrame으로 변환하기 우선 받아온 데이터의 태그를 살펴보자 여기서 내가 쓰려고 하는 태그명만 따로 name_list에 저장하고 해당 태그의 내용을 data_list에 담아 저장했다. # 데이터 확인 후 필요한 열만 리스트화 하여 정보 추출 name_list = [ 'pub-year' ,'pub-mon' ,'article-title-original' ,'article-title-english' ,'author' ,'abstract-original' ,'abstract-english' ,'url' ] data_lis..
이제 발급받은 인증키로 KCI Open API를 사용해봅시다! 저는 구글에서 제공하는 colaboratory를 사용했어요 1. 필요한 모듈 받아오기 API로 요청을 보내고 나면 xml 형식으로 응답이 오기 때문에 응답을 처리하여 출력하기 위한 모듈들을 받아옵니다. # 라이브러리 import import requests # API 요청 보내기 위함 import pprint # xml 출력 확인 import urllib # url 관련 작업 2. API 요청하기 요청할 내용을 정합니다. key에는 발급받은 KCI 인증키를 입력합니다. 저는 코로나를 검색해보겠습니다. 검색할 단어를 URL로 인코딩 해서 URL을 만든 뒤 API 요청을 보냅니다 # url 입력 key = # KCI API 키 ..
논문을 검색하면 키워드 기준으로 정말 다양한 주제의 논문들이 조회된다. 그렇게 조회되는 다양한 주제의 논문들을 비슷한 것들 끼리 모아서 보는 것이 하고 싶다! 웹크롤링을 고려해보기도 했지만 웹크롤링은 불법으로 간주된다고 한다. (참고: https://brunch.co.kr/@8d1b089f514b4d5/33) 알아본 것이 KCI Open API 였다 1. KCI API 인증키 발급받기 한국학술지인용색인(KCI; KOREA CITATION INDEX)은 국내 학술지 정보, 논문 정보 (원문) 및 참고문헌을 DB화하여 논문 간 인용관계를 분석하는 시스템입니다. 링크: https://www.kci.go.kr/kciportal/main.kci 회원가입을 하고 로그인 > 상단의 메뉴에 '정보마당' > 카드 메뉴의..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.