본문 바로가기

프로젝트

(19)
[Python] 랜덤 포레스트로 뉴스 기사 카테고리 예측 모델 생성 이 포스팅은 이전의 "네이버 기사 본문 형태소로 Bag of Words(BoW) 생성"에 이어 계속됩니다. https://bigdata-doctrine.tistory.com/35 [Python] 네이버 기사 본문 형태소로 Bag of Words(BoW) 생성 이 포스팅은 이전의 "카테고리별 네이버 기사 크롤링"에 이어 계속됩니다. https://bigdata-doctrine.tistory.com/34 [Python] 카테고리별 네이버 기사 크롤링 오늘은 네이버 기사를 카테고리별로 크롤링하여 bigdata-doctrine.tistory.com 이전 시간에는 카테고리별로 수집한 네이버 기사의 본문을 형태소 단위로 나누어 각 본문에서 등장한 형태소의 빈도수를 데이터프레임으로 정리해 보았습니다. 이번 시간에는 ..
[Python] 네이버 기사 본문 형태소로 Bag of Words(BoW) 생성 이 포스팅은 이전의 "카테고리별 네이버 기사 크롤링"에 이어 계속됩니다. https://bigdata-doctrine.tistory.com/34 [Python] 카테고리별 네이버 기사 크롤링 오늘은 네이버 기사를 카테고리별로 크롤링하여 제목, 날짜, 본문, 카테고리, 링크의 속성을 가진 데이터프레임을 만들어보겠습니다. 이후 포스팅에서는 카테고리별로 수집한 네이버 기사의 본 bigdata-doctrine.tistory.com 이전 시간에는 네이버 기사를 카테고리별로 크롤링하여 제목, 날짜, 본문, 카테고리, 링크의 속성을 가진 데이터프레임을 만들어보았습니다. 이번 시간에는 카테고리별로 수집한 네이버 기사의 본문을 형태소 단위로 나누어 각 본문에서 등장한 형태소의 빈도수를 데이터프레임으로 정리해 보겠습니다...
[Python] 카테고리별 네이버 기사 크롤링 오늘은 네이버 기사를 카테고리별로 크롤링하여 제목, 날짜, 본문, 카테고리, 링크의 속성을 가진 데이터프레임을 만들어보겠습니다. 이후 포스팅에서는 카테고리별로 수집한 네이버 기사의 본문을 형태소 단위로 나누어 각 본문에서 등장한 형태소의 빈도수를 데이터프레임으로 정리해 보겠습니다. 이후엔 그 데이터프레임을 가지고 랜덤 포레스트를 시행하여 아무 기사의 본문을 넣으면 카테고리를 예측하는 모델을 만들어보겠습니다. 한 카테고리와 페이지에서 뉴스 기사 링크 수집 일단, 각 페이지에서 뉴스 링크를 수집하는 함수를 만들어보겠습니다. import requests from bs4 import BeautifulSoup from tqdm.notebook import tqdm 기본적으로 크롤링에 필요한 모듈인 requests..
[Python] 리스크 변화에 따른 수익률 변화 회귀 분석 오늘은 올웨더 포트폴리오 종목인 주식, 중기채, 장기채, 금, 원자재의 5가지 etf로 구성된 효율적 투자선을 통해 리스크 변화에 따른 수익률의 변화를 회귀분석으로 분석해보겠습니다. 이전 포스팅에서 이미 효율적 투자선을 시각화하고 분석해보았기 때문에 이전에 썼던 코드를 그대로 가져왔습니다. 효율적 투자선을 시각화하는 프로젝트는 밑의 포스팅을 참고하시길 바랍니다. https://bigdata-doctrine.tistory.com/12 [Python] (3)올웨더 기반 효율적 투자선 구현 : 시각화 https://bigdata-doctrine.tistory.com/10 [Python] (1)올웨더 기반 효율적 투자선 구현 : 데이터 수집 이번 프로젝트는 효율적 투자선을 파이썬을 통하여 시각화를 해 보는 것입..
[Python] 통화량에 따른 물가의 변화 선형회귀 분석 화폐수량설에 따르면 통화량 변화는 물가에 영향을 미치고 통화량 증가율과 물가상승률은 1대 1 관계를 가집니다. 그렇다면 현실세계에서도 화폐수량설 이론과 같은 결과가 나올까요? 오늘은 우리나라의 통화량 지표(M2)와 물가 지표(GDP 디플레이터)를 가지고 둘의 선형 관계를 분석해보겠습니다. 코드에 대한 자세한 설명은 생략했습니다. 자세한 설명을 보고 싶으시면 이전 포스팅을 참고해주세요. https://bigdata-doctrine.tistory.com/20 [Python] 우리나라의 GDP와 GNP의 연도별 변화추세 오늘은 1961년부터 2021년까지의 우리나라의 명목 GNP와 명목 GDP 데이터를 살펴보고 그 차이에 대해 관찰해보겠습니다. 명목 데이터를 사용하는 이유는 사이트에 GNP 데이터가 없기 때문..
[Python] 우리나라 실질 GDP와 실질 GDI의 차이에 대한 분석 오늘은 우리나라의 실질 GDP와 실질 GDI를 비교 분석하여 시각화해보겠습니다. 도출 방식이 이전 시간의 포스팅과 매우 유사하므로 기본적인 설명은 모두 제했습니다. 이해가 안 되는 부분이 있다면 이전 포스팅을 참고하시길 바랍니다. https://bigdata-doctrine.tistory.com/20 [Python] 우리나라의 GDP와 GNP의 연도별 변화추세 오늘은 1961년부터 2021년까지의 우리나라의 명목 GNP와 명목 GDP 데이터를 살펴보고 그 차이에 대해 관찰해보겠습니다. 명목 데이터를 사용하는 이유는 사이트에 GNP 데이터가 없기 때문입니다. (아 bigdata-doctrine.tistory.com https://bigdata-doctrine.tistory.com/21 [Python] 우리..
[Python] 우리나라 GDP와 GNP의 차이에 대한 분석 https://bigdata-doctrine.tistory.com/20 [Python] 우리나라의 GDP와 GNP의 연도별 변화추세 오늘은 1961년부터 2021년까지의 우리나라의 명목 GNP와 명목 GDP 데이터를 살펴보고 그 차이에 대해 관찰해보겠습니다. 명목 데이터를 사용하는 이유는 사이트에 GNP 데이터가 없기 때문입니다. (아 bigdata-doctrine.tistory.com 이전 시간에는 GDP와 GNP의 연도별 변화 추세와 두 지표 간의 차이에 대해 살펴보았습니다. 이번 시간에는 두 지표간 차이가 발생하는 이유에 대해 알아보겠습니다. 파이썬을 통해 분석하기에 앞서서 GDP와 GNP의 경제학적인 정의를 살펴봅시다. GDP란 국내총생산으로 일정 기간 동안 국내에서 생산된 최종 생산물의 가치를 ..
[Python] 우리나라의 GDP와 GNP의 연도별 변화추세 오늘은 1961년부터 2021년까지의 우리나라의 명목 GNP와 명목 GDP 데이터를 살펴보고 그 차이에 대해 관찰해보겠습니다. 명목 데이터를 사용하는 이유는 사이트에 GNP 데이터가 없기 때문입니다. (아래에서 설명하겠지만 명목 GNP = 명목 GNI이지만 실질 GNP != 실질 GNI 이기 때문에 실질 데이터로 GNP를 구하려면 더 복잡합니다) 데이터는 ecos 한국은행 경제통계시스템에서 수집할 수 있습니다. https://ecos.bok.or.kr/ 한국은행경제통계시스템 ecos.bok.or.kr 데이터 수집 먼저 명목 GDP 데이터 부터 수집하도록 하겠습니다. 사이트의 검색창에 "국내총생산"을 입력하여 가장 첫 번째로 뜨는 "연간지표 > 국내총생산(명목, 원화표시)"를 클릭해 준 후 조회합니다. 연..

반응형