본문 바로가기
728x90
반응형

0254

[scrapping] 페이지를 긁어보자. (1) 데이터 분석을할때, 이미 준비된 데이터를 가져다 쓸수도있고 (공공데이터 캐글 등) 필요하다면 특정 페이지를 긁어오는 작업이 필요했는데. 이게 페이지마다 코드가 유동적으로 바뀌니.. 재활용성은 떨어지더라두 분명이 스크래핑이 필요한 순간이 있다. 천천히 연습해보겠다. 꽤 다양한 방법으로 긁어오더라. ** 웹 문서 전체를 가지고와서 css selecter를 이용하기 ** 1. BeautifulSoup객체를 이용해서 웹문서를 파싱한다. 2. 웹 문서가 태그 별로 분해되어 태그로 구성된 트리가 생기는데. 거기서 원하는 태그를 가져다 쓰면된다. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.nave.. 2021. 7. 22.
[데이터] 각종 기업의 투자현황을 알아보는 사이트추천 https://thevc.kr/ 더브이씨 (THE VC) - 한국 스타트업 투자 데이터베이스 한국 스타트업의 투자 소식을 확인하고 스타트업, 액셀러레이터, 벤처캐피탈을 찾아보세요. 한국 스타트업 투자 플랫폼 - The VC thevc.kr 해당 사이트에서는 투자금액과 어떤시리즈까지 투자를 받았는지, 또 기타 다양한 기업의 스토리가 기록되어있다. 기업 분석이 필요하다면 해당 사이트를 적극 활용해 보자. 2021. 6. 30.
밤새는중.. 팀원들과 밤새는중 2021. 5. 24.
분산과 표준편차 기초 m.blog.naver.com/PostView.nhn?blogId=piry777&logNo=100164573653&proxyReferer=https:%2F%2Fwww.google.com%2F 2021. 5. 8.
팀플[당근마켓분석]: (1.데이터추출)(1)크롤링(selenium/셀레니움) 1. 크롤링 이란? 데이터를 수집하고 분류하는것, 주로 인터넷 상의 웹페이지의 html,문서 등을 수집해서 분류하고 저장하는것. 2. selenium 셀레니움 라이브러리를 사용하는 이유 : 웹 페이지의 DOM에 접근하여 요소를 가져올수있다. 웹 브라우저를 제어하고, 마우스 또는 키보드 입력을 자동화 하여 웹사이트에 접근-데이터를 가져올수 있다. 속도가 다소 느리다. 3. selenium 라이브러리 설치하기. !pip install selenium을 실행 https://chromedriver.chromium.org/downloads 접속후 chrome브라우저 버전에 맞는 드라이버 받기 압축을 풀고, chromedriver.exe파일이 생성된다. -> 작업 할 폴더로 옮겨놓는다. 다음과 같은 코드로 크롬 드.. 2021. 4. 10.
[개발공부] 시간기록 47회차(누적 합계 1451시간 19분) 2021. 4. 8.
728x90
반응형