일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- explained AI
- 데이터크롤링
- 모델평가
- kt에이블스쿨
- CIFAR-10
- AI
- 데이터분석
- 뉴스웨일
- AWS 입문자를 위한 강의
- fashion mnist
- learning_rate
- 딥러닝
- pandas
- 키워드 기반 뉴스 조회
- Neural Network
- bias
- OneHotEncoding
- Pooling Layer
- 데이터처리
- Convolution Neural Network
- NewsWhale
- 머신러닝
- 데이터
- CNN
- MaxPooling2D
- CRISP-DM
- 크롤링
- plot_model
- 인공지능
- CNN 실습
- Today
- Total
목록크롤링 (4)
jjinyeok 성장일지

1. Selenium이란? 브라우저 자동화 목적으로 만들어진 다양한 브라우저와 프로그래밍 언어를 지원하는 라이브러리이다. 브라우저를 파이썬 코드로 직접 컨트롤해서 브라우저에 있는 데이터를 수집하는 방식으로 크롤링을 진행할 수 있다. requests 패키지를 이용하여 서버에 요청을 보낼때 그 요청은 당연하게도 브라우저에서 보내는 요청이 아니다. 경우에 따라 이런 요청은 서버에서 거절하기도 한다. 그러나 Selenium은 직접 브라우저를 컨트롤하기 때문에 이러한 경우를 방지할 수 있다. 그러나 브라우저를 직접 컨트롤하는 만큼 속도가 느리기 때문에 requests 패키지를 이용하여 크롤링이 가능하다면 requests를 패키지를 이용하는 것이 속도적으로 더 좋은 방법이다. 2. 환경설정 크롬 브라우저를 통해 S..

크롤링하고 싶은 웹 서비스가 정적 페이지인 경우 즉, 이벤트가 발생할 때마다 URL이 변경되고 html 형식의 데이터를 response로 가져오는 경우 동적 페이지 크롤링 방법과 다른 방법으로 response로 HTML 형식의 문자열을 받아 BeautifulSoup 클래스를 사용하여 파싱하는 방법을 사용한다. 1. HTML이란? 정적 페이지 크롤링에 대해 알기 위해서는 HTML에 대한 기본적 이해가 바탕이 되어야 한다. HTML은 웹 문서를 작성하는 언어이다. HTML의 구성은 다음과 같다. Document : 한 페이지를 나타내는 코드 Element : 하나의 레이아웃 -> Element가 모여서 Document를 만듬 Tag : Element의 종류를 정의 -> 시작 태그 + 끝 태그 == Eleme..
1. Open API란? 다양한 회사나 기관에서 Open API를 제공한다. Open API를 사용해서 데이터를 수집하는 것은 서비스에 데이터를 제공하는 공식적인 방법으로 데이터를 수집하는 방법이다. Open API가 제공되는 상황이라면 Open API를 이용하는 것이 좋다. 대표적으로 Open API를 제공해주는 네이버 개발자 센터(https://developers.naver.com/main/), Kakao Developers(https://developers.kakao.com/) 등이 있다. 2. Open API 프로세스 App 등록 -> application_key : App을 등록하여 application_key를 발급받는다. API 문서 확인 -> URL, params, header : API ..

8월 강의 일정 중 가장 궁금하던 수업이었다. 나는 현재 크롤링이 메인 서비스 중 하나인 앱서비스 개발을 진행하고 있다. 웹크롤링이 정말 재밌다는 것을 알기 때문에 기대되었고 혹시 내가 다 아는 내용이면 어쩌지 걱정되었다. 그러나 수업을 듣고 내가 느꼈던 것은 내 웹크롤링 코드는 우아하지 않고 효율적이지 않다는 것이었다. 부끄러웠다. 어서 새로운 버전의 크롤링 서버를 만들어야겠다고 생각했다. 아직 부족한 내 크롤링 서버 ver.1... 에이블스쿨에서 배운 내용을 참고해 8월 중순 안으로 버전업 시키겠다. https://github.com/jjinyeok/NewsWhaleCrawling GitHub - jjinyeok/NewsWhaleCrawling: 뉴스 구독 서비스 어플리케이션 '뉴스웨일' Crawli..