Python

파이참으로 웹크롤링 이해 안된 부분 정리

우롱차 2020. 9. 2. 17:41
728x90
 

 

 
for i in url_list :
url = i['herf']
 
'herf' 크롬에 나와있는 코드를 보면 하이퍼 링크 태그를 가져오는거고
 

url_list에 담긴 값들은 헤드라인 텍스트 가지고온거임 위에 사진 보면
 
부동산 게시글 apart > boardone

보니까 tit_cat이 너무 많더라~ 그래서
이런 경우는 구조가 같으니 [1]번지 지정해주라는 소리였음
하지만 구조가 다르게 된다면 더 디테일하게 선택자를 선택해야함!!
 


id도 없고 클래스도 없을때는?

 
board_list에서 게시글 제목 뽑을때 선택자 겁나 내려가야하는 부분
 

이 a태그가 클래스가 없어서 a를 가지고오면 전부 a를 가지고오니까 조금씩 더 딥하게 들어가야함
그래서 tr > td > a 이렇게 딥하게 들어가야함
id와 클래스가 없으면 이렇게 줄줄줄ㅈ룾 들어가야함
 
 
tbody#bbsResult
ㄴtr
  ㄴ td
  ㄴ td
ㄴ a(주소)  class없음
   ㄴ td
ㄴ a (작성자) x 내가 원하는게 아님 class. name_more
   ㄴ td
   ㄴ td
 
tr > td > a:not(.name_more) # 작성자에 클래스가 있어서이렇게 할 수 있는 거
태그는 방심하면 안됌
tr > td > a 이렇게했는데 그럼 티알 티디다른데에도 있을수도 있어
 
이걸 잘할라먼 많이 긁어보는 수밖에 없다


beautiful ( resp.text, 'html.parser')
 
title = soup.find('h3', id='articleTitle')
< h3태그중에서 아이디가 아티클인애를 ㄷ찾아라 라고
 
soup.find(
# resp.status_code : resp의 상태코드 200번대가 들어오면 정상이고
500번대가 오면 비정상 status_code : 200번대면 초록색 이거 확인하는곳은 f12눌러서 확인
if resp.status_code == 200:
    resp.headers
else:
    print('잘못된 URL입니다. 다시 입력해주세요.')
 
strip() < 여백 줄여주는 함수
728x90

'Python' 카테고리의 다른 글

20.06.29  (0) 2020.09.02
20.06.26 자바로  (0) 2020.09.02
20.06.24 자바로 웹크롤  (0) 2020.08.29
06.19 시험보고 선생님이 대충 말해준 부분  (0) 2020.08.29
20.06.18 mongodb 클래스생성하고 저장하는 부분  (0) 2020.08.29