파이참으로 웹크롤링 이해 안된 부분 정리

Python

파이참으로 웹크롤링 이해 안된 부분 정리

우롱차 2020. 9. 2. 17:41

728x90

for i in url_list :

url = i['herf']

'herf' 크롬에 나와있는 코드를 보면 하이퍼 링크 태그를 가져오는거고

url_list에 담긴 값들은 헤드라인 텍스트 가지고온거임 위에 사진 보면

부동산 게시글 apart > boardone

보니까 tit_cat이 너무 많더라~ 그래서

이런 경우는 구조가 같으니 [1]번지 지정해주라는 소리였음

하지만 구조가 다르게 된다면 더 디테일하게 선택자를 선택해야함!!

id도 없고 클래스도 없을때는?

board_list에서 게시글 제목 뽑을때 선택자 겁나 내려가야하는 부분

이 a태그가 클래스가 없어서 a를 가지고오면 전부 a를 가지고오니까 조금씩 더 딥하게 들어가야함

그래서 tr > td > a 이렇게 딥하게 들어가야함

id와 클래스가 없으면 이렇게 줄줄줄ㅈ룾 들어가야함

tbody#bbsResult

ㄴtr

ㄴ td

ㄴ a(주소) class없음

ㄴ td

ㄴ a (작성자) x 내가 원하는게 아님 class. name_more

ㄴ td

tr > td > a:not(.name_more) # 작성자에 클래스가 있어서이렇게 할 수 있는 거

태그는 방심하면 안됌

tr > td > a 이렇게했는데 그럼 티알 티디다른데에도 있을수도 있어

이걸 잘할라먼 많이 긁어보는 수밖에 없다

beautiful ( resp.text, 'html.parser')

title = soup.find('h3', id='articleTitle')

< h3태그중에서 아이디가 아티클인애를 ㄷ찾아라 라고

soup.find(

# resp.status_code : resp의 상태코드 200번대가 들어오면 정상이고

500번대가 오면 비정상 status_code : 200번대면 초록색 이거 확인하는곳은 f12눌러서 확인

if resp.status_code == 200:
    resp.headers
else:
    print('잘못된 URL입니다. 다시 입력해주세요.')

strip() < 여백 줄여주는 함수

728x90

'Python' 카테고리의 다른 글

20.06.29 (0)	2020.09.02
20.06.26 자바로 (0)	2020.09.02
20.06.24 자바로 웹크롤 (0)	2020.08.29
06.19 시험보고 선생님이 대충 말해준 부분 (0)	2020.08.29
20.06.18 mongodb 클래스생성하고 저장하는 부분 (0)	2020.08.29

현재글파이참으로 웹크롤링 이해 안된 부분 정리

우롱이 공책정리

jetbrains, MacOS, NPM, MongoDB, 카멜케이스, Yarn, VueDevTools, install, m1, ECMAScript, 케밥케이스, eventloop, ES, bootstrap, vue, 폴리필, 파스칼케이스, 프론트엔드, Webstrom, 스코프,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

우롱이 공책정리