Python 27

20.06.29

자연어 처리 파이참으로 >> 리플ai 0번일때 부정적이다.라는걸 넣어서 학습시키는 지도학습법으로 이용 conda 프롬프트 에 tensorflow가 안깔려있어서 오류가 난다잉 conda install tensorflow(==1.5.0) conda install nltk pip install JPype1-0.5.7-cp27-none-win_amd64.whl pip install konlpy 구글에서 만든게 텐서플로우 좀 어렵당 실행작업이 속도가 느림 요즘 뜨는게 파이토치 pythorch 쉬우면서 빠름 cpu(어어어어엄청똑똑한애들이 천재 4명이있눈거 와 gpu의 차이 씨피유는 하나 고성능 게임같은거 돌릴때 좋은데 택시 정두 지피유는 바보는 아닌데 평균인 사람이 어어어엄청많은거 버스정두

Python 2020.09.02

20.06.26 자바로

movieworld 3번부터 MovieMain > ReplyCrawlerNaver 프로그램 > db공부햇서 중간에서 연동 시켜야함 영화선택 : 온워드 네이버 > 온워드 댓글 수집 영화 제목, 댓글, 평점, 작성자, 작성일자 > reply collection : 몽고디비는 collection DB의 특징 - > 데이터를 전체 다 삭제하고 넣는거는 비효율적임. one : 한건에 대해서만 하는거 many : 다수를 뜻한다. insertmany도 있움 dict = JSON = HshMap = MongoDB의 BSON : Key, Value형식 기본자료형 객체자료형(Wrapper Class) char Character boolean Boolean byte Byte short Short int Integer flo..

Python 2020.09.02

파이참으로 웹크롤링 이해 안된 부분 정리

for i in url_list : url = i['herf'] 'herf' 크롬에 나와있는 코드를 보면 하이퍼 링크 태그를 가져오는거고 url_list에 담긴 값들은 헤드라인 텍스트 가지고온거임 위에 사진 보면 부동산 게시글 apart > boardone 보니까 tit_cat이 너무 많더라~ 그래서 이런 경우는 구조가 같으니 [1]번지 지정해주라는 소리였음 하지만 구조가 다르게 된다면 더 디테일하게 선택자를 선택해야함!! id도 없고 클래스도 없을때는? board_list에서 게시글 제목 뽑을때 선택자 겁나 내려가야하는 부분 이 a태그가 클래스가 없어서 a를 가지고오면 전부 a를 가지고오니까 조금씩 더 딥하게 들어가야함 그래서 tr > td > a 이렇게 딥하게 들어가야함 id와 클래스가 없으면 이렇게..

Python 2020.09.02

20.06.24 자바로 웹크롤

5파트 주제: 박스오피스 1~10 1번 : 한국영화진흥위원회 파싱(랭크, 영화제목, 누적 매출액, 누적 관객수) 2번 : 네이버(영화 정보들(영화제목, 출연진....), 네이버 영화 코드) 3번 : 다음(영화 제목, 다음 영화 코드) 4번 : 네이버 해당 영화 코드의 댓글을 수집! 5번 : 다음 해당 영화 코드의 댓글을 수집! >> 관계형 데이터 베이스 배우면 쉬운뎅 >>>>>>>>무비월드 사용자가 프로그램 온! 1번 작업 실행 1~10위 보여주고 검색창을 띄워즈면 어떤영화의 평점,,등등 보여주는! 메인메서드는 반드시 프로그램 하나당 하나만!아니면 오류남 순수 자바프로그램 시작부분은 main이 일페이지 main()이 시작점 임폴트 해놓고 안쓰면 컨트롤 쉬프트 영문자O누르면 자동으로 임폴트 안쓴게 지워짐 ..

Python 2020.08.29

06.19 시험보고 선생님이 대충 말해준 부분

빅데이터 수집 ( 웹 크롤링) 웹 스크래핑 or 웹 크롤링 // 엄연히 따지면 구분해서 써야햄 우리가 하고있는게 웹스크래핑이랑 비슷함. 돌아다니면서 자동화된 봇이 뭔갈 긁어대는게 웹 크롤러라고하고 웹스크래핑은 특정한곳에서 긁어오는건 스크래핑했다. 라고 한다. NOSQL와 RDB 같이 상생해서 씀 서로 상호보완하는거 서로의 장단점을 업그레이드가 된거 아님!! 그냥 MongoDB 명칭이 조금 다양해 not only sql이라고 대부분 받아들임 Key-value (Redis) Column Oriented (Cassandra) Document (MongoDB) 총 세개 mongodb는 도큐먼트 방식 실질적으로 NOSQL을 쓸려면 RDB배우면 쉬운데 RDB가 아닌 그 외의 방식을 NOSQL이라고 한다. RDB 관..

Python 2020.08.29

20.06.18 mongodb 클래스생성하고 저장하는 부분

슈퍼계정(관리자 계정) 회사가서도 관리자계정을 딱히 쓰지는 않아 오라클 sys, system, sysdba 리눅스 서버 설치 root mongodb 몽고디비는 없어서 내가 만들어야함 몽고디비에서는 테이블이라 안하고 컬렉션이라함 몽고디비랑 파이썬하자나 그러면 pymongo 파이썬이랑 몽고디비 연동해준거라하면되고 대부분 파이썬이랑 연동한건 py~ py~ persistence < 에 디비 관련된 애들이 들어간다 보면 됌 DTO 데이터전송할때 쓴느거 데이터 t??? 오브젝트 DAO?? : DAO입력값으로 디티오를 넣어서 보내는거 DAO(DTO) 이런식으로 회원가입(회원정보) 영화평 긁어오면 몽고디비에 저장하는거 하나 저장한걸 불러오는거 하나 두개할거임 mDao = MongoDAO() # 객체 생성 mDao < ..

Python 2020.08.29

20.06.17 뷰티풀 슾으로 웹크롤링 + selenium으로도 해봄

네이버 영화 평점댓글 페이지랑 나머지 두개임 : 이 이유는 에이잭스를 써서 저 영화 평점 페이지로 가고싶으면 앵커 태그를타고 들어가서 새창 뜨는거에서 url복사 평점 댓글 페이지 나머지 외부 페이지 (평점쓰는 곳은 쉽게 생각하면 그림이라고 생각하면 됌) 아예 다른 페이지로 가서 디자인을 한다음에 그 저 그림을 그대로 영화 페이지에 붙임. 저기 누르면 에이 앵커가 있고 댓글창이 새로 뜸 :이런 이유는 에이잭스를 썼기 때문에 에이잭스는 내가 원하는 특정 부분만 바꿀 수 있음 쓰는 이유는 다른데가 너무 많고 처음부터 끝까지 다바궈야하는게 비효율적이라서 에러많이 띄워도 기죽지마 ERROR 선박지도..지리정보시스템감 이쪽가면 또 계속 지도로감 ERP 전사적 자원관리 시스템 hr 휴먼리소스 가면 또 노동법 공부하고..

Python 2020.08.29

20.06.16 (파이참으로 웹 크롤링하기)

requests라는 사용해주고 내용만을 추출하고싶을 때 뷰티풀숲이라는걸 사용해줌 내용(resp)을 뷰티풀 숲에 인풋해줌 아놔ㅡㅡ find함수 잘안씀 ㅡㅡ 어제배운거 test_bsoup4_01 test_bsoup_02.py find라는걸 보다는 select() 라는 거를 더 많이 씀 select결과를 리스트로 받아온다 title이 리스트임 리스트인데 .text하면 에러가 남 리스트인데 어떻게 텍스트로 바꿔 그래서 리스트니까 데이터 하나밖에 없으니까 print(title[0].text)해준거임 text안해주고 보면 ]괄호로 온게 보임 만약에 내용을 긁는데 쓰잘데기없는 것 까지 긁어와졌다? 그러면 다시 봐서 세부적인 곳을 열어서 태그명과 선택자 긁어온다. strip() 썼는데 공백제거 안해주는건 내용안에 있는..

Python 2020.08.29