2017년 10월 파이썬 세미나 - Python & Data
파이콘에서 주최하는 세미나가 있어서 참석하게 되었다. 역삼동에 있는 페이스북 코리아에서 열리게 되었고 간단하게 들었던 부분을 남겨본다.
http://blog.pycon.kr/2017/10/21/python-seminar/
데이터 시각화를 통한 파이썬 입문기 - 이왕원
- 크롤링, konply, word-cloud
도시공학과의 파이썬 - 정겨울
- 도시공학 : 설계, 기후, 교통
- 학식알리미(python + flask) : 로그의 그래프화 matplotlib 라이브러리,
plt.xkcd()
- 어디에 국공립 어린이집을 지으면 좋을까? : QGIS, 파일편집툴(+pypy)
- 물류센터 문제점 : 물류센터 그리기, GIS 라이브러리를 사용하지 못함. BaseMap의 필요성, ScikitLearn(X), Pandas, 주피터 노트북
- 서울시 빅테이터센터
만약 고교 사회선생님이 파이썬 코드를 읽는다면? - 송석리
- 공공 데이터 포털 : 잘 관리가 안되고 있음. 체계적 관리 필요
- 티머니 데이터 : tmoney.co.kr, 이용안내 > 대중교통 통계자료
- 버스정류장별 이용현황, 지하철 유무임별 이용현황, 지하철 시간대별 이용현황
- 데이터가 이야기 해주는 것 vs. 데이터가 이야기 해주지 않는것.
- 데이터가 모든것을 말해주지 않는다는 비판적인 시각
- 데이터 분석을 통한 근거에 의한 판단, 데이터를 만져보는 코딩 경험, 데이터를 통한 흥미 유발
파이썬으로 풀어보는 아주 심플한 검색엔진의 원리 - 강대명
- 검색엔진이 필요해 > elastic, solr
색인과 질의
- 색인 : 크롤링/데이터수집(파일, 시스템) + 역인덱스 구성
- 질의 : 인덱스 + 랭킹
크롤링
- robot.txt 는 상업적으로 사용할 경우 지키기
- 자바스크립트가 있는 경우 : headless 브라우저
- 구글 검색봇을 우리를 공격한다. > 서버 부하
- 부하를 줄 정도로 크롤링을 하지 말자 > IP차단
- 링크 추출
- 의미있는 파라미터만 추출 : 네이버 뉴스 aid, oid
- 인코딩 변경
- 재방문 주기 : 방문주기를 체크, 자주 방문 > 덜 방문
- 저장 : big table, GFS
색인
- TF/IDF(Inverted index)
- stemming, 형태소분석, n-gram 방식
pandas contribution 하기 - 김영근
- 기분이 좋아서 한다.
- 컨트리뷰터를 환영하고 있다. (쉬운이슈, 오타 등등)
- 스타를 찍고 시작.
- 기부 : NumFocus(https://numfocus.org)
- 문서화 :
DOC:
prefix 붙이기 - https://github.com/lyda/mispell-check
- 이슈리포트 : duplicated 확인, 이슈템플릿, 이슈말머리
- 코드변경 : 이슈리포트 => 내가볼게, 속도전
- 이슈헌팅 : Label 이 있음 good first issue 부터 시작.
- clone - upstream
- 버그 찾기 :
pdb.set_trace()
, 범위좁히면서 테스트 - 수정후 테스트 필수, 내테스트 > 전체 테스트 > 스타일체크(PEP8)
- What's new 에 변경사항 추가
- PR 만들어서 발사!, 되도록 커밋은 하나로, commit squash