반응형

Python 3

Python01. 파이썬 기초

주피터 노트북 파이썬을 이용하기 위한 개발도구(ILE)에는 jupyter notebook, VS code 등이 있다. 변수할당하기 파이썬에서 ‘=’ 는 오른쪽 값을 왼쪽 변수에 할당하는 것이다. 변수명은 숫자로 시작하면 안되고, 특수문자가 포함되면 안된다. 또한 예약어를 사용하면 안된다. 파이썬의 자료형 숫자 (Number): 정수(Integer), 실수(Float), 복소수(Complex) 문자열 (String): 문자나 문자열의 연속으로 이루어진 데이터 타입 불리언 (Boolean): True 또는 False를 나타내는 데이터 타입 리스트 (List): 대괄호([])로 둘러싸인 값의 목록으로, 여러 가지 자료형을 포함할 수 있는 시퀀스 타입입니다. 튜플 (Tuple): 소괄호(())로 둘러싸인 값의 ..

Python 2023.04.28

전국 음식점 데이터 전처리

행정안전부_일반음식점 데이터를 기준으로 데이터 정리를 해보았다. 먼저 판다스를 이용하여 파일을 로드했다 정부 관련 파일들은 대부분 인코딩 형식이 cp949이다. encoding='cp949'를 추가한다. import pandas as pd df = pd.read_csv("./fulldata_07_24_04_P_일반음식점.csv", encoding='cp949') 데이터 프레임은 206만 123개의 row가 있다. 전국 음식관련 업종이 206만여개가 있다는 뜻이다. 하지만 영업상태명을 보았을때 폐업이 있는 것으로 보아 현재 영업중인 파일만 출력하기로 한다. # 폐업구분 df = df.query("영업상태명!='폐업'") 영업상태명컬럼에서 폐업이 아닌 데이터만 남긴다. 2,060,123 rows -> 691..

Python 2023.04.20

정규식의 사용

정규식의 필요성 최근 파이썬 크롤링을 진행하며 막히는 점이 데이터 전처리 과정인데 이를 해결하기 위해서는 정규식을 정확히 사용할 줄 알아야 한다고 느꼈다. 정규식이란? 문자열을 처리하기 위한 패턴으로, 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용된다. 주로 문자열의 검색, 추출, 대체, 분리 등의 작업에 활용한다. 정규식의 사용법 정규식은 다양한 메타문자(meta-character)와 문자 클래스(character class)를 사용하여 구성된다. 메타문자란? 메타문자는 특별한 의미를 가지는 문자로, 대표적으로 . ^ $ * + ? { } \ | 등이 있다. 문자 클래스란? 문자 클래스는 대괄호[ ] 안에 포함된 문자나 문자열 집합을 의미하며, 여러 문자 중에서 하나를 선택하는 기능을 한다. 대..

Python/정규식 2023.04.17
반응형