반응형
정규식의 필요성
최근 파이썬 크롤링을 진행하며 막히는 점이 데이터 전처리 과정인데 이를 해결하기 위해서는 정규식을 정확히 사용할 줄 알아야 한다고 느꼈다.
정규식이란?
문자열을 처리하기 위한 패턴으로, 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용된다. 주로 문자열의 검색, 추출, 대체, 분리 등의 작업에 활용한다.
정규식의 사용법
정규식은 다양한 메타문자(meta-character)와 문자 클래스(character class)를 사용하여 구성된다.
메타문자란?
메타문자는 특별한 의미를 가지는 문자로, 대표적으로 . ^ $ * + ? { } \ | 등이 있다.
문자 클래스란?
문자 클래스는 대괄호[ ] 안에 포함된 문자나 문자열 집합을 의미하며, 여러 문자 중에서 하나를 선택하는 기능을 한다. 대표적으로 [0-9]나 [a-zA-Z] 등이 있다.
파이썬에서 정규식 사용법
먼저 파이썬에서 정규식은 re모듈을 활용하여 사용할 수 있다.
re 모듈은 match(), search(), findall() 등의 함수를 제공하며 정규식 패턴을 활용한 문자열 처리를 수행할 수 있다.
예를 들어, 다음은 문자열 'apple'이 정규식 패턴 'ap.e'와 일치하는지를 확인할 수 있다.
반응형