Python/정규식

정규식의 사용

데브플레이버 2023. 4. 17. 14:18
반응형

 

정규식의 필요성

최근 파이썬 크롤링을 진행하며 막히는 점이 데이터 전처리 과정인데 이를 해결하기 위해서는 정규식을 정확히 사용할 줄 알아야 한다고 느꼈다.

정규식이란?

문자열을 처리하기 위한 패턴으로, 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용된다. 주로 문자열의 검색, 추출, 대체, 분리 등의 작업에 활용한다.

정규식의 사용법

정규식은 다양한 메타문자(meta-character)와 문자 클래스(character class)를 사용하여 구성된다.

메타문자란?

메타문자는 특별한 의미를 가지는 문자로, 대표적으로 . ^ $ * + ? { } \ | 등이 있다.

문자 클래스란?

문자 클래스는 대괄호[ ] 안에 포함된 문자나 문자열 집합을 의미하며, 여러 문자 중에서 하나를 선택하는 기능을 한다. 대표적으로 [0-9] [a-zA-Z] 등이 있다.

파이썬에서 정규식 사용법

먼저 파이썬에서 정규식은 re모듈을 활용하여 사용할 수 있다.

re 모듈은 match(), search(), findall() 등의 함수를 제공하며 정규식 패턴을 활용한 문자열 처리를 수행할 수 있다.

예를 들어, 다음은 문자열 'apple'이 정규식 패턴 'ap.e'와 일치하는지를 확인할 수 있다.

반응형