`re` ಮೊಡ್ಯೂಲ್ (ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್‌ಗಳು)

ಪೈಥಾನ್‌ನ re ಮೊಡ್ಯೂಲ್, ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್‌ಗಳ (Regular Expressions ಅಥವಾ Regex) ಮೂಲಕ ಪಠ್ಯದಲ್ಲಿ ಪ್ಯಾಟರ್ನ್‌ಗಳನ್ನು ಹುಡುಕಲು, ಹೊಂದಿಸಲು, ಮತ್ತು ನಿರ್ವಹಿಸಲು ಶಕ್ತಿಯುತ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.

ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್‌ಗಳು ಎಂದರೆ ಪ್ಯಾಟರ್ನ್‌ಗಳನ್ನು ವಿವರಿಸುವ ಒಂದು ವಿಶೇಷ ಸಿಂಟ್ಯಾಕ್ಸ್. ಇಮೇಲ್ ವಿಳಾಸಗಳನ್ನು ವ್ಯಾಲಿಡೇಟ್ ಮಾಡಲು, ಫೋನ್ ಸಂಖ್ಯೆಗಳನ್ನು ಹೊರತೆಗೆಯಲು, ಅಥವಾ ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಇವು ಅತ್ಯಂತ ಉಪಯುಕ್ತ.

ಪ್ರಮುಖ `re` ಫಂಕ್ಷನ್‌ಗಳು

1. `re.search(pattern, string)`

ಸ್ಟ್ರಿಂಗ್‌ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್‌ಗೆ ಹೊಂದುವ ಮೊದಲ ಸಂಭವನೀಯತೆಯನ್ನು ಹುಡುಕುತ್ತದೆ. ಹೊಂದಾಣಿಕೆ ಸಿಕ್ಕರೆ, ಒಂದು ಮ್ಯಾಚ್ ಆಬ್ಜೆಕ್ಟ್ (match object) ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ, ಇಲ್ಲದಿದ್ದರೆ None ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.

import re

text = "ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ 98765-43210 ಆಗಿದೆ."
pattern = r"\d{5}-\d{5}" # 5 ಅಂಕಿಗಳು, ಹೈಫನ್, 5 ಅಂಕಿಗಳು

match = re.search(pattern, text)

if match:
    print(f"ಹೊಂದಾಣಿಕೆ ಕಂಡುಬಂದಿದೆ: {match.group()}") # .group() ಹೊಂದಾಣಿಕೆಯಾದ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ನೀಡುತ್ತದೆ
else:
    print("ಹೊಂದಾಣಿಕೆ ಕಂಡುಬಂದಿಲ್ಲ.")

2. `re.match(pattern, string)`

re.search() ನಂತೆಯೇ, ಆದರೆ ಇದು ಪ್ಯಾಟರ್ನ್ ಅನ್ನು ಸ್ಟ್ರಿಂಗ್‌ನ ಪ್ರಾರಂಭದಲ್ಲಿ ಮಾತ್ರ ಹುಡುಕುತ್ತದೆ. ಸ್ಟ್ರಿಂಗ್‌ನ ಪ್ರಾರಂಭದಲ್ಲಿ ಹೊಂದಾಣಿಕೆಯಾಗದಿದ್ದರೆ, ಅದು None ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.

import re

text = "ಪೈಥಾನ್ ಒಂದು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ."
# 'ಪೈಥಾನ್' ಸ್ಟ್ರಿಂಗ್‌ನ ಪ್ರಾರಂಭದಲ್ಲಿದೆ
match = re.match(r"ಪೈಥಾನ್", text) 
print(match) # ಮ್ಯಾಚ್ ಆಬ್ಜೆಕ್ಟ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ

# 'ಪ್ರೋಗ್ರಾಮಿಂಗ್' ಸ್ಟ್ರಿಂಗ್‌ನ ಮಧ್ಯದಲ್ಲಿದೆ
match = re.match(r"ಪ್ರೋಗ್ರಾಮಿಂಗ್", text)
print(match) # None

3. `re.findall(pattern, string)`

ಸ್ಟ್ರಿಂಗ್‌ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್‌ಗೆ ಹೊಂದುವ ಎಲ್ಲಾ ಸಂಭವನೀಯತೆಗಳನ್ನು ಹುಡುಕಿ, ಅವುಗಳ ಒಂದು ಲಿಸ್ಟ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.

import re

text = "ರವಿಕಿರಣ ಅವರ ಇಮೇಲ್ ravi@example.com ಮತ್ತು ನಿಶ್ಕಲಾ ಅವರದ್ದು nish@work.com."
emails = re.findall(r"\w+@\w+\.\w+", text)
print(f"ಕಂಡುಬಂದ ಇಮೇಲ್‌ಗಳು: {emails}")
# Output: ['ravi@example.com', 'nish@work.com']

4. `re.sub(pattern, repl, string)`

sub ಎಂದರೆ substitute. ಇದು ಸ್ಟ್ರಿಂಗ್‌ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್‌ಗೆ ಹೊಂದುವ ಎಲ್ಲಾ ಸಂಭವನೀಯತೆಗಳನ್ನು repl (replacement) ಸ್ಟ್ರಿಂಗ್‌ನೊಂದಿಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.

import re

text = "ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ 987-654-3210."
# ಫೋನ್ ಸಂಖ್ಯೆಯನ್ನು ಮರೆಮಾಚುವುದು
censored_text = re.sub(r"\d", "*", text)
print(censored_text)
# Output: ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ ***-***-****.

ಸಾಮಾನ್ಯ ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್ ಪ್ಯಾಟರ್ನ್‌ಗಳು

ಪ್ಯಾಟರ್ನ್	ವಿವರಣೆ
`.`	ಯಾವುದೇ ಒಂದು ಅಕ್ಷರ (ನ್ಯೂಲೈನ್ ಹೊರತುಪಡಿಸಿ).
`\d`	ಯಾವುದೇ ಅಂಕಿ (0-9).
`\D`	ಅಂಕಿ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ.
`\w`	ಯಾವುದೇ ವರ್ಡ್ ಕ್ಯಾರೆಕ್ಟರ್ (a-z, A-Z, 0-9, `_`).
`\W`	ವರ್ಡ್ ಕ್ಯಾರೆಕ್ಟರ್ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ.
`\s`	ಯಾವುದೇ ವೈಟ್‌ಸ್ಪೇಸ್ (space, tab, newline).
`\S`	ವೈಟ್‌ಸ್ಪೇಸ್ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ.
`^`	ಸ್ಟ್ರಿಂಗ್‌ನ ಪ್ರಾರಂಭ.
`$`	ಸ್ಟ್ರಿಂಗ್‌ನ ಅಂತ್ಯ.
`*`	ಹಿಂದಿನ ಅಕ್ಷರ 0 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಬಾರಿ ಪುನರಾವರ್ತನೆ.
`+`	ಹಿಂದಿನ ಅಕ್ಷರ 1 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಬಾರಿ ಪುನರಾವರ್ತನೆ.
`?`	ಹಿಂದಿನ ಅಕ್ಷರ 0 ಅಥವಾ 1 ಬಾರಿ ಪುನರಾವರ್ತನೆ.
`{n}`	ಹಿಂದಿನ ಅಕ್ಷರ ನಿಖರವಾಗಿ `n` ಬಾರಿ ಪುನರಾವರ್ತನೆ.
`{n,m}`	ಹಿಂದಿನ ಅಕ್ಷರ `n` ರಿಂದ `m` ಬಾರಿ ಪುನರಾವರ್ತನೆ.
`[...]`	ಬ್ರಾಕೆಟ್‌ನಲ್ಲಿರುವ ಯಾವುದೇ ಒಂದು ಅಕ್ಷರ (ಉದಾ: `[abc]`).
`(...)`	ಒಂದು ಗುಂಪನ್ನು (group) ರಚಿಸುತ್ತದೆ.

re ಮೊಡ್ಯೂಲ್, ಡೇಟಾ ಕ್ಲೀನಿಂಗ್, ವ್ಯಾಲಿಡೇಶನ್, ಮತ್ತು ವೆಬ್ ಸ್ಕ್ರೇಪಿಂಗ್‌ನಂತಹ ಪಠ್ಯ-ಆಧಾರಿತ ಕಾರ್ಯಗಳಲ್ಲಿ ಅತ್ಯಂತ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ.

re ಮೊಡ್ಯೂಲ್ (ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್‌ಪ್ರೆಶನ್‌ಗಳು)

ಪ್ರಮುಖ re ಫಂಕ್ಷನ್‌ಗಳು

1. re.search(pattern, string)

2. re.match(pattern, string)

3. re.findall(pattern, string)

4. re.sub(pattern, repl, string)