re ಮೊಡ್ಯೂಲ್ (ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್ಪ್ರೆಶನ್ಗಳು)
ಪೈಥಾನ್ನ re ಮೊಡ್ಯೂಲ್, ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್ಪ್ರೆಶನ್ಗಳ (Regular Expressions ಅಥವಾ Regex) ಮೂಲಕ ಪಠ್ಯದಲ್ಲಿ ಪ್ಯಾಟರ್ನ್ಗಳನ್ನು ಹುಡುಕಲು, ಹೊಂದಿಸಲು, ಮತ್ತು ನಿರ್ವಹಿಸಲು ಶಕ್ತಿಯುತ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ.
ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್ಪ್ರೆಶನ್ಗಳು ಎಂದರೆ ಪ್ಯಾಟರ್ನ್ಗಳನ್ನು ವಿವರಿಸುವ ಒಂದು ವಿಶೇಷ ಸಿಂಟ್ಯಾಕ್ಸ್. ಇಮೇಲ್ ವಿಳಾಸಗಳನ್ನು ವ್ಯಾಲಿಡೇಟ್ ಮಾಡಲು, ಫೋನ್ ಸಂಖ್ಯೆಗಳನ್ನು ಹೊರತೆಗೆಯಲು, ಅಥವಾ ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಇವು ಅತ್ಯಂತ ಉಪಯುಕ್ತ.
ಪ್ರಮುಖ re ಫಂಕ್ಷನ್ಗಳು
1. re.search(pattern, string)
ಸ್ಟ್ರಿಂಗ್ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್ಗೆ ಹೊಂದುವ ಮೊದಲ ಸಂಭವನೀಯತೆಯನ್ನು ಹುಡುಕುತ್ತದೆ. ಹೊಂದಾಣಿಕೆ ಸಿಕ್ಕರೆ, ಒಂದು ಮ್ಯಾಚ್ ಆಬ್ಜೆಕ್ಟ್ (match object) ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ, ಇಲ್ಲದಿದ್ದರೆ None ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.
import re
text = "ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ 98765-43210 ಆಗಿದೆ."
pattern = r"\d{5}-\d{5}" # 5 ಅಂಕಿಗಳು, ಹೈಫನ್, 5 ಅಂಕಿಗಳು
match = re.search(pattern, text)
if match:
print(f"ಹೊಂದಾಣಿಕೆ ಕಂಡುಬಂದಿದೆ: {match.group()}") # .group() ಹೊಂದಾಣಿಕೆಯಾದ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ನೀಡುತ್ತದೆ
else:
print("ಹೊಂದಾಣಿಕೆ ಕಂಡುಬಂದಿಲ್ಲ.")
2. re.match(pattern, string)
re.search() ನಂತೆಯೇ, ಆದರೆ ಇದು ಪ್ಯಾಟರ್ನ್ ಅನ್ನು ಸ್ಟ್ರಿಂಗ್ನ ಪ್ರಾರಂಭದಲ್ಲಿ ಮಾತ್ರ ಹುಡುಕುತ್ತದೆ. ಸ್ಟ್ರಿಂಗ್ನ ಪ್ರಾರಂಭದಲ್ಲಿ ಹೊಂದಾಣಿಕೆಯಾಗದಿದ್ದರೆ, ಅದು None ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.
import re
text = "ಪೈಥಾನ್ ಒಂದು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆ."
# 'ಪೈಥಾನ್' ಸ್ಟ್ರಿಂಗ್ನ ಪ್ರಾರಂಭದಲ್ಲಿದೆ
match = re.match(r"ಪೈಥಾನ್", text)
print(match) # ಮ್ಯಾಚ್ ಆಬ್ಜೆಕ್ಟ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ
# 'ಪ್ರೋಗ್ರಾಮಿಂಗ್' ಸ್ಟ್ರಿಂಗ್ನ ಮಧ್ಯದಲ್ಲಿದೆ
match = re.match(r"ಪ್ರೋಗ್ರಾಮಿಂಗ್", text)
print(match) # None
3. re.findall(pattern, string)
ಸ್ಟ್ರಿಂಗ್ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್ಗೆ ಹೊಂದುವ ಎಲ್ಲಾ ಸಂಭವನೀಯತೆಗಳನ್ನು ಹುಡುಕಿ, ಅವುಗಳ ಒಂದು ಲಿಸ್ಟ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.
import re
text = "ರವಿಕಿರಣ ಅವರ ಇಮೇಲ್ ravi@example.com ಮತ್ತು ನಿಶ್ಕಲಾ ಅವರದ್ದು nish@work.com."
emails = re.findall(r"\w+@\w+\.\w+", text)
print(f"ಕಂಡುಬಂದ ಇಮೇಲ್ಗಳು: {emails}")
# Output: ['ravi@example.com', 'nish@work.com']
4. re.sub(pattern, repl, string)
sub ಎಂದರೆ substitute. ಇದು ಸ್ಟ್ರಿಂಗ್ನಲ್ಲಿ ಪ್ಯಾಟರ್ನ್ಗೆ ಹೊಂದುವ ಎಲ್ಲಾ ಸಂಭವನೀಯತೆಗಳನ್ನು repl (replacement) ಸ್ಟ್ರಿಂಗ್ನೊಂದಿಗೆ ಬದಲಾಯಿಸುತ್ತದೆ.
import re
text = "ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ 987-654-3210."
# ಫೋನ್ ಸಂಖ್ಯೆಯನ್ನು ಮರೆಮಾಚುವುದು
censored_text = re.sub(r"\d", "*", text)
print(censored_text)
# Output: ನನ್ನ ಫೋನ್ ಸಂಖ್ಯೆ ***-***-****.
ಸಾಮಾನ್ಯ ರೆಗ್ಯುಲರ್ ಎಕ್ಸ್ಪ್ರೆಶನ್ ಪ್ಯಾಟರ್ನ್ಗಳು
| ಪ್ಯಾಟರ್ನ್ | ವಿವರಣೆ |
|---|---|
. |
ಯಾವುದೇ ಒಂದು ಅಕ್ಷರ (ನ್ಯೂಲೈನ್ ಹೊರತುಪಡಿಸಿ). |
\d |
ಯಾವುದೇ ಅಂಕಿ (0-9). |
\D |
ಅಂಕಿ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ. |
\w |
ಯಾವುದೇ ವರ್ಡ್ ಕ್ಯಾರೆಕ್ಟರ್ (a-z, A-Z, 0-9, _). |
\W |
ವರ್ಡ್ ಕ್ಯಾರೆಕ್ಟರ್ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ. |
\s |
ಯಾವುದೇ ವೈಟ್ಸ್ಪೇಸ್ (space, tab, newline). |
\S |
ವೈಟ್ಸ್ಪೇಸ್ ಅಲ್ಲದ ಯಾವುದೇ ಅಕ್ಷರ. |
^ |
ಸ್ಟ್ರಿಂಗ್ನ ಪ್ರಾರಂಭ. |
$ |
ಸ್ಟ್ರಿಂಗ್ನ ಅಂತ್ಯ. |
* |
ಹಿಂದಿನ ಅಕ್ಷರ 0 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಬಾರಿ ಪುನರಾವರ್ತನೆ. |
+ |
ಹಿಂದಿನ ಅಕ್ಷರ 1 ಅಥವಾ ಅದಕ್ಕಿಂತ ಹೆಚ್ಚು ಬಾರಿ ಪುನರಾವರ್ತನೆ. |
? |
ಹಿಂದಿನ ಅಕ್ಷರ 0 ಅಥವಾ 1 ಬಾರಿ ಪುನರಾವರ್ತನೆ. |
{n} |
ಹಿಂದಿನ ಅಕ್ಷರ ನಿಖರವಾಗಿ n ಬಾರಿ ಪುನರಾವರ್ತನೆ. |
{n,m} |
ಹಿಂದಿನ ಅಕ್ಷರ n ರಿಂದ m ಬಾರಿ ಪುನರಾವರ್ತನೆ. |
[...] |
ಬ್ರಾಕೆಟ್ನಲ್ಲಿರುವ ಯಾವುದೇ ಒಂದು ಅಕ್ಷರ (ಉದಾ: [abc]). |
(...) |
ಒಂದು ಗುಂಪನ್ನು (group) ರಚಿಸುತ್ತದೆ. |
re ಮೊಡ್ಯೂಲ್, ಡೇಟಾ ಕ್ಲೀನಿಂಗ್, ವ್ಯಾಲಿಡೇಶನ್, ಮತ್ತು ವೆಬ್ ಸ್ಕ್ರೇಪಿಂಗ್ನಂತಹ ಪಠ್ಯ-ಆಧಾರಿತ ಕಾರ್ಯಗಳಲ್ಲಿ ಅತ್ಯಂತ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸುತ್ತದೆ.