grep 正規表示式實戰：文字過濾的藝術

在 Linux 的世界裡，grep（Global Regular Expression Print）無疑是系統管理員與開發者最強大的武器之一。雖然它表面上只是一個簡單的「搜尋」工具，但若能熟練運用其支援的正規表示式（Regular Expressions, regex），你將能從成千上萬行的日誌或配置檔中，精準地提取出關鍵資訊。本文將帶你深入探索 grep 的正規表示式實戰技巧，讓文字過濾不再是枯燥的重複勞動，而是一門精準的藝術。

基礎回顧與進階選項

在進入正規表示式之前，我們先快速複習幾個在實戰中極具價值的選項。假設我們有一個名為 server.log 的檔案，內容包含多個伺服器的連線記錄。

# 範例資料建立
cat > server.log << EOF
2023-10-01 10:00:01 INFO  Server A connected
2023-10-01 10:00:05 ERROR Server B failed to connect
2023-10-01 10:01:20 INFO  Server A sent data
2023-10-01 10:02:00 WARN  Server C timeout
2023-10-01 10:03:15 ERROR Server B disconnected
EOF

若你想搜尋包含 "ERROR" 的行，並顯示行號以便後續處理，可以使用 -n 選項：

grep -n "ERROR" server.log

輸出結果：

2:2023-10-01 10:00:05 ERROR Server B failed to connect
5:2023-10-01 10:03:15 ERROR Server B disconnected

若你想忽略大小寫（例如同時匹配 error、Error、ERROR），則加上 -i 選項。而在處理複雜日誌時，-E（Extended Regular Expressions，擴展正規表示式）與 -P（Perl-Compatible Regular Expressions，Perl 相容正規表示式）是進階玩家的必備工具。

正規表示式實戰技巧

1. 使用錨點定位行首與行尾

正規表示式中的錨點（Anchors）能幫助我們精確指定文字出現的位置。^ 代表行首，$ 代表行尾。

假設我們要找出所有開頭是日期格式 2023-10-01 的記錄：

grep "^2023-10-01" server.log

若你想排除所有開頭為空白行的記錄，可以使用 ^[^ ]（表示行首後第一個字元不是空白），但在 grep 中更常見的是利用 -v 反選來過濾空行：

grep -v "^$" server.log

2. 擴展正規表示式：邏輯或與分組

預設的 grep 僅支援基礎正規表示式（BRE），許多現代語法需要加上 -E 才能使用。這在處理「或」的邏輯時特別有用。

假設我們想找出包含 "Server A" 或 "Server C" 的記錄：

grep -E "Server A|Server C" server.log

輸出結果：

1:2023-10-01 10:00:01 INFO  Server A connected
3:2023-10-01 10:01:20 INFO  Server A sent data
4:2023-10-01 10:02:00 WARN  Server C timeout

此外，分組 () 與量詞 {} 也是強大工具。例如，找出連續出現兩次 "a" 的字串（在 BRE 中需轉義，在 ERE 中則可直接使用）：

echo "banana" | grep -E "(an){2}"

3. Perl 相容正規表示式（PCRE）：進階斷言

對於更複雜的模式，如「後面必須跟著特定文字」，grep -P 提供的斷言（Assertions）無可匹敵。

假設我們要找出所有後面緊接著 "connected" 的 "Server" 字串，但不想顯示 "connected"：

grep -oP "Server \w+(?= connected)" server.log

這裡 \w+ 匹配一個或多個字母數字字元，(?= connected) 是正向先行斷言，表示該位置後面必須是 " connected"，但匹配結果中不包含該部分。-o 選項則確保只輸出匹配到的部分，而非整行。

常見問題與注意事項

1. 特殊字元的轉義問題

在正規表示式中，.、*、+、?、[、]、(、)、{、}、|、\、^、$ 皆為保留字元。若你想搜尋包含這些符號的原始文字（例如搜尋檔案路徑 /etc/nginx/nginx.conf 中的 .），必須使用反斜線 \ 進行轉義。

# 錯誤：會匹配到任何包含 "etcnginxnginxconf" 的行
grep "etc.nginx.nginx.conf" file.txt

# 正確：精確搜尋路徑
grep "etc\.nginx\.nginx\.conf" file.txt

2. 效能與記憶體考量

當你在大型檔案（如 GB 級別的日誌檔）上使用 grep 時，請務必避免過度複雜的正規表示式。某些 PCRE 語法（如巢狀分組）可能導致「指數型回溯」，使 CPU 使用率飆升甚至卡死系統。在處理超大檔案時，建議先使用 zgrep 處理壓縮檔，或結合 awk、sed 等工具進行初步過濾，再將結果傳給 grep。

小結

grep 不僅是搜尋工具，更是文字處理的基石。透過掌握基礎選項如 -n、-i，並熟練運用 -E 擴展正規表示式與 -P PCRE 語法，你將能應對絕大多數的文字過濾需求。記住，正規表示式的核心在於「精準」與「效率」，在撰寫複雜模式前，先在小型測試檔上驗證，能有效避免實戰中的意外。希望這篇文章能幫助你在 Linux 的日常工作中，更從容地處理海量文字資料。