前面章节介绍了怎样匹配数字和非数字,本章节将介绍匹配单词和非单词字符。
\w 元字符只匹配英文字母字符(A-Z和a-z)、数字(0-9)和下划线(_)。它不匹配象形符号、标点符号,在某些实现中也不匹配非英语语言中的字母字符。
\D 与 \w 的区别是 \D 会匹配空格、标点符号(引号、连字符、反斜杠、方括号)等字符,而 \w 却不会,它只匹配英文字母、数字和下划线。在英文环境下,与 \w 匹配相同内容的字符组为:
[_a-zA-z0-9]
实例:用 \w 匹配文档中的字母、数字和下划线。如下图:
如果在中文环境,\w 还会匹配中文字符。
\W 元字符用于匹配 \w 元字符不匹配的字符。换句话说,\W 元字符匹配任何非 ASCII 字母字符、非数字以及非下划线字符。也可以使用以下字符组匹配与 \W 相同的内容:
[^_a-zA-Z0-9]
实例:匹配文档中非单词字符