La classe de base de gestion des expressions régulière est la classe « System.Text.RegularExpressions.Regex ». Elle peut s'utiliser de deux façons :
- Via ses méthodes statiques
- Via une instance
L'instance doit être privilégiée car elle permet de garder l'expression régulière en mémoire. Une fois l'expression passée en paramètre du constructeur, elle est traitée pour que son évaluation soit la plus rapide possible chaque fois que cela sera nécessaire.
L'expression régulière est une chaine de caractère. Cette chaine -appelée « pattern » dans la documentation - décrit comment le moteur d'expression régulière va analyser la chaîne de caractères entrante.
L'expression régulière suit un langage qui peut, lorsqu'elle est complexe, la rendre vite incompréhensible. Commençons par quelques bases. Le texte suivant extrait du MSDN va nous permettre de tester quelques « patterns » :
Visual Studio is a complete suite of tools for building both desktop and team-based Enterprise Web applications. In addition to building high-performing desktop applications, you can use Visual Studio's powerful component-based development tools and other technologies to simplify team-based design, development, and deployment of Enterprise solutions.
Les patterns simples sont une succession de caractères que l'on va rechercher dans la chaine cible. Nous pouvons décider si le moteur ignore ou non la casse des caractères. Par défaut le moteur la respecte. Voici des résultats en fonctions du pattern :
- COM : pas trouvé
- Com : pas trouvé
- com : trouvé
Par contre les 3 patterns sont trouvés si l'on ignore la casse : dans ce cas ils sont équivalents.
Le moteur d'expression régulière n'a pas de notion de grammaire : cherchons par exemple le mot « log ». Le moteur comprend qu'il faut qu'il chercher les 3 caractères à la suite. Il les trouvera donc dans le mot « techno
logy ». Pour trouver le mot « log », il faut préciser au moteur que non seulement il nous faut rechercher les caractères « log »,mais aussi qu'ils soient séparés du reste de la chaine par des caractères qui ne sont pas des caractères que l'on retrouve dans les mots. Pour cela, il faut utiliser une expression du langage de pattern qui est équivalente à
« tout caractère sauf un caractère alphanumérique» : c'est « \W ». A l'opposé, « \w » représente un caractère que l'on trouve dans un mot. Il faut donc le pattern suivant : « \WLOG\W ». Il existe aussi :
- \w : pour tout caractère alphanumérique (c'est l'inverse de \W)
- \d : pour un caractère numérique, et son inverse \D
- \s : pour un caractère d'espacement et son inverse \S
Voici trois autres façons ce représenter un ensemble de caractères :
- Intervalle de caractères : [a-z], [g-kT-W], [0-9] (équivalent à \d
- (oui|non) permet de rechercher soit « oui », soit « non »
- « . » permet de représenter n'importe quel caractère. Pour chercher un point il suffit d'indiquer « \. » dans le pattern
Encore une étape et nous aurons tous les informations pour représenter une adresse email. Cette étape concerne la répétition de caractères ou de bloc de caractères. Les multiplicateurs se placent juste après les blocs. Par exemple :
- « + » : 1 fois au moins bloc précédent
- « * » : 0 ou plusieurs fois le bloc précédent
- {n} : n fois le bloc précédent
Revenons à notre email. Le Framework nous fournit un pattern pour valider un email. Il se trouve dans un validateur asp.net que nous allons découvrir un peu plus loin : « \w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* ». Décomposons là avec un exemple : « mon.email@thb.com » :
- \W+ : mon
- ([-+.']\w+)* : .email
- @\w+([-.]\w+)* : @thb
- \.\w+([-.]\w+)* : .com
Cette décomposition n'est pas toujours évidente et certains outils de tests d'expressions régulières les calculent pour nous. Certains d'entre eux sont cités en conclusion de cet article.
Dans la partie suivante nous allons voir comment mettre à profit cette expression régulière dans la validation dans plusieurs types d'interfaces