Michel Perfetti
Les expressions régulières
Cet article est une introduction aux expressions régulières et à leur utilisation dans la validation de données
Par Michel Perfetti publié le 07/01/2008 à 06:45
 
La classe de base de gestion des expressions régulière est la classe « System.Text.RegularExpressions.Regex ». Elle peut s'utiliser de deux façons :
  • Via ses méthodes statiques
  • Via une instance
L'instance doit être privilégiée car elle permet de garder l'expression régulière en mémoire. Une fois l'expression passée en paramètre du constructeur, elle est traitée pour que son évaluation soit la plus rapide possible chaque fois que cela sera nécessaire.
L'expression régulière est une chaine de caractère. Cette chaine -appelée « pattern » dans la documentation - décrit comment le moteur d'expression régulière va analyser la chaîne de caractères entrante.
L'expression régulière suit un langage qui peut, lorsqu'elle est complexe, la rendre vite incompréhensible. Commençons par quelques bases. Le texte suivant extrait du MSDN va nous permettre de tester quelques « patterns » :
Visual Studio is a complete suite of tools for building both desktop and team-based Enterprise Web applications. In addition to building high-performing desktop applications, you can use Visual Studio's powerful component-based development tools and other technologies to simplify team-based design, development, and deployment of Enterprise solutions.
Les patterns simples sont une succession de caractères que l'on va rechercher dans la chaine cible. Nous pouvons décider si le moteur ignore ou non la casse des caractères. Par défaut le moteur la respecte. Voici des résultats en fonctions du pattern :
  • COM : pas trouvé
  • Com : pas trouvé
  • com : trouvé
Par contre les 3 patterns sont trouvés si l'on ignore la casse : dans ce cas ils sont équivalents.
Le moteur d'expression régulière n'a pas de notion de grammaire : cherchons par exemple le mot « log ». Le moteur comprend qu'il faut qu'il chercher les 3 caractères à la suite. Il les trouvera donc dans le mot « technology ». Pour trouver le mot « log », il faut préciser au moteur que non seulement il nous faut rechercher les caractères « log »,mais aussi qu'ils soient séparés du reste de la chaine par des caractères qui ne sont pas des caractères que l'on retrouve dans les mots. Pour cela, il faut utiliser une expression du langage de pattern qui est équivalente à « tout caractère sauf un caractère alphanumérique» : c'est « \W ». A l'opposé, « \w » représente un caractère que l'on trouve dans un mot. Il faut donc le pattern suivant : « \WLOG\W ». Il existe aussi :
  • \w : pour tout caractère alphanumérique (c'est l'inverse de \W)
  • \d : pour un caractère numérique, et son inverse \D
  • \s : pour un caractère d'espacement et son inverse \S
Voici trois autres façons ce représenter un ensemble de caractères :
  • Intervalle de caractères : [a-z], [g-kT-W], [0-9] (équivalent à \d
  • (oui|non) permet de rechercher soit « oui », soit « non »
  • « . » permet de représenter n'importe quel caractère. Pour chercher un point il suffit d'indiquer « \. » dans le pattern
Encore une étape et nous aurons tous les informations pour représenter une adresse email. Cette étape concerne la répétition de caractères ou de bloc de caractères. Les multiplicateurs se placent juste après les blocs. Par exemple :
  • « + » : 1 fois au moins bloc précédent
  • « * » : 0 ou plusieurs fois le bloc précédent
  • {n} : n fois le bloc précédent
Revenons à notre email. Le Framework nous fournit un pattern pour valider un email. Il se trouve dans un validateur asp.net que nous allons découvrir un peu plus loin : « \w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* ». Décomposons là avec un exemple : « mon.email@thb.com » :
  • \W+ : mon
  • ([-+.']\w+)* : .email
  • @\w+([-.]\w+)* : @thb
  • \.\w+([-.]\w+)* : .com
Cette décomposition n'est pas toujours évidente et certains outils de tests d'expressions régulières les calculent pour nous. Certains d'entre eux sont cités en conclusion de cet article.
Dans la partie suivante nous allons voir comment mettre à profit cette expression régulière dans la validation dans plusieurs types d'interfaces

 Commentaire - Les expressions régulières 

 Dernières Publications      

Windows Media Center et WCF : développez votre maison intelligente
  Le développement d'applications pour Windows Media Center est facilité avec l'arrivée du SDK 5.3. Même si l'on sent un modèle objet bien lourd derrière, il devient plus facile d'exposer les fonctionnalités de WMC sous la forme de services WCF.
par Frédéric Colin posté le 23/06/2008 à 08:04, lu 295 fois, #0
Notions avancées avec Biztalk Server 2006 R2
  Utilisation des notions d'interchange, corrélation et convoi avec BizTalk Server 2006 R2
par Kader Yildirim posté le 09/06/2008 à 08:04, lu 288 fois, #0
Lucene Persistence Engine pour Evaluant Universal Storage Services
  Suite à l'article de Laurent Kempé, voici un moteur de stockage pour EUSS permettant l'indexation d'entités métier avec Lucene.
par Nicolas Penin posté le 01/06/2008 à 23:38, lu 510 fois, #1
Tags: C#, Linq
XMLA Trivia : Découverte du XMLA
  Le XMLA (XML for Analysis) est un langage normalisé par plusieurs éditeurs BI pour simplifier l'accès aux données aux cubes et aux métadonnées des bases multidimensionnelles.
par Renaud Harduin posté le 25/05/2008 à 11:57, lu 523 fois, #0
Exploiter les données CSV via Linq en toute simplicité
  A partir du requêteur dynamique fourni en exemple avec Visual Studio 2008, nous allons essayer de remplir les propriétés d'un ensemble d'objets à partir des données d'un fichier CSV. Nous enrichirons aussi le parseur de nos propres fonctions.
par Frédéric Mélantois posté le 17/05/2008 à 11:41, lu 1713 fois, #0
Comment manipuler simplement le contenu d'un fichier WordML ?
  Manipulations autour du format WordML
par Fabien Reinle posté le 14/05/2008 à 23:55, lu 781 fois, #0
Polymorphisme et contrats de données WCF
  WCF aborde les types polymorphes du point de vue de la sérialisation. En effet, la connaissance du type réel potentiel est rendue nécessaire dès la description du contrat de données. Une fois n'est pas coutume, j'ai réalisé l'exemple en VB.NET.
par Frédéric Colin posté le 14/05/2008 à 08:40, lu 1881 fois, #2
A la découverte de BizTalk Server 2006 3/3
  Développer un assembleur pour BizTalk Server 2006 R2
par Kader Yildirim posté le 06/05/2008 à 13:20, lu 511 fois, #0

 Dernières Actualités      

Deep Earth – Une belle utilisation de Virtual Earth et de Silverlight Deep Zoom
  Ce projet très intéressant est disponible sur Codeplex et vous pouvez voir une démo sur la page suivante . Bien entendu comme touts les projets sur Codeplex vous avez accès aux sources....
Tags: Silverlight
Sortie de JetBrains ReSharper 4.0 en version finale, l’outil ultime pour Visual Studio
  Après plusieurs mois de Early Access Program (EAP) , JetBrains met enfin à disposition la version finale de son outil ReSharper 4.0 . Cette nouvelle version est disponible pour Visual Studio 2005 &...
Tags: Visual Studio 2008, Visual Studio 2005, Outils
BoutDuTunnel v1.4
  BoutDuTunnel est un petit logiciel de tunneling réseau écrit en C#. Il permet par exemple d’accéder aux services ftp/smtp/pop/telnet/nntp/… sur des réseaux qui n’autorisent...
BI Framework & sample sur CodePlex
  Après plusieurs demandes, je me suis décidé à déposer l'ensemble des sources et du BI Framework MS proposés dans mes articles sur codeplex : http://www.codeplex.com/BILAB Je le mettrais à jour au fil des...
Injection de code et API de profiling .NET
  Si vous êtes intéressés par la sécurité du Framework, par le reverse engineering et la manipulation/injection de code .NET et les packers, alors jetez un coup d’œil...
NDepend pour l'analyse statique de code .NET
  Pour ceux qui ne connaissent pas NDepend , il s’agit d’un outil d’analyse statique de code .NET qui permet de remonter des informations à toute une équipe de développement. NDepend aide à travailler sur...
Tags: Outils