en replacement de filter_sanitize

Olivier Masson

unread,

Dec 18, 2009, 4:45:35 PM12/18/09

to

Salut,

La fonction filter_sanitize_regexp n'existe pas (je dois dire que vu le
peu de possibilit�, j'ai du mal � saisir l'int�r�t des filter_*).

Je voulais simplement filtrer les caract�res d'une chaine qui sont dans
une expression r�guli�re.
En fait, j'ai une fonction qui peut soit valider, soit filtrer... comme
filter_* en fait, mais avec des filtres que j'ai pr�d�fini.
Or, ma fonction a un param�tre $filtre qui, s'il est TRUE, efface les
caract�res qui ne colle pas avec la regexp.

J'ai r�ussi ce que je voulais faire, mais �a m'�tonnerait qu'il n'existe
pas plus simple. J'ai eu beau chercher et tenter d'utiliser un peu
toutes les fonctions PHP dispo (sauf preg_filter qui n'est que pour >=
5.3), mais rien ne va.

Donc �a donne �a :

$regex = preg_replace('`^\/\^`', '/', $regex, 1);
$regex = preg_replace('`\$\/`', '/', $regex, 1);

if(preg_match_all($regex, $value, $r)) {
$chaine = '';
foreach($r[0] as $value) {
echo ''.$value.'';
$chaine .= $value;
}
return $chaine;
}
}
else {
if (preg_match($regex, $value)) return false;
else return $message;
}
}

C'est super bourrin, notamment la concat�nation de la sortie du
preg_match_all.

Autre chose : je n'ai pas trop compris pourquoi dans mon preg_replace je
ne pouvais pas simplement mettre preg_replace('`\$$`', '', $regex, 1)
(idem pour le ^).

Si vous avez pig� qq chose � mes explications, y a-t-il quelque chose de
moins moche ?

Olivier Masson

unread,

Dec 18, 2009, 4:45:35 PM12/18/09

to

Bon, en plus, un des seuls masques que je donne ne fonctionnera pas : il
faut uniquement des classes de caract�res. Donc "md5" ne pourra que
filtrer les mauvais caract�res, pas chercher en plus s'il y a en a 32
(sauf s'il l'erreur est au d�but ou � la fin).

YBM

unread,

Dec 19, 2009, 1:22:47 PM12/19/09

to

Olivier Masson a �crit :

> case "email":
> $regex="/^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}$/";

.[...]{2,4}$ ? et .museum alors ?

Olivier Miakinen

unread,

Dec 19, 2009, 6:28:27 PM12/19/09

to

Le 18/12/2009 22:45, Olivier Masson a ï¿œcrit :

>
> La fonction filter_sanitize_regexp n'existe pas

Le filtre FILTER_SANITIZE_REGEXP, tu veux dire ? Je ne vois pas bien ce
que pourrait faire un tel filtre vu que pratiquement la totalitï¿œ des
caractï¿œres Unicode peut se trouver dans une regexp.

> (je dois dire que vu le

> peu de possibilitï¿œ, j'ai du mal ï¿œ saisir l'intï¿œrï¿œt des filter_*).

Euh... Ok pour le MD5, mais en ce qui concerne les adresses de courriel
tu as bien FILTER_VALIDATE_EMAIL et FILTER_SANITIZE_EMAIL, qui sont
certainement bien supï¿œrieures ï¿œ l'immense majoritï¿œ des tests que l'on
trouve sur la toile.

> Je voulais simplement filtrer les caractï¿œres d'une chaine qui sont dans
> une expression rï¿œguliï¿œre.

> En fait, j'ai une fonction qui peut soit valider, soit filtrer... comme

> filter_* en fait, mais avec des filtres que j'ai prï¿œdï¿œfini.
> Or, ma fonction a un paramï¿œtre $filtre qui, s'il est TRUE, efface les
> caractï¿œres qui ne colle pas avec la regexp.

Pour n'importe quelle regexp ? Hum... J'aimerais bien voir comment il se
dï¿œbrouille avec la suivante :
$regexp = '/^([a-z])(?!\1).$/';

Cette regexp valide toute chaï¿œne de deux caractï¿œres dont le premier est
une lettre minuscule entre a et z, et le second est n'importe quoi
*sauf* la premiï¿œre lettre.

> J'ai rï¿œussi ce que je voulais faire, mais ï¿œa m'ï¿œtonnerait qu'il n'existe

> pas plus simple. J'ai eu beau chercher et tenter d'utiliser un peu
> toutes les fonctions PHP dispo (sauf preg_filter qui n'est que pour >=
> 5.3), mais rien ne va.
>

> Donc ï¿œa donne ï¿œa :

>
> function regexp($type, $value, $filter=false){
> switch($type) {
> case "email":
> $regex="/^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}$/";

C'est curieux : tu contrï¿œles l'absence de deux ï¿œ . ï¿œ successifs dans la
partie droite, mais pas dans la partie gauche. Par ailleurs, rien
n'interdit d'avoir un chiffre ou un trait d'union dans le TLD, et il
existe dï¿œjï¿œ des TLD de plus de 4 caractï¿œres.

Mais bon, dï¿œjï¿œ tu acceptes le ï¿œ + ï¿œ dans la partie gauche, ta rï¿œgle ne
fait donc pas partie de la majoritï¿œ des plus nulles.

Je rappelle ï¿œ tout hasard que j'ai dï¿œjï¿œ parlï¿œ de ï¿œa dans la FAQ :
<http://faqfclphp.free.fr/#rub5.3>.

Oh, je rectifie ce que j'ai dit plus haut : tu acceptes aussi d'avoir
plusieurs ï¿œ . ï¿œ de suite dans la partie droite, la seule restriction
concernant le nombre de lettres aprï¿œs le dernier !

> break;
> case "md5":
> $regex="/^[0-9a-f]{32}+$/";

Est-ce qu'il ne serait pas plus rapide de faire un strcspn avec la
chaï¿œne "0123456789abcdef" suivi d'un strlen ? Ce n'est pas forcï¿œment le
cas, hein, je me pose juste la question.

> break;
> }
> /* etc. Toutes mes def ; j'ai fait un switch comme j'aurais pu faire
> autre chose */
>
> $regex = preg_replace('`^\/\^`', '/', $regex, 1);
> $regex = preg_replace('`\$\/`', '/', $regex, 1);

Note que tu n'as pas besoin de protï¿œger le / puisque tu ne l'as pas
choisi comme dï¿œlimiteur :
$regex = preg_replace('`^/\^`', '/', $regex, 1);
$regex = preg_replace('`\$/`', '/', $regex, 1);

Par ailleurs, comme tu ancres tes deux expressions (enfin... tu as
oubliï¿œ pour la deuxiï¿œme, mais en tout cas tu sembles espï¿œrer qu'il
prendra la derniï¿œre occurrence et donc la seule), il n'est pas
nï¿œcessaire de limiter le nombre de remplacements :
$regex = preg_replace('`^/\^`', '/', $regex);
$regex = preg_replace('`\$/$`', '/', $regex);

ï¿œ tout hasard, quoique ï¿œa n'ajoute pas forcï¿œment de la lisibilitï¿œ ici,
tu peux le faire en une seule passe :
$regex = preg_replace(array('`^/\^`', '`\$/$`'), '/', $regex);

Cela dit, ce qui me semblerait plus lisible est ce qui suit (ï¿œ supposer
que la regexp commence et finit bien par '/^' et '$/' respectivement) :
$regex = substr_replace($regex, '/', 0, 2);
$regex = substr_replace($regex, '/', -2, 2);
Voire :
$regex = substr_replace($regex, '', 1, 1);
$regex = substr_replace($regex, '', -2, 1);
Ou encore :
$regex = '/' . substr($regex, 2, -2) . '/';

> if(preg_match_all($regex, $value, $r)) {
> $chaine = '';
> foreach($r[0] as $value) {
> echo ''.$value.'';
> $chaine .= $value;
> }
> return $chaine;
> }
> }
> else {
> if (preg_match($regex, $value)) return false;
> else return $message;
> }
> }

Je demande un peu de temps pour comprendre la fin de ce code...

> Autre chose : je n'ai pas trop compris pourquoi dans mon preg_replace je
> ne pouvais pas simplement mettre preg_replace('`\$$`', '', $regex, 1)

Ben... parce que le caractï¿œre $ n'est pas le dernier de la chaï¿œne ! Mais
bien sï¿œr, si tu n'as qu'un seul caractï¿œre $ ceci devrait fonctionner :
preg_replace('`\$`', '', $regex)

> (idem pour le ^).

C'est ici que le paramï¿œtre limit ï¿œ 1 peut servir ; que le caractï¿œre ^
soit ou non tout seul, celui que tu veux virer est le premier :
preg_replace('`\^`', '', $regex, 1)

> Si vous avez pigï¿œ qq chose ï¿œ mes explications, y a-t-il quelque chose de
> moins moche ?

Oui : adapter ton test avec $filter=TRUE au cas par cas, plutï¿œt que
d'essayer de deviner comment faire le SANITIZE ï¿œ partir du VALIDATE !
Mais bon, j'ai encore ï¿œ comprendre la fin de ton code.

--
Olivier Miakinen

Olivier Masson

unread,

Dec 20, 2009, 2:24:21 PM12/20/09

to

Le 20/12/2009 00:28, Olivier Miakinen a ï¿œcrit :

> $regex = '/' . substr($regex, 2, -2) . '/';
>

Au fait, non parce qu'il y a parfois des options. Mais qu'est-ce donc
que ce Olivier qui ne tient pas compte de toutes les possibilitï¿œs
existantes ?

Olivier Masson

unread,

Dec 20, 2009, 2:24:21 PM12/20/09

to

Le 20/12/2009 00:28, Olivier Miakinen a ï¿œcrit :

> Le filtre FILTER_SANITIZE_REGEXP, tu veux dire ? Je ne vois pas bien ce

> que pourrait faire un tel filtre vu que pratiquement la totalitï¿œ des
> caractï¿œres Unicode peut se trouver dans une regexp.
>

??? FILTER_VALIDATE_REGEXP n'est pas lï¿œ pour valider une regexp mais
bien pour valider des donnï¿œes en fonction d'un regexp. Je cite "Valide
une valeur avec une expression rationnelle regexp"
Eh bien pareil pour FILTER : un filtre qui supprimerait tout ce qui ne
match pas la regexp.

>> (je dois dire que vu le
>> peu de possibilitï¿œ, j'ai du mal ï¿œ saisir l'intï¿œrï¿œt des filter_*).
>
> Euh... Ok pour le MD5, mais en ce qui concerne les adresses de courriel
> tu as bien FILTER_VALIDATE_EMAIL et FILTER_SANITIZE_EMAIL, qui sont
> certainement bien supï¿œrieures ï¿œ l'immense majoritï¿œ des tests que l'on
> trouve sur la toile.
>

Youpi. Voilï¿œ le seul qui sert effectivement ï¿œ quelque chose.

> Pour n'importe quelle regexp ? Hum... J'aimerais bien voir comment il se
> dï¿œbrouille avec la suivante :

ï¿œa ne fonctionne effectivement pas *du tout* avec toutes les regexp (pas
testï¿œ la tienne) et c'est bien pour ï¿œa que j'aurais aimï¿œ un
FILTER_SANITIZE_REGEXP !

> Oh, je rectifie ce que j'ai dit plus haut : tu acceptes aussi d'avoir
> plusieurs ï¿œ . ï¿œ de suite dans la partie droite, la seule restriction
> concernant le nombre de lettres aprï¿œs le dernier !

L'erreur pour les domaines en 6 lettres, ok, je veux bien (ce n'ï¿œtait
pas le propos du fil ; heureusement que j'ai pas postï¿œ la douzaine de
regexp qu'il y a dans le code !). Pour le reste, c'est absolument
volontaire. J'avais une regexp trï¿œs complï¿œte (celle officielle tout
simplement) mais je n'en veux plus car je *ne* souhaite *pas* avoir
certains caractï¿œres farfelus (pour des raisons que je ne vais pas
exposer puisque ce n'ï¿œtait pas du tout le propos de ce fil).

>
>> break;
>> case "md5":
>> $regex="/^[0-9a-f]{32}+$/";
>
> Est-ce qu'il ne serait pas plus rapide de faire un strcspn avec la
> chaï¿œne "0123456789abcdef" suivi d'un strlen ? Ce n'est pas forcï¿œment le
> cas, hein, je me pose juste la question.
>

Et aprï¿œs ï¿œa se moque quand on compare "" ï¿œ '' :)
Ici, le but est la concision.

> Voire :
> $regex = substr_replace($regex, '', 1, 1);
> $regex = substr_replace($regex, '', -2, 1);
> Ou encore :
> $regex = '/' . substr($regex, 2, -2) . '/';
>

Oui, tu as raison.

> Oui : adapter ton test avec $filter=TRUE au cas par cas, plutï¿œt que
> d'essayer de deviner comment faire le SANITIZE ï¿œ partir du VALIDATE !
> Mais bon, j'ai encore ï¿œ comprendre la fin de ton code.
>

C'est dommage mais ï¿œa semble ï¿œtre la seule possibilitï¿œ.
Je ne sais pas ce que tu essais de comprendre. La fonction renvoie un
message d'erreur (traduit selon la langue), sinon c'est que c'est ok.

Olivier Miakinen

unread,

Dec 20, 2009, 2:24:21 PM12/20/09

to

Salut !

ï¿œa y est, j'ai compris la fin du code. J'ai deux critiques, une sur la
forme et une sur le fond.

Sur la forme d'abord :

Le 18/12/2009 22:45, Olivier Masson a ï¿œcrit :
>

> if(preg_match_all($regex, $value, $r)) {
> $chaine = '';
> foreach($r[0] as $value) {
> echo ''.$value.'';
> $chaine .= $value;
> }
> return $chaine;
> }

Attention, il y a une accolade fermante en trop ici.

> }
> else {
> if (preg_match($regex, $value)) return false;

ï¿œMHA, ce preg_match est complï¿œtement inutile. En effet, pour qu'il serve
ï¿œ quelque chose il faudrait qu'il retourne 1 alors que le preg_match_all
qui prï¿œcï¿œde aurait retournï¿œ 0 ou FALSE, or je ne vois pas comment le
preg_match pourrait retourner autre chose que 0 ou FALSE dans les mï¿œmes
conditions.

> else return $message;
> }
> }

Maintenant sur le fond. Ton SANITIZE gï¿œnï¿œrï¿œ automatiquement ï¿œ partir du
VALIDATE me semble inappropriï¿œ. Prenons par exemple le cas du MD5 :

$regex="/^[0-9a-f]{32}+$/";

Un SANITIZE devrait logiquement supprimer tous les caractï¿œres autres que
des chiffres hexa et rien que ceux-lï¿œ. Supposons une sï¿œrie de 128
chiffres hexa reprï¿œsentant les 64 valeurs de 00 ï¿œ 3f, et supposons que
le formatage (par exemple dans un courriel) place 40 chiffres hexa par
ligne :

000102030405060708090a0b0c0d0e0f10111213
1415161718191a1b1c1d1e1f2021222324252627
28292a2b2c2d2e2f303132333435363738393a3b
3c3d3e3f

On doit s'attendre logiquement ï¿œ ce que le SANITIZE donne ceci :
000102030405060708090a0b0c0d0e0f101112131415161718191a1b1c1d1e1f202122232425262728292a2b2c2d2e2f303132333435363738393a3b3c3d3e3f

Or, en rï¿œalitï¿œ, le tien donnera cela :
000102030405060708090a0b0c0d0e0f1415161718191a1b1c1d1e1f2021222328292a2b2c2d2e2f3031323334353637

Moi, j'appelle ï¿œa un bug... Et donc, j'en reviens ï¿œ mon conseil
prï¿œcï¿œdent : ï¿œcrire le test de SANITIZE indï¿œpendamment du test de
VALIDATE au lieu d'essayer de dï¿œduire celui-lï¿œ de celui-ci.

Cordialement,
--
Olivier Miakinen

Olivier Miakinen

unread,

Dec 20, 2009, 5:05:05 PM12/20/09

to

Le 20/12/2009 20:24, Olivier Masson a ï¿œcrit :

>
>> $regex = '/' . substr($regex, 2, -2) . '/';
>>
>
> Au fait, non parce qu'il y a parfois des options.

Ah, donc ce n'ï¿œtait pas un oubli de ne pas ancrer la deuxiï¿œme regexp !

Dans ce cas, remplace au moins le preg_replace par un str_replace :
$regex = str_replace('$/', '/', $regex);

--
Olivier Miakinen

Olivier Masson

unread,

Dec 21, 2009, 6:46:37 AM12/21/09

to

Le 20/12/2009 20:24, Olivier Miakinen a ï¿œcrit :

> Moi, j'appelle ï¿œa un bug... Et donc, j'en reviens ï¿œ mon conseil
> prï¿œcï¿œdent : ï¿œcrire le test de SANITIZE indï¿œpendamment du test de
> VALIDATE au lieu d'essayer de dï¿œduire celui-lï¿œ de celui-ci.
>
>

Oui, ï¿œa me semble une option plus rï¿œaliste. Je pensais que faire un
SANITIZE serait plus simple mais comme je bosse depuis 3j en ï¿œtant
malade, j'ai un peu de mal...
Merci de ton aide.

en replacement de filter_sanitize_regexp

Olivier Masson

Olivier Masson

YBM

Olivier Miakinen

Olivier Masson

Olivier Masson

Olivier Miakinen

Olivier Miakinen

Olivier Masson