Pour migrer des fonctions regex en fonctions pcre automatiquement.

Jean-Francois Ortolo

unread,

Jan 7, 2010, 12:36:15 PM1/7/10

to

Bonjour

J'ai l'honneur ( excusez du peu ;) ) de pr�senter une solution de
migration semi automatique, des fonctions de type regex: split(),
ereg(), eregi(), ereg_replace(), et eregi_replace(), vers leurs
�quivalents de type pcre : preg_split(), preg_match(), et preg_replace().

En effet, ces fonctiosn regex, dispara�tront � la version PHP 6, et
il est donc souhaitable de pouvoir migrer ses sites vers les nouvelles
fonctions.

Compte tenu du fait que cel� int�resse avant tout les programmeurs
php, j'esp�re que le mod�rateur va laisser passer ce message, bien que
ses outils rel�vent plut�t de la programmation Shell et Awk. ;(

Cette solution se compose d'un script en Bourne Shell migration.sh, �
placer dans la racine du site web � migrer, et d'un script awk
filtre.awk � placer aussi dans la racine du site � migrer.

Voici le code des ces deux scripts :

D'abord, migration.sh

La variable dir_init doit �tre aliment�e avec le r�pertoire dans
lequel est install� ce script ( r�pertoire racine du site web ).

Ce script est cens� �tre lanc� � partir du compte root.

La variable perm doit �tre aliment�e avec le propri�taire et groupe
des scripts php � migrer.

Excusez-moi du fait que ces instructions sont sous forme de
citations, j'ai la flemme d'enlever manuellement les d�buts de lignes.

> #!/bin/sh
>
> # Propri�taire et groupe
> # des scripts *.php
> perm="root:root"
>
> # Variables de configuration, c'est le r�pertoire de d�part.
> dir_init="/var/www/html/php"
>
> # Et le script awk de filtre.
> filtre_awk=${dir_init}"/filtre.awk"
>
> # On calcule le r�pertoire absolu courant.
> # Quand le param�tre n'est pas pr�sent,
> # c'est le r�pertoire de d�part, sinon
> # c'est le param�tre du script.
> if [ $# -eq 0 ]; then
> dir=${dir_init}
> else
> dir=$1
> fi
>
> # Positionnement dans le r�pertoire courant.
> cd ${dir}
>
> # On parcourt le r�pertoire courant en s�lectionnant
> # tous les scripts php.
> for i in `ls *.php 2>/dev/null`; do
> if [ -f $i ]; then
> file=${dir}"/"${i}
> file2=${dir}"/super_new_"${i}".txt"
>
> # Traitement du script *.php,
> # l� on se contente d'afficher son nom
> # avec son chemin absolu.
> #
> echo ${file} > /root/tmp2.txt
> echo ${file2} >> /root/tmp2.txt
> echo "" >> /root/tmp2.txt
>
> awk -f ${filtre_awk} -- ${file} 1>${file2} 2>>/root/tmp2.txt
>
> chown $perm ${file2}
> chmod 777 ${file2}
>
> t1=`ls -l ${file} | awk '{ print $5; }'`
> t2=`ls -l ${file2} | awk '{ print $5; }'`
>
> if [ ${t1} -ne ${t2} ]; then
> cat /root/tmp2.txt >> /root/tmp.txt
> fi
> fi
> done
>
> # On lit tous les sous-r�pertoires du r�pertoire courant,
> # et on relance le m�me script, avec ces sous-r�pertoires
> # comme param�tre, pour que ces processus fils
> # se positionnent sur ces sous-r�pertoires.
> #
> for j in `ls -d * 2>/dev/null`; do
> if [ -d $j ]; then
>
> # Calcul du sous-r�pertoire absolu.
> direct=${dir}"/"${j}
>
> ${dir_init}/migration.sh ${direct}
> fi
> done
>
> # A la fin du script, on remonte vers le r�pertoire
> # p�re.
> cd ..
>
> exit 0

Ensuite, voici le code du script filtre.awk :

> function change(param)
> {
> p=split(param, tableau, "");
>
> drapeau=0;
> n=0;
>
> for(i=1; i<=p; i++)
> {
> t=tableau[i];
>
> if(drapeau!=0)
> {
> if(n==0)
> {
> if(t=="\\")
> {
> n++;
> }
> else
> {
> if(t==s)
> {
> chaine=chaine "/" s;
> break;
> }
> else
> chaine=chaine t;
> }
> }
> else
> {
> if(t=="\\")
> n++;
> else
> {
> d="";
> for(k=1; k<=n; k++)
> d=d "\\";
>
> chaine=chaine d;
>
> q=n;
> if(((2*int(q/2.0))==n)&&(t==s))
> {
> chaine=chaine "/" s;
> break;
> }
> else
> chaine=chaine t;
>
> n=0;
> }
> }
>
> }
> else
> {
> if((t=="'")||(t=="\""))
> {
> drapeau=1;
> s=t;
> chaine=t "/";
> }
> # D�but de chr(nombre)
> # ou de variable masque.
> else if((t=="c")||(t=="$"))
> {
> chaine=t;
> break;
> }
> }
> }
>
> i++;
>
> for(; i<=p; i++)
> {
> t=tableau[i];
> chaine=chaine t;
> }
>
> return(chaine);
> }
> function change_i(param)
> {
> p=split(param, tableau, "");
>
> drapeau=0;
> n=0;
>
> for(i=1; i<=p; i++)
> {
> t=tableau[i];
>
> if(drapeau!=0)
> {
> if(n==0)
> {
> if(t=="\\")
> {
> n++;
> }
> else
> {
> if(t==s)
> {
> chaine=chaine "/i" s;
> break;
> }
> else
> chaine=chaine t;
> }
> }
> else
> {
> if(t=="\\")
> n++;
> else
> {
> d="";
> for(k=1; k<=n; k++)
> d=d "\\";
>
> chaine=chaine d;
>
> q=n;
> if(((2*int(q/2.0))==n)&&(t==s))
> {
> chaine=chaine "/i" s;
> break;
> }
> else
> chaine=chaine t;
>
> n=0;
> }
> }
>
> }
> else
> {
> if((t=="'")||(t=="\""))
> {
> drapeau=1;
> s=t;
> chaine=t "/";
> }
> # D�but de chr(nombre)
> # ou de variable masque.
> else if((t=="c")||(t=="$"))
> {
> chaine=t;
> break;
> }
> }
> }
>
> i++;
>
> for(; i<=p; i++)
> {
> t=tableau[i];
> chaine=chaine t;
> }
>
> return(chaine);
> }
> {
> line=$0;
> line2=$0;
>
> if(line ~ /=[ \t]*split[ ]*\(/)
> {
> r=split(line, tableau, /=[ \t]*split[ ]*\(/);
>
> for(l=1; l<=r; l++)
> {
> u=tableau[l];
>
> if(l==1)
> line=u;
> else
> {
> line=line "= preg_split(";
> v=change(u);
> line=line v;
> }
> }
> }
>
> if(line ~ /eregi[ ]*\(/)
> {
> split(line, tableau, /eregi[ ]*\(/);
>
> for(l=1; l<=r; l++)
> {
> u=tableau[l];
>
> if(l==1)
> line=u;
> else
> {
> line=line "preg_match(";
> v=change_i(u);
> line=line v;
> }
> }
> }
>
> if(line ~ /ereg[ ]*\(/)
> {
> split(line, tableau, /ereg[ ]*\(/);
>
> for(l=1; l<=r; l++)
> {
> u=tableau[l];
>
> if(l==1)
> line=u;
> else
> {
> line=line "preg_match(";
> v=change(u);
> line=line v;
> }
> }
> }
>
> if(line ~ /eregi_replace[ ]*\(/)
> {
> split(line, tableau, /eregi_replace[ ]*\(/);
>
> for(l=1; l<=r; l++)
> {
> u=tableau[l];
>
> if(l==1)
> line=u;
> else
> {
> line=line "preg_replace(";
> v=change_i(u);
> line=line v;
> }
> }
> }
>
> if(line ~ /ereg_replace[ ]*\(/)
> {
> split(line, tableau, /ereg_replace[ ]*\(/);
>
> for(l=1; l<=r; l++)
> {
> u=tableau[l];
>
> if(l==1)
> line=u;
> else
> {
> line=line "preg_replace(";
> v=change(u);
> line=line v;
> }
> }
> }
>
> printf ("%s\n", line);
>
> if(line!=line2)
> {
> print "D'abord:" line2 " Ensuite:" line > "/dev/stderr"
> }
> }

A la fin de la migration, vous avez le fichier de logs /root/tmp.txt
qui contient les chemins absolus des scripts php avant et apr�s
migration, ainsi que les lignes des fonctions migr�es.

Ce fichier ne contient que les scripts modifi�s, pas les scripts
inchang�s.

Pour arranger le formattage, je sugg�re de s�parer ce fichier de
logs, en deux fichiers index� de 1 � n, n �tant le nombre de fichiers
modifi�s.

Pour cel� :

cat tmp.txt | awk 'BEGIN{ i=0; j=0; }{ if(length($0)<5) { i++; j++;
if(j==1) print i; } else if ($0 !~ /Ensuite/) { j=0; print $0; } }' >
fichiers.txt

cat tmp.txt | awk 'BEGIN{ i=0; j=0; }{ if(length($0)<5) { i++; j++;
if(j==1) print i; } else if ($0 ~ /Ensuite/) { j=0; print $0; } }' | awk
'{ for(i=2; i<=NF; i++) if($i != "Ensuite:") printf("%s ", $i); else
printf(" "); printf("\n"); }' > fonctions.txt

Ensuite, vous aurez dans fichiers.txt la liste index�s de 1 � n des
chemins absolus des fichiers sources et cibles par paires, et dans
fonctions.txt la liste index�e des fonctions avant et apr�s migration,
par groupes de fonctions pour chaque fichiers modifi�s.

Dans les deux cas, l'index va de 1 � n, et n a la m�me valeur dans
les deux cas.

Il faut obligatoirement v�rifier dans le fichier fonctions.txt qu'il
n'y a pas d'erreur lors de la migration des fonctions.

Th�oriquement la seule erreur peut r�sulter du fait que l'expression
rationnelle est contenue dans une variable php ( commen�ant par $ le
caract�re dollar ). Dans ce cas �videmment, il n'y a pas d'autre
solution que d'�diter manuellement le fichier cible correspondant ( de
m�me index dans le fichiers fichiers.txt ), pour modifier cette variable
php qui sert d'expression rationnelle.

Comme conclusion, je serais int�ress� � ce que vous m'indiquiez les
erreurs de programmation �ventuelles que vous voyez, car je suis en
train de faire cette migration sur mon ordinateur, pour mon site
www.pronostics-courses.fr versions locale et remote, ainsi que pour le
site www.lescourses.com, mon site partenaire, que j'ai copi� sur mon
ordinateur. ;) Cel� me permettrait de diminuer le risque d'erreurs.

Je suis aussi int�ress� par vos remarques et suggestions, compte tenu
du fait que cette topique de migration automatis�e de fonctions regex
vers des fonctions pcre, avait �t� abord�e il y de cel� quelques
semaines ou mois.

Bien � vous.

Amicalement.

Jean-Fran�ois Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques
tr�s �labor�s.

Les Statistiques sont calcul�es d'apr�s une base de donn�es
allant du 1er Janvier 2000 jusqu'� tr�s r�cemment.

Olivier Miakinen

unread,

Jan 7, 2010, 2:52:14 PM1/7/10

to

Bonjour,

Le 07/01/2010 18:36, Jean-Francois Ortolo a ï¿œcrit :
>
> J'ai l'honneur ( excusez du peu ;) ) de prï¿œsenter une solution de

> migration semi automatique, des fonctions de type regex: split(),
> ereg(), eregi(), ereg_replace(), et eregi_replace(), vers leurs

> ï¿œquivalents de type pcre : preg_split(), preg_match(), et preg_replace().

Excellent ! Je n'aurais moi-mï¿œme pas eu le courage de me lancer dans
une telle entreprise. Merci aussi de venir nous en faire profiter.

> [...]
>
> Compte tenu du fait que cela intï¿œresse avant tout les programmeurs
> php, j'espï¿œre que le modï¿œrateur va laisser passer ce message, bien que
> ses outils relï¿œvent plutï¿œt de la programmation Shell et Awk. ;(

Je suis d'accord avec ï¿œa. Nï¿œanmoins, je me permets de copier ma rï¿œponse
dans fr.comp.lang.regexp car cela pourrait en intï¿œresser d'autres. Le
suivi est positionnï¿œ sur fr.comp.lang.php malgrï¿œ tout.

> [...]
>
> Comme conclusion, je serais intï¿œressï¿œ ï¿œ ce que vous m'indiquiez les
> erreurs de programmation ï¿œventuelles que vous voyez, [...]

Je suis volontaire pour regarder. Pour optimiser cette relecture, est-ce
que tu pourrais commencer par epliciter un peu les limites que tu t'es
fixï¿œes ?

Par exemple :
- comment reconnais-tu un fichier PHP (extension du fichier ou prï¿œsence
de <?php ... ?>) ?
- supportes-tu la syntaxe <?= ... ?> ?
- la fonction ï¿œ traduire peut-elle s'ï¿œtendre sur plusieurs lignes ?
- quels dï¿œlimiteurs reconnais-tu pour les chaï¿œnes (guillemets simples,
guillemets doubles, HEREDOC, NOWDOC) ?
- une regexp peut-elle ï¿œtre scindï¿œe en plusieurs chaï¿œnes concatï¿œnï¿œes
avec l'opï¿œrateur ï¿œ . ï¿œ ?
- si oui, peut-on avoir un mï¿œlange de dï¿œlimiteurs ('abc' . "def") ?
- en gros, quelles sont les transformations faites ï¿œ la regexp ?

Cordialement,
--
Olivier Miakinen

Jean-Francois Ortolo

unread,

Jan 7, 2010, 2:52:14 PM1/7/10

to

Bonjour

Je vous prie de bien vouloir m'excuser, ma solution ne fonctionne que
si les scripts php sont cod�s en mode iso-8859-1 ou iso-8859-15, �
l'exclusion du mode utf8. Donc, en mode ascii �tendu ( caract�res de 0 �
255 ).

J'accepte avec plaisir et reconnaissance toutes les remarques et
critiques.

Jean-Francois Ortolo

unread,

Jan 7, 2010, 5:59:32 PM1/7/10

to

Le 07/01/2010 20:52, Olivier Miakinen a ï¿œcrit :
> Bonjour,

>
>>
>> Comme conclusion, je serais intï¿œressï¿œ ï¿œ ce que vous m'indiquiez les
>> erreurs de programmation ï¿œventuelles que vous voyez, [...]
>
> Je suis volontaire pour regarder. Pour optimiser cette relecture, est-ce
> que tu pourrais commencer par epliciter un peu les limites que tu t'es
> fixï¿œes ?
>
> Par exemple :
> - comment reconnais-tu un fichier PHP (extension du fichier ou prï¿œsence
> de<?php ... ?>) ?
> - supportes-tu la syntaxe<?= ... ?> ?
> - la fonction ï¿œ traduire peut-elle s'ï¿œtendre sur plusieurs lignes ?
> - quels dï¿œlimiteurs reconnais-tu pour les chaï¿œnes (guillemets simples,
> guillemets doubles, HEREDOC, NOWDOC) ?
> - une regexp peut-elle ï¿œtre scindï¿œe en plusieurs chaï¿œnes concatï¿œnï¿œes
> avec l'opï¿œrateur ï¿œ . ï¿œ ?
> - si oui, peut-on avoir un mï¿œlange de dï¿œlimiteurs ('abc' . "def") ?
> - en gros, quelles sont les transformations faites ï¿œ la regexp ?
>
>
> Cordialement,

Bonjour Monsieur

Une remarque de mise au point pour mes scripts.

D'abord, pour le script migration.sh, il faut que l'instruction echo
"" > /root/tmp2.txt soit situï¿œe avant et non pas aprï¿œs les deux lignes
echo ${file} >> /root/tmp2.txt et echo ${file2} >> /root/tmp2.txt ( >>
dans les deux cas, et non pas > ).

Celï¿œ permet de n'avoir qu'un seule ligne vide avant chaque groupes de
noms de fichiers suivis par les fonctions contenues dans ces fichiers.

Et puis, j'apporte un changement au traitement pour arranger le
fichier de logs :

Pour les fonctions, indexï¿œes par groupes pour chaque fichiers traitï¿œs :

awk 'BEGIN { i=0; j=0; }{ if(length($0)<6) { i++; j++; if(j==1) print
i; } else if($0 ~ /Ensuite/) { j=0; q=split($0, tableau, ""); line="";
for(i=9; i<=q; i++) line=line tableau[i]; printf("%s\n", line); } }'
/root/tmp.txt | awk '{ split($0, tableau, "Ensuite:"); line=tableau[1] "
" tableau[2]; printf("%s\n", line); }' > fonctions.txt

Pour les fichiers, indexï¿œs par fichiers traitï¿œs :

awk 'BEGIN { i=0; j=0; }{ if(length($0)<6) { i++; j++; if(j==1) print
i; } else if($0 !~ /Ensuite/) { j=0; print $0; } }' /root/tmp.txt >
fichiers.txt

Pour finir, j'ai commis une erreur ( un lapsus ), en oubliant
d'affecter la variable r ï¿œ partir de tous les split ï¿œ la fin du script
filtre.awk

Par exemple, pour la fonction ereg() :

r=split($0, tableau2, /ereg[ ]*\(/);

au lieu de :

split($0, tableau, /ereg[ ]*\(/);

En effet, il faut bien avoir le nombre des ï¿œlï¿œment de l'array
tableau2. L'erreur faisait que la valeur prï¿œcï¿œdente de r ï¿œtait prise, ce
qui occasionnait des erreurs.

Il vaut mieux je crois, mettre tableau2 systï¿œmatiquement au lieu de
tableau pour le corps principal du script, car les fonctions utilisent
tableau, et je ne sais pas trï¿œs bien comment fonctionnent les variables
locales aux fonctions, si elles sont rï¿œellement indï¿œpendantes des
variables externes aux fonctions. La honte... ;(

Voilï¿œ donc toutes ces erreurs corrigï¿œes.

Pour rï¿œpondre ï¿œ votre question, je reconnais un script php uniquement
ï¿œ son extension *.php

Si la nï¿œcessitï¿œ se fait jour d'identifier les scripts php d'une autre
maniï¿œre, normalement ce sera le rï¿œle du script migration.sh de le faire,
probablement d'aprï¿œs le contenu de ces fichiers, qui peut ï¿œtre lu est
interprï¿œtï¿œ avec un cat.

Le problï¿œme pourrait ï¿œventuellement se poser pour des scripts php
sasn extension *.php , destinï¿œs exclusivement ï¿œ ï¿œtre inclus dans
d'autres scripts php. J'aurai ï¿œ faire cette vï¿œrification pour mon site
partenaire que j'ai copiï¿œ sur mon ordinateur.

A part ï¿œï¿œ, effectivement le script filtre.awk suppose que l'expression
rationnelle source Posix, est une chaï¿œne entourï¿œe de doubles quotes ou
de simples quotes, ou bien un caractï¿œre du type chr(nombre), ou bien une
variable php commenï¿œant par le signe dollar $

Pour traiter le cas oï¿œ il pourrait y avoir plusieurs chaï¿œnes de
caractï¿œres accolï¿œes, ou bien des chaï¿œnes associï¿œes avec des variables ou
autre, il faudrait complexifier la reconnaissance de la fin de
l'expression rationnelle.

J'assume, que pour transformer une expression rationnelle Posix
simple en expression rationnelle pcre, il suffit de rajouter / avant le
dï¿œbut aprï¿œs la premiï¿œre quote double ou simple, et / ou /i aprï¿œs la fin,
avant la derniï¿œre quote double ou simple.

Cï¿œ marche avec des expressions rationnelles Posix simples, sauf
qu'ï¿œvidemment quand l'expression rationnelle est sous forme de variable
php, il faut intervenir manuellement sur cette variable dans le fichier
cible, pour qu'elle devienne conforme ï¿œ la norme pcre.

Dans le cas oï¿œ l'expression rationnelle est dans une variable php (
dï¿œtectï¿œe par le signe dollar en dï¿œbut d'expression ) ou est de la forme
chr(nombre), celle-ci n'est pas modiifï¿œe, mais la fonction est modifiï¿œe,
donc le fichier cible voit son nombre de caractï¿œres, augmenter.

Il n'y a donc pas de cas oï¿œ un fichier source soit inchangï¿œ, bien
qu'il contienne quand mï¿œme au moins une fonction ï¿œ migrer. Le processus
est donc suffisamment sï¿œcurisï¿œ, pour peu que tous les scripts php
sources soient dï¿œtectï¿œs.

Il faut donc, faire une vï¿œrification patiente de toutes les fonctions
migrï¿œes, ce pourquoi j'arrange le fichier de logs, vers les fichiers
fichiers.txt et fonctions.txt

fonctions.txt contient pour chaque numï¿œro d'index ( correspondant ï¿œ
un fichier source et cible dans fichiers.txt ) un groupe de lignes oï¿œ
figurent ï¿œ gauche la ligne du fichier avant migration, et ï¿œ droite la
ligne du fichier aprï¿œs migration.

Il est ainsi possible, de fractionner cette vï¿œrification, en
supprimant progressivement de fonctions.txt toutes les lignes
correctement migrï¿œes, pour ne laisser que celle qui nï¿œcessitent un
traitement manuel.

Pour infos, j'ai migrï¿œ sur mon ordinateur mon site web
www.pronostics-courses.fr versions locale et remote, ainsi que mon site
partenaire www.lescourses.com prï¿œalablement copiï¿œ.

Globalement, j'ai mesurï¿œ que j'ai 352 fichiers migrï¿œs, et 17418
lignes migrï¿œes.

Celï¿œ signifie, que pour la vï¿œrification, j'aurai ï¿œ me taper la
lecture de 17418 lignes, en regardant soigneusement les expressions
rationnelles, pour vï¿œrifier qu'il n'y a pas d'erreur.

Et encore, dans tous les cas oï¿œ ces expressions rationnelles sont
contenues dans des variables php, il me faudra ï¿œditer le fichier cible
manuellement, pour modifier ces variables, en faisant attention que celï¿œ
n'entraï¿œne pas d'effet de bord sur le reste des programmes.

Je pense honnï¿œtement, qu'une migration entiï¿œrement automatique n'est
pas envisageable, et que ma solution n'est valable que dans le contexte
oï¿œ les expressions rationnelles Posix sont simples. Enfin, il est
nï¿œcï¿œssaire que je ne passe pas ï¿œ cï¿œtï¿œ de fonctions ï¿œ migrer qui ne
soient pas modifiï¿œes, ï¿œ cause d'erreurs imprï¿œvisibles et inapercues.

Je reconnais les limitations de mon approche.

Merci beaucoup de vos rï¿œponses.

Bien ï¿œ vous.

Amicalement.

Jean-Franï¿œois Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques

trï¿œs ï¿œlaborï¿œs.

Les Statistiques sont calculï¿œes d'aprï¿œs une base de donnï¿œes
allant du 1er Janvier 2000 jusqu'ï¿œ trï¿œs rï¿œcemment.

Olivier Masson

unread,

Jan 8, 2010, 5:00:11 AM1/8/10

to

Le 07/01/2010 20:52, Jean-Francois Ortolo a �crit :

> Bonjour
>
> Je vous prie de bien vouloir m'excuser, ma solution ne fonctionne que si
> les scripts php sont cod�s en mode iso-8859-1 ou iso-8859-15, �
> l'exclusion du mode utf8. Donc, en mode ascii �tendu ( caract�res de 0 �
> 255 ).
>

Bonjour,

Ben crotte, c'est un sacr� boulot mais tout est en utf-8 pour moi.
Bon, d'un autre c�t�, je ne dois plus avoir beaucoup d'ereg...

Jean-Francois Ortolo

unread,

Jan 8, 2010, 10:06:07 AM1/8/10

to

Le 08/01/2010 11:00, Olivier Masson a �crit :

>
> Bonjour,
>
> Ben crotte, c'est un sacr� boulot mais tout est en utf-8 pour moi.
> Bon, d'un autre c�t�, je ne dois plus avoir beaucoup d'ereg...

Bonjour Monsieur

En fait... Le probl�me concernerait la reconnaissance de caract�res
utf-8, donc sur deux octets, ce qui d�pendrait avant tout des facult�s
qu'aurait awk lui-m�me, et le Shell bash ( ou sh ) �ventuellement, �
reconna�tre les caract�res utf-8.

Il me semble cependant, qu'en utf-8, les caract�res ascii purs sont
conserv�s par rapport � de l'iso-8859-1, quant aux caract�res �tendus (
128-255 en iso ), je ne suis pas comp�tent pour savoir comment �a se
traduit en utf-8.

Donc, dans l'ensemble, je ne sais pas quelles sont les conditions
pour que awk sache lire et �crire de l'utf-8, le probl�me de la
reconnaissance de patterns ( expressions rationnelles ) �tant �cart�
puisque tous les patterns utilis�s dans mes deux scripts migration.sh et
filtre.awk, sont de l'ascii non �tendu.

Il se peut tr�s bien, que ma solution convienne aussi pour de
l'utf-8, mais je ne suis pas comp�tent pour le dire, car je suis
compl�tement nul en utf-8. ;)

Merci beaucoup de votre r�ponse.

Olivier Miakinen

unread,

Jan 8, 2010, 11:46:21 AM1/8/10

to

Le 08/01/2010 16:06, Jean-Francois Ortolo a ï¿œcrit :
>
> En fait... Le problï¿œme concernerait la reconnaissance de caractï¿œres
> utf-8, donc sur deux octets, ce qui dï¿œpendrait avant tout des facultï¿œs
> qu'aurait awk lui-mï¿œme, et le Shell bash ( ou sh ) ï¿œventuellement, ï¿œ
> reconnaï¿œtre les caractï¿œres utf-8.

Je n'ai pas encore lu ton code, mais ï¿œ priori je ne pense pas que ce
soit nï¿œcessaire : il suffit qu'aucun octet avec le 8e bit ï¿œ 1 ne soit
traitï¿œ de maniï¿œre spï¿œciale, et en principe c'est le cas (les seuls
caractï¿œres spï¿œciaux sont de l'ASCII 7 bits).

> Il me semble cependant, qu'en utf-8, les caractï¿œres ascii purs sont
> conservï¿œs par rapport ï¿œ de l'iso-8859-1, quant aux caractï¿œres ï¿œtendus (
> 128-255 en iso ), je ne suis pas compï¿œtent pour savoir comment ï¿œa se
> traduit en utf-8.

En UTF-8, tout caractï¿œre non ASCII est codï¿œ en plusieurs octets dont
aucun n'est un caractï¿œre ASCII : pas de risque de confusion, donc.

> [...]
>
> Il se peut trï¿œs bien, que ma solution convienne aussi pour de
> l'utf-8, mais je ne suis pas compï¿œtent pour le dire, car je suis
> complï¿œtement nul en utf-8. ;)

Moi je le pense. Comme je l'ai rï¿œpondu aussi ï¿œ Olivier Masson, si l'ereg
ï¿œtait correcte en UTF-8, elle doit le rester en devenant une
preg. ï¿œ l'occasion je lancerai un nouveau fil sur ce sujet.

Olivier Miakinen

unread,

Jan 8, 2010, 11:46:21 AM1/8/10

to

Le 08/01/2010 11:00, Olivier Masson rï¿œpondait ï¿œ Jean-Francois Ortolo :
>
> Ben crotte, c'est un sacrï¿œ boulot

Oui !

> mais tout est en utf-8 pour moi.

> Bon, d'un autre cï¿œtï¿œ, je ne dois plus avoir beaucoup d'ereg...

... l'un allant d'ailleurs de pair avec l'autre !

Sauf erreur, il n'y a aucun moyen pour demander ï¿œ ereg de traiter des
jeux de caractï¿œres sur plusieurs octets. Par consï¿œquent, si on utilise
des ereg en UTF-8, soit c'est buguï¿œ et ce sera buguï¿œ pareil en preg,
soit ï¿œa marche et ï¿œa marchera pareil en UTF-8.

Jean-Francois Ortolo

unread,

Jan 8, 2010, 5:38:16 PM1/8/10

to

Le 07/01/2010 20:52, Olivier Miakinen a ï¿œcrit :
> Bonjour,
>

> Je suis volontaire pour regarder. Pour optimiser cette relecture, est-ce
> que tu pourrais commencer par epliciter un peu les limites que tu t'es
> fixï¿œes ?
>
> Par exemple :
> - comment reconnais-tu un fichier PHP (extension du fichier ou prï¿œsence
> de<?php ... ?>) ?
> - supportes-tu la syntaxe<?= ... ?> ?
> - la fonction ï¿œ traduire peut-elle s'ï¿œtendre sur plusieurs lignes ?
>

Bonsoir Monsieur

Dans mon cas, j'ai reconnu des scripts pouvant approximativement ï¿œtre
des scripts php, ( mais qui ne l'ï¿œtaient probablement pas, je n'ai pas
vï¿œrifiï¿œ ), en cherchant avec cat ${file} | egrep -e "include[ \t]*\("
dans le script migration.sh tous les fichiers inclus dans les fihciers
de suffixe *.php ( mï¿œme chose avec include_once, require et require_once ).

J'ai obtenu un certain nombre de fichiers de suffixe *.inc, que j'ai
identifiï¿œs et passï¿œ ï¿œ la moulinette cat *.inc | grep split ( ou ereg ou
replace ) sans aucun rï¿œsultat trouvï¿œ.

Donc, dans mon cas seul, le procï¿œdï¿œ utilisï¿œ pour trouver les scripts
php fonctionne, car le suffixe *.php est toujours utilisï¿œ pour les
scripts php. Merci la normalisation... ;(

Je vais sous peu commencer ma vï¿œrification lente et laborieuse de
toutes les fonctions migrï¿œes, il y en 17418 pour 352 fichiers modifiï¿œs,
ouf...

J'en aurai pour un bout de temps, quoi... ;(

Aprï¿œs, ce sera le tour de la correction prï¿œcise des cas en erreur (
expressions rationnelles dans des variables pratiquement ).

Bien ï¿œ vous.

Amicalement.

Jean-Franï¿œois Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques

Jean-Francois Ortolo

unread,

Jan 9, 2010, 5:01:51 PM1/9/10

to

Le 08/01/2010 23:38, Jean-Francois Ortolo a ï¿œcrit :
>
> Bonsoir Monsieur

>
> Je vais sous peu commencer ma vï¿œrification lente et laborieuse de toutes
> les fonctions migrï¿œes, il y en 17418 pour 352 fichiers modifiï¿œs, ouf...
>
> J'en aurai pour un bout de temps, quoi... ;(
>
> Aprï¿œs, ce sera le tour de la correction prï¿œcise des cas en erreur (
> expressions rationnelles dans des variables pratiquement ).
>

Bonjour

Aprï¿œs arrangement du fichiers fonctions.txt, et sï¿œparation entre les
fonctions avec et sans variables expressions rationnelles, j'obtiens ce
rï¿œsultat :

Il y a 1638 lignes modifiï¿œes ( = ï¿œ corriger ) comportant des
variables, pour un ensemble de 345 fichiers ï¿œ corriger manuellement.

Et 15467 lignes sans variables, donc ne comportant d'erreur,
pratiquement, que si un caractï¿œre hors norme est situï¿œ dans l'expression
rationnelle.

Ouf... Seulement 345 fichiers ï¿œ corriger, ouf, ouf.

Je vais voir comment sï¿œlectionner automatiquement ces fichiers par
leur numï¿œros d'index.

Aprï¿œs, j'ï¿œditerai chacun de ces fichiers cibles, 345 fichiers
pfffooouuu... ;(

Celï¿œ montre, que mï¿œme pour plusieurs sites sans prï¿œparation, on peut
migrer les sites, de maniï¿œre beaucoup plus rapide avec ma mï¿œthode
qu'avec la mï¿œthode manuelle.

Jean-Francois Ortolo

unread,

Jan 10, 2010, 12:10:45 PM1/10/10

to

Bonjour

J'avais des difficult�s ptratique avec la version pr�c�dente, qui
n'�tait pas strictement automatique, car elle n�cessitait des
v�rifications manuelles.

Il semble que j'ai r�ussi � mettre au point une version enti�rement
automatique, qui donne des messages d'erreurs quand il y a des erreurs,
dans le fihcier /root/tmp.txt Quand ce fichier ne contient que les
fichiers migr�s, ( pas de token Erreur ) il n'y a pas d'erreur durant la
migration.

Voici le code :

D'abord, le filtre filtre.awk

-----------------------------------------------------------

function change(param)
{
# Fin d'expression rationnelle
# trouv�e.
fin_trouve=0;

# Quote simple ou double
# de fin d'expression
# rationnelle partielle
# ou globale.
quote_trouve=0;

p=split(param, tableau, "");

# n = nombre de caract�res backslashes
# ( \ ) rencontr�s.
n=0;

# Initialisation
# du premier param�tre
# de la fonction pcre.
chaine="\"/\".";

for(i=1; i<=p; i++)
{
t=tableau[i];

if(t=="$")
{
quote_trouve=0;

# On suppose que les variables
# sont toujours accol�es
# aux autres expressions,
# par un point, et que
# leurs noms ne contiennent pas
# de point.
while((i<=p)&&(t!=".")&&(t!=","))
{
# Pas d'espace
# dans un nom de variable.
if((t!=" ")&&(t!="\t"))
chaine=chaine t;

i++;
t=tableau[i];
}

if(i>p)
{
# Fin de tableau[i]
# rencontr�, sans
# atteindre la fin
# de l'expression rationnelle,
# donc erreur.
print "Erreur: expression rationnelle sur plusieurs lignes: " param
" " chaine > "/dev/stderr";

# On sort de la boucle.
break;
}
else if(t==".")
{
# L'expression rationnelle
# continue avec une autre
# expression accol�e.
chaine=chaine t;
}
else
{
# Fin de l'expression rationnelle
# rencontr�e.
fin_trouve=1;

# t n'a pas �t� affect�,
# elle le sera en sortie de boucle.
#
#
# On sort de la boucle.
break;
}
}
else if((t=="t")||(t=="c"))
{
if(t=="t")
{
# d�but de trim(
pattern="trim";
}
else
{
# D�but de chr(
pattern="chr";
}

w=split(pattern, tab, "");

for(x=1; ((i<=p)&&(x<=w)); x++)
{
if(t==tab[x])
{
chaine=chaine tab[x];

i++;
t=tableau[i];
}
else
{
# Erreur, token non pr�vu.
break;
}
}

if(x<=w)
{
# Le token n'est pas
# conforme.
print "Erreur: token non pr�vu: " param " " chaine > "/dev/stderr";

#" On sort de la boucle.
break;
}
else
{
# Recherche de la parenth�se
# ouvrante,
# puis suite du traitement.
while((i<=p)&&(t!="("))
{
i++;
t=tableau[i];
}

chaine=chaine "(";

i++;
t=tableau[i];

if(pattern=="chr")
{
# Dans ce cas, on cherche
# la parenth�se fermante,
# suivie le cas �ch�ant
# d'un point ( . )
# ou la virgule de fin
# d'expression rationnelle.
while((i<=p)&&(t!=")"))
{
chain=chaine t;

i++;
t=tableau[i];
}

# On cherche un point
# Ou la virgule de fin.
i++;
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;

}
}
}
}
else if((t=="\"")||(t=="'"))
{

chaine=chaine t;

# M�morisation du type de quote
# ( double ou simple )
# encadrant l'expression
# rationnelle.
s=t;

i++;
t=tableau[i];
while((i<=p)&&(quote_trouve==0))
{
if(t=="\\")
{
n++;
}
else
{
for(x=1; x<=n; x++)
chaine=chaine "\\";

q=n;

indic=0;
# Echappement
# au cas o�.
if((n>0)&&((2*int(q/2.0))==n)&&((t=="&")||(t=="+")||(t==s)))
{
indic=1;

# On n'�chappe pas
# le signe +
# s'il est pr�c�d�
# de ]
# ( expression rationnelle ).
if(t=="+")
{
if(tableau[i-1]!="]")
chaine=chaine "\\";
else
indic=0;
}
else if(t=="&")
chaine=chaine "\\";
else if(t==s)
chaine=chaine "\\";
}

chaine=chaine t;

n=0;

# quote sans �chappement :
# La fin de l'expression
# rationnelle en cours
# a �t� trouv�e.
if((indic==0)&&(t==s))
quote_trouve=1;
}

i++;
t=tableau[i];
}

# On a trouv� la quote terminale
# de l'expression rationnelle en cours,
# donc on cherche le point,
# ou la virgule qui marque la fin
# de l'expression rationnelle globale.

while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
}
}

if(fin_trouve==1)
{
# tableau[i]==","

# On compl�te la cha�ne,
# de mani�re � l'adapter
# � la norme pcre.
chaine=chaine ".\"/\",";

# Et puis, on compl�te
# le reste de la fonction.
i++;

while(i<=p)
{
t=tableau[i];

chaine=chaine t;

i++;
}
}

return(chaine);
}
function change_i(param)
{
# Fin d'expression rationnelle
# trouv�e.
fin_trouve=0;

# Quote simple ou double
# de fin d'expression
# rationnelle partielle
# ou globale.
quote_trouve=0;

p=split(param, tableau, "");

# n = nombre de caract�res backslashes
# ( \ ) rencontr�s.
n=0;

# Initialisation
# du premier param�tre
# de la fonction pcre.
chaine="\"/\".";

for(i=1; i<=p; i++)
{
t=tableau[i];

if(t=="$")
{
quote_trouve=0;

# On suppose que les variables
# sont toujours accol�es
# aux autres expressions,
# par un point, et que
# leurs noms ne contiennent pas
# de point.
while((i<=p)&&(t!=".")&&(t!=","))
{
# Pas d'espace
# dans un nom de variable.
if((t!=" ")&&(t!="\t"))
chaine=chaine t;

i++;
t=tableau[i];
}

if(i>p)
{
# Fin de tableau[i]
# rencontr�, sans
# atteindre la fin
# de l'expression rationnelle,
# donc erreur.
print "Erreur: expression rationnelle sur plusieurs lignes: " param
" " chaine > "/dev/stderr";

# On sort de la boucle.
break;
}
else if(t==".")
{
# L'expression rationnelle
# continue avec une autre
# expression accol�e.
chaine=chaine t;
}
else
{
# Fin de l'expression rationnelle
# rencontr�e.
fin_trouve=1;

# t n'a pas �t� affect�,
# elle le sera en sortie de boucle.
#
#
# On sort de la boucle.
break;
}
}
else if((t=="t")||(t=="c"))
{
if(t=="t")
{
# d�but de trim(
pattern="trim";
}
else
{
# D�but de chr(
pattern="chr";
}

w=split(pattern, tab, "");

for(x=1; ((i<=p)&&(x<=w)); x++)
{
if(t==tab[x])
{
chaine=chaine tab[x];

i++;
t=tableau[i];
}
else
{
# Erreur, token non pr�vu.
break;
}
}

if(x<=w)
{
# Le token n'est pas
# conforme.
print "Erreur: token non pr�vu: " param " " chaine > "/dev/stderr";

#" On sort de la boucle.
break;
}
else
{
# Recherche de la parenth�se
# ouvrante,
# puis suite du traitement.
while((i<=p)&&(t!="("))
{
i++;
t=tableau[i];
}

chaine=chaine "(";

i++;
t=tableau[i];

if(pattern=="chr")
{
# Dans ce cas, on cherche
# la parenth�se fermante,
# suivie le cas �ch�ant
# d'un point ( . )
# ou la virgule de fin
# d'expression rationnelle.
while((i<=p)&&(t!=")"))
{
chain=chaine t;

i++;
t=tableau[i];
}

# On cherche un point
# Ou la virgule de fin.
i++;

# L'un ou l'autre
# a �t� trouv�, donc
# on actualise chaine.
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;

}
}
}
}
else if((t=="\"")||(t=="'"))
{

chaine=chaine t;

# M�morisation du type de quote
# ( double ou simple )
# encadrant l'expression
# rationnelle.
s=t;

i++;
t=tableau[i];
while((i<=p)&&(quote_trouve==0))
{
if(t=="\\")
{
n++;
}
else
{
for(x=1; x<=n; x++)
chaine=chaine "\\";

q=n;

indic=0;
# Echappement
# au cas o�.
if((n>0)&&((2*int(q/2.0))==n)&&((t=="&")||(t=="+")||(t==s)))
{
indic=1;

# On n'�chappe pas
# le signe +
# s'il est pr�c�d�
# de ]
# ( expression rationnelle ).
if(t=="+")
{
if(tableau[i-1]!="]")
chaine=chaine "\\";
else
indic=0;
}
else if(t=="&")
chaine=chaine "\\";
else if(t==s)
chaine=chaine "\\";
}

chaine=chaine t;

n=0;

# quote sans �chappement :
# La fin de l'expression
# rationnelle en cours
# a �t� trouv�e.
if((indic==0)&&(t==s))
quote_trouve=1;
}

i++;
t=tableau[i];
}

# On a trouv� la quote terminale
# de l'expression rationnelle en cours,
# donc on cherche le point,
# ou la virgule qui marque la fin
# de l'expression rationnelle globale.
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
}
}

if(fin_trouve==1)
{
# tableau[i]==","

# On compl�te la cha�ne,
# de mani�re � l'adapter
# � la norme pcre.
chaine=chaine ".\"/i\",";

# Et puis, on compl�te
# le reste de la fonction.
i++;

while(i<=p)
{
t=tableau[i];

chaine=chaine t;

i++;
}
}

return(chaine);
}
{
line=$0;
line2=$0;

if(line ~ /=[ \t]*split[ ]*\(/)
{

r=split(line, tableau2, /=[ \t]*split[ ]*\(/);

for(l=1; l<=r; l++)
{
u=tableau2[l];

if(l==1)
line=u;
else
{
line=line "= preg_split(";
v=change(u);
line=line v;
}
}
}

if(line ~ /eregi[ ]*\(/)
{

r=split(line, tableau2, /eregi[ ]*\(/);

for(l=1; l<=r; l++)
{
u=tableau2[l];

if(l==1)
line=u;
else
{
line=line "preg_match(";
v=change_i(u);
line=line v;
}
}
}

if(line ~ /ereg[ ]*\(/)
{

r=split(line, tableau2, /ereg[ ]*\(/);

for(l=1; l<=r; l++)
{
u=tableau2[l];

if(l==1)
line=u;
else
{
line=line "preg_match(";
v=change(u);
line=line v;
}
}
}

if(line ~ /eregi_replace[ ]*\(/)
{

r=split(line, tableau2, /eregi_replace[ ]*\(/);

for(l=1; l<=r; l++)
{
u=tableau2[l];

if(l==1)
line=u;
else
{
line=line "preg_replace(";
v=change_i(u);
line=line v;
}
}
}

if(line ~ /ereg_replace[ ]*\(/)
{

r=split(line, tableau2, /ereg_replace[ ]*\(/);

for(l=1; l<=r; l++)
{
u=tableau2[l];

if(l==1)
line=u;
else
{
line=line "preg_replace(";
v=change(u);
line=line v;
}
}
}

printf ("%s\n", line);

# if(line!=line2)
# {
# print "D'abord: " line2 " Ensuite: " line > "/dev/stderr"
# }
}

----------------------------------------------------------------------

Ouf, ensuite le script en Bourne Shell qui s'occupe de la r�cursivit� :

dir_init doit �tre aliment� avec le r�pertoire racine, dans lequel
sont install�s filtre.awk et migration.sh

Ce script est destin� � �tre lanc� en tant que root.

--------------------------------------------------------------------

#!/bin/sh

echo "" > /root/tmp2.txt

echo ${file} >> /root/tmp2.txt
echo ${file2} >> /root/tmp2.txt

awk -f ${filtre_awk} -- ${file} 1>${file2} 2>>/root/tmp2.txt

chown $perm ${file2}
chmod 777 ${file2}

t1=`ls -l ${file} | awk '{ print $5; }'`
t2=`ls -l ${file2} | awk '{ print $5; }'`

if [ ${t1} -ne ${t2} ]; then
cat /root/tmp2.txt >> /root/tmp.txt
fi
fi
done

# On lit tous les sous-r�pertoires du r�pertoire courant,
# et on relance le m�me script, avec ces sous-r�pertoires
# comme param�tre, pour que ces processus fils
# se positionnent sur ces sous-r�pertoires.
#

# Dans un premier temps, on teste le traitement
# effectu� uniquement sur les script *.php
# du r�pertoire de d�part, donc
# il y a annulation du caract�re r�cursif.

#
for j in `ls -d * 2>/dev/null`; do
if [ -d $j ]; then

# Calcul du sous-r�pertoire absolu.
direct=${dir}"/"${j}

/var/www/html/php/migration.sh ${direct}
fi
done

# A la fin du script, on remonte vers le r�pertoire
# p�re.
cd ..

exit 0

-------------------------------------------------------------

Voil�, je vous prie de bien vouloir m'excuser de la dimension du code.

Je suis � votre enti�re disposition pour r�pondre aux questions.

Le script filtre.awk, assume que l'expression rationnelle Posix �
migrer, sera sur la m�me ligne que le nom de la fonction, et sera sur
une seule ligne, autrement il y aurait une erreur, il serait impossible
de d�tecter la suite de l'expression rationnelle... Mais qui aurait
l'id�e de mettre une expression rationnelle sur plusieurs lignes ?

Je ne sais pas trop si c'est valable pour de l'utf-8 aussi, je vous
laisse le soin d'en juger.

Pour v�rifier ce code, il faudrait chercher s'il y a des cas, o� il y
a des erreurs qui ne donnent lieu � aucun message d'erreur.

Enfin, filtre.awk assume qu'une variable expression rationnelle, ne
peut �tre accol�e avec une expression rationnelle partielle adjacente,
qu'avec un point ( . ) pour la concat�nation. Dans le cas contraire, le
code serait plus compliqu�. ;)

Th�oriquement, ces scripts assurent la migration avec d�tection
d'erreurs, sans qu'il y ait besoin d'autres v�rifications que de faire,
apr�s :

cat /root/tmp.txt | grep Erreur

S'il y a des lignes qui apparaissent, �videmment... ;(

Merci beaucoup de vos r�ponses.

Jean-Francois Ortolo

unread,

Jan 11, 2010, 6:42:02 PM1/11/10

to

Bonsoir

Voici la toute derni�re version, permettant de prendre en compte
correctement le cas o� la fonction trim() ( aussi bien que chr() )
figure dans l'expression rationnelle regex de d�part � migrer vers une
expression rationnelle pcre.

Donc au final, les deux seules fonctions admises dans ces expressions
rationnelles, sont chr() et trim(). S'il s'av�rait qu'il puisse y avoir
d'autres fonctions de traitement de cha�nes de caract�res �ventuellement
rencontr�es dans la r�alit�, merci de me le dire, cependant, il
suffirait dans ce cas d'une modification mineure, pour �largir le "else"
indiquant la pr�sence du pattern trim, � d'autres patterns de noms de
fonctions, le traitement quant � lui restant identique.

Merci beaucoup de vos suggestions � ce sujet.

Le code de migration.sh est le m�me que pr�c�demment, donc je ne
donne que le code de filtre.awk sous sa forme d�finitive :

--------------------------------------------------------------

p=split(param, tableau, "");

i++;
t=tableau[i];
}

w=split(pattern, tab, "");

chaine=chaine "(";

i++;
t=tableau[i];
}

chaine=chaine ")";

# On cherche un point
# Ou la virgule de fin.
i++;
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
else
# C'est le point.
chaine=chaine t;
}
else
{
# Cas de la fonction trim().
z=1;

# On recherche la premi�re parenth�se
# fermante, matchant
# la parenth�se ouvrante
# d�j� rencontr�e.

while((i<=p)&&(z>0))

{
if(t=="\\")
{
n++;
}
else
{
for(x=1; x<=n; x++)
chaine=chaine "\\";

q=n;

chaine=chaine t;

if((q==0)||((2*int(q/2.0))==n))
{
if(t==")")
{
z--;

if(z==0)
{
# Parenth�se fermante matchant
# trouv�e, on sort de la boucle.
break;
}
}
else if(t=="(")
{
z++;

}

n=0;
}

i++;
t=tableau[i];
}

n=0;

if(i>p)

{
# Le token n'est pas
# conforme.
print "Erreur: token non pr�vu: " param " " chaine >
"/dev/stderr";

# On sort de la boucle.
break;
}
else
{

# On cherche un point
# Ou la virgule de fin.
i++;
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
else
# C'est le point.
chaine=chaine t;

q=n;

chaine=chaine t;

n=0;

i++;
t=tableau[i];
}

break;
}
else
# C'est le point.
chaine=chaine t;
}
}

while(i<=p)
{
t=tableau[i];

chaine=chaine t;

i++;
}
}

p=split(param, tableau, "");

i++;
t=tableau[i];
}

w=split(pattern, tab, "");

chaine=chaine "(";

chaine=chaine t;

i++;
t=tableau[i];
}

chaine=chaine ")";

# On cherche un point
# Ou la virgule de fin.
i++;

# L'un ou l'autre
# a �t� trouv�, donc
# on actualise chaine.
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
else
# C'est le point.
chaine=chaine t;
}
else
{
# Cas de la fonction trim().
z=1;

# On recherche la premi�re parenth�se
# fermante, matchant
# la parenth�se ouvrante
# d�j� rencontr�e.

while((i<=p)&&(z>0))

{
if(t=="\\")
{
n++;
}
else
{
for(x=1; x<=n; x++)
chaine=chaine "\\";

q=n;

chaine=chaine t;

if((q==0)||((2*int(q/2.0))==n))
{
if(t==")")
{
z--;

if(z==0)
{
# Parenth�se fermante matchant
# trouv�e, on sort de la boucle.
break;
}
}
else if(t=="(")
{
z++;

}

n=0;
}
i++;
t=tableau[i];
}

n=0;

if(i>p)

{
# Le token n'est pas
# conforme.
print "Erreur: token non pr�vu: " param " " chaine >
"/dev/stderr";

# On sort de la boucle.
break;
}
else
{

# On cherche un point
# Ou la virgule de fin.
i++;
t=tableau[i];
while((i<=p)&&(t!=".")&&(t!=","))
{
# On prend le point,
# mais pas la virgule.
if(t!=",")
chaine=chaine t;
i++;
t=tableau[i];
}

# La fin de l'expression rationnelle
# a �t� trouv�e, on sort.
if(t==",")
{
fin_trouve=1;

break;
}
else
# C'est le point.
chaine=chaine t;

q=n;

chaine=chaine t;

n=0;

i++;
t=tableau[i];
}

break;
}
else
# C'est le point.
chaine=chaine t;
}
}

while(i<=p)
{
t=tableau[i];

chaine=chaine t;

i++;
}
}

return(chaine);
}
{
line=$0;
line2=$0;

-----------------------------------------------------------------

Ouf, ouf...

L� encore, je vous prie de bien vouloir m'excuser de la longueur du
code, qui pourrait d'ailleur �tre raccourci en ne mettant qu'une seule
fonction change() avec un deuxi�me param�tre indiquant s'il faut ou non
ajouter i apr�s le slash ( / ) terminant l'expression rationnelle migr�e.

Sous cette forme, et compte tenu des limitations indiqu�es en haut du
message, qui peuvent �tre surmont�es de la mani�re indiqu�e, je pense
que l'on peut consid�rer que c'est la version d�finitive, b�ta.

Ces deux scripts filtre.awk et migration.sh , peuvent ainsi servir
pour tr�s rapidement migrer ces fonctions regex obsol�tes sous php 6,
vers les fonctions pcre, de fa�on � permettre � vos sites, de supporter
un h�bergement php 6.

Il va de soi, que pour qu'un site soit compatible php 6, il y a aussi
d'autres conditions, mais je me contente d'apporter ma pierre � l'�difice...

Merci beaucoup de vos r�ponses, critiques et suggestions.

Olivier Miakinen

unread,

Jan 13, 2010, 8:09:06 PM1/13/10

to

Bonjour Jean-Franï¿œois,

Je n'ai pas trouvï¿œ le temps de tout lire, mais il faut que je publie mes
quelques remarques dï¿œs maintenant sinon je ne le ferai jamais.

Le 10/01/2010 18:10, Jean-Francois Ortolo a ï¿œcrit :
>
> J'avais des difficultï¿œs ptratique avec la version prï¿œcï¿œdente, qui
> n'ï¿œtait pas strictement automatique, car elle nï¿œcessitait des
> vï¿œrifications manuelles.
>
> Il semble que j'ai rï¿œussi ï¿œ mettre au point une version entiï¿œrement

> automatique, qui donne des messages d'erreurs quand il y a des erreurs,
> dans le fihcier /root/tmp.txt Quand ce fichier ne contient que les

> fichiers migrï¿œs, ( pas de token Erreur ) il n'y a pas d'erreur durant la

> migration.
>
> Voici le code :
>
> D'abord, le filtre filtre.awk

Je n'ai lu que ï¿œa, et mï¿œme que la fonction change() de ce script. Je
n'en ai eu le courage que parce que tu as abondamment commentï¿œ ce code,
ce dont je te remercie.

> -----------------------------------------------------------
>
> function change(param)
> {
> # Fin d'expression rationnelle

> # trouvï¿œe.

> fin_trouve=0;
>
> # Quote simple ou double
> # de fin d'expression
> # rationnelle partielle
> # ou globale.
> quote_trouve=0;
>
> p=split(param, tableau, "");

Attention, ceci n'est pas portable : c'est un gnuisme (code spï¿œcifique
gnu). Sur les versions de awk diffï¿œrentes de gawk, rien ne dit comment
on doit traiter le cas oï¿œ le 3e paramï¿œtre de split() est une chaï¿œne
vide.

> # n = nombre de caractï¿œres backslashes
> # ( \ ) rencontrï¿œs.
> n=0;
>
> # Initialisation
> # du premier paramï¿œtre

> # de la fonction pcre.
> chaine="\"/\".";

Il m'a fallu quelques secondes pour comprendre cette ligne.
Personnellement j'aurais ï¿œcrit :
chaine = '"/" . ';

Au fait, il y a ici une supposition implicite, ï¿œ savoir que la regexp
posix ne contient jamais aucun caractï¿œre ï¿œ / ï¿œ, aussi bien ï¿œcrit de
faï¿œon littï¿œrale que cachï¿œ dans une variable.

> for(i=1; i<=p; i++)
> {
> t=tableau[i];
>
> if(t=="$")
> {
> quote_trouve=0;
>
> # On suppose que les variables

> # sont toujours accolï¿œes

> # aux autres expressions,
> # par un point, et que
> # leurs noms ne contiennent pas
> # de point.

Ceci est une autre supposition qui correspond certainement ï¿œ ton propre
code, mais pas forcï¿œment aux code des autres (il suffit de voir comme tu
n'as mis aucune espace dans la ligne qui suit alors que moi j'en aurais
mis exactement onze !)

> while((i<=p)&&(t!=".")&&(t!=","))
> {
> # Pas d'espace
> # dans un nom de variable.
> if((t!=" ")&&(t!="\t"))
> chaine=chaine t;

... et si jamais le code d'origine avait le mauvais goï¿œt de contenir des
espaces aprï¿œs un nom de variable, elles seront impitoyablement virï¿œes
par la transformation ! ;-)

>
> i++;
> t=tableau[i];
> }
>
> if(i>p)
> {
> # Fin de tableau[i]

> # rencontrï¿œ, sans

> # atteindre la fin
> # de l'expression rationnelle,
> # donc erreur.
> print "Erreur: expression rationnelle sur plusieurs lignes: " param
> " " chaine > "/dev/stderr";

Sauf erreur, ï¿œ > &2 ï¿œ me semble plus portable que ï¿œ > /dev/stderr ï¿œ.
Mais je peux me tromper.

> [...]

> else if((t=="t")||(t=="c"))
> {
> if(t=="t")
> {

> # dï¿œbut de trim(
> pattern="trim";
> }
> else
> {
> # Dï¿œbut de chr(
> pattern="chr";
> }

Ok, ceci est un code trï¿œs spï¿œcifique ï¿œ tes propres habitudes, mais vu
que c'est bien documentï¿œ il doit ï¿œtre facile de rajouter d'autres
fonctions selon les besoins de chacun.

>
> w=split(pattern, tab, "");

Mï¿œme gnuisme que signalï¿œ plus haut.

>
> [...]

> else if((t=="\"")||(t=="'"))
> {
> chaine=chaine t;
>

> # Mï¿œmorisation du type de quote

> # ( double ou simple )
> # encadrant l'expression
> # rationnelle.
> s=t;
>
> i++;
> t=tableau[i];
> while((i<=p)&&(quote_trouve==0))
> {
> if(t=="\\")
> {
> n++;
> }

J'avoue que je n'ai pas compris le traitement des ï¿œ \ ï¿œ :
- pourquoi tu comptes le nombre de tous les \ successifs au lieu de les
recopier dans 'chaine' dï¿œs que tu en as deux d'affilï¿œe ;
- comment tu gï¿œres les \$, \" et \'.

> else
> {
> for(x=1; x<=n; x++)
> chaine=chaine "\\";
>
> q=n;
>
> indic=0;
> # Echappement

> # au cas oï¿œ.

> if((n>0)&&((2*int(q/2.0))==n)&&((t=="&")||(t=="+")||(t==s)))

Est-ce que le test ((2*int(q/2.0))==n) ne pourrait pas ï¿œtre remplacï¿œ
tout simplement par (n%2==0) ?

> [...]

etc.

Voilï¿œ. Pour le reste, vu que je n'ai aucune regexp POSIX dans mes
quelques rares scripts, je ne suis pas intï¿œressï¿œ pour moi-mï¿œme. Mais
encore une fois merci pour ceux qui sont dans le mï¿œme cas que toi, en
espï¿œrant que mes quelques remarques pourront leur ï¿œtre utiles si jamais
ils n'avaient pas les mï¿œmes habitudes de programmation que toi.

Cordialement,
--
Olivier Miakinen

Jean-Francois Ortolo

unread,

Jan 14, 2010, 6:12:06 AM1/14/10

to

Bonjour Monsieur

Voir mes rï¿œponses ci-dessous.

Merci beaucoup pour votre rï¿œponse.

Bien ï¿œ vous.

Amicalement.

Jean-Franï¿œois Ortolo

Le 14/01/2010 02:09, Olivier Miakinen a ï¿œcrit :
> Bonjour Jean-Franï¿œois,
>

> Je n'ai lu que ï¿œa, et mï¿œme que la fonction change() de ce script. Je
> n'en ai eu le courage que parce que tu as abondamment commentï¿œ ce code,
> ce dont je te remercie.
>
>> -----------------------------------------------------------
>>

>> p=split(param, tableau, "");
>
> Attention, ceci n'est pas portable : c'est un gnuisme (code spï¿œcifique
> gnu). Sur les versions de awk diffï¿œrentes de gawk, rien ne dit comment
> on doit traiter le cas oï¿œ le 3e paramï¿œtre de split() est une chaï¿œne
> vide.
>

Effectivement, je ne savais pas cela.

Au dï¿œpart, je sï¿œlectionnais les caractï¿œres de la chaï¿œne param avec la
fonction substr(), mais je me suis aperï¿œu qu'elle ne prenait pas laes
voyelles accentuï¿œes ( en ascii, pas en utf-8, je n'ai pas essayï¿œ pour
l'utf-8 ).

>>
>> # Initialisation
>> # du premier paramï¿œtre
>> # de la fonction pcre.
>> chaine="\"/\".";
>
> Il m'a fallu quelques secondes pour comprendre cette ligne.
> Personnellement j'aurais ï¿œcrit :
> chaine = '"/" . ';
>

Effectivement avec des quotes simples ï¿œa marche aussi. Et
effectivement c'est mieux de mettre un espace avant et aprï¿œs le point.
Merci d'avoir corrigï¿œ. ;)

> Au fait, il y a ici une supposition implicite, ï¿œ savoir que la regexp
> posix ne contient jamais aucun caractï¿œre ï¿œ / ï¿œ, aussi bien ï¿œcrit de
> faï¿œon littï¿œrale que cachï¿œ dans une variable.
>

J'ai surtout supposï¿œ, que tous les caractï¿œres "/" ï¿œtaient ï¿œchappï¿œs
dans la regexp.

>> for(i=1; i<=p; i++)
>> {
>> t=tableau[i];
>>
>> if(t=="$")
>> {
>> quote_trouve=0;
>>
>> # On suppose que les variables
>> # sont toujours accolï¿œes
>> # aux autres expressions,
>> # par un point, et que
>> # leurs noms ne contiennent pas
>> # de point.
>
> Ceci est une autre supposition qui correspond certainement ï¿œ ton propre
> code, mais pas forcï¿œment aux code des autres (il suffit de voir comme tu
> n'as mis aucune espace dans la ligne qui suit alors que moi j'en aurais
> mis exactement onze !)

Pardon.

Il me semble, que le point est la seule possibilitï¿œ d'opï¿œrateur de
concatï¿œnation en php. La juxtaposition pure n'est pas conforme ï¿œ la
syntaxe de php, et dï¿œclenche une erreur de parsing. ( J'ai testï¿œ sur mon
ordinateur en php 5.2.11 ). D'autre part les noms de variables ne
doivent pas par dï¿œfinition contenir de point, sinon c'est considï¿œrï¿œ
comme une concatï¿œnation avec ce qui suit.

Et puis, comment pourrait-il y avoir des espaces dans des noms de
variables ? Voici ce qui figure dans le PHP Manual :

"Un nom de variable valide doit commencer par une lettre ou un
soulignï¿œ (_), suivi de lettres, chiffres ou soulignï¿œs."

>
>> while((i<=p)&&(t!=".")&&(t!=","))
>> {
>> # Pas d'espace
>> # dans un nom de variable.
>> if((t!=" ")&&(t!="\t"))
>> chaine=chaine t;
>
> ... et si jamais le code d'origine avait le mauvais goï¿œt de contenir des
> espaces aprï¿œs un nom de variable, elles seront impitoyablement virï¿œes
> par la transformation ! ;-)
>

S'il y a un ou des espaces ï¿œ la fin du nom de variable, il seront
accolï¿œs ï¿œ la fin du nom de la variable, donc copiage fidï¿œle de
l'original, aucun problï¿œme ?

Je ne sais pas trï¿œs bien ce qui se passe si l'on essaye d'ajouter un
espace contenu dans une variable, en fin de variable :

t=' ';
chaine="abc";

chaine=chaine t;
chaine= chaine "def";

A ce moment-lï¿œ, chaine contient : "abc def" ou "abcdef" ?

Dans le premier cas mon code est juste, cependant je ne sais pas ce
qui se passe lors de l'exï¿œcution du code dans le deuxiï¿œme cas.

>>
>> i++;
>> t=tableau[i];
>> }
>>
>> if(i>p)
>> {
>> # Fin de tableau[i]
>> # rencontrï¿œ, sans
>> # atteindre la fin
>> # de l'expression rationnelle,
>> # donc erreur.
>> print "Erreur: expression rationnelle sur plusieurs lignes: " param
>> " " chaine> "/dev/stderr";
>
> Sauf erreur, ï¿œ> &2 ï¿œ me semble plus portable que ï¿œ> /dev/stderr ï¿œ.
> Mais je peux me tromper.
>

Peut-ï¿œtre pour Windows ? ;)

>> [...]
>> else if((t=="t")||(t=="c"))
>> {
>> if(t=="t")
>> {
>> # dï¿œbut de trim(
>> pattern="trim";
>> }
>> else
>> {
>> # Dï¿œbut de chr(
>> pattern="chr";
>> }
>
> Ok, ceci est un code trï¿œs spï¿œcifique ï¿œ tes propres habitudes, mais vu
> que c'est bien documentï¿œ il doit ï¿œtre facile de rajouter d'autres
> fonctions selon les besoins de chacun.
>

Je reconnais, que le problï¿œme est la reconnaissance du pattern du nom
de la fonction incluse, ce qui nï¿œcessite du traitement complï¿œmentaire si
plusieurs noms de fonctions possibles commencent avec la mï¿œme lettre.

>>
>> w=split(pattern, tab, "");
>
> Mï¿œme gnuisme que signalï¿œ plus haut.
>
>>
>> [...]
>> else if((t=="\"")||(t=="'"))
>> {
>> chaine=chaine t;
>>
>> # Mï¿œmorisation du type de quote
>> # ( double ou simple )
>> # encadrant l'expression
>> # rationnelle.
>> s=t;
>>
>> i++;
>> t=tableau[i];
>> while((i<=p)&&(quote_trouve==0))
>> {
>> if(t=="\\")
>> {
>> n++;
>> }
>
> J'avoue que je n'ai pas compris le traitement des ï¿œ \ ï¿œ :
> - pourquoi tu comptes le nombre de tous les \ successifs au lieu de les
> recopier dans 'chaine' dï¿œs que tu en as deux d'affilï¿œe ;

Je pourrais, effectivement, mais mon procï¿œdï¿œ revient au mï¿œme.

> - comment tu gï¿œres les \$, \" et \'.
>

J'ai besoin de savoir combien il y a d'ï¿œchappements successifs, avant
un caractï¿œre diffï¿œrent de "\".

Si ce nombre est pair, le caractï¿œre suivant n'est pas ï¿œchappï¿œ, et il
faut l'ï¿œchapper quand mï¿œme dans la regexp modifiï¿œe, dans certains cas.

Pour le cas des \$, \" et \', ces caractï¿œres sont ï¿œchappï¿œs au dï¿œpart
comme ï¿œ l'arrivï¿œe, donc il n'est pas nï¿œcessaire de faire un traitement
particulier d'ï¿œchappement.

>
>> else
>> {
>> for(x=1; x<=n; x++)
>> chaine=chaine "\\";
>>
>> q=n;
>>
>> indic=0;
>> # Echappement
>> # au cas oï¿œ.
>> if((n>0)&&((2*int(q/2.0))==n)&&((t=="&")||(t=="+")||(t==s)))
>
> Est-ce que le test ((2*int(q/2.0))==n) ne pourrait pas ï¿œtre remplacï¿œ
> tout simplement par (n%2==0) ?
>

Effectivement, je n'y avais pas pensï¿œ, parfois je ne sais pas ce qui
me passe par la tï¿œte... ;(

>> [...]
>
> etc.
>
>
> Voilï¿œ. Pour le reste, vu que je n'ai aucune regexp POSIX dans mes
> quelques rares scripts, je ne suis pas intï¿œressï¿œ pour moi-mï¿œme. Mais
> encore une fois merci pour ceux qui sont dans le mï¿œme cas que toi, en
> espï¿œrant que mes quelques remarques pourront leur ï¿œtre utiles si jamais
> ils n'avaient pas les mï¿œmes habitudes de programmation que toi.
>
> Cordialement,

J'ajoute :

Aprï¿œs le code qui suit, il faut rajouter quote_trouve=0; , car dans
ce cas, cette variable est diffï¿œrente de 0, ce qui impacterait les
analyses ultï¿œrieures dans la mï¿œme fonction, des sous-regexp chaï¿œnes de
caractï¿œres.

while((i<=p)&&(quote_trouve==0))
{

# Code...

}

quote_trouve=0;

D'autre part, il est bon pour simplifier, de rï¿œduire les deux
fonctions change(param) et change_i(param), ï¿œ une seule fonction
change(param, chaine_fin)

chaine_fin sera le deuxiï¿œme paramï¿œtre d'appel ï¿œ change(), qui sera la
chaï¿œne de caractï¿œre ï¿œ rajouter en fin de regexp, donc ' . "/"' pour
change(), et ' . "/i"' pour change_i().

Donc, dans le corps principal de filtre.awk, on remplacera les appels
ï¿œ ces deux fonctions par :

v=change(u, ' . "/"'); au lieu de v=change(u); , et

v=change(u, ' . "/i"'); au lieu de v=change_i(u);

Dans la fonction change(param, chaine_fin) , on remplacera ces
instructions :

chaine=chaine ".\"/\",";

chaine=chaine ".\"/i\",";

par :

chaine= chaine chaine_fin ",";

vers la fin de la fonction change()

Compte tenu des modifications de Monsieur Miakinen, il n'yaurait plus
qu'ï¿œ trouver une alternative ï¿œ p=split(param, tableau, ""); , pour
sï¿œlectionner chacun des caractï¿œres de param, associï¿œs ï¿œ un indice i
allant de i=1 ï¿œ i=length(param).

Il reste le problï¿œme du caractï¿œre "/" non ï¿œchappï¿œ dans la regexp de
dï¿œpart. A chaque fois que je programme ( seulement avec des regexp posix
jusqu'ï¿œ prï¿œsent ), je me pose la question : Faut-il ou non ï¿œchapper "/"
? Je croyais qu'il ï¿œtait obligatoire d'ï¿œchapper ce caractï¿œre, mais
peut-ï¿œtre me suis-je trompï¿œ... A ce moment-lï¿œ, je pense que je n'aurais
pas d'autre solution, que de choisir un autre caractï¿œre de dï¿œbut et fin
de regexp, dont je sois sï¿œr qu'il n'apparaï¿œt jamais dans les regexp.
Problï¿œme insoluble ?

En tout cas, Monsieur Miakinen, je vous suis trï¿œs trï¿œs reconnaissant
d'avoir indiquï¿œ les erreurs dans ce code, car je vais prochainement
tester sur un autre serveur, la migration de mon site partenaire
www.lescourses.com , et si ï¿œa ne marche paaaasss... le dirlo ne sera
poas content ;)

Avec mes respects.

Bien ï¿œ vous.

Amicalement.

Jean-Franï¿œois Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques

Jean-Francois Ortolo

unread,

Jan 14, 2010, 9:17:13 AM1/14/10

to

Le 14/01/2010 12:12, Jean-Francois Ortolo a ï¿œcrit :
> Bonjour Monsieur

>
>>
>>> -----------------------------------------------------------
>>>
>>> p=split(param, tableau, "");
>>
>> Attention, ceci n'est pas portable : c'est un gnuisme (code spï¿œcifique
>> gnu). Sur les versions de awk diffï¿œrentes de gawk, rien ne dit comment
>> on doit traiter le cas oï¿œ le 3e paramï¿œtre de split() est une chaï¿œne
>> vide.
>>
>
> Effectivement, je ne savais pas cela.
>
> Au dï¿œpart, je sï¿œlectionnais les caractï¿œres de la chaï¿œne param avec la
> fonction substr(), mais je me suis aperï¿œu qu'elle ne prenait pas laes
> voyelles accentuï¿œes ( en ascii, pas en utf-8, je n'ai pas essayï¿œ pour
> l'utf-8 ).
>

Je vous demande pardon, j'ai fait un lapsus linguae. ;)

Ce n'ï¿œtait effectivement pas la fonction substr() que j'ai essayï¿œ
d'utiliser, mais la fonction sub(). Celle-ci ne prenait pas les voyelles
accentuï¿œes. Je ne sais pas quelle fonction prendre pour sï¿œlectionner un
par un tous les caractï¿œres d'une chaï¿œne ascii ï¿œventuellement ï¿œtendu.

>
>> Au fait, il y a ici une supposition implicite, ï¿œ savoir que la regexp
>> posix ne contient jamais aucun caractï¿œre ï¿œ / ï¿œ, aussi bien ï¿œcrit de
>> faï¿œon littï¿œrale que cachï¿œ dans une variable.
>>
>
> J'ai surtout supposï¿œ, que tous les caractï¿œres "/" ï¿œtaient ï¿œchappï¿œs dans
> la regexp.
>

Pour rï¿œsoudre le problï¿œme du premier et du dernier caractï¿œre de la
regexp modifiï¿œe ( == standard pcre ), et pour ï¿œviter le cas oï¿œ il y a
plusieurs caractï¿œres "/" "/" accolï¿œs, je pense que ce serait correct
d'utiliser le caractï¿œre diï¿œze ( # ), et d'encadrer l'ensemble de la
regexp migrï¿œe ( sans les # de dï¿œbut et de fin ), par une fonction
preg_replace().

Cette fonction preg_replace ï¿œvaluerait le contenu de la regexp aprï¿œs
migration ( == obtenue au moment du test final if(fin_trouve==1) ), et
qui remplace toutes les occurences de diï¿œze prï¿œcï¿œdï¿œs par un nombre x
pair ou nul de "\", par x fois "\" suivi de "\#'. Cela revient ï¿œ
ï¿œchapper tous les diï¿œzes qui ne le sont pas, et rï¿œsoudrait le problï¿œme
de l'existence ï¿œventuelle de ce signe diï¿œze dans la regexp.

Le seul problï¿œme, est que je ne sais pas comment faire un tel
remplacement avec preg_replace().

Merci beaucoup de votre rï¿œponse.

Bien ï¿œ vous.

Amicalement.

Jean-Franï¿œois Ortolo

--

Jean-Francois Ortolo

unread,

Jan 14, 2010, 12:28:49 PM1/14/10

to

Le 14/01/2010 15:17, Jean-Francois Ortolo a ï¿œcrit :

>
> Pour rï¿œsoudre le problï¿œme du premier et du dernier caractï¿œre de la
> regexp modifiï¿œe ( == standard pcre ), et pour ï¿œviter le cas oï¿œ il y a
> plusieurs caractï¿œres "/" "/" accolï¿œs, je pense que ce serait correct
> d'utiliser le caractï¿œre diï¿œze ( # ), et d'encadrer l'ensemble de la
> regexp migrï¿œe ( sans les # de dï¿œbut et de fin ), par une fonction
> preg_replace().
>
> Cette fonction preg_replace ï¿œvaluerait le contenu de la regexp aprï¿œs
> migration ( == obtenue au moment du test final if(fin_trouve==1) ), et
> qui remplace toutes les occurences de diï¿œze prï¿œcï¿œdï¿œs par un nombre x
> pair ou nul de "\", par x fois "\" suivi de "\#'. Cela revient ï¿œ
> ï¿œchapper tous les diï¿œzes qui ne le sont pas, et rï¿œsoudrait le problï¿œme
> de l'existence ï¿œventuelle de ce signe diï¿œze dans la regexp.
>
> Le seul problï¿œme, est que je ne sais pas comment faire un tel
> remplacement avec preg_replace().
>

Ca ne marcherait pas.

Essentiellement, car la regexp pcre utilisï¿œe dans cette fonction
preg_replace, serait soumise ï¿œ la mï¿œme limitation que prï¿œcï¿œdemment dans
le choix du caractï¿œre dï¿œlimiteur.

Le problï¿œme est, que l'on peut ï¿œvaluer les caractï¿œres existants dans
une chaï¿œne constante de caractï¿œres, mais pas dans une variable php.

Le problï¿œme rï¿œsiduel, consisterait donc ï¿œ trouver un caractï¿œre
dï¿œlimiteur dont on sache au dï¿œpart, qu'il n'appartient ï¿œ aucune des
regexp ï¿œ migrer ( avec ou sans variables php intï¿œgrï¿œes ).

Problï¿œme conjoncturel donc, et qui ne peut pas ï¿œtre automatisable.

Il va donc falloir, que je loggue tous les scripts php oï¿œ
apparaissent au moins une variable php dans le premier paramï¿œtre des
fonctions ï¿œ migrer, et que je regarde dans chacun de ce scripts, quel
serait le meilleur caractï¿œre dï¿œlimiteur, qui n'apparaisse dans aucune de
ces variables.

Conclusion, du pain sur la planche en perspective... ;)

Mais... Je peux ï¿œventuellement logguer aussi toutes les variables php
associï¿œes ï¿œ ces scripts php, et faire du traitement rï¿œpï¿œtitif
d'affichage de toutes les lignes de ces scripts, oï¿œ elles apparaissent,
ce qui me donnera toutes les instructions d'affectation de ces variables.

De l'ï¿œ peu prï¿œs, quoi... ;)

Olivier Miakinen

unread,

Jan 14, 2010, 12:28:49 PM1/14/10

to

Le 14/01/2010 15:17, Jean-Francois Ortolo a écrit :
>>
>> Au départ, je sélectionnais les caractères de la chaîne param avec la
>> fonction substr(), mais je me suis aperçu qu'elle ne prenait pas laes
>> voyelles accentuées ( en ascii, pas en utf-8, je n'ai pas essayé pour

>> l'utf-8 ).
>
> Je vous demande pardon, j'ai fait un lapsus linguae. ;)
>

> Ce n'était effectivement pas la fonction substr() que j'ai essayé

> d'utiliser, mais la fonction sub(). Celle-ci ne prenait pas les voyelles

> accentuées. Je ne sais pas quelle fonction prendre pour sélectionner un
> par un tous les caractères d'une chaîne ascii éventuellement étendu.

Pardon d'enfourcher l'un de mes chevaux de bataille favoris (quoique ça
fasse longtemps que je l'ai laissé tranquille), mais une chaîne ASCII ne
*peut* pas contenir de caractères accentués, et « ASCII étendu » ne veut
rien dire.

Plus précisément, cela peut valoir dire trop de choses différentes.
Parmi les extensions d'ASCII il y a des jeux de caractères 7 bits
dans lesquels certains caractères sont remplacés par d'autres (par
exemple "{|}" par "éùè"), il y a aussi des jeux de caractères 8 bits
parmi lesquels ISO-8859-1, CP1252 ou MacRoman, mais il y a aussi
UTF-8 (qui contrairement au premier que j'ai cité est 100 % compatible
ascendant avec ASCII).

>>> Au fait, il y a ici une supposition implicite, à savoir que la regexp
>>> posix ne contient jamais aucun caractère « / », aussi bien écrit de
>>> façon littérale que caché dans une variable.
>>
>> J'ai surtout supposé, que tous les caractères "/" étaient échappés dans
>> la regexp.

D'accord, c'est certainement de ma faute car je n'ai pas compris comment
tu traitais vraiment les \ au sein d'une regexp.

> Pour résoudre le problème du premier et du dernier caractère de la
> regexp modifiée ( == standard pcre ), et pour éviter le cas où il y a
> plusieurs caractères "/" "/" accolés, je pense que ce serait correct
> d'utiliser le caractère dièze ( # ), et d'encadrer l'ensemble de la
> regexp migrée ( sans les # de début et de fin ), par une fonction
> preg_replace().
>
> Cette fonction preg_replace évaluerait le contenu de la regexp après

> migration ( == obtenue au moment du test final if(fin_trouve==1) ), et

> qui remplace toutes les occurences de dièze précédés par un nombre x
> pair ou nul de "\", par x fois "\" suivi de "\#'. Cela revient à
> échapper tous les dièzes qui ne le sont pas, et résoudrait le problème
> de l'existence éventuelle de ce signe dièze dans la regexp.

Dans ce cas, tu peux aussi bien le faire avec / qu'avec # (qui risque
d'ailleurs peut-être de se trouver plus facilement non échappé que /).
Un autre problème est que tout caractère peut aussi bien être caché
dans une variable.

> Le seul problème, est que je ne sais pas comment faire un tel
> remplacement avec preg_replace().

Je viens de te répondre dans fclr. Au passage, je vois que tu as vu
aussi l'autre problème que je te signale.

À mon humble avis, tu peux juste limiter les risques en choisissant un
caractère moins courant qu'un caractère ASCII, par exemple ¦ (pas |) ou
bien Ð (pas D).

Cordialement,
--
Olivier Miakinen

Olivier Miakinen

unread,

Jan 14, 2010, 1:34:07 PM1/14/10

to

Le 14/01/2010 18:28, Jean-Francois Ortolo a ï¿œcrit :

>
> Le problï¿œme rï¿œsiduel, consisterait donc ï¿œ trouver un caractï¿œre
> dï¿œlimiteur dont on sache au dï¿œpart, qu'il n'appartient ï¿œ aucune des
> regexp ï¿œ migrer ( avec ou sans variables php intï¿œgrï¿œes ).

grep "ï¿œ" $(find . -name "*.php")

... et si tu trouves ne serait-ce qu'un seul ï¿œ, tu essayes avec ï¿œ,
avec ï¿œ, avec ï¿œ, et ainsi de suite jusqu'ï¿œ en trouver un qui ne se
trouve utilisï¿œ nulle part !

Jean-Francois Ortolo

unread,

Jan 14, 2010, 2:45:42 PM1/14/10

to

Le 14/01/2010 18:28, Olivier Miakinen a écrit :
> Le 14/01/2010 15:17, Jean-Francois Ortolo a écrit :
>>>
>>> J'ai surtout supposé, que tous les caractères "/" étaient échappés dans
>>> la regexp.
>
> D'accord, c'est certainement de ma faute car je n'ai pas compris comment
> tu traitais vraiment les \ au sein d'une regexp.
>
>
>

> À mon humble avis, tu peux juste limiter les risques en choisissant un
> caractère moins courant qu'un caractère ASCII, par exemple ¦ (pas |) ou
> bien Ð (pas D).
>
> Cordialement,

Finalement...

J'ai loggué dans un fichier, tous les scripts et les variables (
chaque fichier sur une seule ligne ) où des variables apparaissent dans
les regexp des fonctions à migrer, et puis j'ai fait des cat répétitifs
à partir de ce fichier de log, des fichiers correspondants, en ne
sélectionnant que les lignes où apparaissent ces variables, avec un
script en Bourne Shell. Le résultat a été placé dans un autre fichier de
logs tmp.txt, dont j'ai fait un 'cat tmp.txt | egrep -e "\/" > logs.txt'
dans un autre script Shell, pour sélectionner uniquement les lignes
comportant des caractères "/", pour voir si ce caractère est toujours
échappé dans les affectations à ces variables. Ensuite j'ai éliminé les
lignes commençant par / , car c'étaient les chemins absolus des
fichiers, pour ne laisser que les variables.

Il se trouve que dans toutes les variables apparaissant comme premier
paramètre dans ces fonctions à migrer, le caractère "/" est toujours
échappé par "\".

Donc, ce caractère "/" peut servir ce caractère délimiteur, en tenant
compte du fait que, pour les regexp ou sous-regexp constantes chaînes de
caractères des fonctions à migrer, le caractère délimiteur doit toujours
être échappé, ce pourquoi j'ai fait une petite modification dans le
script filtre.awk

Le problème est donc résolu, mon site partenaire ( sa copie sur mon
ordinateur ) a été migré ce soir sans erreur.

Et puis j'ai corrigé une petite erreur, où j'échappais aussi les
quotes simples ou doubles de fin des sous-regexp constantes avant
migration. Maintenant tout est correct.

Merci beaucoup Monsieur, pour vos réponses et encouragements.

Bien à vous.

Amicalement.

Jean-François Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques

très élaborés.

Les Statistiques sont calculées d'après une base de données
allant du 1er Janvier 2000 jusqu'à très récemment.

Jean-Francois Ortolo

unread,

Jan 14, 2010, 2:45:42 PM1/14/10

to

Le 14/01/2010 18:28, Olivier Miakinen a écrit :
>

> Pardon d'enfourcher l'un de mes chevaux de bataille favoris (quoique ça
> fasse longtemps que je l'ai laissé tranquille), mais une chaîne ASCII ne
> *peut* pas contenir de caractères accentués, et « ASCII étendu » ne veut
> rien dire.
>
> Plus précisément, cela peut valoir dire trop de choses différentes.
> Parmi les extensions d'ASCII il y a des jeux de caractères 7 bits
> dans lesquels certains caractères sont remplacés par d'autres (par
> exemple "{|}" par "éùè"), il y a aussi des jeux de caractères 8 bits
> parmi lesquels ISO-8859-1, CP1252 ou MacRoman, mais il y a aussi
> UTF-8 (qui contrairement au premier que j'ai cité est 100 % compatible
> ascendant avec ASCII).
>

Bonsoir Monsieur

Dans mon cas c'est très simple.

J'utilise vi comme éditeur, que j'ai configuré pour convertir en mode
latin1 en lecture et écriture, en éditant le fichier de configuration
/etc/vimrc

Le mode latin1 est ce que je désigne par "ascii étendu", c'est
probablement ce que vous appelez iso-8859-1, car du diable si je sais
comment générer le caractère euro avec mon clavier... ;(

Le problème du caractère délimiteur est résolu en ce qui me concerne,
car dans toutes les variables servant de regexp aux fonctions à migrer,
tous les caractères "/" sont échappés. Ce caractère "/" peut donc
service de délimiteur.

Merci beaucoup beaucoup pour vos réponses.

Bien à vous.

Amicalement.

Jean-François Ortolo

--
Visitez le site http://www.pronostics-courses.fr/
donnant des Statistiques, Pronostics et Historiques graphiques

très élaborés.

Les Statistiques sont calculées d'après une base de données

allant du 1er Janvier 2000 jusqu'à très récemment.

Christophe Bachmann

unread,

Jan 14, 2010, 3:39:25 PM1/14/10

to

Le 14/01/2010 20:45, Jean-Francois Ortolo a écrit :
> Le 14/01/2010 18:28, Olivier Miakinen a écrit :
>>

> Bonsoir Monsieur
>
> Dans mon cas c'est très simple.
>
> J'utilise vi comme éditeur, que j'ai configuré pour convertir en mode
> latin1 en lecture et écriture, en éditant le fichier de configuration
> /etc/vimrc
>
> Le mode latin1 est ce que je désigne par "ascii étendu", c'est
> probablement ce que vous appelez iso-8859-1, car du diable si je sais
> comment générer le caractère euro avec mon clavier... ;(

L'euro n'apparaît pas dans le jeu iso-8859-1 (latin 1) mais dans le
iso-8859-15 (latin 9) auquel cas il est disponible par <AltGr>+E ou
<Ctrl>+<Alt>+E (au moins sous windows)

Voir http://www.cs.tut.fi/~jkorpela/latin9.html (en anglais)
--
Greetings, Salutations,
Guiraud Belissen, Château du Ciel, Drachenwald,
Chris CII, Rennes, France

Jean-Francois Ortolo

unread,

Jan 14, 2010, 5:23:38 PM1/14/10

to

Le 14/01/2010 21:39, Christophe Bachmann a écrit :
>
> L'euro n'apparaît pas dans le jeu iso-8859-1 (latin 1) mais dans le
> iso-8859-15 (latin 9) auquel cas il est disponible par <AltGr>+E ou
> <Ctrl>+<Alt>+E (au moins sous windows)
>
> Voir http://www.cs.tut.fi/~jkorpela/latin9.html (en anglais)

Bonsoir Monsieur

Effectivement, sous vi j'arrive à faire apparaître le signe euro en
faisant <AltGr>+E, que E soit minuscule ou majuscule.

Donc il semble que le mode latin utilisé soit latin9, bien que le
fichier /etc/vimrc mentionne seulement latin.

Il est vrai que c'est moi qui ait fait la manip de configurer ce
fichier en mode latin, alors que par défaut il est en mode utf8.

Merci beaucoup de votre réponse, je vais maintenant essayer de faire
apparaître un signe euro sur ce Thunderbird version 3.0 sous Linux
Fedora 11 64 bits.

Attention... € C'est gagné !

Remerci beaucoup pour votre réponse.

Jean-Francois Ortolo

unread,

Jan 20, 2010, 3:07:12 PM1/20/10

to

Bonjour

Je vais bient�t passer � l'�tape suivante : Migration des fonctions
mysql_*() , vers l'interface objet PDO d'acc�s � MySQL.

Pour cel�, j'ai besoin d'une information sur php, php 6 en particulier.

Supposons une classe ( mettons de type MyPDO extends PDO ),
instanci�e en objet $conn donnant la r�f�rence avec laquelle on
construit les requ�tes ( $conn->query($sql) , $conn->exec($sql) ).

Les connexions � MySQL se font mettons avec la fonction aconnect(),
l'objet ( la variable ) $conn, la fonction aconnect() est d�finie dans
un script script_connexion.php inclus au d�but des scripts php, et
contient l'instruction classique de connexion � MySQL fa�on PDO. ( $conn
= new MyPDO( etc... ); , avec classique traitement d'erreur.

Cette fonction aconnect(void), instancifie donc l'objet $conn, qui
est global, et est utilis� dans les scripts, simplement en le d�clarant
global.

On a donc :

<?php
include("script_connexion.php");

global($conn;

aconnect();

... Et � ce moment-l�, l'objet $conn sera-t-il effectivement
disponible pour des requ�tes genre $conn->query($sql) ou
$conn->exec($sql) ?

C'est ma premi�re question.

Ma deuxi�me question, c'est de savoir si l'objet $conn, instancifi�
dans le corps du script php ( aconnect(); ) sera aussi disponible dans
une fonction ou $conn est d�lar� global ?

Par exemple :

<?php
include("script_connexion.php");

global $conn;

aconnect();

function example() {

global $conn;

Ma question : $conn sera-t-il disponible pour des requ�tes
de type $conn->query($sql) ou $conn->exec($sql) ?

}

Enfin, ma derni�re question, c'est de savoir si c'est aussi le cas (
$conn disponible pour des requ�tes ) si la fonction example() est
d�clar�e avant le d�clenchement de aconnect(); , mais que la fonction
aconnect() est d�clench�e avant l'appel � la fonction example()?

Merci beaucoup de vos r�ponses, je reconnais que mes questions sont
surtout relatifs � la port�e des variables globales, et � la
Programmation Orient�e Objet sous php, mais j'esp�re que le mod�rateur
va laisser passer mon message...

Jean-Francois Ortolo

unread,

Jan 23, 2010, 1:55:07 PM1/23/10

to

Bonjour

J'ai la r�ponse � ma question.