Tester l'existence d'un site

Pascale

unread,

Jul 6, 2008, 10:51:11 AM7/6/08

to

Sur l'un de nos sites, les gens qui s'inscrivent peuvent entrer (entre
autres) l'adresse de leur site web. Afin d'éviter les erreurs les plus
flagrantes, un contrôle est fait :

$siteini=$_POST['siteini'];
$site="http://".$siteini;
$file = @fopen($site,'r');
if ($file)
{$_SESSION['siteini']=$siteini;}
else
{
echo '<p class="erreur">L\'adresse de site '.$site.' renvoie un
message d\'erreur !</p>';
$errurl1='1';
}

Ça ne nous met pas à l'abri de toutes les bourdes, mais globalement ça
marche plutôt bien et oblige certains utilisateurs à ôter leurs moufles
pour se servir du clavier.
Aujourd'hui, j'ai le problème inverse, avec un site qui existe mais renvoie
un code erreur. Pour la page d'accueil du site en question http://www.les-
rolistes-rouennais.com/ ça ne m'étonne pas trop, car non seulement la page
d'accueil met longtemps à s'afficher, mais le chargement semble n'être
jamais fini (« en attente de http://www.les-rolistes-rouennais.com/ »). Ce
qui m'ennuie plus, c'est que j'ai le même message d'erreur
avec d'autres pages, par exemple http://www.les-rolistes-
rouennais.com/forum/accueil-f2.html , mais là aussi, il semble qu'il y ait
des éléments de page qui se chargent de manière sporadique.

Du coup, je suis embarrassée, car je n'ai pas envie du tout de supprimer ce
test, même s'il est imparfait, alors si vous avez de bonnes idées, ne vous
gênez pas... (:

--
Pascale

Olivier Miakinen

unread,

Jul 6, 2008, 12:03:43 PM7/6/08

to

Le 06/07/2008 16:51, Pascale a écrit :
> Sur l'un de nos sites, les gens qui s'inscrivent peuvent entrer (entre
> autres) l'adresse de leur site web. Afin d'éviter les erreurs les plus
> flagrantes, un contrôle est fait :
>

> [...]

> $file = @fopen($site,'r');

> [...]

> Aujourd'hui, j'ai le problème inverse, avec un site qui existe mais renvoie

> un code erreur. [...]

Si le code de retour de fopen() n'est pas assez informatif, une idée
serait peut-être d'utiliser CURL :
http://fr3.php.net/manual/fr/ref.curl.php

Les codes d'erreur sont assez complets :
http://curl.haxx.se/libcurl/c/libcurl-errors.html

... et certains pourraient t'intéresser, par exemple :

CURLE_URL_MALFORMAT (3)
The URL was not properly formatted.
-> erreur de l'utilisateur

CURLE_COULDNT_RESOLVE_HOST (6)
Couldn't resolve host. The given remote host was not resolved.
-> probable erreur de l'utilisateur (à confirmer avec une requête sur un
site dont tu es sûre, pour vérifier que ce n'est pas le DNS qui est
en rade).

CURLE_COULDNT_CONNECT (7)
Failed to connect() to host or proxy.
-> le site est peut-être correct, même s'il ne répond pas.

etc.

Pascale

unread,

Jul 7, 2008, 7:20:40 AM7/7/08

to

Olivier Miakinen <om+...@miakinen.net> écrivait
news:4870ebd3$1...@neottia.net:

> Si le code de retour de fopen() n'est pas assez informatif, une idée
> serait peut-être d'utiliser CURL :
> http://fr3.php.net/manual/fr/ref.curl.php

Ça a l'air de correspondre à ce que je cherche, par contre, je suis
totalement neuneue pour la mise en œuvre...

On commence par faire :

$ch=curl_init($url);
puis on récupère le code erreur éventuel avec

curl_errno($ch);

Mais en fait non, j'ai rien compris ? Si...?

--
Pascale

Pascale

unread,

Jul 7, 2008, 7:32:35 AM7/7/08

to

Olivier Miakinen <om+...@miakinen.net> écrivait
news:4870ebd3$1...@neottia.net:

> Si le code de retour de fopen() n'est pas assez informatif, une idée
> serait peut-être d'utiliser CURL [couic]

Je pense que ça correspond tout à fait à ce qu'il me faut : si je trouve
pas mon bonheur là dedans, c'est vraiment que je m'y prends mal, merci
Olivier (:

--
Pascale

CrazyCat

unread,

Jul 7, 2008, 8:36:13 AM7/7/08

to

Pascale wrote:
> Sur l'un de nos sites, les gens qui s'inscrivent peuvent entrer (entre
> autres) l'adresse de leur site web. Afin d'éviter les erreurs les plus
> flagrantes, un contrôle est fait :
>
> $siteini=$_POST['siteini'];
> $site="http://".$siteini;
> $file = @fopen($site,'r');

Pour ma part, j'utiliserais plutôt une fonction dédiée à cela: fsockopen:

<?
$siteini = $_POST['siteini'];
if (strpos($siteini , 'tp://')===false) $siteini = 'http://'.$siteini ;
if ($fid = @fsockopen($siteunu, 80, $errno, $errstr, 10) {
echo $siteini.' OK';
} else {
echo 'Error with '.$siteini.': '.$errno.' -> '.$errstr;
}
?>

--
Réseau IRC Francophone: http://www.zeolia.net
Aide et astuces webmasters : http://www.c-p-f.org
Communauté Francophone sur les Eggdrops: http://www.eggdrop.fr

Mickaël Wolff

unread,

Jul 7, 2008, 8:36:13 AM7/7/08

to

Pascale a écrit :

> On commence par faire :
>
> $ch=curl_init($url);
> puis on récupère le code erreur éventuel avec
>
> curl_errno($ch);
>
> Mais en fait non, j'ai rien compris ? Si...?

curl_init créé une ressource, et l'initialise avec le paramètre s'il
lui est fournit.

curl_setopt te permet de configurer ta ressource.

Il faut savoir que, par défaut, curl va télécharger la page distante
et renvoyer le contenu vers ton navigateur. Donc si tu veux seulement
vérifier que la page existe, tu peux utiliser le code suivant :

function check_url($url)
{
$socket = curl_init($url) ;
curl_setopt($socket, CURLOPT_NOBODY, true) ;
$message = curl_exec($socket)
? curl_getinfo($socket, CURLINFO_HTTP_CODE)
: curl_error($socket) ;

curl_close($socket) ;
return $message ;
}

À noter que le message renvoyé n'est pas forcément une erreur.

Je profites du thread pour soulever un point concernant curl et la
sécurité. En fournissant directement l'URL de l'utilisateur à Curl, n'y
a-t-il pas potentiellement un problème de sécurité ?

--
Mickaël Wolff aka Lupus Michaelis
http://lupusmic.org

Patrick Mevzek

unread,

Jul 7, 2008, 9:39:24 AM7/7/08

to

Le Mon, 07 Jul 2008 12:36:13 +0000, Mickaël Wolff a écrit:
> En fournissant directement l'URL de l'utilisateur à Curl, n'y
> a-t-il pas potentiellement un problème de sécurité ?

Si, multiples même.

Voir par exemple des papiers sur la sécurité d'OpenID (même problème :
l'utilisateur fournit une URL à un serveur qui doit s'en servir et s'y
connecter), ou un client HTTP « paranoïaque » dans un autre language :
http://search.cpan.org/~bradfitz/LWPx-ParanoidAgent-1.03/lib/LWPx/ParanoidAgent.pm
(avec quelques explications sur les pièges évités).

Et bien sûr là on ne parle même pas d'éventuelles failles dans le client
HTTP en lui-même juste de failles découlant du fait d'accepter de
l'extérieur une information réutilisée telle quelle.

--
Patrick Mevzek . . . . . . . . . . . . . . Dot and Co
<http://www.dotandco.net/> <http://www.dotandco.com/>

Mickaël Wolff

unread,

Jul 7, 2008, 1:05:07 PM7/7/08

to

Patrick Mevzek a écrit :

> Le Mon, 07 Jul 2008 12:36:13 +0000, Mickaël Wolff a écrit:
>> En fournissant directement l'URL de l'utilisateur à Curl, n'y
>> a-t-il pas potentiellement un problème de sécurité ?
>
> Si, multiples même.

J'ai un peu fouillé, et c'est en fait un énorme trou si on ne fait pas
attention. Merci pour les infos.

Pascale, le bout de code que j'ai fournit à titre d'illustration n'est
pas sécurisé. Il ne faut pas l'utiliser en production. Je regarde pour
faire une classe mieux fagotée, je la posterais ici.

Olivier Miakinen

unread,

Jul 7, 2008, 1:05:07 PM7/7/08

to

Le 07/07/2008 15:39, Patrick Mevzek a écrit :
>
>> En fournissant directement l'URL de l'utilisateur à Curl, n'y
>> a-t-il pas potentiellement un problème de sécurité ?
>
> Si, multiples même.

Même si cette URL n'est utilisée que pour une requête HEAD, et que la
seule information utile qu'on en retient est un éventuel code d'erreur ?

Je ne vois pas quel problème de sécurité cela pourrait poser pour
l'appelant : il y a *beaucoup* moins de risques que pour un simple
internaute cliquant sur un lien avec un navigateur qui ferait un GET
au lieu d'un HEAD et qui, en outre, interpréterait le JavaScript.

Et même pour l'appelé : s'il n'implémente pas d'effet de bord aux
requêtes HEAD, il ne risque pas grand chose -- et inversement s'il
reformate son disque dur en réponse à un HEAD, c'est bien fait pour
sa pomme !

> Voir par exemple des papiers sur la sécurité d'OpenID (même problème :
> l'utilisateur fournit une URL à un serveur qui doit s'en servir et s'y
> connecter),

Tu aurais un lien (si possible traduit en français) ?

> ou un client HTTP « paranoïaque » dans un autre language :
> http://search.cpan.org/~bradfitz/LWPx-ParanoidAgent-1.03/lib/LWPx/ParanoidAgent.pm
> (avec quelques explications sur les pièges évités).

Je n'ai pas bien compris ce que ça fait (il faut dire que je ne suis pas
allé voir ce qu'était LWP::UserAgent dont il dérive).

> Et bien sûr là on ne parle même pas d'éventuelles failles dans le client
> HTTP en lui-même juste de failles découlant du fait d'accepter de
> l'extérieur une information réutilisée telle quelle.

Oui, bien sûr. Mais dans ce cas, quel genre de contrôle ferais-tu sur
l'URL qui pourrait minimiser les risques lors de la connexion par CURL ?

Mickaël Wolff

unread,

Jul 7, 2008, 2:55:58 PM7/7/08

to

Olivier Miakinen a écrit :

> Tu aurais un lien (si possible traduit en français) ?

C'est vrai que moi aussi ça m'aurait aider. Cependant, en essayant
l'url file:///etc/passwd dans curl_init, même en configurant l'option
CURLOPT_NOBODY à true le contenu du fichier est affiché :-D

> Je n'ai pas bien compris ce que ça fait (il faut dire que je ne suis pas
> allé voir ce qu'était LWP::UserAgent dont il dérive).

Ce que je pense qu'il faut en retirer, c'est la limitation du timeout
(pour éviter les redirections éternelles), l'exclusion d'hôtes sensibles
afin d'éviter de détourner la fonctionnalité pour sonder le voisinage
réseau, etc. Tiens, si ça ce trouve, en utilisant la fonctionnalité
telnet, on peut éventuellement utiliser ça pour faire du spam :-D (oui,
c'est une obsession).

> Oui, bien sûr. Mais dans ce cas, quel genre de contrôle ferais-tu sur
> l'URL qui pourrait minimiser les risques lors de la connexion par CURL ?

Vérifier que c'est une URL désignant une ressource HTTP est un bon
début en fait. C'est d'ailleurs ce que je suis en train de corriger dans
mes devs. Je n'avais pas réalisé la puissance de cURL.

Pascale

unread,

Jul 7, 2008, 3:17:01 PM7/7/08

to

Micka�l Wolff <mickae...@laposte.net> �crivait
news:48723025$0$1117$426a...@news.free.fr:

> Pascale, le bout de code que j'ai fournit � titre d'illustration n'est
> pas s�curis�. Il ne faut pas l'utiliser en production. Je regarde pour
> faire une classe mieux fagot�e, je la posterais ici.

Bon, merci � tous de vous �tre pench�s sur mon cas (-:
Je crois que tout le monde a compris ce que je veux faire, mais quelques
pr�cisions ne peuvent pas nuire. La personne qui s'inscrit au site a le
droit de rentrer, parmi ses coordonn�es, l'adresse de son site (le http://
est positionn� automatiquement, on contr�le que l'utilisateur ne le met pas
2 fois). Le but est de pr�venir la saisie d'adresses de sites farfelues ou
erron�es. Je ne veux en aucun cas que le site s'ouvre automatiquement sur
l'ordinateur de la personne qui s'inscrit, je veux simplement pr�venir la
saisie d'adresses erron�es (je suis emb�t�e non seulement avec ceux qui
tapent avec leurs moufles, avec ceux qui veulent mettre un texte du style
��en chantier��, et aussi avec ceux, plus nombreux qu'on ne croit, qui
confondent adresse de site et adresse courriel, ce qui fait qu'on se
retrouve avec des URL du genre http://machinc...@fai.fr).
Le contr�le de l'URL s'effectue non seulement � l'inscription, mais �
chaque fois que la personne modifie quelque chose dans ses coordonn�es.
Si je peux avoir un message d'erreur plus pr�cis que ��URL erron�e��, ce
sera pas plus mal (:

--
Pascale

Olivier Miakinen

unread,

Jul 7, 2008, 3:17:01 PM7/7/08

to

Le 07/07/2008 20:55, Mickaï¿œl Wolff a ï¿œcrit :
>
> C'est vrai que moi aussi ï¿œa m'aurait aider. Cependant, en essayant
> l'url file:///etc/passwd dans curl_init, mï¿œme en configurant l'option
> CURLOPT_NOBODY ï¿œ true le contenu du fichier est affichï¿œ :-D

Peut-ï¿œtre bien, mais je te rappelle le dï¿œbut du code de Pascale :
-----------------------------------

$siteini=$_POST['siteini'];
$site="http://".$siteini;

$file = @fopen($site,'r');

-----------------------------------

Je veux bien manger ma barbe si l'url html://file:///etc/passwd ouvre
quoi que ce soit en local...

> [...] l'exclusion d'hï¿œtes sensibles
> afin d'ï¿œviter de dï¿œtourner la fonctionnalitï¿œ pour sonder le voisinage
> rï¿œseau

Ah oui, lï¿œ je suis d'accord. Par exemple en lui passant une adresse IP.

>, etc. Tiens, si ï¿œa ce trouve, en utilisant la fonctionnalitï¿œ
> telnet, on peut ï¿œventuellement utiliser ï¿œa pour faire du spam :-D (oui,
> c'est une obsession).

Mï¿œme rï¿œponse que pour file : c'est impossible puisque c'est Pascale qui
rajoute http:// au dï¿œbut.

> Vï¿œrifier que c'est une URL dï¿œsignant une ressource HTTP est un bon
> dï¿œbut en fait.

Cf. supra. Pas besoin de le vï¿œrifier : on l'impose.

Patrick Mevzek

unread,

Jul 7, 2008, 4:30:47 PM7/7/08

to

Le Mon, 07 Jul 2008 19:17:01 +0000, Pascale a ï¿œcrit:
> Le but est de prï¿œvenir la saisie d'adresses de sites farfelues ou
> erronï¿œes.

Mon conseil est alors :
- de ne faire qu'un test syntaxique (pas de connexion ï¿œ la ressource
pointï¿œe par l'URL)
- d'autoriser https:// (ï¿œventuellement)
- et de permettre aux gens bien de donner directement l'URL avec http://
au dï¿œbut :-)

Vous n'avez donc besoin ni de fopen, ni de curl.
Mais d'une bonne bibliothï¿œque d'analyse des URLs (non il ne ne suffit pas
d'avoir http:// au dï¿œbut, il y a plusieurs rï¿œgles ï¿œ vï¿œrifier... on peut
s'en sortir lï¿œ avec une expression rï¿œguliï¿œre mais mieux vaut laisser cï¿œ ï¿œ
une bibliothï¿œque optimisï¿œe pour ca)

> Le contrï¿œle de l'URL s'effectue non
> seulement ï¿œ l'inscription, mais ï¿œ chaque fois que la personne modifie
> quelque chose dans ses coordonnï¿œes.

Pourquoi ne pas revï¿œrifier *que* si le champ ï¿œ Adresse du site ï¿œ est
modifiï¿œ (et donc ne pas revï¿œrifier si on change que le reste) ?

> Si je peux avoir un message d'erreur

> plus prï¿œcis que ï¿œï¿œURL erronï¿œeï¿œï¿œ, ce sera pas plus mal (:

L'URL est bonne syntaxiquement ou non. Aprï¿œs la ressource est accessible
ou non, et si elle ne l'est pas cela ne signifie pas *nï¿œcessairement* que
l'URL est mauvaise : cela peut ï¿œtre un problï¿œme temporaire d'accï¿œs
n'importe oï¿œ entre les deux serveurs, un code HTTP 500 ou 503, etc.
De toute faï¿œon, j'imagine (mais je peux me tromper je n'ai pas tout le
contexte), que vos utilisateurs ne sont pas tous les administrateurs des
sites web renseignï¿œs, donc mï¿œme si vous donnez une erreur trï¿œs prï¿œcise,
ils ne pourront de toute faï¿œon rien corriger d'eux-mï¿œmes (au mieux
transfï¿œrer au support technique de la sociï¿œtï¿œ gï¿œrant leur site web, avec
des rï¿œsultats non garantis). Donc ce qui est utile pour eux, et pour vous,
c'est juste ï¿œ l'URL est-elle valide syntaxiquement ï¿œ et pas ï¿œ la ressource
pointï¿œe par l'URL est-elle accessible maintenant de suite depuis un
serveur trï¿œs spï¿œcifique ï¿œ.

D'autre part, vous n'avez aucune garantie que le site appartient bien/est
gï¿œrï¿œ par la personne en question. Tout le monde pourra mettre
http://www.google.com/
Mieux vaut donc que le champ soit optionnel.

Sinon, il faut mettre en place une vï¿œrification style : Placez un
fichier ayant un nom ï¿œ dynamique, choisi alï¿œatoirement ï¿œ sur votre serveur
et on teste.

Pascale

unread,

Jul 7, 2008, 4:30:47 PM7/7/08

to

Olivier Miakinen <om+...@miakinen.net> �crivait
news:48726851$1...@neottia.net:

> M�me r�ponse que pour file : c'est impossible puisque c'est Pascale qui
> rajoute http:// au d�but.

Je pourrais ne pas le faire, c'�tait juste pour faciliter la vie des
utilisateurs (et la n�tre, par la m�me occasion).

--
Pascale

Patrick Mevzek

unread,

Jul 7, 2008, 4:30:48 PM7/7/08

to

Le Mon, 07 Jul 2008 19:17:01 +0000, Olivier Miakinen a ï¿œcrit:

> Je veux bien manger ma barbe si l'url html://file:///etc/passwd ouvre
> quoi que ce soit en local...

[..]

> Mï¿œme rï¿œponse que pour file : c'est impossible puisque c'est Pascale qui
> rajoute http:// au dï¿œbut.

[..]

En thï¿œorie, oui. En pratique dï¿œs qu'on utilise un outil basï¿œ sur du C, et
donc des chaï¿œnes terminï¿œes par U+0000, des bugs surgissent. C'est
frï¿œquent, rï¿œgulier, et cela ne disparaï¿œtra jamais totalement.
La derniï¿œre faille curl mentionnï¿œ dans mon autre message, ï¿œ savoir :
http://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2007-4850
en est un exemple d'ailleurs, mï¿œme si effectivement elle ne serait
probablement pas exploitable dans le cas prï¿œcis ï¿œvoquï¿œ ici.

Donc, coller http:// au dï¿œbut peut faire partie d'une politique de
sï¿œcuritï¿œ, mais ce ne doit ï¿œtre qu'un maillon, pas le seul.
On peut aprï¿œs, vï¿œrifier syntaxiquement la chose. C'est un deuxiï¿œme maillon.
Et un U+0000 sera normalement bloquï¿œ lors de ce deuxiï¿œme maillon.

>> Vï¿œrifier que c'est une URL dï¿œsignant une ressource HTTP est un bon
>> dï¿œbut en fait.
>
> Cf. supra. Pas besoin de le vï¿œrifier : on l'impose.

Et si on veut du HTTPS :-) ?

Patrick Mevzek

unread,

Jul 7, 2008, 4:30:47 PM7/7/08

to

Le Mon, 07 Jul 2008 17:05:07 +0000, Olivier Miakinen a ï¿œcrit:
> Mï¿œme si cette URL n'est utilisï¿œe que pour une requï¿œte HEAD, et que la
> seule information utile qu'on en retient est un ï¿œventuel code d'erreur ?

Oui.
Mais le problï¿œme de sï¿œcuritï¿œ n'est pas *que* sur le serveur faisant la
requï¿œte, ce dernier peut devenir l'origine d'une attaque de type deni de
service (distribuï¿œ ou non).

Voici quelques exemples de choses (tirï¿œes d'un papier sur la sï¿œcuritï¿œ
d'OpenID que j'avais lu mais je n'ai plus la rï¿œfï¿œrence en tï¿œte) auxquelles
il faut penser, c'est ï¿œ dire des URLs ennuyeuses :

- http://www.nsa.gov:1/, http://www.nsa.gov:2/, http://www.nsa.gov:3/
on fait une attaque de dï¿œni de service sur tous les ports, ou un
ï¿œquivalent ï¿œ nmap ï¿œ (mï¿œme si ce n'est pas du HTTP sur tous les ports, le
client risque de retourner un code diffï¿œrent entre ï¿œ pas de rï¿œponse ï¿œ et
ï¿œ une rï¿œponse qui ne ressemble pas ï¿œ du HTTP ï¿œ).
Et, indï¿œpendamment d'une rï¿œponse ou non du serveur appelï¿œ, cela peut ï¿œtre
gï¿œnant juste d'initier un trafic vers certaines destinations...
- https://192.168.1.15/internal/auth?ip=1.1.1.1
URL interne ï¿œ un rï¿œseau normalement
- http://localhost:8080/
mï¿œme genre, et contournement d'un ï¿œventuel pare-feu local (sur le
serveur web)
- http://www.youtube.com/largemovie.flv
dï¿œni de service en temps et RAM consommï¿œe (sauf si on fait un HEAD, ok)
- file:///dev/null
il faut probablement veiller ï¿œ ne faire que du HTTP/HTTPS
- http://www.example.com/register.pl?user=toto&pass=titi
remplissage ï¿œ automatique ï¿œ de formulaires ï¿œ distance (sauf CAPTCHA et
autres), ou spam de blogs et autres, etc...

> Je ne vois pas quel problï¿œme de sï¿œcuritï¿œ cela pourrait poser pour

> l'appelant : il y a *beaucoup* moins de risques que pour un simple
> internaute cliquant sur un lien avec un navigateur qui ferait un GET au

> lieu d'un HEAD et qui, en outre, interprï¿œterait le JavaScript.

Il est difficile de quantifier les dangers respectifs de diffï¿œrentes
pratiques.
L'appelant devient la source d'un certain trafic (une requï¿œte HTTP), comme
dï¿œlï¿œgataire du client qui a soumis l'URL. Il est alors *responsable* de ce
trafic, comme l'est un proxy HTTP. Il vaut mieux qu'il soit absolument sï¿œr
de la lï¿œgitimitï¿œ de ce trafic, car sinon il est lui-mï¿œme vulnï¿œrable (cf
exemple http://localhost:8080/ plus haut) ou devient un intermï¿œdiaire
pour exploiter des vulnï¿œrabilitï¿œs ailleurs (ce qui n'est pas beaucoup plus
enviable... avec les lois en prï¿œparation c'est un coup ï¿œ perdre son accï¿œs
ADSL :-))

> Et mï¿œme pour l'appelï¿œ : s'il n'implï¿œmente pas d'effet de bord aux
> requï¿œtes HEAD, il ne risque pas grand chose -- et inversement s'il
> reformate son disque dur en rï¿œponse ï¿œ un HEAD, c'est bien fait pour sa
> pomme !

Pas seulement. Il peut faire confiance implicite au serveur appelant,
parce qu'il est dans le mï¿œme rï¿œseau, etc... et donc permettre l'accï¿œs ï¿œ
une ressource privï¿œe. Oui, le modï¿œle de sï¿œcuritï¿œ du serveur appelï¿œ est en
partie en dï¿œfaut. Mais, en pratique, ce genre de dï¿œfaut est frï¿œquent.

Ou ï¿œ l'opposï¿œ, il peut mettre en place de la QoS et donc refuser l'accï¿œs
au serveur appelant, parce qu'il a dï¿œjï¿œ vu son IP trop souvent dans le
passï¿œ, alors que la ressource demandï¿œe serait accessible depuis un client
ï¿œ normal ï¿œ.

De mï¿œme, un client HTTP s'identifie (User-Agent & co, mais aussi en-tï¿œtes
Accept souvent absent par exemple, ce qui est dï¿œtectï¿œ par des outils
comme mod_security, etc.) diffï¿œremment d'un navigateur, ce qui peut
entraï¿œner une diffï¿œrence de rï¿œponse de la part d'un serveur (ok, le
problï¿œme est du ressort du serveur HTTP appelï¿œ, mais en pratique on voit
souvent ce genre de situations).

>> ou un client HTTP ï¿œ paranoï¿œaque ï¿œ dans un autre language :
>> http://search.cpan.org/~bradfitz/LWPx-ParanoidAgent-1.03/lib/LWPx/ParanoidAgent.pm
>> (avec quelques explications sur les piï¿œges ï¿œvitï¿œs).
>
> Je n'ai pas bien compris ce que ï¿œa fait (il faut dire que je ne suis pas
> allï¿œ voir ce qu'ï¿œtait LWP::UserAgent dont il dï¿œrive).

LWP::UserAgent est un client HTTP en Perl (comme curl donc).
LWPx::ParanoidAgent est une sous-classe du prï¿œcï¿œdent, donc toujours un
client HTTP comme curl mais qui en plus vï¿œrifie certaines choses comme :
- suppression de la fonctionnalitï¿œ proxy (requï¿œtes directes toujours)
- utilisation seulement des "schemes" http et https
- impossible de se connecter sur des IPs privï¿œes (192.168.x etc ...)
- prise en compte de listes noires de noms/IPs
- prise en compte d'un time out global pour ï¿œtre sï¿œr de s'arrï¿œter au bout
d'un certain temps et de ne pas rester bloquï¿œ ï¿œ la merci d'un serveur
distant qui rï¿œpond, intentionnellement ou non, trï¿œs lentement.
(cas prï¿œcis ï¿œvoquï¿œ au dï¿œbut de ce fil)
En tenant compte des redirections HTTP (autre point ï¿œ prendre en compte
globalement, les navigateurs dï¿œtectent les boucles de redirection et
s'arrï¿œtent aprï¿œs un certain nombre de sauts, je ne sais pas si c'est le
cas, par dï¿œfaut, dans tous les clients HTTP), des chaï¿œnes de CNAME dans les
DNS (qui pourraient provoquer des boucles), etc.

>> Et bien sï¿œr lï¿œ on ne parle mï¿œme pas d'ï¿œventuelles failles dans le
>> client HTTP en lui-mï¿œme juste de failles dï¿œcoulant du fait d'accepter
>> de l'extï¿œrieur une information rï¿œutilisï¿œe telle quelle.
>
> Oui, bien sï¿œr. Mais dans ce cas, quel genre de contrï¿œle ferais-tu sur

> l'URL qui pourrait minimiser les risques lors de la connexion par CURL ?

Par rapport au besoin du posteur initial, il me semble qu'un simple test
syntaxique sur l'URL entrï¿œe suffit (ce qui n'est mï¿œme pas fait dans
l'exemple donnï¿œ au dï¿œbut, mï¿œme coller http:// systï¿œmatiquement au dï¿œbut,
ca me paraï¿œt dangereux, moi si on me demande une adresse web, c'est une
URL, donc je mets dï¿œjï¿œ le http:// au dï¿œbut :-)), il n'y a pas besoin de
curl. Je ne vois pas bien l'intï¿œrï¿œt de vï¿œrifier si le serveur en question
rï¿œpond, existe, etc. (sauf si on cherche rï¿œellement ï¿œ rï¿œcupï¿œrer quelque
chose dessus, genre une image pour un avatar ou autre) parce qu'il
pourrait y avoir *plein* de problï¿œmes, y compris du cï¿œtï¿œ de l'appelant
(problï¿œmes rï¿œseau, etc.) qui font que le serveur ne rï¿œpond pas, et
rï¿œpondra plus tard, ou le contraire, etc. [ Ca me rappelle ZoneCheck cette
affaire :-)] Ca, plus les risques auxquels on s'expose fait que je ne
trouve pas utile d'aller faire la requï¿œte HTTP en question.

Maintenant s'il y en a rï¿œellement besoin, il est fort probable qu'il n'y
en a pas besoin de maniï¿œre synchrone. Je prendrais donc l'URL que me donne
l'utilisateur et (aprï¿œs un ï¿œventuel simple test syntaxique), la stocke
quelque part. Aprï¿œs un processus asynchrone indï¿œpendant traite toutes les
URLs en attente.
Ainsi :
- il est complï¿œtement dï¿œcorrï¿œlï¿œ du serveur web, et ne peut pas planter ce
dernier ni permettre un contrï¿œle quelconque, si tant soit peu ï¿œvidemment
qu'on le sï¿œpare correctement (exemple: utilisateur diffï¿œrent, rï¿œpertoires
sï¿œparï¿œs, droits prï¿œcis, etc.)
- si curl ou n'importe quel client est vulnï¿œrable, on arrï¿œte
temporairement les vï¿œrifications, ou on change de client, etc. Tout ceci
sans consï¿œquences pour le service web, et a priori assez simplement parce
qu'on aura qu'une dizaine de lignes de code spï¿œcifiques pour cette tï¿œche ï¿œ
corriger, plutï¿œt qu'une ï¿œventuelle non nï¿œgligeable partie du code (PHP ou
non) du serveur web, dï¿œs qu'on n'a pas pensï¿œ ï¿œ mettre ca proprement dans
une fonction/un fichier ï¿œ part.

Ok, c'est plus ï¿œ complexe ï¿œ ï¿œ mettre en oeuvre, mais ca utilise les bonnes
pratiques de la sï¿œcuritï¿œ (sï¿œparation des processus, donner toujours le
minimum de droits pour faire une tï¿œche, etc.)

Cette approche asynchrone ne fonctionne pas pour des besoins comme ceux
d'OpenID, d'oï¿œ toutes les prï¿œcautions explorï¿œes plus haut, sans que cela
soit exhaustif ï¿œvidemment.

Tout ce qui prï¿œcï¿œde est ï¿œvidemment en grande partie complï¿œtement
indï¿œpendant ï¿œ la fois du client HTTP en question (curl) et du langage (PHP).

Aprï¿œs il faut ajouter les failles de sï¿œcuritï¿œ propres ï¿œ ces deux ï¿œlï¿œments.

Pour curl lui-mï¿œme par exemple :
http://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=curl
(en particulier la plus rï¿œcente
http://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2007-4850
est problï¿œmatique pour ce qui nous intï¿œresse ici)

Pour PHP et sa sï¿œcuritï¿œ, trop de liens ï¿œ mentionner :-)
ï¿œ noter que personnellement, pour moi, allow_url_fopen est mieux ï¿œ Off,
donc pas de fopen('http://...') comme ï¿œvoquï¿œ au dï¿œbut.
(mï¿œlanger les ressources ï¿œ locales ï¿œ comme les fichiers sur le disque dur
du serveur et les ressources ï¿œ distantes ï¿œ accessibles par HTTP/FTP/etc.
en supprimant toute distinction entre les deux me paraï¿œt ï¿œtre une
mauvaise chose, en tout cas du point de vue de la sï¿œcuritï¿œ ; cela illustre
une faï¿œon gï¿œnï¿œrale de penser aux problï¿œmes de sï¿œcuritï¿œ que je donne en
cours, ï¿œ savoir que quand une information change de contexte, ou qu'on
perd le contexte, cela crï¿œï¿œ un risque. Cf toutes les attaques type XSS,
etc.)

Olivier Miakinen

unread,

Jul 7, 2008, 5:19:56 PM7/7/08

to

Bonjour Patrick, et merci de tes rï¿œponses. En particulier celle-ci, trï¿œs
dï¿œtaillï¿œe, ï¿œ laquelle je ne rï¿œpondrai qu'en partie (mais j'ai bien tout lu).

Le 07/07/2008 22:30, Patrick Mevzek a ï¿œcrit :
>
> [...]
>
> Voici quelques exemples de choses [...] auxquelles

> il faut penser, c'est ï¿œ dire des URLs ennuyeuses :
>

> [ liste d'exemples ]

Je me rends. ;-)

> il faut probablement veiller ï¿œ ne faire que du HTTP/HTTPS

Voire que du HTTP. Le besoin de Pascale est de valider une page perso,
pas de se connecter ï¿œ un service bancaire.

Cela dit, comme tu l'expliquais, une simple analyse syntaxique devrait
suffire. Et sinon, peut-ï¿œtre une requï¿œte DNS, non ? Tu n'as pas parlï¿œ de
cette ï¿œventualitï¿œ, alors que justement pour le contrï¿œle des adresses de
courriel c'est toi qui conseillais d'en faire une tandis que moi je
l'estimais inutile...

> L'appelant devient la source d'un certain trafic (une requï¿œte HTTP), comme
> dï¿œlï¿œgataire du client qui a soumis l'URL. Il est alors *responsable* de ce

> trafic, comme l'est un proxy HTTP. [...]

Oui, c'est juste. Mï¿œme pour un simple HEAD il pourrait se le voir reprocher.

> Maintenant s'il y en a rï¿œellement besoin, il est fort probable qu'il n'y
> en a pas besoin de maniï¿œre synchrone. Je prendrais donc l'URL que me donne
> l'utilisateur et (aprï¿œs un ï¿œventuel simple test syntaxique), la stocke
> quelque part. Aprï¿œs un processus asynchrone indï¿œpendant traite toutes les
> URLs en attente.
> Ainsi :

> - [ deux bonnes raisons pour le faire ]

Oui, c'est une excellente suggestion, ï¿œ se rappeler car cela pourrait
servir dans d'autres situations.

> ï¿œ noter que personnellement, pour moi, allow_url_fopen est mieux ï¿œ Off,
> donc pas de fopen('http://...') comme ï¿œvoquï¿œ au dï¿œbut.

[OUI]

> (mï¿œlanger les ressources ï¿œ locales ï¿œ comme les fichiers sur le disque dur
> du serveur et les ressources ï¿œ distantes ï¿œ accessibles par HTTP/FTP/etc.
> en supprimant toute distinction entre les deux me paraï¿œt ï¿œtre une

> mauvaise chose, en tout cas du point de vue de la sï¿œcuritï¿œ ; [...]

Absolument.

Et encore merci pour cette rï¿œponse.
--
Olivier Miakinen

Patrick Mevzek

unread,

Jul 8, 2008, 12:01:35 PM7/8/08

to

Le Mon, 07 Jul 2008 21:19:56 +0000, Olivier Miakinen a écrit:
> Cela dit, comme tu l'expliquais, une simple analyse syntaxique devrait

> suffire. Et sinon, peut-être une requête DNS, non ? Tu n'as pas parlé de
> cette éventualité, alors que justement pour le contrôle des adresses de

> courriel c'est toi qui conseillais d'en faire une tandis que moi je
> l'estimais inutile...

Oui, parce que je fais cette différence (certes faible et discutable)
entre les deux cas :

- quand on demande une adresse email, en général on va réellement en avoir
besoin c'est à dire envoyer un email dans le futur, que ce soit un «
Bienvenu » au début, une newsletter, un rappel de mot de passe, etc.
Bref c'est une ressource « chaude ».
- dans le cas exposé, si j'ai bien compris, l'URL du site n'est qu'un
élément de la fiche d'identification, cela ne joue pas de rôle particulier
dans le service fourni, au mieux on met un lien en face du nom de
l'utilisateur et voila. Donc si l'URL ne pointe pas vers une ressource
accessible (le test DNS permettant d'éliminer certains cas triviaux de
ressources non accessibles), cela ne dégrade pas significativement le
service proposé, et cela n'embête en fait que l'internaute qui va cliquer
sur le lien, et pas le serveur qui gère la base d'utilisateurs renseignés
avec une URL. D'où mon avis d'en faire le « minimum » au moment où l'on
recueille l'URL de l'utilisateur, et d'éviter de dépendre de ressources
externes (que ce soit le DNS ou le serveur HTTP pointé, ces deux éléments
étant en-dehors du contrôle du gestionnaire du serveur web qui recuille
l'URL, alors qu'un test syntaxique impose juste une bonne bibliothèque
locale pour faire ca, et aucune dépendance externe).

Donc, compte tenu de cette différence, le test DNS ne me paraît pas
primordial ici. Mais il peut en tout cas être fait bien plus facilement et
avec moins de risques (mais pas aucun, a CNAME b + b CNAME a c'est
embêtant) qu'une requête HTTP.

Olivier Miakinen

unread,

Jul 8, 2008, 1:29:21 PM7/8/08

to

Le 08/07/2008 18:01, Patrick Mevzek a écrit :
>
> - quand on demande une adresse email, en général on va réellement en avoir
> besoin c'est à dire envoyer un email dans le futur, que ce soit un «
> Bienvenu » au début, une newsletter, un rappel de mot de passe, etc.
> Bref c'est une ressource « chaude ».
> - dans le cas exposé, si j'ai bien compris, l'URL du site n'est qu'un
> élément de la fiche d'identification, cela ne joue pas de rôle particulier
> dans le service fourni, au mieux on met un lien en face du nom de

> l'utilisateur et voila. [...]

C'est très clair. Encore merci.

> Donc, compte tenu de cette différence, le test DNS ne me paraît pas
> primordial ici. Mais il peut en tout cas être fait bien plus facilement et
> avec moins de risques (mais pas aucun, a CNAME b + b CNAME a c'est
> embêtant) qu'une requête HTTP.

Oui.

Cordialement,
--
Olivier Miakinen

Pascale

unread,

Jul 8, 2008, 3:31:22 PM7/8/08

to

Olivier Miakinen <om+...@miakinen.net> écrivait
news:48728777$1...@neottia.net:

> Voire que du HTTP. Le besoin de Pascale est de valider une page perso,

> pas de se connecter à un service bancaire.

Tout à fait : nos inscrits sont des associations, et en 4 ans, personne ne
nous a jamais demandé de pouvoir saisir une adresse en https://
Le http:// est mis automatiquement parce que c'est autant de risques
d'erreurs en moins (: (on contrôle qu'il n'est pas entré 2 fois).

> Cela dit, comme tu l'expliquais, une simple analyse syntaxique devrait
> suffire.

On en avait une, mais sûrement insuffisante (et puis les regexp et moi,
hummmm... (: ). Difficile de déjouer les sournoiseries du style adresse de
site chez Free à laquelle l'utilisateur ajoute soigneusement un www. au
début...
Depuis que je fais le contrôle avec fopen on a quand même beaucoup moins de
déchet, ce qui nous évite autant de courriers pour dire « vous vous êtes
trompés, SVP veuillez corriger,... ».
À chaque inscription, un message nous est envoyé et nous vérifions quand
même manuellement l'existence de l'URL, car le contrôle actuel ne renvoie
pas d'erreur par exemple si le nom de domaine est abandonné et que le site
est redirigé vers un portail quelconque de services commerciaux ou encore,
si l'utilisateur confond adresse courriel et URL.
Récemment, on a eu un cas assez curieux : une assoc' très sérieuse de
juristes nous rentre une adresse de site qui lue en diagonale paraît
cohérente et lorsque nous l'essayons, nous atterrissons sur un forum Dragon
Ball Z ! En fait, la personne de l'assoc' qui avait saisi les informations
s'était trompée et avait mis wwww au lieu de www et, pour une raison qui
m'échappe, cette adresse était redirigée sur ce fameux forum...

> Oui, c'est juste. Même pour un simple HEAD il pourrait se le voir
> reprocher.

Comment, c'est MAL, ce que je fais ?...

Je veux bien me contenter d'une analyse syntaxique, mais ça me paraît plus
que très compliqué d'obtenir quelque chose d'efficace.

--
Pascale

Pascale

unread,

Jul 8, 2008, 3:31:22 PM7/8/08

to

Patrick Mevzek <pm-N2...@nospam.dotandco.com> écrivait
news:48736516$0$25171$426a...@news.free.fr:

> - quand on demande une adresse email, en général on va réellement en
> avoir besoin c'est à dire envoyer un email dans le futur, que ce soit
> un « Bienvenu » au début, une newsletter, un rappel de mot de passe,
> etc. Bref c'est une ressource « chaude ».

Il faut surtout que les visiteurs du site puissent joindre les inscrits
(via un formulaire, l'adresse courriel n'est jamais visible).

> - dans le cas exposé, si j'ai bien compris, l'URL du site n'est qu'un
> élément de la fiche d'identification, cela ne joue pas de rôle
> particulier dans le service fourni, au mieux on met un lien en face du
> nom de l'utilisateur et voila. Donc si l'URL ne pointe pas vers une
> ressource accessible (le test DNS permettant d'éliminer certains cas
> triviaux de ressources non accessibles), cela ne dégrade pas
> significativement le service proposé, et cela n'embête en fait que
> l'internaute qui va cliquer sur le lien

Oui, et ça, on veut pas... Nous tenons au maximum à ce que les données
soient à jour et fiables, ce qui est une lutte de tous les jours (-;

--
Pascale

Patrick Mevzek

unread,

Jul 8, 2008, 4:52:18 PM7/8/08

to

Le Tue, 08 Jul 2008 19:31:22 +0000, Pascale a écrit:
>> Voire que du HTTP. Le besoin de Pascale est de valider une page perso,
>> pas de se connecter à un service bancaire.
>
> Tout à fait : nos inscrits sont des associations, et en 4 ans, personne ne
> nous a jamais demandé de pouvoir saisir une adresse en https://
> Le http:// est mis automatiquement parce que c'est autant de risques
> d'erreurs en moins (: (on contrôle qu'il n'est pas entré 2 fois).

Oui cela ne servira probablement à rien mais c'était une remarque en
passant pour penser à ce qu'on exclut, si on prend le cas des «
validations d'email », il y a tellement de routines qui interdisent les
adresses avec un TLD de plus de 3 caractères (et avec ce qui a été annoncé
récemment, ca va faire des ravages).

> À chaque inscription, un
> message nous est envoyé et nous vérifions quand même manuellement
> l'existence de l'URL, car le contrôle actuel ne renvoie pas d'erreur par
> exemple si le nom de domaine est abandonné et que le site est redirigé
> vers un portail quelconque de services commerciaux

Et donc, même la requête HTTP ne sert « à rien », s'il faut après une
validation humaine sur le contenu, chose que vous ne pourrez de toute
façon pas automatiser à 100%.

> Je veux bien me contenter d'une analyse syntaxique, mais ça me paraît
> plus que très compliqué d'obtenir quelque chose d'efficace.

Utiliser une bibliothèque toute faite.
Je vois :
http://pear.php.net/package/Net_URL2
qui dit :
Easy parsing of Urls

(je n'ai vérifié ni si c'est facile, ni si c'est correct syntaxiquement
parlant)

Pascale

unread,

Jul 9, 2008, 5:50:01 AM7/9/08

to

Patrick Mevzek <pm-N2...@nospam.dotandco.com> écrivait
news:4873c47f$0$6429$426a...@news.free.fr:

> Oui cela ne servira probablement à rien mais c'était une remarque en
> passant pour penser à ce qu'on exclut, si on prend le cas des «
> validations d'email », il y a tellement de routines qui interdisent
> les adresses avec un TLD de plus de 3 caractères (et avec ce qui a été
> annoncé récemment, ca va faire des ravages).

Quid ? quomodo ?... (:

> Et donc, même la requête HTTP ne sert « à rien », s'il faut après une
> validation humaine sur le contenu, chose que vous ne pourrez de toute
> façon pas automatiser à 100%.

Disons qu'on cherche à éviter en amont un maximum d'erreurs afin de ne pas
avoir à écrire aux gens (ce qui suppose de surveiller ensuite s'ils ont
corrigé ou pas).

> Utiliser une bibliothèque toute faite.
> Je vois :
> http://pear.php.net/package/Net_URL2
> qui dit :
> Easy parsing of Urls
>
> (je n'ai vérifié ni si c'est facile, ni si c'est correct
> syntaxiquement parlant)

Merci, je l'ai téléchargé... M'enfin, d'ici que je me connecte suffisamment
de neurones pour piger comment l'utiliser et voir si ça fonctionne bien...
--
Pascale