mirror of
https://github.com/apache/httpd.git
synced 2025-08-10 02:56:11 +00:00

git-svn-id: https://svn.apache.org/repos/asf/httpd/httpd/branches/2.4.x@1658074 13f79535-47bb-0310-9956-ffa450edef68
230 lines
14 KiB
Plaintext
230 lines
14 KiB
Plaintext
<?xml version="1.0"?>
|
|
<!DOCTYPE modulesynopsis SYSTEM "../style/modulesynopsis.dtd">
|
|
<?xml-stylesheet type="text/xsl" href="../style/manual.fr.xsl"?>
|
|
<!-- English Revision : 1657403 -->
|
|
<!-- French translation : Lucien GENTIS -->
|
|
<!-- Reviewed by : Vincent Deffontaines -->
|
|
|
|
<!--
|
|
Licensed to the Apache Software Foundation (ASF) under one or more
|
|
contributor license agreements. See the NOTICE file distributed with
|
|
this work for additional information regarding copyright ownership.
|
|
The ASF licenses this file to You under the Apache License, Version 2.0
|
|
(the "License"); you may not use this file except in compliance with
|
|
the License. You may obtain a copy of the License at
|
|
|
|
http://www.apache.org/licenses/LICENSE-2.0
|
|
|
|
Unless required by applicable law or agreed to in writing, software
|
|
distributed under the License is distributed on an "AS IS" BASIS,
|
|
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
|
|
See the License for the specific language governing permissions and
|
|
limitations under the License.
|
|
-->
|
|
|
|
<modulesynopsis metafile="mod_unique_id.xml.meta">
|
|
|
|
<name>mod_unique_id</name>
|
|
<description>Fournit une variable d'environnement contenant un
|
|
identifiant unique pour chaque requête</description>
|
|
<status>Extension</status>
|
|
<sourcefile>mod_unique_id.c</sourcefile>
|
|
<identifier>unique_id_module</identifier>
|
|
|
|
<summary>
|
|
|
|
<p>Ce module fournit un identifiant dont l'unicité est garantie
|
|
parmi "toutes" les requêtes sous des conditions très précises.
|
|
L'identifiant unique le sera aussi parmi plusieurs machines
|
|
appartenant à un cluster correctement configuré. L'identifiant est
|
|
affecté à la variable d'environnement <code>UNIQUE_ID</code> pour
|
|
chaque requête. Les identifiants uniques sont utiles pour diverses
|
|
raisons dont la nature se situe au delà de la portée de ce
|
|
document.</p>
|
|
</summary>
|
|
|
|
<section id="theory">
|
|
<title>Théorie</title>
|
|
|
|
<p>Tout d'abord un bref rappel de la manière dont le serveur Apache
|
|
fonctionne sous Unix (cette fonctionnalité n'étant actuellement pas
|
|
supportée sous Windows NT). Sous Unix, Apache crée plusieurs
|
|
processus enfants, ces derniers traitant les requêtes une par une.
|
|
Chaque processus enfant peut traiter plusieurs requêtes pendant sa
|
|
durée de vie. Dans le cadre de cette discussion, nous supposerons
|
|
que les différents processus enfants ne s'échangent pas de données
|
|
entre eux. Nous nous référerons aux processus enfants sous le nom de
|
|
<dfn>processus httpd</dfn>.</p>
|
|
|
|
<p>Votre site web est réparti entre une ou plusieurs machines dont
|
|
vous êtes l'administrateur, et que nous nommerons cluster de
|
|
serveurs. Chaque serveur peut exécuter plusieurs instances d'Apache.
|
|
L'ensemble de ces dernières sera considéré comme "l'Univers", et
|
|
sous certaines hypothèses, nous montrerons qu'il est possible dans
|
|
cet univers, de générer des identifiants uniques pour chaque
|
|
requête, sans pour autant nécessiter une communication importante
|
|
entre les différents serveurs du cluster.</p>
|
|
|
|
<p>Les machines de votre cluster doivent satisfaire ces conditions
|
|
(même si le cluster ne comporte qu'une machine, vous devez
|
|
synchroniser son horloge avec NTP) :</p>
|
|
|
|
<ul>
|
|
<li>Les temps des machines sont synchronisés via NTP ou tout autre
|
|
protocole de synchronisation du temps en réseau.</li>
|
|
|
|
<li>Les nom d'hôtes des machines sont tous différents, de façon à
|
|
ce que le module puisse recevoir une adresse IP différente pour
|
|
chaque machine du cluster en effectuant une recherche sur le nom
|
|
d'hôte.</li>
|
|
</ul>
|
|
|
|
<p>Au vu des caractéristiques actuelles du système d'exploitation,
|
|
nous supposerons que les pids (identifiants processus) sont codés
|
|
sur 32 bits. Si le système d'exploitation utilise plus de 32 bits
|
|
pour un pid, la correction est triviale mais doit être effectuée
|
|
dans le code.</p>
|
|
|
|
<p>Ces hypothèses posées, à un instant donné, nous pouvons
|
|
distinguer tout processus httpd sur toute machine du cluster de tous
|
|
les autres processus httpd. Pour ce faire, il suffit d'utiliser
|
|
l'adresse IP de la machine et le pid du processus httpd. Un
|
|
processus httpd peut traiter plusieurs requêtes simultanément si
|
|
vous utilisez un module MPM multi-threadé. Pour identifier les
|
|
threads, Apache httpd utilise en interne un index de threads. Ainsi,
|
|
afin de générer des identifiants uniques pour chaque requête, il
|
|
suffit d'effectuer une distinction en fonction du temps.</p>
|
|
|
|
<p>Pour déterminer le temps, nous utiliserons un repère de temps
|
|
Unix (les secondes écoulées depuis le 1er janvier 1970 UTC), et un
|
|
compteur 16 bits. La précision du repère de temps n'étant que d'une
|
|
seconde, le compteur va représenter 65536 valeurs par seconde. Le
|
|
quadruplet <em>(adresse IP, pid, repère de temps, compteur)</em> est
|
|
en mesure de distinguer 65536 requêtes par seconde par processus
|
|
httpd. Il peut cependant arriver que le même pid soit réutilisé au
|
|
cours du temps, et le compteur est là pour pallier cet
|
|
inconvénient.</p>
|
|
|
|
<p>Lorsqu'un processus enfant httpd est créé, le compteur est
|
|
initialisé avec (nombre de microsecondes actuel divisé par 10)
|
|
modulo 65536 (cette formule a été choisie pour éliminer certains
|
|
problème de variance avec les bits de poids faibles du compteur de
|
|
microsecondes sur certains systèmes). Lorsqu'un identifiant unique
|
|
est généré, le repère de temps utilisé est le moment où la requête
|
|
arrive sur le serveur web. Le compteur est incrémenté à chaque
|
|
création d'identifiant (et peut repasser à 0 lorsqu'il a atteint sa
|
|
valeur maximale).</p>
|
|
|
|
<p>Le noyau génère un pid pour chaque processus lors de sa création,
|
|
et le compteur de pid est réinitialisé à une certaine valeur
|
|
lorsqu'il a atteint sa valeur maximale (les pid sont codés sur 16
|
|
bits sous de nombreux Unixes, mais les systèmes les plus récents les
|
|
ont étendus à 32 bits). La même valeur de pid pourra donc être
|
|
réutilisée au cours du temps. Cependant, tant qu'elle n'est pas
|
|
réutilisée dans la même seconde, elle ne remet pas en cause
|
|
l'unicité de notre quadruplet. Nous supposerons donc que le système
|
|
ne créera pas plus de 65536 processus en une seconde (ce nombre peut
|
|
être de 32768 sous certains Unixes, mais même dans ce cas, on est en
|
|
général loin de cette situation).</p>
|
|
|
|
<p>Il est possible que le temps se répète pour une raison
|
|
quelconque.
|
|
Supposons par exemple que l'horloge système soit retardée et repasse
|
|
par un temps passé (ou bien, comme elle avançait, elle a été remise
|
|
à l'heure, et elle repasse par un temps futur). Dans ce cas, il peut
|
|
être facilement démontré que le couple pid/repère de temps peut être
|
|
réutilisé. Le choix de la formule d'initialisation du compteur a
|
|
été effectué dans l'intention de pallier ce problème. Notez qu'un
|
|
nombre vraiment aléatoire serait souhaitable pour initialiser le
|
|
compteur, mais il n'existe pas de tel nombre directement lisible sur
|
|
la plupart des systèmes (c'est à dire que vous ne pouvez pas
|
|
utiliser rand() car vous devez déclencher le générateur avec une
|
|
valeur unique, et vous ne pouvez pas utiliser le temps à cet effet
|
|
car celui-ci , au moins à la seconde près, s'est répété). Il ne
|
|
s'agit donc pas d'une défense parfaite.</p>
|
|
|
|
<p>Même si elle n'est pas parfaite, quel est le degré d'efficacité
|
|
de cette défense ? Supposons
|
|
qu'une de vos machines serve au plus 500 requêtes par seconde (ce
|
|
qui constitue une limite supérieure très raisonnable au moment où ce
|
|
document est écrit, car les systèmes ne se contentent en général pas
|
|
de débiter des fichiers statiques). Pour y parvenir, un certain nombre
|
|
de processus enfants sera nécessaire, qui dépendra du nombre de
|
|
clients simultanés présents. Mais soyons pessimiste et supposons
|
|
qu'un seul processus enfant soit capable de servir 500 requêtes par
|
|
secondes.
|
|
Il existe 1000 valeurs de démarrage possibles du compteur pour
|
|
lesquelles deux séquences de 500 requêtes puissent se recouvrir. Il
|
|
y a donc 1,5% de chance que le processus enfant répète une valeur de
|
|
compteur si le temps se répète (avec une résolution d'une seconde),
|
|
et l'unicité sera alors remise en cause. C'est cependant un exemple
|
|
très pessimiste, et avec les valeurs du monde réel, il y a bien
|
|
moins de chances que cela ne se produise. Si vous estimez que ceci a
|
|
tout de même quelque chances de se produire sur votre système, vous
|
|
pouvez migrer vers un compteur à 32 bits (en modifiant le code).</p>
|
|
|
|
<p>On pourrait supposer que ceci a plus de chance de se produire
|
|
lors du passage à l'heure d'hiver où l'horloge est "retardée". Cela
|
|
ne constitue cependant pas un problème car les temps pris en compte
|
|
ici sont des temps UTC, qui vont "toujours" de l'avant. Notez que
|
|
les Unixes à base de processeur x86 peuvent nécessiter une
|
|
configuration particulière pour que ceci soit vrai -- il doivent
|
|
être configurés pour assumer que l'horloge système est en UTC et
|
|
compenser de manière appropriée. Mais même dans ce cas, si vous
|
|
utilisez NTP, votre temps UTC sera correct peu après le
|
|
redémarrage.</p>
|
|
|
|
<!-- FIXME: thread_index is unsigned int, so not always 32bit.-->
|
|
<p>La variable d'environnement <code>UNIQUE_ID</code> est construite
|
|
par codage du quadruplet de 144 bits (adresse IP sur 32 bits, pid
|
|
sur 32 bits, repère de temps sur 32 bits, compteur 16 bits et index
|
|
de threads sur 32 bits) en
|
|
utilisant l'alphabet <code>[A-Za-z0-9@-]</code> d'une manière
|
|
similaire à celle du codage MIME base64, et sa valeur se présente
|
|
sous la forme d'une chaîne de 24 caractères. L'alphabet MIME base64
|
|
est en fait <code>[A-Za-z0-9+/]</code> ; cependant, les caractères
|
|
<code>+</code> et <code>/</code> nécessitent un codage particulier
|
|
dans les URLs, ce qui rend leur utilisation peu commode. Toutes les
|
|
valeurs sont codées dans l'ordre des octets d'une adresse réseau de
|
|
façon à ce
|
|
que le codage soit comparable entre des architectures où l'ordre des
|
|
octets est différent. L'ordre réel de codage est : repère de temps,
|
|
adresse IP, pid, compteur. Cet ordre de codage possède un but
|
|
précis, mais il faut souligner que les applications n'ont aucun
|
|
intérêt à entrer dans les détails de ce codage. Les applications
|
|
doivent se contenter de traiter la variable <code>UNIQUE_ID</code>
|
|
comme un symbole opaque, qui peut être comparé avec d'autres
|
|
<code>UNIQUE_ID</code>s en ne testant que leur égalité.</p>
|
|
|
|
<p>L'ordre a été choisi de façon à ce qu'il soit possible de
|
|
modifier le codage dans le futur sans avoir à se préoccuper de
|
|
conflits éventuels avec une base de données de
|
|
<code>UNIQUE_ID</code>s existante. Les nouveaux codages doivent
|
|
conserver le repère de temps comme premier élément, et pour le
|
|
reste, utiliser les même alphabet et longueur en bits. Comme les
|
|
repères de temps constituent essentiellement un séquence croissante,
|
|
il suffit que toutes les machines du cluster arrêtent de traiter
|
|
toute requête dans la même <em>seconde repère</em>, et n'utilisent
|
|
alors plus l'ancien format de codage. Ensuite, elles peuvent
|
|
reprendre le traitement des requêtes en utilisant les nouveaux
|
|
codages.</p>
|
|
|
|
<p>Nous pensons que ceci apporte une solution relativement portable
|
|
au problème. Les
|
|
identifiants générés possèdent une durée de vie pratiquement infinie
|
|
car les identifiants futurs pourront être allongés selon les
|
|
besoins. Pratiquement aucune communication n'est requise entre les
|
|
machines du cluster (seule la synchronisation NTP est requise, ce
|
|
qui représente une charge très faible), et aucune communication
|
|
entre les processus httpd n'est nécessaire (la communication est
|
|
implicite et incluse dans le pid assigné par le noyau). Dans des
|
|
situations très spécifiques, l'identifiant peut être raccourci, mais
|
|
dans ce cas, d'avantage d'informations doivent être admises (par
|
|
exemple, les 32 bits de l'adresse IP sont excessifs pour la plupart
|
|
des sites, mais il n'existe pas de valeur de remplacement portable
|
|
plus courte).</p>
|
|
</section>
|
|
|
|
|
|
</modulesynopsis>
|