mirror of
				https://github.com/apache/httpd.git
				synced 2025-11-03 17:53:20 +03:00 
			
		
		
		
	git-svn-id: https://svn.apache.org/repos/asf/httpd/httpd/trunk@1658072 13f79535-47bb-0310-9956-ffa450edef68
		
			
				
	
	
		
			230 lines
		
	
	
		
			14 KiB
		
	
	
	
		
			Plaintext
		
	
	
	
	
	
			
		
		
	
	
			230 lines
		
	
	
		
			14 KiB
		
	
	
	
		
			Plaintext
		
	
	
	
	
	
<?xml version="1.0"?>
 | 
						|
<!DOCTYPE modulesynopsis SYSTEM "../style/modulesynopsis.dtd">
 | 
						|
<?xml-stylesheet type="text/xsl" href="../style/manual.fr.xsl"?>
 | 
						|
<!-- English Revision : 1657407 -->
 | 
						|
<!-- French translation : Lucien GENTIS -->
 | 
						|
<!-- Reviewed by : Vincent Deffontaines -->
 | 
						|
 | 
						|
<!--
 | 
						|
 Licensed to the Apache Software Foundation (ASF) under one or more
 | 
						|
 contributor license agreements.  See the NOTICE file distributed with
 | 
						|
 this work for additional information regarding copyright ownership.
 | 
						|
 The ASF licenses this file to You under the Apache License, Version 2.0
 | 
						|
 (the "License"); you may not use this file except in compliance with
 | 
						|
 the License.  You may obtain a copy of the License at
 | 
						|
 | 
						|
     http://www.apache.org/licenses/LICENSE-2.0
 | 
						|
 | 
						|
 Unless required by applicable law or agreed to in writing, software
 | 
						|
 distributed under the License is distributed on an "AS IS" BASIS,
 | 
						|
 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 | 
						|
 See the License for the specific language governing permissions and
 | 
						|
 limitations under the License.
 | 
						|
-->
 | 
						|
 | 
						|
<modulesynopsis metafile="mod_unique_id.xml.meta">
 | 
						|
 | 
						|
<name>mod_unique_id</name>
 | 
						|
<description>Fournit une variable d'environnement contenant un
 | 
						|
identifiant unique pour chaque requête</description>
 | 
						|
<status>Extension</status>
 | 
						|
<sourcefile>mod_unique_id.c</sourcefile>
 | 
						|
<identifier>unique_id_module</identifier>
 | 
						|
 | 
						|
<summary>
 | 
						|
 | 
						|
    <p>Ce module fournit un identifiant dont l'unicité est garantie
 | 
						|
    parmi "toutes" les requêtes sous des conditions très précises.
 | 
						|
    L'identifiant unique le sera aussi parmi plusieurs machines
 | 
						|
    appartenant à un cluster correctement configuré. L'identifiant est
 | 
						|
    affecté à la variable d'environnement <code>UNIQUE_ID</code> pour
 | 
						|
    chaque requête. Les identifiants uniques sont utiles pour diverses
 | 
						|
    raisons dont la nature se situe au delà de la portée de ce
 | 
						|
    document.</p>
 | 
						|
</summary>
 | 
						|
 | 
						|
<section id="theory">
 | 
						|
    <title>Théorie</title>
 | 
						|
 | 
						|
    <p>Tout d'abord un bref rappel de la manière dont le serveur Apache
 | 
						|
    fonctionne sous Unix (cette fonctionnalité n'étant actuellement pas
 | 
						|
    supportée sous Windows NT). Sous Unix, Apache crée plusieurs
 | 
						|
    processus enfants, ces derniers traitant les requêtes une par une.
 | 
						|
    Chaque processus enfant peut traiter plusieurs requêtes pendant sa
 | 
						|
    durée de vie. Dans le cadre de cette discussion, nous supposerons
 | 
						|
    que les différents processus enfants ne s'échangent pas de données
 | 
						|
    entre eux. Nous nous référerons aux processus enfants sous le nom de
 | 
						|
    <dfn>processus httpd</dfn>.</p>
 | 
						|
 | 
						|
    <p>Votre site web est réparti entre une ou plusieurs machines dont
 | 
						|
    vous êtes l'administrateur, et que nous nommerons cluster de
 | 
						|
    serveurs. Chaque serveur peut exécuter plusieurs instances d'Apache.
 | 
						|
    L'ensemble de ces dernières sera considéré comme "l'Univers", et
 | 
						|
    sous certaines hypothèses, nous montrerons qu'il est possible dans
 | 
						|
    cet univers, de générer des identifiants uniques pour chaque
 | 
						|
    requête, sans pour autant nécessiter une communication importante
 | 
						|
    entre les différents serveurs du cluster.</p>
 | 
						|
 | 
						|
    <p>Les machines de votre cluster doivent satisfaire ces conditions
 | 
						|
    (même si le cluster ne comporte qu'une machine, vous devez
 | 
						|
    synchroniser son horloge avec NTP) :</p>
 | 
						|
 | 
						|
    <ul>
 | 
						|
      <li>Les temps des machines sont synchronisés via NTP ou tout autre
 | 
						|
      protocole de synchronisation du temps en réseau.</li>
 | 
						|
 | 
						|
      <li>Les nom d'hôtes des machines sont tous différents, de façon à
 | 
						|
      ce que le module puisse recevoir une adresse IP différente pour
 | 
						|
      chaque machine du cluster en effectuant une recherche sur le nom
 | 
						|
      d'hôte.</li>
 | 
						|
    </ul>
 | 
						|
 | 
						|
    <p>Au vu des caractéristiques actuelles du système d'exploitation,
 | 
						|
    nous supposerons que les pids (identifiants processus) sont codés
 | 
						|
    sur 32 bits. Si le système d'exploitation utilise plus de 32 bits
 | 
						|
    pour un pid, la correction est triviale mais doit être effectuée
 | 
						|
    dans le code.</p>
 | 
						|
 | 
						|
    <p>Ces hypothèses posées, à un instant donné, nous pouvons
 | 
						|
    distinguer tout processus httpd sur toute machine du cluster de tous
 | 
						|
    les autres processus httpd. Pour ce faire, il suffit d'utiliser
 | 
						|
    l'adresse IP de la machine et le pid du processus httpd. Un
 | 
						|
    processus httpd peut traiter plusieurs requêtes simultanément si
 | 
						|
    vous utilisez un module MPM multi-threadé. Pour identifier les
 | 
						|
    threads, Apache httpd utilise en interne un index de threads. Ainsi,
 | 
						|
    afin de générer des identifiants uniques pour chaque requête, il
 | 
						|
    suffit d'effectuer une distinction en fonction du temps.</p>
 | 
						|
 | 
						|
    <p>Pour déterminer le temps, nous utiliserons un repère de temps
 | 
						|
    Unix (les secondes écoulées depuis le 1er janvier 1970 UTC), et un
 | 
						|
    compteur 16 bits. La précision du repère de temps n'étant que d'une
 | 
						|
    seconde, le compteur va représenter 65536 valeurs par seconde. Le
 | 
						|
    quadruplet <em>(adresse IP, pid, repère de temps, compteur)</em> est
 | 
						|
    en mesure de distinguer 65536 requêtes par seconde par processus
 | 
						|
    httpd. Il peut cependant arriver que le même pid soit réutilisé au
 | 
						|
    cours du temps, et le compteur est là pour pallier cet
 | 
						|
    inconvénient.</p>
 | 
						|
 | 
						|
    <p>Lorsqu'un processus enfant httpd est créé, le compteur est
 | 
						|
    initialisé avec (nombre de microsecondes actuel divisé par 10)
 | 
						|
    modulo 65536 (cette formule a été choisie pour éliminer certains
 | 
						|
    problème de variance avec les bits de poids faibles du compteur de
 | 
						|
    microsecondes sur certains systèmes). Lorsqu'un identifiant unique
 | 
						|
    est généré, le repère de temps utilisé est le moment où la requête
 | 
						|
    arrive sur le serveur web. Le compteur est incrémenté à chaque
 | 
						|
    création d'identifiant (et peut repasser à 0 lorsqu'il a atteint sa
 | 
						|
    valeur maximale).</p>
 | 
						|
 | 
						|
    <p>Le noyau génère un pid pour chaque processus lors de sa création,
 | 
						|
    et le compteur de pid est réinitialisé à une certaine valeur
 | 
						|
    lorsqu'il a atteint sa valeur maximale (les pid sont codés sur 16
 | 
						|
    bits sous de nombreux Unixes, mais les systèmes les plus récents les
 | 
						|
    ont étendus à 32 bits). La même valeur de pid pourra donc être
 | 
						|
    réutilisée au cours du temps. Cependant, tant qu'elle n'est pas
 | 
						|
    réutilisée dans la même seconde, elle ne remet pas en cause
 | 
						|
    l'unicité de notre quadruplet. Nous supposerons donc que le système
 | 
						|
    ne créera pas plus de 65536 processus en une seconde (ce nombre peut
 | 
						|
    être de 32768 sous certains Unixes, mais même dans ce cas, on est en
 | 
						|
    général loin de cette situation).</p>
 | 
						|
 | 
						|
    <p>Il est possible que le temps se répète pour une raison
 | 
						|
    quelconque.
 | 
						|
    Supposons par exemple que l'horloge système soit retardée et repasse
 | 
						|
    par un temps passé (ou bien, comme elle avançait, elle a été remise
 | 
						|
    à l'heure, et elle repasse par un temps futur). Dans ce cas, il peut
 | 
						|
    être facilement démontré que le couple pid/repère de temps peut être
 | 
						|
    réutilisé. Le choix de la formule d'initialisation du compteur a
 | 
						|
    été effectué dans l'intention de pallier ce problème. Notez qu'un
 | 
						|
    nombre vraiment aléatoire serait souhaitable pour initialiser le
 | 
						|
    compteur, mais il n'existe pas de tel nombre directement lisible sur
 | 
						|
    la plupart des systèmes (c'est à dire que vous ne pouvez pas
 | 
						|
    utiliser rand() car vous devez déclencher le générateur avec une
 | 
						|
    valeur unique, et vous ne pouvez pas utiliser le temps à cet effet
 | 
						|
    car celui-ci , au moins à la seconde près, s'est répété). Il ne
 | 
						|
    s'agit donc pas d'une défense parfaite.</p>
 | 
						|
 | 
						|
    <p>Même si elle n'est pas parfaite, quel est le degré d'efficacité
 | 
						|
    de cette défense ? Supposons
 | 
						|
    qu'une de vos machines serve au plus 500 requêtes par seconde (ce
 | 
						|
    qui constitue une limite supérieure très raisonnable au moment où ce
 | 
						|
    document est écrit, car les systèmes ne se contentent en général pas
 | 
						|
    de débiter des fichiers statiques). Pour y parvenir, un certain nombre
 | 
						|
    de processus enfants sera nécessaire, qui dépendra du nombre de
 | 
						|
    clients simultanés présents. Mais soyons pessimiste et supposons
 | 
						|
    qu'un seul processus enfant soit capable de servir 500 requêtes par
 | 
						|
    secondes.
 | 
						|
    Il existe 1000 valeurs de démarrage possibles du compteur pour
 | 
						|
    lesquelles deux séquences de 500 requêtes puissent se recouvrir. Il
 | 
						|
    y a donc 1,5% de chance que le processus enfant répète une valeur de
 | 
						|
    compteur si le temps se répète (avec une résolution d'une seconde),
 | 
						|
    et l'unicité sera alors remise en cause. C'est cependant un exemple
 | 
						|
    très pessimiste, et avec les valeurs du monde réel, il y a bien
 | 
						|
    moins de chances que cela ne se produise. Si vous estimez que ceci a
 | 
						|
    tout de même quelque chances de se produire sur votre système, vous
 | 
						|
    pouvez migrer vers un compteur à 32 bits (en modifiant le code).</p>
 | 
						|
 | 
						|
    <p>On pourrait supposer que ceci a plus de chance de se produire
 | 
						|
    lors du passage à l'heure d'hiver où l'horloge est "retardée". Cela
 | 
						|
    ne constitue cependant pas un problème car les temps pris en compte
 | 
						|
    ici sont des temps UTC, qui vont "toujours" de l'avant. Notez que
 | 
						|
    les Unixes à base de processeur x86 peuvent nécessiter une
 | 
						|
    configuration particulière pour que ceci soit vrai -- il doivent
 | 
						|
    être configurés pour assumer que l'horloge système est en UTC et
 | 
						|
    compenser de manière appropriée. Mais même dans ce cas, si vous
 | 
						|
    utilisez NTP, votre temps UTC sera correct peu après le
 | 
						|
    redémarrage.</p>
 | 
						|
 | 
						|
    <!-- FIXME: thread_index is unsigned int, so not always 32bit.-->
 | 
						|
    <p>La variable d'environnement <code>UNIQUE_ID</code> est construite
 | 
						|
    par codage du quadruplet de 144 bits (adresse IP sur 32 bits, pid
 | 
						|
    sur 32 bits, repère de temps sur 32 bits, compteur 16 bits et index
 | 
						|
    de threads sur 32 bits) en
 | 
						|
    utilisant l'alphabet <code>[A-Za-z0-9@-]</code> d'une manière
 | 
						|
    similaire à celle du codage MIME base64, et sa valeur se présente
 | 
						|
    sous la forme d'une chaîne de 24 caractères. L'alphabet MIME base64
 | 
						|
    est en fait <code>[A-Za-z0-9+/]</code> ; cependant, les caractères
 | 
						|
    <code>+</code> et <code>/</code> nécessitent un codage particulier
 | 
						|
    dans les URLs, ce qui rend leur utilisation peu commode. Toutes les
 | 
						|
    valeurs sont codées dans l'ordre des octets d'une adresse réseau de
 | 
						|
    façon à ce
 | 
						|
    que le codage soit comparable entre des architectures où l'ordre des
 | 
						|
    octets est différent. L'ordre réel de codage est : repère de temps,
 | 
						|
    adresse IP, pid, compteur. Cet ordre de codage possède un but
 | 
						|
    précis, mais il faut souligner que les applications n'ont aucun
 | 
						|
    intérêt à entrer dans les détails de ce codage. Les applications
 | 
						|
    doivent se contenter de traiter la variable <code>UNIQUE_ID</code>
 | 
						|
    comme un symbole opaque, qui peut être comparé avec d'autres
 | 
						|
    <code>UNIQUE_ID</code>s en ne testant que leur égalité.</p>
 | 
						|
 | 
						|
    <p>L'ordre a été choisi de façon à ce qu'il soit possible de
 | 
						|
    modifier le codage dans le futur sans avoir à se préoccuper de
 | 
						|
    conflits éventuels avec une base de données de
 | 
						|
    <code>UNIQUE_ID</code>s existante. Les nouveaux codages doivent
 | 
						|
    conserver le repère de temps comme premier élément, et pour le
 | 
						|
    reste, utiliser les même alphabet et longueur en bits. Comme les
 | 
						|
    repères de temps constituent essentiellement un séquence croissante,
 | 
						|
    il suffit que toutes les machines du cluster arrêtent de traiter
 | 
						|
    toute requête dans la même <em>seconde repère</em>, et n'utilisent
 | 
						|
    alors plus l'ancien format de codage. Ensuite, elles peuvent
 | 
						|
    reprendre le traitement des requêtes en utilisant les nouveaux
 | 
						|
    codages.</p>
 | 
						|
 | 
						|
    <p>Nous pensons que ceci apporte une solution relativement portable
 | 
						|
    au problème. Les
 | 
						|
    identifiants générés possèdent une durée de vie pratiquement infinie
 | 
						|
    car les identifiants futurs pourront être allongés selon les
 | 
						|
    besoins. Pratiquement aucune communication n'est requise entre les
 | 
						|
    machines du cluster (seule la synchronisation NTP est requise, ce
 | 
						|
    qui représente une charge très faible), et aucune communication
 | 
						|
    entre les processus httpd n'est nécessaire (la communication est
 | 
						|
    implicite et incluse dans le pid assigné par le noyau). Dans des
 | 
						|
    situations très spécifiques, l'identifiant peut être raccourci, mais
 | 
						|
    dans ce cas, d'avantage d'informations doivent être admises (par
 | 
						|
    exemple, les 32 bits de l'adresse IP sont excessifs pour la plupart
 | 
						|
    des sites, mais il n'existe pas de valeur de remplacement portable
 | 
						|
    plus courte).</p>
 | 
						|
</section>
 | 
						|
 | 
						|
 | 
						|
</modulesynopsis>
 |