Les tâches de dépannage occupent une grande partie du temps des administrateurs réseau et du personnel d'assistance. L'utilisation de techniques de dépannage efficaces permet de diminuer le temps de dépannage global dans un environnement de production. Le processus de dépannage se compose de trois étapes principales :
Étape 1. Collecte de symptômes : le dépannage commence par la collecte et la documentation des symptômes du réseau, des systèmes finaux et des utilisateurs. L’administrateur réseau détermine également les composants du réseau qui ont été affectés et compare la nouvelle fonctionnalité du réseau avec la ligne de base. Les symptômes peuvent prendre différentes formes, notamment des alertes d’un système de gestion du réseau, des messages de la console et des plaintes des utilisateurs. Lors de la collecte de symptômes, il est important que l'administrateur réseau pose des questions et analyse le problème afin de diminuer le nombre de possibilités. Par exemple, le problème se limite-t-il à un seul périphérique, à un groupe de périphériques ou à un sous-ensemble complet du réseau ?
Étape 2. Isolation du problème : l'isolation du problème est le processus consistant à éliminer des variables jusqu'à ce qu'un problème unique ou un ensemble de problèmes apparentés ait été identifié en tant que cause. Pour ce faire, l’administrateur réseau analyse les caractéristiques des problèmes au niveau des couches logiques du réseau afin de pouvoir sélectionner la cause la plus probable. À ce stade, l'administrateur réseau peut collecter et documenter un plus grand nombre de symptômes, en fonction des caractéristiques qui ont été identifiées.
Étape 3. Implémentation d'une action corrective : après avoir identifié la cause du problème, l'administrateur réseau s'efforce de le résoudre en implémentant, en testant et en documentant les solutions possibles. Une fois le problème identifié et une solution trouvée, l'administrateur réseau peut décider si cette solution peut être implémentée immédiatement ou reportée à plus tard. Cela dépend en effet de l'impact des modifications nécessaires sur les utilisateurs et le réseau. La gravité du problème doit être mise en rapport avec l'impact de sa solution. Par exemple, si un serveur ou un routeur critique doit être mis hors connexion pendant un laps de temps relativement long, il peut être préférable d'attendre la fin de la journée de travail avant d'implémenter la résolution du problème. Parfois, une solution provisoire peut être mise en œuvre en attendant la résolution réelle du problème. Cela fait typiquement partie des procédures de contrôle des modifications d'un réseau.
Si l'action corrective crée un autre problème ou ne permet pas de résoudre le problème initial, la solution tentée est documentée, les modifications sont supprimées et l'administrateur réseau recommence à collecter des symptômes et à essayer d'isoler le problème.
Ces différentes étapes ne s'excluent pas mutuellement. En effet, l’administrateur peut à tout moment être amené à revenir à l’une des étapes précédentes. Par exemple, il se peut que l'administrateur réseau doive collecter un plus grand nombre de symptômes lors de l'isolation d'un problème. De plus, un autre problème a pu être créé lors de la tentative de correction d'un problème. Dans ce cas, supprimez les modifications et recommencez le dépannage.
Une stratégie de dépannage, incluant notamment les procédures de contrôle des modifications, doit être établie pour chaque étape. Cette stratégie permet de définir le mode d’action pour chaque étape. Une partie de cette stratégie doit inclure la documentation de toute information importante.
Remarque : une fois le problème résolu, il est important de le faire savoir aux utilisateurs ainsi qu'à toute personne impliquée dans le processus de dépannage. Il en va de même pour les autres membres de l'équipe informatique. La documentation adéquate de la cause et de la résolution du problème permettra aux autres techniciens d'assistance d'éviter la répétition de problèmes similaires à l'avenir.