Les Reseaux de Neurones
Comment une machine apprend-elle a reconnaitre des chiffres ?
Decouvrez pas a pas le fonctionnement des reseaux de neurones artificiels, de la cellule biologique jusqu'a l'apprentissage automatique. Completez les 6 defis interactifs pour tester vos connaissances.
Commencer ↓01Le Neurone
Le cerveau humain contient environ 86 milliards de neurones. Chaque neurone recoit des signaux electriques par ses dendrites, les traite dans son corps cellulaire, et transmet le resultat via son axone.
Un neurone artificiel fonctionne sur le meme principe : il recoit des entrees numeriques, les combine mathematiquement, et produit une sortie. C'est la brique de base de tous les reseaux de neurones.
La difference ? Un neurone artificiel est une simple formule mathematique que l'on peut calculer en quelques nanosecondes.
02Poids et Biais
Chaque connexion entre neurones a un poids (weight) qui determine l'importance du signal. Un poids eleve signifie que l'entree a beaucoup d'influence sur la sortie.
La formule est simple :
Le biais (b) permet de decaler le seuil d'activation. Pensez-y comme un reglage de sensibilite.
Essayez les curseurs pour voir comment chaque parametre influence la sortie !
Ajustez les poids et le biais pour que la sortie z = 10 (tolerance ±0.5)
03Fonction d'Activation
Si un neurone ne faisait que des sommes, empiler des couches ne servirait a rien : le resultat resterait une simple formule lineaire.
Les fonctions d'activation introduisent de la non-linearite, ce qui permet au reseau d'apprendre des patterns complexes.
Les trois fonctions les plus courantes :
- Step : Tout ou rien. Si z ≥ 0, sortie = 1, sinon 0.
- Sigmoid : Sortie douce entre 0 et 1. Utile pour les probabilites.
- ReLU : Si z ≥ 0, sortie = z, sinon 0. La plus utilisee aujourd'hui.
Passez la souris sur le graphe pour voir la valeur de sortie.
Pour chaque cas, choisissez la bonne fonction d'activation :
04Un Neurone Classifieur
Avec seulement 2 entrees, un neurone peut separer un espace 2D en deux regions : c'est une frontiere de decision.
La droite de decision est definie par : w1·x + w2·y + b = 0
Testez avec des donnees lineaires (deux groupes separes), puis essayez le mode cercle : un seul neurone ne peut pas tracer une frontiere circulaire ! C'est la raison pour laquelle on a besoin de plusieurs couches.
Cliquez sur Entrainer pour lancer l'algorithme du perceptron.
Atteignez 100% de precision sur les donnees lineaires, puis observez les limites du neurone sur les donnees circulaires.
05Les Couches
Un seul neurone ne peut tracer qu'une frontiere lineaire. Pour resoudre des problemes complexes, on empile des neurones en couches.
Un reseau typique a :
- Couche d'entree : recoit les donnees brutes
- Couches cachees : extraient des caracteristiques de plus en plus abstraites
- Couche de sortie : produit la prediction finale
Construisez votre propre reseau et observez les signaux se propager !
Construisez un reseau avec 3 couches cachees et au moins 12 neurones au total, puis lancez une propagation.
06La Puissance des Couches
En section 4, un seul neurone n'a pas pu separer le cercle. Maintenant, avec plusieurs couches, observons la difference !
Le reseau ci-contre a 2 entrees, deux couches cachees de 6 neurones chacune, et 1 sortie.
Cliquez sur Entrainer pour lancer l'apprentissage par retropropagation. Observez comment la frontiere de decision se courbe progressivement pour entourer le cercle !
C'est la non-linearite des couches cachees qui permet de tracer des frontieres complexes.
07Propagation Avant
Voici comment les donnees traversent un petit reseau 2-2-1 (2 entrees, 2 neurones caches, 1 sortie).
A chaque etape :
- On multiplie chaque entree par son poids
- On fait la somme et on ajoute le biais
- On applique la fonction d'activation (ReLU)
Suivez le calcul etape par etape, ou essayez de calculer vous-meme avant la correction !
Calculez vous-meme ! Entrez le resultat de chaque etape avant la correction.
08L'Apprentissage
Au depart, les poids sont aleatoires : le reseau fait n'importe quoi. L'apprentissage consiste a ajuster les poids pour minimiser l'erreur.
Imaginez un paysage montagneux : l'altitude represente l'erreur, et les axes representent les poids. L'objectif est de trouver le point le plus bas.
La descente de gradient fonctionne comme une bille qui roule vers le bas : a chaque pas, on calcule la pente et on avance dans la direction opposee.
Le taux d'apprentissage controle la taille des pas : trop grand = oscillations, trop petit = convergence lente.
Faites descendre l'erreur en dessous de 0.1 en moins de 50 iterations. Choisissez bien votre point de depart (clic) et votre taux d'apprentissage.
Recapitulatif
Unite de calcul : entrees, poids, somme, activation.
Parametres qui controlent l'importance de chaque entree.
Non-linearite qui permet d'apprendre des patterns complexes.
Un neurone trace une frontiere de decision dans l'espace.
Empiler des neurones pour resoudre des problemes complexes.
Plusieurs couches permettent de tracer des frontieres non-lineaires.
Les donnees traversent le reseau couche par couche.
Descente de gradient pour minimiser l'erreur.