La vision par ordinateur (computer vision) regroupe les techniques permettant à un système informatique d'analyser des images ou vidéos : détection d'objets, segmentation, classification, suivi, reconnaissance faciale, estimation de pose. Les modèles de référence en 2026 — YOLOv9/v10, Detectron, SAM (Segment Anything), DINO — sont issus du deep learning et entraînés sur des millions d'images annotées. Distincte des LLM multimodaux qui « voient » de manière généraliste, elle vise la précision pixel et la performance temps réel.
Cas d'usage business sérieux : contrôle qualité automatique en industrie (détection de défauts sur ligne de production, < 50 ms par image), comptage de personnes en retail ou hôtellerie, suivi de flux en logistique, inspection de chantier en BTP (sécurité, EPI, conformité), reconnaissance de plaques, surveillance et anomalies. Précision typique après fine-tuning sur dataset métier : 95-99 % sur tâches bien cadrées. Le coût se concentre sur l'annotation initiale (10-50K€ pour un dataset propre) et l'inférence GPU.
Quand utiliser un modèle spécialisé vs un LLM multimodal ? Spécialisé quand on a besoin de temps réel (ligne de production, vidéo live), de très haute précision sur des défauts subtils, de coût d'inférence très bas à grande échelle, ou de fonctionnement offline. LLM multimodal quand le volume est faible, qu'on veut du raisonnement contextuel (« cette image montre-t-elle un risque de chute ? »), ou pour de l'OCR intelligent sur documents. En pratique on combine souvent les deux : YOLO pour détecter, LLM pour interpréter et générer un rapport. Pour cadrer un projet vision, on commence par un audit IA gratuit.
Vision par ordinateur : quand c'est rentable
- Volume de contrôle qualité > 10 000 unités/jour — l'humain devient le goulot d'étranglement.
- Tâches répétitives où l'œil humain fatigue (inspection, surveillance) — la vision IA tient la régularité.
- Mesures objectives à prouver (conformité réglementaire, traçabilité) — la vision logge tout.
- Hors industrie, ROI plus difficile : le LLM multimodal suffit souvent.
