Pour atteindre les plus hauts niveaux d’autonomie, un des principaux défis rencontrés dans le développement de véhicules automatisés est d’exploiter les données de nombreux types de capteurs, dont chacun possède ses propres forces et faiblesses. Les techniques de fusion de données de capteurs sont largement utilisées pour améliorer la performance et la robustesse des algorithmes de vision artificielle. Des jeux de données comme PixSet permettent aux équipes de recherche et d’ingénierie d’utiliser des données de capteurs existantes pour tester et développer des logiciels de conduite autonome et réaliser des simulations, le tout sans avoir à assembler leur propre suite de capteurs et collecter leur propre jeu de données.
Le jeu de données PixSet contient 97 séquences pour un total d’environ 29 000 images obtenues au moyen de la suite de capteurs pour véhicules autonomes. Chaque image a été annotée manuellement avec des cadres englobants 3D sur les objets détectés. Les séquences ont été obtenues dans divers environnements et dans diverses conditions climatiques à l’aide d’un véhicule instrumenté (voir photo).
Enregistrées dans des zones urbaines canadiennes à haute densité, les scènes se déroulent dans des environnements urbains et de banlieue ainsi que sur autoroute, dans diverses conditions météorologiques (p. ex., temps ensoleillé, ciel couvert, pluie…) et d’éclairage (p. ex., jour, nuit, semi-obscurité…), et fournissent ainsi une grande variété de situations avec des données du monde réel pour la conduite autonome.
Ce nouveau jeu de données se distingue par l’utilisation d’un LiDAR flash avec un champ de vision horizontal de 180° et vertical de 16°, et l’inclusion des données brutes de forme d’onde LiDAR complète, en plus des habituels nuages de points des LiDARs mécaniques.
Les capteurs utilisés pour collecter le jeu de données sont énumérés ci-dessous. Montés sur une voiture, les caméras, les LiDARs et le radar sont placés l’un près de l’autre à l’avant de la voiture afin de minimiser l’effet de parallaxe. Les antennes GPS de l’unité de mesure inertielle (IMU) sont placées sur le toit du véhicule.
PointPillars a été implémenté sur PixSet et les résultats sont disponibles ici avec des métriques communes.
Pour en apprendre plus sur les fondements du jeu de données Leddar PixSet, accédez à l’article technique (white paper) disponible en version anglaise sur arXiv.org
Pour fin de citation ou référence au document, veuillez utiliser l’information suivante:
@misc{déziel2021pixset,
title={PixSet : An Opportunity for 3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset},
author={Jean-Luc Déziel and Pierre Merriaux and Francis Tremblay and Dave Lessard and Dominique Plourde and Julien Stanguennec and Pierre Goulet and Pierre Olivier},
year={2021},
eprint={2102.12010},
archivePrefix={arXiv},
primaryClass={cs.RO}
Les images ci-dessous donnent un aperçu des diverses scènes et conditions environnementales du jeu de données, avec des exemples de données des caméras (à gauche) et du LiDAR à 64 lignes (à droite) ainsi que des cadres 3D.
L’exemple d’image ci-dessous provient du jeu de données qui montre les vues des caméras, les données du LiDAR solid-state, et les cadres de détection d’objets avec des annotations.
Une attention particulière a été portée à la synchronisation et au déclenchement des différents capteurs. Ceci pour permettre d’uniformiser le temps d’échantillonnage des différents capteurs et les portions de la scène, tout en minimisant les incohérences avec les objets dynamiques.
Les coordonnées des cadres 3D annotés sont fournies dans le référentiel Pixell, mais il est facile de les reprojeter dans le référentiel de n’importe quel autre capteur avec les matrices de calibration et l’API fournies.
À chaque objet annoté correspond un ID unique, qui est commun d’une image à l’autre, ce qui permet le développement et l’analyse comparative d’algorithmes de suivi. De plus, pour chaque objet, des attributs complémentaires sont fournis, comme indiqué ci-dessous.
Tous les cadres d’objets ont une taille constante pendant la durée de la séquence, à l’exception des piétons, qui constituent un cas à part, leur forme pouvant varier d’une image à l’autre. La position des membres d’un piéton (bras et jambes) affecte la taille du cadre englobant. Par conséquent, le fait de rendre la taille du cadre englobant variable résout ce problème, tout en permettant une plus grande précision pour l’apprentissage et l’inférence.
Généralement une personne qui marche, se tient debout, est assise, etc. Un mannequin à apparence humaine est annoté comme piéton. Les bras et les jambes de la personne sont inclus à l’intérieur du cadre englobant. Si un piéton porte un objet (sac, etc.), ce dernier est inclus dans le cadre englobant. Noter que si deux ou plusieurs personnes portent le même objet, ce dernier est inclus dans le cadre englobant d’un seul piéton. De plus, chaque instance de piéton doit avoir l’attribut spécial « Activité humaine » comme expliqué plus bas.
Un vélo avec son conducteur. Le vélo et le conducteur sont tous les deux inclus dans le cadre.
Véhicule à deux roues, à propulsion humaine ou électrique, conçu pour se déplacer à des vitesses inférieures sur la chaussée, le trottoir ou une piste cyclable. Aucun cycliste n’est présent sur le vélo. Si un piéton marche à côté de son vélo, un cadre est prévu pour le piéton et un autre pour le vélo.
Zone ou dispositif destiné à garer ou sécuriser des vélos en rangée. Comprend tous les vélos qui y sont garés, et tous les emplacements vides destinés à accueillir un vélo. Les vélos qui ne font pas partie du support ne sont pas inclus, mais ils sont plutôt annotés comme vélos séparément.
Véhicule conçu principalement pour un usage personnel, p. ex., berline, voiture à hayon, VUS, camionnette personnelle (Ford F-150, par exemple), jeep, etc.
Véhicule à quatre roues, plus grand, avec des portes latérales coulissantes.
Autobus et navettes conçus pour le transport de plus de dix personnes. Pour les autobus articulés, chaque section est incluse dans un cadre séparé.
Grand véhicule conçu principalement pour le transport de marchandises. La totalité du véhicule et de son chargement sont inclus dans le cadre. Si le camion comprend deux parties (p. ex., camion de grande longueur), chaque section est incluse dans un cadre séparé.
Toute remorque destinée à des automobiles, motos, camions, etc. utilisée pour déplacer des objets (indépendamment du fait qu’ils sont actuellement remorqués ou non). La remorque et ce qu’elle transporte sont inclus dans le cadre. Par exemple, dans le cas d’un bateau sur une remorque, le bateau est inclus dans le cadre.
Train ou tramway. Chaque section rigide est incluse dans un cadre séparé.
Une moto avec son conducteur. La moto et le conducteur sont tous les deux inclus dans le cadre.
Véhicule à deux roues, à essence ou électrique, conçu pour se déplacer rapidement (à la vitesse d’une automobile standard) sur la chaussée. Cette catégorie comprend toutes les motos, les vespas et les scooters. Elle comprend également les véhicules légers à trois roues, souvent avec un toit en plastique léger et ouverts sur les côtés, comme on rencontre de plus en plus en Asie.
Véhicules conçus principalement pour la construction. Généralement très lents, voire stationnaires. Les grues et les extrémités des véhicules ou engins de chantier sont incluses dans les annotations seulement si elles gênent la circulation. Les camions utilisés pour le transport de roches ou de matériaux de construction entrent dans la catégorie des camions plutôt que des véhicules ou engins de chantier.
Tout véhicule qui n’entre dans aucune des autres catégories.
Généralement un panneau d’arrêt octogonal rouge. Le poteau n’est pas inclus dans le cadre.
Ensemble de feux conçus pour la gestion de la circulation. Comprend les feux destinés aux véhicules motorisés et non motorisés, comme les cyclistes et les piétons.
Tout panneau rétroréfléchissant pouvant être utile pour la navigation. Le poteau ou les publicités ne sont pas inclus dans le cadre.
Cônes or cylindres généralement utilisés pour la gestion temporaire de la circulation.
Tout type de borne d’incendie.
Tous les animaux, p. ex., chats, chiens, etc. (Pas les oiseaux de petite taille)
Toute barrière métallique, en béton ou autre mur d’eau temporairement placé dans la scène afin de rediriger la circulation automobile ou piétonne. Comprend, en particulier, les barrières utilisées sur les chantiers de construction. Si plusieurs barrières sont jointes ou placées les unes à côté des autres, elles sont annotées séparément.
Tout objet sur la route qui n’a pas été mentionné plus haut et sur lequel il serait dangereux de rouler.
TEXT
TEXT
Tous les cadres d’objets ont une taille constante pendant la durée de la séquence, à l’exception des piétons, qui constituent un cas à part, leur forme pouvant varier d’une image à l’autre. La position des membres d’un piéton (bras et jambes) affecte la taille du cadre englobant. Le fait de rendre la taille du cadre englobant variable résout ce problème, tout en permettant une plus grande précision pour l’apprentissage et l’inférence.
Pour chaque objet, un ID persistant est inclus.
Les objets complètement occultés sont ignorés, et les objets partiellement occultés sont annotés autant que possible (voir aussi « Nombre de points » plus bas). Les cadres occultés peuvent, également, être signalés. En plus de la position, des dimensions, de l’orientation et de la catégorie pour chaque cadre, on peut avoir un nombre représentatif du niveau d’occultation. Par exemple, un « 0 » signifie aucune occultation, « 1 » signifie que moins de la moitié de l’objet est occultée, et « 2 » signifie que plus de la moitié est occultée.
À ne pas confondre avec l’occultation, la troncature signifie qu’un objet est partiellement hors du champ de vision du LiDAR. Tout comme pour l’occultation, le niveau de troncature peut être spécifié séparément. « 0 » signifie que les 8 coins du cadre sont dans le champ de vision (occultés ou non). « 1 » signifie que moins de la moitié du cadre est en dehors (c.-à-d., au moins un coin est hors du champ de vision, mais le centre du cadre est dedans). Enfin, « 2 » signifie que plus de la moitié du cadre est hors du champ de vision (c.-à-d., le centre du cadre est en dehors, mais au moins un coin est dedans).
L’activité de chaque piéton peut être spécifiée comme suit :
L’activité de chaque véhicule (y compris les automobiles, fourgonnettes, autobus, camions, trains, motocyclistes, cyclistes, remorques ainsi que les véhicules ou engins de chantier et les véhicules non classifiés) peut être spécifiée comme suit :
Se déplace : le véhicule se déplace.
Pour chaque objet, l’indicateur « Vrai » ou « Faux » spécifie si l’objet se trouve sur la zone carrossable, celle-ci étant définie comme la zone de la chaussée où la circulation des véhicules est permise (c.-à-d., dans la plupart des cas, l’asphalte). Par contre, ceci exclut les stationnements, ainsi que les allées privées d’immeubles. Noter que cet attribut sera utile durant l’apprentissage et les tests, puisque les objets avec l’attribut « Sur la route » = « Vrai » seront les plus importants à détecter.
Un objet sans points LiDAR peut être étiqueté pour autant qu’il ait été étiqueté avec plusieurs points à l’intérieur du cadre dans une image précédente.
Details
L’API à code source libre fournit un accès facile aux jeux de données. De nombreuses méthodes de développement d’algorithmes habituelles sont disponibles : synchronisation ou interpolation des capteurs, compensation du mouvement propre du LiDAR, projection des données dans un référentiel spécifique (n’importe quel capteur ou référentiel mondial), nuages de points du Leddar Pixell ou projection « quad cloud », alignement des formes d’onde, gestion des annotations (cadres 2-3D et segmentation) et autres.
Vous pouvez installer l’API au moyen de pip install pioneer-das-api ou cloner le projet et contribuer.
Sur la base de cette API, nous fournissons également un visualiseur de jeu de données à code source libre : pip install pioneer-das-view.
Veuillez lire le Contrat de licence d’utilisation de jeu de données public. Les jeux de données sont fournis à des fins non commerciales, ce qui signifie qu’ils peuvent être utilisés à des fins de recherche, d’enseignement, de publication scientifique et d’expérimentation personnelle. Pour l’usage commercial des jeux de données, ce qui signifie dans un objectif visant principalement un avantage commercial ou une compensation monétaire, veuillez communiquer avec un représentant LeddarTech.