Au milieu de l'urgence, la création d'une base de donnée pour nourrir l'intelligence artificielle

Date de publication :

02/04/2020

Tous les articles

Décret n° 2020-356 du 27 mars 2020 portant création d'un traitement automatisé de données à caractère personnel dénommé « DataJust »

EDIT : Décision sur QPC du Conseil Constitutionnel du 3 avril 2020

Un étonnant décret créant une nouvelle base de données en pleine urgence sanitaire

L’urgence sanitaire à laquelle le pays fait face, outre son impact humain et social a donné lieu à un bouleversement juridique et institutionnel mettant entre les mains du gouvernement l’ensemble des pouvoirs pour le temps de la crise et instaurant des restrictions inédites aux libertés publiques.

Il est tout à fait étonnant, en ce moment historique, de lire la publication au Journal Officiel du 29 mars 2020 d’un décret du Premier Ministre portant création d’un traitement de données à caractère personnel dénommé « DataJust ». Ce qui n’a pas manqué de créer un certain émoi jusqu’au sein de la profession d’avocats|.

Ce projet est l’un des avatars d’une grande initiative lancée par le Président de la République en 2016 et montée en puissance en 2018 et 2019, le Groupement d’Intérêt général, structure finançant l’association de chercheurs privés aux projets du gouvernement.

Le projet DataJust semble avoir vu le jour en 2017, à l’occasion du Projet de réforme de la Responsabilité Civile et répond à deux objectifs : d’une part trouver une solution à l’absence problématique de référence objective consensuelle en matière d’évaluation du préjudice corporel qui aboutit à des disparités de traitement selon les juridictions appelées à statuer et, d’autre part, à l’obsession gouvernementale pour la dématérialisation et l’automatisation des processus dans une quête effrénée de gain de productivité au sein de son administration (produire plus avec moins de personnel).

Si les différents acteurs de la chaîne judiciaire, dont les avocats, arrivaient à s’accommoder, bon gré mal gré, de l’absence de référentiel objectif par la connaissance directe de l’activité et de la jurisprudence des juridictions ; la situation actuelle apparait de plus en plus problématique au fur et à mesure du développement par le secteur privé (dont des avocats ou d’anciens magistrats encouragés à réorienter leurs activités vers des domaines plus rentables) d’outils de traitement informatiques permettant de dégager des tendances statistiques et probabilistes d’un niveau de pertinence jamais connu auparavant.

Ces outils procèdent par analyse de quantités gigantesques de jugements, échappant aux capacités humaines de traitement. Ils sont développés par des sociétés privées qui gardent jalousement le secret des traitements effectués et des processus leur permettant de produire ces résultats.

L’accès à ces outils (qui peut présenter un coût hors de proportion avec les ressources d’un intervenant isolé) donne à leurs utilisateurs un avantage comparatif important dans le processus de détermination de la valeur économique du préjudice subi par la victime.

On ne peut que saluer la volonté de l’État de ne pas dépendre de ces solutions techniques et de travailler à la construction d’un outil indépendant, ayant vocation à devenir une référence objective face à la prolifération des initiatives privées et opaques.

Au delà, on ne peut qu’espérer que cet outil de référence sera suffisamment transparent pour permettre aux intervenants de la chaîne judiciaire du préjudice corporel d’en comprendre le fonctionnement et de pouvoir le soumettre à un examen critique permettant d’évaluer sa pertinence au regard de chaque cas particulier.

On notera cependant que cette transparence ne fait, pour l’heure, pas l’objet d’engagement concret du gouvernement comme la mise à disposition publique des sources de l’algorithme, ce qui est, pour le moins, regrettable. Il est difficile d’imaginer que l’État mette en place un outil de chiffrage automatisé dont le mécanisme ne serait pas ouvert à la vérification de tous.

Il faut noter que par une Décision n°2020-834 du 3 avril 2020 le Conseil Constitutionnel vient de réaffirmer que les dispositions de l'article 15 de la déclaration des droits de l'homme et du citoyen imposent un haut niveau d'exigence à l'administration s'agissant de la transparence de ses décisions et de la communication au public des critères sur lesquels elles reposent.

Le Conseil Constitutionnel a ainsi jugé que pour le système PARCOURSUP, les établissements d'enseignement supérieur ne pouvaient s'abriter derrière le secret des délibération pour ne révéler qu'aux candidats malheureux, après délibération, ces critères.

Il enjoint les établissements supérieurs de publier, à l'issue de la procédure nationale de pré-inscription, "les critères en fonction desquels les candidatures ont été examinées et précisant, le cas échéant, dans quelle mesure des traitements algorithmiques ont été utilisés pour procéder à cet examen".

On peut penser que c'est la même logique qui imposera au projet DataJust la clarté des traitements algorithmiques utilisés dès lors qu'ils auront vocation à participer au processus de décision juridictionnel.

Techniquement, la construction d’un algorithme complexe de traitement massif de données passe par l’auto-amélioration du processus de traitement par « entrainement ».

Pour résumer, les processus qui concourent à ce qu’on appelle communément « l’intelligence artificielle » ne consistent pas, comme dans l’algorithmie « classique » à appliquer une série de traitements prédéterminés à des données entrées pour obtenir des données en sortie, mais à automatiser l’intégration de la pertinence des résultats obtenus en sortie pour modifier le traitement des données suivantes.

Chaque traitement de donnée effectué par le programme informatique va légèrement modifier le traitement suivant en intégrant la pertinence du résultat précédent.

Ainsi l’algorithme nourri d’assez d’exemples de jugements associant des données d’entrée (les données du litige) à des données de sortie (le montant alloué à la victime sur les postes de préjudice) va, à force d’essais, pouvoir « deviner » le résultat de sortie le plus probable correspondant à une ou plusieurs données entrées.

L’algorithme ne pourra cependant pas justifier son résultat par une formule de corrélation algébrique entre la donnée d’entrée et la donnée de sortie. Le résultat qu’elle fournira ne reposera que sur la probabilité dégagée par les milliards d’opération de test qui auront été effectués préalablement par l’algorithme.

Un humain se trouvera donc dans l’incapacité de retracer le chemin logique qu’a suivi la machine pour aboutir au résultat. Il pourra par contre vérifier que ce résultat est cohérent par rapport aux jugements déjà rendus en le comparant à des tests aléatoire sur la base fournie.

C’est ainsi qu’une machine peut battre un champion d’échec ou de go, sans que l’on puisse savoir pourquoi elle a considéré que tel coup était meilleur qu’un autre pour arriver à la victoire.

Le paradigme prédictif en matière de traitement de données judiciaire est que si le processus fonctionne sur les données comprises dans la base des données passées, il a de grande probabilités de fonctionner également sur les décisions futures dès lors que les conditions déterminant le jugement demeurent constantes (c’est à dire l’hypothèse d’un droit constant sur une période suffisamment longue).

Construire une machine de ce type nécessite donc une phase d’apprentissage au cours de laquelle le processus mécanique va procéder à des milliards de tests afin de sélectionner les processus de tests pertinents.

C’est cette phase d’apprentissage de l’algorithme que souhaite mettre en œuvre le gouvernement et que le décret en cause encadre.

Dans le cas du projet Datajust, l’outil est censé produire un programme qui permettrait d’indiquer des valeurs probables de postes de préjudices alloués par le juge en fonction des données fournies à la justice par les parties.

Ces valeurs seront considérées tout à la fois comme le reflet statistique de l’activité judiciaire passée et la projection probable de celle à venir.

Ce décret constitue donc une étape liminaire du long travail qui devra être mené avant d’aboutir à un outil à la fois pertinent, fonctionnel et respectueux de la protection des données personnelles.

Le décret n’aborde par les modalités de fonctionnement de l’algorithme lui-même (notamment le processus d’identification et de numérisation des critères d’entrée), encore moins de son utilisation finale (dont la question de la valeur normative des informations produites). Il ne fait qu’encadrer la constitution de la base de données sur laquelle s’exercera le processus d’apprentissage de l’algorithme.

On est encore loin de l’instauration d’un barème d’indemnisation des préjudices corporels.

La mise en application concrète du RGPD à un algorithme complexe de traitement massif de données

Ce Décret mérite cependant une certaine attention car il constitue une première tentative d’encadrement concret de la mise en œuvre de tels traitements algorithmiques par les normes protectrices de données personnelles.

Les finalités du traitement

L’article 1 du Décret autorise le Garde des sceaux à mettre en œuvre un traitement automatisé de données à caractère personnel ayant pour finalité le développement d’un algorithme « devant servir » à :

réaliser des études rétrospectives et prospectives en matière en « matière de responsabilité civile ou administrative » ;
Elaborer un barème de référence indicatif d’indemnisation des préjudices corporels ;
Informer les parties pour les aider à évaluer le montant des indemnisations à laquelle elles peuvent prétendre pour favoriser les règlements amiables ;
Informer les juges appelés à statuer sur des demandes d’indemnisation de préjudice corporel.

Le décret entend préciser les conditions permettant à ces traitements d’être conformes aux dispositions de la réglementation européenne sur la protection des données à caractère personnel, récemment introduite dans le droit national.

Cela permet, à tout le moins, d’éclairer les objectifs que le gouvernement vise avec le développement de cet algorithme de traitement des données judiciaires.

Il veut à la fois en faire un outil d’analyse de l’action judiciaire et de prospective pour les services de l’État, mais encore, et surtout, à établir un barème de référence pour les intervenants du processus d’indemnisation des préjudices corporels.

Le gouvernement espère que la pertinence de l’algorithme et sa reconnaissance institutionnelle inciteront les parties impliquées dans ces processus à éviter de mobiliser les moyens du système judiciaire pour les résoudre.

Ce premier article a donc le mérite, par la déclaration des finalités du traitement, de mettre en lumière son objectif essentiellement budgétaire de diminution du coût de l’intervention étatique dans l’encadrement de l’indemnisation des préjudices corporels.

La déclaration des données personnelles concernées

L’article 2, respectant au plus près l’esprit de la réglementation RGPD vient encadrer et définir quels jugements qui seront intégrés dans la base de travail de l’algorithme et les données personnelles qui y seront traitées.

On notera une légère confusion du gouvernement entre la définition des données pouvant constituer la base elle-même (certains jugements expurgés de certaines mentions) et les données personnelles de cette base qui pourront être utilisées par l’algorithme.

Sous cette réserve, il est remarquable que le gouvernement prenne le soin de définir, avant toute mise en œuvre des traitements, les informations que les responsables de traitement de données doivent faire figurer dans le registre prévu à l’article 30 du RGPD, qui n’en impose pourtant pas la publicité.

La base de donnée destinée à entraîner l’algorithme Datajust est constituée de l’assemblage des bases de données judiciaires et administratives existantes (limitée à 3 années de jurisprudence). Ces bases sont elle-même constituées des jugements publics occultés des noms et prénoms des personnes physiques ainsi que de « tout élément permettant d’identifer les parties, les tiers, magistrats et les membres du greffe » lorsque cette divulgation est de nature à porter atteinte à la sécurité ou au respect de leur vie privée ou leur entourage.

On pourrait penser ainsi qu’il n’y aurait pas besoin d’un acte réglementaire supplémentaire pour faire travailler un algorithme sur une base constituée de la réunion de ces deux sources.

L’avis rendu par la CNIL sur le projet de décret expose pourtant très pédagogiquement les enjeux de protection de la vie privée que pose le traitement massif des informations contenues dans un si grand nombre de jugements.

Il faut saluer la pédagogie et le sérieux de l’analyse de la commission sur les gardes-fous nécessaires au traitement massif de ces données, surtout lorsque ce traitement est destiné à nourrir l’apprentissage de processus mécaniques visant à produire la norme judiciaire de référence. Encore plus lorsque l’on sait la finesse de recherche que peuvent atteindre ces algorithmes.

L’introuvable droit d’information, d’accès et de rectification aux données traitées

On voit cependant aux dispositions finales de ce décret les problématiques posées par l’ampleur des garanties prévues par le RGPD lorsqu’on essaie de les appliquer à un ensemble de décisions judiciaires rassemblant des millions de données personnelles.

Ainsi, un des droits garantis par le RGPD est le droit d’information des personnes dont les données sont traitées de leurs droits à l’égard du responsable du traitement.

Le gouvernement se trouve ainsi dans l’obligation de rendre largement inapplicable ce droits en dispensant l’État d’informer individuellement l’ensemble des personnes (tous ceux dont une donnée personnelle figure dans la base de données).

Le gouvernement n’a cependant pas repris la recommandation faite par la CNIL que le décret prévoit une information générale délivrée par le Ministère et notait l’engagement pris de délivrer une information spécifique aux mineurs.

Par ailleurs, il serait prévu que les greffes informent les justiciables des traitements qui pourraient être faits des données personnelles qui figureront dans le jugement.

On ne peut que regretter que ni la recommandation de la CNIL, ni l’engagement rappelé par l’avis n’aient été repris expressément par le décret.

A défaut de les voir mises en place, on peut douter que le traitement envisagé soit considéré conforme aux dispositions de l’article 14-5-b du RGPD dès lors que la CNIL a identifié dans son avis des mesures appropriées pour protéger ce droit et qu’elles ne seraient pas mises en œuvre.

Ce que révèle le Décret de l’écart entre l’idéal réglementaire et la réalité

Quoiqu’il en soit, ce décret est surtout l’occasion de poser la question de l’application des nécessaires garde-fou qui y sont prévus en dehors des services de l’Etat.

En effet, à suivre l’avis de la CNIL et la procédure suivie par le gouvernement, la réglementation RGPD a vocation à s’appliquer de la même manière aux traitements utilisés par l’ensemble des éditeurs qui développent des solutions de recherche sur les bases de données jurisprudentielles.

Au delà de l’encadrement des données elle-même, le processus d’apprentissage, puis de fourniture de résultats à partir d’un algorithme stabilisé font partie des traitements qu’il conviendrait que chaque éditeur puisse exposer clairement et loyalement aux personnes dont les données sont traitées.

Cela risque d’être difficile dans un secteur ou le secret de fabrication des algorithmes constitue une grande part de la valeur de marché des solutions proposées.

Ainsi la méthode de développement choisie pour la base de donnée Datajust, illustre assez bien le fossé entre les exigences de protection mises en place dans notre réglementation et la réalité de ce que le secteur économique en respecte de lui-même.

Le respect de la protection des données personnel, pour essentiel qu’il soit à la protection de la vie privée, engendre ainsi des contraintes fortes sur la production des services algorithmiques.

A défaut d’imposer les même contraintes aux solutions produites par le marché privé, la solution que tente de bâtir le gouvernement se heurtera à la concurrence faussée du marché privée qui risque d’habituer les acteurs à l’utilisation de produits bien moins respectueux de la protection des données personnelles.

On peut légitimement craindre que certaines contraintes techniques posées par le décret rende illusoire que le projet DataJust aboutisse à un algorithme aux performances comparables à ce qu’est déjà capable de produire le secteur privé.

On peut ainsi se demande ainsi à quel objectif répond la limitation à 3 années de jurisprudence pour constituer la base d’apprentissage de l’algorithme. En pratique elle va grandement limiter la pertinence des résultats.

De même, s’il est louable de ne faire travailler l’algorithme que sur un corpus de textes limité par ses finalités, définir cette limite par une phrase aussi floue que « les seuls contentieux portant sur l’indemnisation des préjudices corporels » sans renvoyer à une référence formelle est aussi absurde que la limitation de la licence JSON interdisant son utilisation pour faire le mal...

Le respect du texte adopté nécessiterait que chaque décision des bases jurisprudentielles judiciaires et administratives soient analysées pour déterminer si elle relève ou non d’un contentieux de ce type, ce qui devrait soit relever d’une analyse humaine, soit d’un processus de tri algorithmique qu’il aurait été pertinent de préciser dans le cadre du décret…

Le gouvernement apprend à marcher en tombant, il lui revient de rapidement compléter son dispositif afin d’engager la seconde étape : celle de l’évaluation du fonctionnement de l’algorithme, de la définition des catégories de données et surtout des biais de traitement identifiés, comme le rappelle la CNIL dans son avis.

On le voit, le processus est encore très long d’ici à ce que soit réunies les conditions de la création d’un barème indicatif de préjudice corporel ou d’un accès à des simulations individualisées sur la base de ces algorithmes.

C’est néanmoins le seul chemin possible pour en garder le contrôle collectif dans le cadre de la régulation institutionnelle actuelle.

La longueur et la difficulté du chemin devrait inciter le gouvernement, au lieu de brûler les étapes en publiant son décret en pleine urgence sanitaire, à se donner les moyens de contrôler les opérateurs privés qui procèdent à des traitements obéissant aux mêmes finalités.

A force de laisser ce fossé se creuser, il ne sera pas surprenant d’entendre une ritournelle familière qui comparera les pauvres résultats du processus de construction publique, corseté de pesanteurs réglementaires et le dynamique secteur privé fournisseur d’outils plus efficaces et moins chers...