FAQ & Définitions

Nous essayons de tenir à jour sur cette page une FAQ et une liste de définitions. Si vous n’y trouvez pas la réponse à vos questions, posez celle-ci sur le forum collaboratif, ou bien contactez-nous à bonjour@substra.org ou via votre canal préféré.

 

Questions Fréquentes

Comment cette aventure a-t-elle démarré ?

Certains des premiers concepts à l’origine du framework Substra ont été imaginés au sein d’une précédente initiative collaborative de recherche appelée Morpheo. Dans un second temps un projet de recherche plus large a vu le jour, comprenant de multiples partenaires, et posant les bases de ce qui allait devenir le framework open source Substra. Ce projet, nommé Healthchain, a été élaboré entre mi-2017 et mi-2018 et obtenu le soutien financier de BPI France à travers le Programme d’Investissements d’Avenir (PIA) – Grands Défis du Numérique. Dans le cadre de Healthchain un consortium coordonné par Owkin (start-up privée) a été créé, incluant la Fondation Substra, Apricity (start-up privée), l’Assistance Publique des Hôpitaux de Paris (APHP), le Centre Hospitalier Universitaire de Nantes (CHU de Nantes), le Centre Léon Bérard (CLB), le Centre National de Recherche Scientifique (CNRS), l'École Polytechnique, l’Institut Curie et l’Université Paris Descartes.

 

Qui développe le framework Substra ?

Depuis Avril 2018 et jusqu’à présent l’équipe Substra d’Owkin à Nantes développe le framework Substra. Il est disponible depuis fin octobre 2019, sous licence open source Apache 2.0.

 

S'agit-il d'un projet logiciel uniquement ?

Le développement logiciel occupe une place centrale, mais souhaitons que l’initiative Substra soit plus vaste. Elle comprend également des travaux méthodologiques sur les collaborations en data science, la production de contenus autour du framework open source Substra, la participation à et l'animation de la communauté "data science responsable et de confiance", etc. Nous travaillons aussi à l’identification des enjeux spécifiques des collaborations multi-partenaires en machine learning et comment les aborder (par exemple, comment partager les revenus entre les data scientists et les fournisseurs de données et donc quelles sont les contributions relatives des différents jeux de données à la performance d'un modèle qui a été entraîné dessus - voir le repository distributed-learning-contributivity sur Github). Substra Foundation est au service de l’initiative open source, et est partie intégrante de projets de recherche tels que HealthChain et Melloddy.

 

Sous quelle licence le framework Substra sera-t-il distribué ?

Il est diffusé sous licence Apache 2.0.

 

Comment peut-on contribuer ?

Substra est une initiative collaborative et nous souhaitons accueillir les contributions de toute personne motivée et tout organisation intéressée. Fédérer une communauté vivante et dynamique est un objectif passionnant et crucial dans le contexte de cette initiative.

Vous pouvez aller voir directement les repositories Github, sur lesquels vous trouverez le guide de contributions, et le forum Discourse.

Contribuer à l'initiative et faire partie de la communauté ne concernent pas uniquement l’aspect software engineering. Toutes celles et ceux souhaitant participer d'une autre manière (contributions à la déssimination et à la communication, des évènements locaux / meetups, projets de recherche, etc.) sont bienvenues ! Nous vous invitons donc à parcourir la page Comment contribuer du site pour en savoir plus. Si vous êtes intéressé, et que vous avez une idée ou simplement des commentaires, nous serions ravis de les connaître. Contactez-nous sur le forum, à l’adresse suivante bonjour@substra.org ou sur le canal de communication de votre choix (vous trouverez les différentes options sur notre site dans l’onglet Contact).

 

 

Définitions

Hyperledger Fabric : Hyperledger Fabric est un des projets open source Hyperledger hébergés par la Fondation Linux. Il s'agit du framework de référence pour l’implémentation par les entreprises et organisations publiques de services basés sur des blockchains privées et permissionnées. Le framework Substra s'appuie sur Hyperledger Fabric et ses principaux composants (registre distribué, mécanismes d'identitification et d'authentification, smart contracts, protocole de consensus, etc.).

 

Distributed ledger : un registre distribué est un ensemble de données digitales reproduites, partagées et synchronisées géographiquement, distribuées entre divers partenaires. Pour opérer celui-ci il n’y a pas d'administration centrale ni de stockage de données centralisées. Un réseau pair-à-pair entre les partenaires est requis ainsi que des algorithmes de consensus de façon à assurer la reproductibilité à travers les noeux (membres) du réseau (source : Wikipedia, Juin 2019).

 

Trustless : Substra est un framework d’orchestration de tâches de machine learning que l'on peut qualifier de "trustless". Le terme trustless peut être ambiguë dans certaines circonstances. Dans notre conception, il doit être interprété comme "ne requérant pas a priori de contrat de confiance entre les organisations partenaires" : l’implémentation du code du logiciel permet aux parties de collaborer sans avoir à se faire confiance mutuellement. Techniquement le code assure que les actions et transactions seront exécutées en accord avec les règles définies au préalable. L’élément essentiel repose sur la "confiance dans le code" : cela peut ne pas paraître simple et un travail d’audit de code peut être nécessaire, mais cela reste cependant généralement moins difficile que de faire confiance à un plusieurs organisations indépendantes.

 

Privacy-preserving : le framework Substra est un outil visant à orchestrer des tâches de ML de manière "privacy-preserving" (le mot "privacy" se référant à la fois au respect de la confidentialité des jeux de données pour l’organisme qui les gère, mais également à la confidentialité des données personnelles pour les individus à l’origine de ces données). Il permet d’effectuer des tâches de ML sur des données qui restent immobiles, sans octroyer aux data scientists l’accès en lecture aux données. Cela doit être associé à des approches de "Privacy Enhancements Technologies" (renforcement de la confidentialité) sur les algorithmes de ML (exigences contractuelles, audit des algorithmes...) et des approches de pré-traitement des données (differential privacy, anonymisation de données personnelles...).

 

Orchestration de tâches de machine learning : dans des contextes où plusieurs parties collaborent au développement de modèles de ML, les différentes opérations (e.g. transfert d’algorithmes, entraînement, évaluation de modèles, prédictions, etc.) doivent être orchestrées dans le temps et dans l'espace des partenaires. Une telle orchestration se fait via un réseau connectant les parties et nécessitant une traçabilité complète de toutes les opérations, ainsi qu'une certification des identités des partenaires (entre autres). Le framework Substra permet le développement et la mise en œuvre d’applications ou de services nécessitant une telle orchestration sécurisée, traçable et distribuée.