Vastaa Viestiin

On est tous cousins : un méga-arbre généalogique collaboratif pour nous tous plutôt qu'un chacun?

ericdubois
male
Volunteer moderator
Viestit: 1217
Sukupuu: Graafinen
Tarkastele heidän sukupuutaan.
Merci @arktus. Permettez-moi d'élaborer les points 4 et 5.

4. Le nombre de personnes qui répètent la même erreur ne fait pas de cette erreur une vérité. J'ai souvent vu des erreurs se propager comme ça, surtout pour les ancêtres plus éloignés qui, par ce fait, ont un plus grand nombre de descendants et apparaissent dans de nombreux arbres.

5. Il y a des erreurs dans les actes. Les plus récents sont en général plus fiables. Et il y a des situations où il faut faire une interprétation. Le premier prénom utilisé dans un acte et le deuxième prénom ou un surnom dans un autre acte. Pas de date de naissance, nécessitant d'évaluer la probabilité d'une correspondance dans les registres de naissance/baptême (âge approximatif, nombre d'homonymes dans la région, présence de la personne ou de ses proches comme parrains ou témoins dans d'autres actes de la famille, etc.).

En se limitant à la règle des 120 ans pour éviter tous contemporains, nous avons en France environs un siècle d'actes d'état civil relativement détaillés et recherchés(3-4 générations), et deux ou trois siècles de registres BMS où la fiabilité varie grandement d'une paroisse à l'autre et selon le curé. Sans compter les religions minoritaires et les évènements hors des frontières.

glopglop
glopglop
Viestit: 2097
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
ericdubois kirjoitti:
29 Tammikuu 2020, 18:47
Je suis d'accord avec @glopglop. Même si le sujet demande une opinion sur un tel projet, il serait plus intéressant de discuter les problèmes logistiques d'un tel projet. Je me lance...

1. Sélection d'un point de départ. Quel arbre choisir pour y rattacher les autres?
2. Copier ou relier? Est-ce qu'on copie les données dans l'arbre collaboratif ou est-ce qu'on crée un lien vers la fiche de cette personne dans l'arbre d'un utilisateur (qui peut être modifiée ou disparaître à tout moment). Dans les cas où une personne existe dans plusieurs arbres, quelle fiche choisir?
3. Permission: faut-il obtenir l'autorisation des propriétaires des arbres avant d'intégrer leurs données dans l'arbre collaboratif?
4. Confirmation des correspondances: peut-on faire confiance aux algorithmes ou faut-il qu'un humain confirme chaque correspondance? Si une intervention humaine est requise, par qui et suivant quels critères?
5. Résolution de conflits: Comment choisir quelle interprétation des sources est plus valable qu'une autre?
6. Mises à jour: Les arbres des utilisateurs évoluent sans cesse. Est-ce que les modifications sont intégrées automatiquement ou d'abord analysées?
7. Gestion des contemporains.

On peut construire un arbre collaboratif "fiable" où chaque addition doit être justifiée (par un acte ou un raisonnement valable). Un tel projet avancerait lentement et nécessiterait un effort considérable de la part des collaborateurs. Ou on peut construire un arbre où toutes les informations sont acceptées automatiquement et les seules vérifications sont les algorithmes et ce que les utilisateurs ajoutent, avec ou sans preuves. Ce qui ressemblerait à FamilySearch.
Voici les reponses au differents points. je ne le fais pas dans l'ordre parce que certains points s enchainent plus facilement.
En preambule l'arbre ne serait pas public au depart mais seulement accessible a des volontaires desireux de travailler dessus.

3) normalement d'apres les CGU il ne devrait pas etre necessaire de demander l'autorisation. Mais j'imagine bien que cela risquerait de faire un tollé. Donc on demande l'autorisation au geneanaute ou geneanet modifie explicitement les CGU pour mettre en place un opt out. C'est a dire que le geneanaute accepte par defaut que ces données soit utilisées sauf avis explicite. Un peu comme les don d'organes.
2 ) il faut copier pour bien differencier les arbres individuels de l'arbre collectif.
1) on pourrait partir d'un arbre ayant obtenu le maximum d'etoile. Maintenant cet arbre va subir la comparaison avec les autres arbres donc au final on pourrait se retrouver a le depouiller de ses feuilles dans un cas extreme.
7 ) la gestion des contemporains n'est pas un probleme. Il faut juste la definir. Ce n'est pas un probleme technique mais un choix d'integration des données ou pas. C'est limite hors scope du projet.

On va passer aux points les plus interessants.
4) pour les correspondances il faut utiliser un algorithme de type intelligence artificielle ( machine learning et deep learning ) . Laisser faire la correspondance geneanet et analyser la prise decision humaine qui fait qu'on ecarte ou pas la correspondance. On construit un algorithme qui va permettre de discriminer et on enrichit cet algorithme avec des decisions humaines.
Au fur et a mesure la machine va affiner son algorithme pour prendre les meilleurs decisions comme le fait un humain par experience.

pour le point 5 c'est peu ou prou la meme chose.
mais c'est difficile d expliciter la forme de l'algorithme sans avoir acces aux données elle meme. on va faire l'apprentissage de l'algorithme en lui donnant a manger la forme des sources et des volontaires indiqueront si la forme de la source est correcte ou pas.
Au fur et a mesure l'algorithme saura voir les sources fantaisistes des sources plus serieuses.

pour le point 6 rien n interdit de remettre periodiquement en cause l'arbre universel en revenant dessus avec de nouvelles données.

Tout ceci dit il est evident que l'arbre au depart sera un peu fantaisiste mais avec l apprentissage cela devrait s'ameliore.
d'ou la periode privée au depart pour limiter la casse.

On est plus dans une projet de gestion de données qu'un projet genealogique en tant que tel
Cela serait vraiment un projet novateur pour geneanet
mais bon je crois que j'ai passe l'age de croire au pere noel :)
Developpeur du greffon GedcomforGeneanet pour GRAMPS
https://github.com/grocanar/GedcomforGeneanet
Sans aucun lien avec l'entreprise Geneanet que celui d’être un abonné premium comme les autres.

pelisson
pelisson
Viestit: 2275
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
glopglop kirjoitti:
30 Tammikuu 2020, 17:50
pour le point 5 c'est peu ou prou la meme chose.
mais c'est difficile d expliciter la forme de l'algorithme sans avoir acces aux données elle meme. on va faire l'apprentissage de l'algorithme en lui donnant a manger la forme des sources et des volontaires indiqueront si la forme de la source est correcte ou pas.
Au fur et a mesure l'algorithme saura voir les sources fantaisistes des sources plus serieuses.
Bonjour,
Je me suis déjà expliqué sur le projet de méga-arbre mais là, vos propositions techniques intéressent le béotien que je suis.
Vous expliquez donc que ce deep-learning pourrait permettre de mieux trier à l'intérieur des sources, c'est bien ça ?
Si c'est le cas, que c'est possible techniquement, la recherche ou les correspondances sur Généanet pourraient être bien plus fines !
J'enrage quand le moteur de recherche donne dans les premiers résultats "vu dans l'arbre d'untel", un tel algorithme permettrait d'avoir Untel comme 1er résultat, ce n'est pas toujours le cas.
Pelisson

ericdubois
male
Volunteer moderator
Viestit: 1217
Sukupuu: Graafinen
Tarkastele heidän sukupuutaan.
pelisson kirjoitti:
30 Tammikuu 2020, 18:06
J'enrage quand le moteur de recherche donne dans les premiers résultats "vu dans l'arbre d'untel", un tel algorithme permettrait d'avoir Untel comme 1er résultat, ce n'est pas toujours le cas.
L'exemple que vous donnez est en fait plus facile à réaliser. Il s'agit "simplement" de trier les résultats déjà obtenus par la correspondance. On peut simplement cataloguer chaque mot dans les sources ou les notes de chaque personne, comparer ces mots avec les noms d'utilisateur des autres résultats et si on trouve une correspondance, on met le résultat de cet utilisateur en premier.

Cette méthode n'utilise pas IA ou deep learning, simplement une analyse supplémentaire pour filtrer les résultats. Bien entendu, chaque analyse supplémentaire a un coût. Maintenant, avec un peu d'intelligence, le système peut comprendre la signification de "vu dans l'arbre" ou autre phrase utilisée, il pourra être plus précis. S'il y a des liens, avec l'apprentissage le système pourra reconnaitre quelles structures d'URLs sont jugés plus fiables que d'autres, si le lien pointe vers un acte ou un autre arbre, etc.

glopglop
glopglop
Viestit: 2097
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
pelisson kirjoitti:
30 Tammikuu 2020, 18:06
glopglop kirjoitti:
30 Tammikuu 2020, 17:50
pour le point 5 c'est peu ou prou la meme chose.
mais c'est difficile d expliciter la forme de l'algorithme sans avoir acces aux données elle meme. on va faire l'apprentissage de l'algorithme en lui donnant a manger la forme des sources et des volontaires indiqueront si la forme de la source est correcte ou pas.
Au fur et a mesure l'algorithme saura voir les sources fantaisistes des sources plus serieuses.
Bonjour,
Je me suis déjà expliqué sur le projet de méga-arbre mais là, vos propositions techniques intéressent le béotien que je suis.
Vous expliquez donc que ce deep-learning pourrait permettre de mieux trier à l'intérieur des sources, c'est bien ça ?
Si c'est le cas, que c'est possible techniquement, la recherche ou les correspondances sur Généanet pourraient être bien plus fines !
J'enrage quand le moteur de recherche donne dans les premiers résultats "vu dans l'arbre d'untel", un tel algorithme permettrait d'avoir Untel comme 1er résultat, ce n'est pas toujours le cas.
Pelisson
Bonjour
Je vais faire des mega approximations j espere que les puristes me pardonneront.
en fait l'algorithme mimetise ce que fait le cerveau humain sans vraiment s en rendre compte.
quand vous voyez le libelle d'une source vous l'evaluez par certains criteres.
IL y a non seulement l intitule de la source , sa forme , l'arbre qui la contient , l'information qu'elle source.
Vous avez acquis une certaine experience dans cette evaluation en ayant verifie vous meme l information en croisant d'autres sources.
C'est exactement ce qu'il faut faire avec l'algorithme.

pour les plus courageux un petit lien sur les reseaux de neurones qui expliquent plus en détail le principe.

https://fr.wikipedia.org/wiki/R%C3%A9seau_de_neurones_artificiels
Developpeur du greffon GedcomforGeneanet pour GRAMPS
https://github.com/grocanar/GedcomforGeneanet
Sans aucun lien avec l'entreprise Geneanet que celui d’être un abonné premium comme les autres.

pelisson
pelisson
Viestit: 2275
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
Bonjour,
Purée mais quand on vous lit, ça n'a pas l'air d'être si compliqué alors pourquoi Généanet ne le fait pas ? C'est le coût ?
Pelisson

treb15
male
Modérateur bénévole
Viestit: 3108
Sukupuu: Graafinen
Tarkastele heidän sukupuutaan.
Bonjour,
pelisson kirjoitti:
31 Tammikuu 2020, 15:05
Bonjour,
Purée mais quand on vous lit, ça n'a pas l'air d'être si compliqué ...
Pelisson

Un début d'explication est déjà dans la réponse précédente :
glopglop kirjoitti:
31 Tammikuu 2020, 08:47
Je vais faire des mega approximations j espere que les puristes me pardonneront.
Penser et visualiser un "système", n'est pas la même chose que le mettre réellement en œuvre.

P.S. : je ne juge pas de la faisabilité ;)
Modérateur bénévole

:idea: Vous avez besoin d'aide, la réponse est peut-être dans un de ces articles :arrow: https://www.geneanet.org/aide/

:idea: Vous avez besoin d'aide concernant le service Geneanet ADN :arrow: https://www.geneanet.org/adn/aide/
.

ericdubois
male
Volunteer moderator
Viestit: 1217
Sukupuu: Graafinen
Tarkastele heidän sukupuutaan.
Le principe est simple mais la mise en place est plus compliquée. Le coût principal, après la mise en place initiale, est une augmentation énorme du nombre de calculs effectués pour analyser les données.

Une base de donnée comme Geneanet comporte deux parties: les données elles-mêmes et le traitement de ces données. Le point faible est souvent la qualité des données. Ce système permettrait d'évaluer la qualité des données.

Même si un tel système n'est pas utilisé pour créer un méga-arbre, il permettrait d'avoir des meilleurs résultats de correspondances.

glopglop
glopglop
Viestit: 2097
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
Bonjour

je n'ai jamais dit ni sous entendu que c'etait simple.
C'est meme peut etre un cul de sac dont il ne sortira rien.

mais c'est la mise au point des algorithme et des procedures de validation qui serait interessante dans le projet.

mais au moins au debut cela generera beaucoup de frustration pour les personnes uniquement interessé au resultat.
Developpeur du greffon GedcomforGeneanet pour GRAMPS
https://github.com/grocanar/GedcomforGeneanet
Sans aucun lien avec l'entreprise Geneanet que celui d’être un abonné premium comme les autres.

bretoncreole
male
Viestit: 472
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
Bonsoir,

Il y a Wikitree mais c'est un site anglophone.

Cordialement

D. Q.

ericdubois
male
Volunteer moderator
Viestit: 1217
Sukupuu: Graafinen
Tarkastele heidän sukupuutaan.
bretoncreole kirjoitti:
04 Helmikuu 2020, 22:24
Il y a Wikitree mais c'est un site anglophone.
J'ai fait une comparaison de mon arbre avec Wikitree (via MyHeritage) et, à quelques exceptions près (France GALL et ses ancêtres), toutes les correspondances sont dans les branches nord américaines (US et Canada).

Le système de gestion est moins strict que Nos Origines mais plus que FamilySearch. Il permet d'envoyer un GEDCOM et de le comparer avec l'arbre unique (https://www.wikitree.com/wiki/Help:Fr:GEDCOMpare) et d'ajouter ou modifier les profils au cas par cas.

PS: le site est anglophone mais les pages d'aide principales ont été traduites en français.

glopglop
glopglop
Viestit: 2097
Sukupuu: Ei-graafinen
Tarkastele heidän sukupuutaan.
le souci c'est que la gestion de wikitree est manuelle.

Cela n'est pas tres novateur.
Developpeur du greffon GedcomforGeneanet pour GRAMPS
https://github.com/grocanar/GedcomforGeneanet
Sans aucun lien avec l'entreprise Geneanet que celui d’être un abonné premium comme les autres.

Vastaa Viestiin

Palaa sivulle “Projets contributifs”