Quand pensez-vous avoir la version française? Elle m’intéresse.
MyHeritage lance Book Matching
- De Elisabeth


Nous sommes ravis d’annoncer la sortie d’une nouvelle technologie révolutionnaire : Book Matching, qui est peut-être notre meilleure technologie à ce jour. Book Matching recherche automatiquement les individus trouvés dans les arbres généalogiques sur MyHeritage dans notre vaste collection de livres historiques numérisés. Unique à MyHeritage, cette nouvelle technologie innovante utilise l’analyse sémantique pour comprendre chaque phrase dans chaque page des livres numérisés, afin de trouver des correspondances avec une très grande précision. Book Matching a déjà produit plus de 80 millions de nouvelles correspondances pour nos utilisateurs ! Chaque correspondance est un paragraphe d’un livre portant spécifiquement sur la personne dans l’arbre généalogique, offrant un accès direct à ce paragraphe et la possibilité de naviguer dans le reste du livre.
Avec Book Matching, vous découvrirez des informations fascinantes que vous ne trouveriez pas autrement. Vous pouvez même découvrir de nouveaux parents et ancêtres. Utilisez ces informations pour élargir et enrichir votre arbre généalogique.
Nous avons lancé SuperSearch ™, notre moteur de recherche des données historiques, en 2012. En décembre 2015, la collection des livres historiques numérisés a été ajoutée à SuperSearch ™. Très récemment, nous avons triplé le nombre des livres dans la Compilation des sources publiées de 150000 à 450000 livres, avec un total de 91 millions de pages. Nous avons réuni une équipe de conservateurs qui travaillent dur et nous prévoyons d’ajouter chaque année à la collection des centaines de millions de pages supplémentaires de livres numérisés.
Le défi
Les livres ont toujours été l’une des meilleures sources pour la recherche sur l’histoire familiale, mais les rechercher efficacement était presque impossible. Même lorsque les livres sont photographiés et convertis en texte numérique consultable, en utilisant la reconnaissance optique de caractères (OCR), il faut beaucoup de temps et de volonté pour parcourir les innombrables faux positifs. Par exemple, si vous aviez un Richard Thomas dans votre arbre généalogique, faire une recherche de texte dans les livres trouvait des résultats pour les personnes s’appelant Richard ou Thomas, sans distinguer un prénom d’un nom de famille. Même si un Richard Thomas était trouvé, ce n’était probablement pas celui que vous recherchiez. Il était très difficile de trouver le Richard Thomas que vous cherchiez, ce Richard Thomas né en Normandie dans les années 1940 qui avait épousé une Claudine Gauthier.
Book Matching à la rescousse
Notre technologie Book Matching surmonte ces difficultés en appréhendant automatiquement les récits décrivant les personnes dans les livres historiques, y compris les noms, les événements, les dates, les lieux et les relations, en les faisant correspondre avec une très grande précision et rapidité avec les 2 milliards de personnes dans les arbres généalogiques sur MyHeritage ; et ceci est répété automatiquement au fur et à mesure que vous agrandissez votre arbre et que nous ajoutons de nouveaux livres.
Une tâche ardue en toute simplicité
Extraire des informations généalogiques de livres n’est pas une tâche simple. Dans des documents structurés, tels que les certificats de naissance ou des fiches de recensement, nous savons clairement quel type d’information est présenté. Il est clair où trouver les noms de famille, les dates de naissance, et ainsi de suite. En revanche, dans les données en texte libre non structurées, comme les livres historiques numérisés, des faits tels que les dates de naissance, les lieux et dates de décès peuvent être rédigés en de nombreuses façons différentes et dans des contextes différents et les informations n’apparaissent pas dans un endroit ou ordre spécifique. Alors que des mots comme « mort » et « décédé », peuvent se référer à la mort d’une personne, cela est moins évident pour « expiré » ou « a terminé sa course ». Nous avons actuellement un grand nombre de règles pour détecter les expressions décrivant la mort ! Souvent, les livres ne se réfèrent pas à une personne par son nom complet. Par exemple, un paragraphe peut mentionner une femme par son prénom, pour ensuite nommer et décrire son père. Une technologie spécialisée est donc nécessaire pour comprendre le tout. Nous avons travaillé dur pour construire de nombreux algorithmes capables de recueillir les informations sur l’histoire familiale dans les livres. Ceux-ci ont été testé et amélioré, itéré et mis au point pour assurer un niveau élevé de précision, et pour recueillir le plus d’information possible. Dans le processus, nous avons également surmonté avec succès des millions d’erreurs OCR et nous les avons corrigées. Par exemple, si le processus OCR pense qu’une personne est née en « ]\lay », nous comprenons qu’il s’agit de mai, « Apnl » équivaut à « avril », et ainsi de suite.
Actuellement, certains livres de la collection des livres numérisés sont dupliqués parce qu’ils ont été apportés au domaine public plusieurs fois par différents groupes. Personne n’a pu détecter les redondances. Nous sommes en train de mettre la touche finale à une technologie spécialisée qui est en mesure de dédupliquer les livres. Bientôt, une fois que nous aurons terminé ce travail, la plupart des correspondances en double disparaitront automatiquement.
Book Matching en action
Nous avons récemment montré à quelques-uns des principaux blogueurs de généalogie (ou généablogueurs comme ils sont parfois connus dans la communauté généalogique) leur Book Matches, afin qu’ils puissent voir les résultats trouvés pour leurs propres arbres généalogiques.
Dick Eastman de Eastman’s Online Genealogy Newsletter fait des recherches sur l’histoire de sa famille depuis des années. Il a environ 2780 personnes dans son arbre généalogique sur MyHeritage, et il a reçu environ 500 correspondances dans des livres. La majorité des informations contenues dans Book Matches lui était nouvelles.
Par exemple, Elizabeth Fifield, la tante de son ancêtre direct (8 générations), apparaissait dans son arbre généalogique avec seulement ses dates de naissance et de décès, et ses frères et sœurs.
Un Book Match automatique a été trouvé pour Elizabeth dans le livre « Genealogical and personal memoirs relating to the families of the state of Massachusetts de Cutter, William Richard, 1847-1918, » une source que Dick Eastman n’avait jamais examinée.
L’extrait ci-dessous est la section qui a été trouvée par MyHeritage. La nouvelle information ici répertoriée porte sur le mari d’Elizabeth, et d’autres informations historiques sur lui et sa famille, comme leurs six enfants et leurs dates de naissance, des informations que Dick ne connaissait pas et qu’il a pu ajouter à son arbre généalogique, ajoutant ainsi une branche complète dans son arbre généalogique.
Le généalogiste Randy Seaver de Genea-Musings a plus de 40 000 personnes dans son arbre généalogique sur MyHeritage. Avec 20 609 Book Matches, il est maintenant en mesure de glaner une montagne de nouvelles informations sur les personnes de son arbre généalogique !
Par exemple, Randy a un parent, William Seaver Woods, dans son arbre généalogique avec une date de naissance, et répertorié comme célibataire.
Dans l’annuaire « Alumni Document de Wesleyan University, Middletown, Connecticut 1921 », MyHeritage a trouvé une correspondance parfaite pour William.
William étudia dans cette université. La page énumère ses réalisations, et mentionne qu’il avait une femme et un enfant, qui ne sont pas dans l’arbre de Randy. Notez que leur fils, Robert, utilisait le nom de famille Crombie venant de sa mère Grace. Parce que Robert ne portait pas le nom de famille Seaver ou Woods, Randy ne pouvait le trouver sans cette correspondance. Maintenant, Randy a une nouvelle piste. Il peut enfin rechercher cette branche qui jusque-là était dans une impasse.
Leland Meitzler de Genealogy Blog a importé son arbre généalogique de 5106 personnes dans MyHeritage. Il a reçu 694 Book Matches. Une de ses correspondances concerne Elisha Mills, trouvée dans le livre « A Walloon Family in America: Lockwood de Forest and His Forbears 1500-1848, » (1914).
La correspondance ajoute les parents d’Elisha et décrit ses actions au cours de la guerre d’indépendance des États-Unis.
Enfin, Pat Richley de Dear Myrtle a également reçu des Book Matches. Thomas Wasden, arrière-arrière-grand-père de Pat, était déjà dans l’arbre avec des informations de base, comprenant les dates et les lieux.
Une correspondance pour Thomas a été automatiquement trouvée dans le livre « Colonial Families of Philadelphia de Jordan, John Woolf, 1840-1921 » (1911).
La correspondance comprend également une photo de Thomas. Une belle trouvaille que Pat peut maintenant ajouter à son arbre généalogique.
Les généablogueurs ont été époustouflés par ces correspondances (absolument exemptes de faux positifs), qui ajoutent des informations précieuses à leurs arbres généalogiques. Si Book Matching peut apporter une telle quantité de nouvelles données à des généalogistes chevronnés qui recherchent leur l’histoire familiale depuis des décennies, imaginez ce que Book Matching vous apportera, ainsi qu’à tous les autres utilisateurs de MyHeritage.
La collection de la Compilation des Sources Publiées est libre d’accès. La consultation des Book Matches nécessite un abonnement aux données de MyHeritage.
Et ensuite ? Book Matching est actuellement disponible pour les livres en anglais seulement, mais notre technologie sera bientôt renforcée pour couvrir d’autres langues. Nous élargissons constamment notre dépôt de documents historiques numérisés, ce qui facilite la recherche de l’histoire familiale. Nous prévoyons que le corpus de livres numérisés sur MyHeritage doublera bientôt. Nous allons ajouter des livres de généalogie provenant de toute l’Europe, dans les langues européennes principales.
Comment savoir si vous avez des Book Matches ? Il vous suffit de vous connecter à votre site familial et de vérifier vos Record Matches via le menu Découvertes, ou vérifiez votre boîte de réception. Les emails sur les nouvelles Record Matches seront envoyés à nos utilisateurs dès les prochains jours. Toute correspondance reçue d’un livre est rendu possible grâce à cette cette nouvelle technologie.
Quoi de neuf sur MyHeritage ? Inscrivez-vous à partir de la page d’accueil et téléchargez votre arbre en tant que fichier GEDCOM, et bénéficiez rapidement du Book Matching, qui est exclusif à MyHeritage.
Vous serez étonné de la valeur des livres, une ressource généalogique accessible avec la nouvelle technologie de correspondances des livres.
Bonne continuation !












Caroline
18 avril 2016
Wow, je suis impressionné.