Recente Elevata quantità di errori di indicizzazione in FamilySearch

Non sai come utilizzare il forum? Posta qui le tue domande.

Moderatori: Collaboratori, Staff

Andrea4
Livello1
Livello1
Messaggi: 41
Iscritto il: domenica 19 febbraio 2023, 21:24

Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Andrea4 »

Salve a tutti,
scusate se per caso ho sbagliato subforum, ma non sapevo bene dove postare questo argomento.

Ultimamente (indicativamente nelle ultime due settimane) FamilySearch mi suggerisce molti documenti storici contenenti tantissimi errori di interpretazione del testo manoscritto.

Nelle ultime due settimane ho ricevuto circa 200 suggerimenti e circa il 90% (a star cauti) contiene uno o più errori di interpretazione del testo manoscritto.
Questi errori si riscontrano in tutti i campi: nomi, cognomi, date, luoghi, professione, sesso e persino anno dei registri.

Non mi era mai successo nei passati 3 anni.
Io lavoro più che altro sulla provincia di Cremona.

Sta capitando anche a voi?

Non so se stiano usando un OCR scarso, o una AI non abbastanza addestrata, o sia colpa di indicizzatori frettolosi e superficiali o con una scarsa dimestichezza col corsivo italiano, ma temo che questa elevata quantità di errori unitamente alla possibilità per tutti di ottenere suggerimenti deboli, creerà molti problemi.

Ah e in nessun caso compare la dicitura "Questo documento è stato indicizzato da un computer. Usa il pulsante Modifica qui sopra per apportare correzioni."

Aetius85
Livello1
Livello1
Messaggi: 20
Iscritto il: martedì 13 giugno 2023, 18:54

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Aetius85 »

Ciao, anche a me stessa cosa..abbastanza noiosa visto che mi propone 300 suggerimenti su angoli remoti del mio albero genealogico di cui non ho interesse/priorità..immagino avranno usato qualche motore basato su AI che legge sperando di azzeccarci qualcosa

Andrea4
Livello1
Livello1
Messaggi: 41
Iscritto il: domenica 19 febbraio 2023, 21:24

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Andrea4 »

Gli ho scritto per fargli notare il problema, ma dalla risposta che mi hanno dato non sembrano intenzionati a risolverlo.

Speriamo almeno che Antenati non importi acriticamente queste indicizzazioni di fine anno piene di errori.

Kaharot
Collaboratore
Collaboratore
Messaggi: 3595
Iscritto il: domenica 24 giugno 2012, 16:23

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Kaharot »

Per quel che ho letto in giro stanno usando un indicizzatore AI, che, tuttavia, essendo ovviamente una macchina e non una persona, non riesce a decrifrare i testi se non sono tutti uguali, cosa praticamente impossibile nel caso di manoscritti.
Se, infatti, per i testi a stampa (come ad esempio gli atti dell'anagrafe civile) basterebbe (teoricamente) impostarlo indicando dove si trova il campo "data", dove il campo "nome" etc... in un manoscritto la cosa è molto più complessa, perché non solo si tratta appunto di cose scritte a mano e, quindi, non sempre occupano il medesimo spazio, ma esistono anche formule diverse, abbreviazioni facoltative e via dicendo.
Inoltre, per quanto sia intelligente questa AI, c'è anche la questione della grafia che cambia da mano a mano, per cui alcune lettere non riuscirà mai a interpretarle, tanto più se parte dalle impostazioni americane, che anche con l'intelligenza naturale leggono Guiseppe anziché Giuseppe.
Non credo che non vogliamo provvedere ma che sia praticamente impossibile farlo. Farebbero prima - e meglio - a togliere quella funzione, perché crea soltanto confusione.
La memoria è la porta indispensabile per entrare nel futuro!
K.

Andrea4
Livello1
Livello1
Messaggi: 41
Iscritto il: domenica 19 febbraio 2023, 21:24

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Andrea4 »

Kaharot ha scritto:
martedì 31 dicembre 2024, 12:33
Non credo che non vogliamo provvedere ma che sia praticamente impossibile farlo. Farebbero prima - e meglio - a togliere quella funzione, perché crea soltanto confusione.
Sono d'accordo con te.
Parlandone con un amico (anche lui ha notato questa enormità di errori nell'indicizzazione) ho anche fatto questa considerazione: se questa indicizzazione errata mi ha portato 200 suggerimenti, quanti me ne avrebbe portati una indicizzazione corretta?
Un responsabile di FS potrebbe obiettarmi che si, ci sarebbero stati molti più suggerimenti, ma che senza AI ci sarebbero state pochissime indicizzazioni e quindi pochissimi suggerimenti. Ma a questa obiezione io rispondo che bastava aspettare che l'AI fosse più matura, oppure bisognava mettere degli avvisi del tipo "attenzione, indicizzazione creata da una AI beta ancora in fase di apprendimento, controllate bene i documenti originali prima di collegarli come fonte". Non ci voleva molto.

Avatar utente
Gianlu
Amministratore
Amministratore
Messaggi: 4814
Iscritto il: sabato 12 maggio 2007, 11:08
Località: Verona
Contatta:

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Gianlu »

Diversi anni fa qui in TuttoGenealogia si era formato un gruppo che si dedicava proprio all'indicizzazione dei registri di FS (per la quale avevamo creato la specifica sezione del forum, ancora esistente).
Nonostante più volte avessimo fatto notare i tanti errori causati da indicizzatori stranieri, che leggevano appunto Guiseppe invece di Giuseppe (al tempo non c'era ancora la IA), purtroppo FS non è mai intervenuta per cercare o trovare una soluzione ed ha sempre dimostrato di preferire la quantità alla qualità. :cry:
Questo è stato uno dei motivi per cui l'indicizzazione di TuttoGenealogia si è interrotta... :cry:
La calma è la virtù dei forti, la pazienza dei genealogisti... - Gianluca

Andrea4
Livello1
Livello1
Messaggi: 41
Iscritto il: domenica 19 febbraio 2023, 21:24

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Andrea4 »

Per quanto riguarda il funzionamento dell'indicizzazione automatica, credo che funzioni così: prima un OCR (che volendo potremmo chiamare anche lui AI, ma che in fondo svolge solo la funzione di riconoscimento del testo) trasforma il manoscritto in "dattiloscritto" e poi successivamente la vera AI interpreta il testo ed estrae i dati, così come chatgpt o gemini interpretano le richieste che vengon loro sottoposte.

Ora, a me sembra che la seconda parte funzioni abbastanza bene.
Si, certo ho trovato anche errori di estrazione dei dati, per esempio un signore risultava nato a Coldetto, perchè l'atto diceva che era nato e residente "col detto" genitore.
In un altro caso una signora aveva come cognome Funta perchè l'atto diceva "defunta".

I problemi più grossi però secondo me riguardano la prima parte, cioè il riconoscimento del testo corsivo. Ma anche quello stampato, perchè a me è capitato un atto in cui all'inizio dell'atto l'anno era stampato "milleottocentonovantadue", ma è stato indicizzato come 1902.

E' chiaro che sia l'OCR che l'AI non sono stati abbastanza addestrati o meglio, come avete già fatto notare, non sono stati abbastanza "italianizzati".
Ma secondo me si possono migliorare con un po' la buona volontà e l'umiltà di accettare correzioni e critiche costruttive.

Andrea4
Livello1
Livello1
Messaggi: 41
Iscritto il: domenica 19 febbraio 2023, 21:24

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Andrea4 »

Gianlu ha scritto:
martedì 31 dicembre 2024, 14:48
purtroppo FS non è mai intervenuta per cercare o trovare una soluzione ed ha sempre dimostrato di preferire la quantità alla qualità. :cry:
Questo è stato uno dei motivi per cui l'indicizzazione di TuttoGenealogia si è interrotta... :cry:
Che peccato...

Comunque per ora mi pare che Antenati non abbia ancora importato queste indicizzazioni forsennate di fine anno.

Avatar utente
Matteorm83
Livello2
Livello2
Messaggi: 331
Iscritto il: mercoledì 14 agosto 2019, 22:53
Località: ZELO BUON PERSICO

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Matteorm83 »

Andrea4 ha scritto:
martedì 31 dicembre 2024, 14:35
Kaharot ha scritto:
martedì 31 dicembre 2024, 12:33
Non credo che non vogliamo provvedere ma che sia praticamente impossibile farlo. Farebbero prima - e meglio - a togliere quella funzione, perché crea soltanto confusione.
Sono d'accordo con te.
Parlandone con un amico (anche lui ha notato questa enormità di errori nell'indicizzazione) ho anche fatto questa considerazione: se questa indicizzazione errata mi ha portato 200 suggerimenti, quanti me ne avrebbe portati una indicizzazione corretta?
Un responsabile di FS potrebbe obiettarmi che si, ci sarebbero stati molti più suggerimenti, ma che senza AI ci sarebbero state pochissime indicizzazioni e quindi pochissimi suggerimenti. Ma a questa obiezione io rispondo che bastava aspettare che l'AI fosse più matura, oppure bisognava mettere degli avvisi del tipo "attenzione, indicizzazione creata da una AI beta ancora in fase di apprendimento, controllate bene i documenti originali prima di collegarli come fonte". Non ci voleva molto.
Se è un algoritmo di machine learning, per far sì che funzioni bene è fondamentale allenarlo. Probabilmente siamo in questa fase, sarà fondamentale usarlo su un database reale e fornirgli un feedback per fargli capire dove sbaglia e dove no. Nel tempo i benefici supereranno i difetti.
Enea e Lena (Milano) < Matteo (1983 - Roma) < Pietro (1944 - Roma) < Bruno Dino (1914 - Chitignano) < Pietro (1888 - Chitignano) < Pasquale (1853 - Chitignano) < Luigi (1795 Circa - Chitignano) < Niccoló (1762 Circa - Chitignano) < Paolino (?)

Avatar utente
gmoccaldi
Collaboratore
Collaboratore
Messaggi: 842
Iscritto il: giovedì 12 agosto 2010, 9:12
Località: Roma

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da gmoccaldi »

Io penso che l'idea di FS sia di far indicizzare dall'AI e revisionare dall'intelligenza naturale degli umani, perchè questo consentirebbe di sveltire di molto il lavoro. Non credo che i risultati, così come sono, verranno caricati in Antenati. Però, sarebbero da evitare questi "suggerimenti" che sono fuorvianti. O forse, vogliono verificare quali ne siano i risultati.

Avatar utente
asimonetti67
Livello2
Livello2
Messaggi: 206
Iscritto il: sabato 5 dicembre 2020, 1:51
Località: Roma

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da asimonetti67 »

A me non è chiaro se si tratta effettivamente di documenti indicizzati tramite AI: tra l'altro, in basso nella pagina di family search, è presente un pulsante per ringraziare il volontario che ha fatto l'indicizzazione e questo non avrebbe molto senso.

Qualche settimana fa, in un video di FS sul canale youtube della "Conferenza Internazionale di Genealogia", si parlava di una nuova funzionalità in fase di rilascio che avrebbe consentito di utilizzare alberi in sola lettura, modificabili solo dal proprietario. Forse ne stiamo vedendo il risultato?

ziodave
Livello2
Livello2
Messaggi: 478
Iscritto il: martedì 14 agosto 2018, 14:55

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da ziodave »

anch'io lavoro molto sulla provincia di Cremona ,oltre a quella di Bergamo ed a quella di Rovigo...e ti posso dire che la maggior parte degli errori è stata fatta dai volontari stranieri,che talvolta pretendono addirittura di correggere le cose giuste,storpiando nominativi ed inserendo nelle famiglie "il primo che capita " solo perché ha un cognome uguale...ho anche provato a far notare le castronerie fatte e a momenti bloccano l'account a me...per cui quando mi metto ad indicizzare devo mettere in conto che il 20% del tempo lo devo utilizzare a correggere ed a ripristinare...l'AI non c'entra niente...
io---Defendente(1937)---Andrea(1905)---Defendente(1871)---Angelo(1837)---Defendente(1810)---Giovanni(1767)---Giuseppe(1745)

ziodave
Livello2
Livello2
Messaggi: 478
Iscritto il: martedì 14 agosto 2018, 14:55

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da ziodave »

ecco un esempio limite...
nel 1893 muore tale Adele Adamotti,ecco cosa appare nell'anteprima su familysearch...

https://ibb.co/42bHVSR...
passi Adamatti per Adamotti...ma esposta figlia di Morpizah...e che è? un demone sumero?

poi vai a leggere l'atto di morte ed ecco a cosa corrisponde Morpizah...

https://ibb.co/kBw5bbv

altro che intelligenza artificiale...questa mi sembra ignoranza naturale...
io---Defendente(1937)---Andrea(1905)---Defendente(1871)---Angelo(1837)---Defendente(1810)---Giovanni(1767)---Giuseppe(1745)

cannella55
Collaboratore
Collaboratore
Messaggi: 7835
Iscritto il: martedì 18 settembre 2007, 12:04

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da cannella55 »

Un demone sumero??
Belissima interpretazione, peccato che alle volte certe trascrizioni li scatenino in noi, i demoni!!

Attendente
Livello1
Livello1
Messaggi: 136
Iscritto il: lunedì 31 luglio 2023, 20:31

Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch

Messaggio da Attendente »

Da quello che ho notato, c'è stato un incremento delle indicizzazioni negli ultimi ... due mesi (?).

Attualmente sono in corso 8 progetti di indicizzazione per l'Italia dei quali 7 indicizzati minimo al 98%, 6 dei quali in fase di revisione avanzata.

Visto che fino a pochi mesi fa i progetti in corso erano circa 15 e considerato che un progetto veniva chiuso con entrambe le fasi di indicizzazione e revisione in almeno 6 mesi (ma di solito di più), suppongo che il tutto si sia velocizzato perché hanno passato all'I.A. tutte e due le fasi e non certo perché siano aumentati i volontari.
A conferma di questa ipotesi potrebbe esserci il fatto che non tutti i progetti avevano tempi di realizzazione simili (vedi, ad esempio, Catanzaro, per vedere la fine del quale sono passati forse due anni), facendo pensare ad un fattore umano dovuto all'interesse per il singolo progetto.

Se questa ipotesi fosse vera, si sarebbe perso il controllo sulla fase di revisione, che evidentemente veniva fatto in maggior parte da esseri umani e non da macchine - come magari invece poteva non avvenire per la prima fase di indicizzazione (io, però, suppongo, visti i tempi necessari anche a quest'ultima, che anch'essa venisse fatta in precedenza, almeno in parte, da persone).

Rispondi