Recente Elevata quantità di errori di indicizzazione in FamilySearch
Moderatori: Collaboratori, Staff
-
- Livello1
- Messaggi: 41
- Iscritto il: domenica 19 febbraio 2023, 21:24
Recente Elevata quantità di errori di indicizzazione in FamilySearch
Salve a tutti,
scusate se per caso ho sbagliato subforum, ma non sapevo bene dove postare questo argomento.
Ultimamente (indicativamente nelle ultime due settimane) FamilySearch mi suggerisce molti documenti storici contenenti tantissimi errori di interpretazione del testo manoscritto.
Nelle ultime due settimane ho ricevuto circa 200 suggerimenti e circa il 90% (a star cauti) contiene uno o più errori di interpretazione del testo manoscritto.
Questi errori si riscontrano in tutti i campi: nomi, cognomi, date, luoghi, professione, sesso e persino anno dei registri.
Non mi era mai successo nei passati 3 anni.
Io lavoro più che altro sulla provincia di Cremona.
Sta capitando anche a voi?
Non so se stiano usando un OCR scarso, o una AI non abbastanza addestrata, o sia colpa di indicizzatori frettolosi e superficiali o con una scarsa dimestichezza col corsivo italiano, ma temo che questa elevata quantità di errori unitamente alla possibilità per tutti di ottenere suggerimenti deboli, creerà molti problemi.
Ah e in nessun caso compare la dicitura "Questo documento è stato indicizzato da un computer. Usa il pulsante Modifica qui sopra per apportare correzioni."
scusate se per caso ho sbagliato subforum, ma non sapevo bene dove postare questo argomento.
Ultimamente (indicativamente nelle ultime due settimane) FamilySearch mi suggerisce molti documenti storici contenenti tantissimi errori di interpretazione del testo manoscritto.
Nelle ultime due settimane ho ricevuto circa 200 suggerimenti e circa il 90% (a star cauti) contiene uno o più errori di interpretazione del testo manoscritto.
Questi errori si riscontrano in tutti i campi: nomi, cognomi, date, luoghi, professione, sesso e persino anno dei registri.
Non mi era mai successo nei passati 3 anni.
Io lavoro più che altro sulla provincia di Cremona.
Sta capitando anche a voi?
Non so se stiano usando un OCR scarso, o una AI non abbastanza addestrata, o sia colpa di indicizzatori frettolosi e superficiali o con una scarsa dimestichezza col corsivo italiano, ma temo che questa elevata quantità di errori unitamente alla possibilità per tutti di ottenere suggerimenti deboli, creerà molti problemi.
Ah e in nessun caso compare la dicitura "Questo documento è stato indicizzato da un computer. Usa il pulsante Modifica qui sopra per apportare correzioni."
-
- Livello1
- Messaggi: 20
- Iscritto il: martedì 13 giugno 2023, 18:54
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Ciao, anche a me stessa cosa..abbastanza noiosa visto che mi propone 300 suggerimenti su angoli remoti del mio albero genealogico di cui non ho interesse/priorità..immagino avranno usato qualche motore basato su AI che legge sperando di azzeccarci qualcosa
-
- Livello1
- Messaggi: 41
- Iscritto il: domenica 19 febbraio 2023, 21:24
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Gli ho scritto per fargli notare il problema, ma dalla risposta che mi hanno dato non sembrano intenzionati a risolverlo.
Speriamo almeno che Antenati non importi acriticamente queste indicizzazioni di fine anno piene di errori.
Speriamo almeno che Antenati non importi acriticamente queste indicizzazioni di fine anno piene di errori.
-
- Collaboratore
- Messaggi: 3595
- Iscritto il: domenica 24 giugno 2012, 16:23
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Per quel che ho letto in giro stanno usando un indicizzatore AI, che, tuttavia, essendo ovviamente una macchina e non una persona, non riesce a decrifrare i testi se non sono tutti uguali, cosa praticamente impossibile nel caso di manoscritti.
Se, infatti, per i testi a stampa (come ad esempio gli atti dell'anagrafe civile) basterebbe (teoricamente) impostarlo indicando dove si trova il campo "data", dove il campo "nome" etc... in un manoscritto la cosa è molto più complessa, perché non solo si tratta appunto di cose scritte a mano e, quindi, non sempre occupano il medesimo spazio, ma esistono anche formule diverse, abbreviazioni facoltative e via dicendo.
Inoltre, per quanto sia intelligente questa AI, c'è anche la questione della grafia che cambia da mano a mano, per cui alcune lettere non riuscirà mai a interpretarle, tanto più se parte dalle impostazioni americane, che anche con l'intelligenza naturale leggono Guiseppe anziché Giuseppe.
Non credo che non vogliamo provvedere ma che sia praticamente impossibile farlo. Farebbero prima - e meglio - a togliere quella funzione, perché crea soltanto confusione.
Se, infatti, per i testi a stampa (come ad esempio gli atti dell'anagrafe civile) basterebbe (teoricamente) impostarlo indicando dove si trova il campo "data", dove il campo "nome" etc... in un manoscritto la cosa è molto più complessa, perché non solo si tratta appunto di cose scritte a mano e, quindi, non sempre occupano il medesimo spazio, ma esistono anche formule diverse, abbreviazioni facoltative e via dicendo.
Inoltre, per quanto sia intelligente questa AI, c'è anche la questione della grafia che cambia da mano a mano, per cui alcune lettere non riuscirà mai a interpretarle, tanto più se parte dalle impostazioni americane, che anche con l'intelligenza naturale leggono Guiseppe anziché Giuseppe.
Non credo che non vogliamo provvedere ma che sia praticamente impossibile farlo. Farebbero prima - e meglio - a togliere quella funzione, perché crea soltanto confusione.
La memoria è la porta indispensabile per entrare nel futuro!
K.
K.
-
- Livello1
- Messaggi: 41
- Iscritto il: domenica 19 febbraio 2023, 21:24
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Sono d'accordo con te.
Parlandone con un amico (anche lui ha notato questa enormità di errori nell'indicizzazione) ho anche fatto questa considerazione: se questa indicizzazione errata mi ha portato 200 suggerimenti, quanti me ne avrebbe portati una indicizzazione corretta?
Un responsabile di FS potrebbe obiettarmi che si, ci sarebbero stati molti più suggerimenti, ma che senza AI ci sarebbero state pochissime indicizzazioni e quindi pochissimi suggerimenti. Ma a questa obiezione io rispondo che bastava aspettare che l'AI fosse più matura, oppure bisognava mettere degli avvisi del tipo "attenzione, indicizzazione creata da una AI beta ancora in fase di apprendimento, controllate bene i documenti originali prima di collegarli come fonte". Non ci voleva molto.
- Gianlu
- Amministratore
- Messaggi: 4814
- Iscritto il: sabato 12 maggio 2007, 11:08
- Località: Verona
- Contatta:
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Diversi anni fa qui in TuttoGenealogia si era formato un gruppo che si dedicava proprio all'indicizzazione dei registri di FS (per la quale avevamo creato la specifica sezione del forum, ancora esistente).
Nonostante più volte avessimo fatto notare i tanti errori causati da indicizzatori stranieri, che leggevano appunto Guiseppe invece di Giuseppe (al tempo non c'era ancora la IA), purtroppo FS non è mai intervenuta per cercare o trovare una soluzione ed ha sempre dimostrato di preferire la quantità alla qualità.
Questo è stato uno dei motivi per cui l'indicizzazione di TuttoGenealogia si è interrotta...
Nonostante più volte avessimo fatto notare i tanti errori causati da indicizzatori stranieri, che leggevano appunto Guiseppe invece di Giuseppe (al tempo non c'era ancora la IA), purtroppo FS non è mai intervenuta per cercare o trovare una soluzione ed ha sempre dimostrato di preferire la quantità alla qualità.

Questo è stato uno dei motivi per cui l'indicizzazione di TuttoGenealogia si è interrotta...

La calma è la virtù dei forti, la pazienza dei genealogisti... - Gianluca
-
- Livello1
- Messaggi: 41
- Iscritto il: domenica 19 febbraio 2023, 21:24
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Per quanto riguarda il funzionamento dell'indicizzazione automatica, credo che funzioni così: prima un OCR (che volendo potremmo chiamare anche lui AI, ma che in fondo svolge solo la funzione di riconoscimento del testo) trasforma il manoscritto in "dattiloscritto" e poi successivamente la vera AI interpreta il testo ed estrae i dati, così come chatgpt o gemini interpretano le richieste che vengon loro sottoposte.
Ora, a me sembra che la seconda parte funzioni abbastanza bene.
Si, certo ho trovato anche errori di estrazione dei dati, per esempio un signore risultava nato a Coldetto, perchè l'atto diceva che era nato e residente "col detto" genitore.
In un altro caso una signora aveva come cognome Funta perchè l'atto diceva "defunta".
I problemi più grossi però secondo me riguardano la prima parte, cioè il riconoscimento del testo corsivo. Ma anche quello stampato, perchè a me è capitato un atto in cui all'inizio dell'atto l'anno era stampato "milleottocentonovantadue", ma è stato indicizzato come 1902.
E' chiaro che sia l'OCR che l'AI non sono stati abbastanza addestrati o meglio, come avete già fatto notare, non sono stati abbastanza "italianizzati".
Ma secondo me si possono migliorare con un po' la buona volontà e l'umiltà di accettare correzioni e critiche costruttive.
Ora, a me sembra che la seconda parte funzioni abbastanza bene.
Si, certo ho trovato anche errori di estrazione dei dati, per esempio un signore risultava nato a Coldetto, perchè l'atto diceva che era nato e residente "col detto" genitore.
In un altro caso una signora aveva come cognome Funta perchè l'atto diceva "defunta".
I problemi più grossi però secondo me riguardano la prima parte, cioè il riconoscimento del testo corsivo. Ma anche quello stampato, perchè a me è capitato un atto in cui all'inizio dell'atto l'anno era stampato "milleottocentonovantadue", ma è stato indicizzato come 1902.
E' chiaro che sia l'OCR che l'AI non sono stati abbastanza addestrati o meglio, come avete già fatto notare, non sono stati abbastanza "italianizzati".
Ma secondo me si possono migliorare con un po' la buona volontà e l'umiltà di accettare correzioni e critiche costruttive.
-
- Livello1
- Messaggi: 41
- Iscritto il: domenica 19 febbraio 2023, 21:24
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Che peccato...
Comunque per ora mi pare che Antenati non abbia ancora importato queste indicizzazioni forsennate di fine anno.
- Matteorm83
- Livello2
- Messaggi: 331
- Iscritto il: mercoledì 14 agosto 2019, 22:53
- Località: ZELO BUON PERSICO
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Se è un algoritmo di machine learning, per far sì che funzioni bene è fondamentale allenarlo. Probabilmente siamo in questa fase, sarà fondamentale usarlo su un database reale e fornirgli un feedback per fargli capire dove sbaglia e dove no. Nel tempo i benefici supereranno i difetti.Andrea4 ha scritto: ↑martedì 31 dicembre 2024, 14:35Sono d'accordo con te.
Parlandone con un amico (anche lui ha notato questa enormità di errori nell'indicizzazione) ho anche fatto questa considerazione: se questa indicizzazione errata mi ha portato 200 suggerimenti, quanti me ne avrebbe portati una indicizzazione corretta?
Un responsabile di FS potrebbe obiettarmi che si, ci sarebbero stati molti più suggerimenti, ma che senza AI ci sarebbero state pochissime indicizzazioni e quindi pochissimi suggerimenti. Ma a questa obiezione io rispondo che bastava aspettare che l'AI fosse più matura, oppure bisognava mettere degli avvisi del tipo "attenzione, indicizzazione creata da una AI beta ancora in fase di apprendimento, controllate bene i documenti originali prima di collegarli come fonte". Non ci voleva molto.
Enea e Lena (Milano) < Matteo (1983 - Roma) < Pietro (1944 - Roma) < Bruno Dino (1914 - Chitignano) < Pietro (1888 - Chitignano) < Pasquale (1853 - Chitignano) < Luigi (1795 Circa - Chitignano) < Niccoló (1762 Circa - Chitignano) < Paolino (?)
- gmoccaldi
- Collaboratore
- Messaggi: 842
- Iscritto il: giovedì 12 agosto 2010, 9:12
- Località: Roma
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Io penso che l'idea di FS sia di far indicizzare dall'AI e revisionare dall'intelligenza naturale degli umani, perchè questo consentirebbe di sveltire di molto il lavoro. Non credo che i risultati, così come sono, verranno caricati in Antenati. Però, sarebbero da evitare questi "suggerimenti" che sono fuorvianti. O forse, vogliono verificare quali ne siano i risultati.
- asimonetti67
- Livello2
- Messaggi: 206
- Iscritto il: sabato 5 dicembre 2020, 1:51
- Località: Roma
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
A me non è chiaro se si tratta effettivamente di documenti indicizzati tramite AI: tra l'altro, in basso nella pagina di family search, è presente un pulsante per ringraziare il volontario che ha fatto l'indicizzazione e questo non avrebbe molto senso.
Qualche settimana fa, in un video di FS sul canale youtube della "Conferenza Internazionale di Genealogia", si parlava di una nuova funzionalità in fase di rilascio che avrebbe consentito di utilizzare alberi in sola lettura, modificabili solo dal proprietario. Forse ne stiamo vedendo il risultato?
Qualche settimana fa, in un video di FS sul canale youtube della "Conferenza Internazionale di Genealogia", si parlava di una nuova funzionalità in fase di rilascio che avrebbe consentito di utilizzare alberi in sola lettura, modificabili solo dal proprietario. Forse ne stiamo vedendo il risultato?
-
- Livello2
- Messaggi: 478
- Iscritto il: martedì 14 agosto 2018, 14:55
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
anch'io lavoro molto sulla provincia di Cremona ,oltre a quella di Bergamo ed a quella di Rovigo...e ti posso dire che la maggior parte degli errori è stata fatta dai volontari stranieri,che talvolta pretendono addirittura di correggere le cose giuste,storpiando nominativi ed inserendo nelle famiglie "il primo che capita " solo perché ha un cognome uguale...ho anche provato a far notare le castronerie fatte e a momenti bloccano l'account a me...per cui quando mi metto ad indicizzare devo mettere in conto che il 20% del tempo lo devo utilizzare a correggere ed a ripristinare...l'AI non c'entra niente...
io---Defendente(1937)---Andrea(1905)---Defendente(1871)---Angelo(1837)---Defendente(1810)---Giovanni(1767)---Giuseppe(1745)
-
- Livello2
- Messaggi: 478
- Iscritto il: martedì 14 agosto 2018, 14:55
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
ecco un esempio limite...
nel 1893 muore tale Adele Adamotti,ecco cosa appare nell'anteprima su familysearch...
https://ibb.co/42bHVSR...
passi Adamatti per Adamotti...ma esposta figlia di Morpizah...e che è? un demone sumero?
poi vai a leggere l'atto di morte ed ecco a cosa corrisponde Morpizah...
https://ibb.co/kBw5bbv
altro che intelligenza artificiale...questa mi sembra ignoranza naturale...
nel 1893 muore tale Adele Adamotti,ecco cosa appare nell'anteprima su familysearch...
https://ibb.co/42bHVSR...
passi Adamatti per Adamotti...ma esposta figlia di Morpizah...e che è? un demone sumero?
poi vai a leggere l'atto di morte ed ecco a cosa corrisponde Morpizah...
https://ibb.co/kBw5bbv
altro che intelligenza artificiale...questa mi sembra ignoranza naturale...
io---Defendente(1937)---Andrea(1905)---Defendente(1871)---Angelo(1837)---Defendente(1810)---Giovanni(1767)---Giuseppe(1745)
-
- Collaboratore
- Messaggi: 7835
- Iscritto il: martedì 18 settembre 2007, 12:04
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Un demone sumero??
Belissima interpretazione, peccato che alle volte certe trascrizioni li scatenino in noi, i demoni!!
Belissima interpretazione, peccato che alle volte certe trascrizioni li scatenino in noi, i demoni!!
-
- Livello1
- Messaggi: 136
- Iscritto il: lunedì 31 luglio 2023, 20:31
Re: Recente Elevata quantità di errori di indicizzazione in FamilySearch
Da quello che ho notato, c'è stato un incremento delle indicizzazioni negli ultimi ... due mesi (?).
Attualmente sono in corso 8 progetti di indicizzazione per l'Italia dei quali 7 indicizzati minimo al 98%, 6 dei quali in fase di revisione avanzata.
Visto che fino a pochi mesi fa i progetti in corso erano circa 15 e considerato che un progetto veniva chiuso con entrambe le fasi di indicizzazione e revisione in almeno 6 mesi (ma di solito di più), suppongo che il tutto si sia velocizzato perché hanno passato all'I.A. tutte e due le fasi e non certo perché siano aumentati i volontari.
A conferma di questa ipotesi potrebbe esserci il fatto che non tutti i progetti avevano tempi di realizzazione simili (vedi, ad esempio, Catanzaro, per vedere la fine del quale sono passati forse due anni), facendo pensare ad un fattore umano dovuto all'interesse per il singolo progetto.
Se questa ipotesi fosse vera, si sarebbe perso il controllo sulla fase di revisione, che evidentemente veniva fatto in maggior parte da esseri umani e non da macchine - come magari invece poteva non avvenire per la prima fase di indicizzazione (io, però, suppongo, visti i tempi necessari anche a quest'ultima, che anch'essa venisse fatta in precedenza, almeno in parte, da persone).
Attualmente sono in corso 8 progetti di indicizzazione per l'Italia dei quali 7 indicizzati minimo al 98%, 6 dei quali in fase di revisione avanzata.
Visto che fino a pochi mesi fa i progetti in corso erano circa 15 e considerato che un progetto veniva chiuso con entrambe le fasi di indicizzazione e revisione in almeno 6 mesi (ma di solito di più), suppongo che il tutto si sia velocizzato perché hanno passato all'I.A. tutte e due le fasi e non certo perché siano aumentati i volontari.
A conferma di questa ipotesi potrebbe esserci il fatto che non tutti i progetti avevano tempi di realizzazione simili (vedi, ad esempio, Catanzaro, per vedere la fine del quale sono passati forse due anni), facendo pensare ad un fattore umano dovuto all'interesse per il singolo progetto.
Se questa ipotesi fosse vera, si sarebbe perso il controllo sulla fase di revisione, che evidentemente veniva fatto in maggior parte da esseri umani e non da macchine - come magari invece poteva non avvenire per la prima fase di indicizzazione (io, però, suppongo, visti i tempi necessari anche a quest'ultima, che anch'essa venisse fatta in precedenza, almeno in parte, da persone).