Disambiguation by namesake risk assessment


Doherr, Thorsten


[img] PDF
dp21021.pdf - Veröffentlichte Version

Download (875kB)

URL: https://madoc.bib.uni-mannheim.de/59129
URN: urn:nbn:de:bsz:180-madoc-591293
Dokumenttyp: Arbeitspapier
Erscheinungsjahr: 2021
Band/Volume: 21-021
Ort der Veröffentlichung: Mannheim
Sprache der Veröffentlichung: Englisch
Einrichtung: Sonstige Einrichtungen > ZEW - Leibniz-Zentrum für Europäische Wirtschaftsforschung
MADOC-Schriftenreihe: Veröffentlichungen des ZEW (Leibniz-Zentrum für Europäische Wirtschaftsforschung) > ZEW Discussion Papers
Fachgebiet: 330 Wirtschaft
Fachklassifikation: JEL: C18 , C36,
Freie Schlagwörter (Englisch): Homonymy , namesakes , disambiguation , scientific careers , inventors , patents , publications
Abstract: Most bibliometric databases only provide names as the handle to their careers leading to the issue of namesakes. We introduce a universal method to assess the risk of linking documents of different individuals sharing the same name with the goal of collecting the documents into personalized clusters. A theoretical setup for the probability of drawing a namesake depending on the number of namesakes in the population and the size of the observed unit replaces the need for training datasets, thereby avoiding a namesake bias caused by the inherent underestimation of namesakes in training/benchmark data. A Poisson model based on a master sample of unambiguously identified individuals estimates the main component, the number of namesakes for any given name. To implement the algorithm, we reduce the complexity in the data by resolving similarity in properties. At the core of the implementation is a mechanism returning the unit size of the intersected mutual properties linking two documents. Because of the high computational demands of this mechanism, it is a necessity to discuss means to optimize the procedure.




Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen