Discusión:Grupo de Trabajo Identificador Único de Autor

De Grupos de trabajo Recolecta


Contenido

La iniciativa ORCID

ORCID (Open Researcher and Contributor ID) se ha presentado en sociedad con la publicación el pasado 16 de diciembre del editorial "Credit where credit is due" en Nature. Básicamente se trata de una iniciativa para extender el ResearcherID de Thomson a ámbitos más amplios de la comunidad científica mundial convirtiéndolo en un estándar no propietario, es decir: (i) estará gestionado por una agencia independiente, y (ii) no será imprescindible estar suscrito a la WoS para poder obtener un identificador.

Participan en la iniciativa los principales pesos pesados de la industria editorial (Elsevier, Springer, Wiley, NPG, etc), además de algunas bibliotecas universitarias (Viena, UCL, Manchester), prestigiosas instituciones y asociaciones científicas como SLAC, CERN o EMBO, ThomsonReuters y CrossRef como gestor del sistema DOI cuya filosofía de identificación es común con este proyecto. Esta sólida representación a nivel de socios participantes y el hecho de que se trate a priori de un sistema abierto de identificación podrían suponer que esta iniciativa sea la que aúne esfuerzos anteriores y logre finalmente avances firmes en esta línea de trabajo.

Las previsiones de desarrollo de la iniciativa hablan de ensayar una primera implementación del sistema en seis meses, y de que en todo caso será compatible con otros sistemas de identificación previamente operativos, de manera que convendría tratar de lograr avances significativos en nuestro propio desarrollo a lo largo del primer semestre de 2010.


Alguna bibliografía sobre ORCID:



Avances más recientes en relación con las tareas de los objetivos 3 (necesidades y requisitos de implementación del IPA) y 4 (propuesta e implementación preliminar de prototipo)

  • Informe sobre las funcionalidades del módulo "Authority Control of Metadata Values" en DSpace 1.6
  • Informe sobre las funcionalidades de Authoridad y Autocompletado en eprints3
  • Reunión de coordinación mantenida entre miembros del Grupo IPA de Recolecta, miembros del proyecto CVN de FECyT y Alicia López Medina -- Acta reunión IPA+CVN (14/10/2009)



Objetivo 4: Propuesta (e implementación a primer nivel si es posible) de modelo o prototipo de identificador único de autor para los repositorios institucionales españoles y Recolecta

En la definición del modelo de datos (ver apartado Objetivo 3 más abajo) se mantendrá un enfoque independiente del software de repositorios sobre el que vaya a desarrollarse el prototipo. Sin embargo, en el momento en que se plantee la puesta en marcha de un piloto, este desarrollo estará ligado inevitablemente a un software concreto (por ser mayoritario, DSpace es el principal candidato). De ahí que convenga considerar la conveniencia, si no de desarrollar varios pilotos paralelos sobre diferentes sistemas (E-Prints debería incluirse también), sí al menos de analizar en detalle el esquema de implementación del modelo en otras plataformas distintas de DSpace.


En este sentido, en la reunión de 25 de septiembre se plantea además la cuestión de cómo trabajar en la adaptación del modelo de datos a softwares propietarios o comerciales de repositorios, aspecto éste a tener en cuenta en el análisis mencionado.


A efectos de desarrollo y puesta en marcha de un prototipo de identificador de autor se trabajará con los plazos establecidos a priori en el proyecto del GT, es decir, con fecha 15 de diciembre para una primera versión preliminar sobre la que se seguirá trabajando. Una aproximación realista a la evolución del desarrollo podría plantearse el objetivo de contar con un prototipo testeado y extendido al máximo número posible de instituciones para el congreso Open Repositories 2010 que se celebrará el próximo mes de julio en Madrid. Este planteamiento permite considerar el estudio de las interfases entre instituciones a nivel de autores (una cuestión crítica que no se podrá abordar hasta contar con un prototipo de cierta solidez) y al mismo tiempo permite pensar en una posible presentación del proyecto y sus resultados en el marco del OR10 (siempre que exista dicha posibilidad).


Sin descartar las opciones que puedan llevarse a cabo desde otros proyectos –UC3M, CSIC, UCM- la propuesta más sólida de desarrollo de un prototipo que resulta de la reunión del 25 –sobre todo si puede contarse con una persona adicional a nivel de soporte técnico- es la que plantea Juan Corrales. Esta propuesta consiste en poner en marcha una instancia 1.5 de DSpace ad-hoc para este desarrollo, con el parche de DSpace para la gestión de autoridades instalado y con la incorporación automática de registros reales de autores y publicaciones desde las tablas Oracle de la Universidad del País Vasco (UPV) que facilitaría Alcira Macías. Si hubiera dificultades derivadas del formato y parseado de los registros de publicaciones que dificultaran su incorporación automática, se puede recurrir a la colaboración de otros repositorios para la transferencia de datos (CSIC).


Otras opciones de desarrollo de pilotos de identificación de autores, en las que se plantea la aplicación del modelo sobre estructuras administrativas reales (departamentos o grupos de investigación) de las instituciones interesadas, son las siguientes:


  • UC3M. Como consecuencia de su participación en el proyecto europeo NEEO, el e-archivo de la Universidad Carlos III cuenta con una serie de autores normalizados dentro de su Facultad de Economía, habiendo llegado incluso hasta la asignación de URIs basadas en el login a dichos autores (asignación que constituye el objetivo final del proyecto IPA). Se plantea entonces analizar la aplicación del parche de autoridades de DSpace y del modelo de datos IPA-Recolecta a este subset de autores con el fin de vislumbrar una aplicación real sobre un caso práctico ya bastante avanzado en su definición.


  • UCM. La versión 3 de E-Prints sobre la que trabaja el repositorio institucional de la UCM es el sistema más avanzado en este momento a nivel de control de autoridades de entre las plataformas principales. Por ello se plantea analizar en qué medida dicho sistema de gestión de autoridades puede simplificar la adopción del modelo de datos IPA-Recolecta en esta plataforma, así como, contando con el apoyo de la persona de soporte técnico, planificar un prototipo de aplicación de dicho modelo.


  • CSIC. La versión 1.4.2 de DSpace con la que trabaja Digital.CSIC hace imposible la instalación del parche de autoridades de DSpace. Aún así, hay una línea de trabajo del proyecto que se propone restructurar las tablas Oracle de manera que permitan la incorporación de un modelo de datos de identificación de autores sobre un instituto de investigación concreto. En la medida en que esta línea de desarrollo pueda converger con los objetivos del GT, también desde el CSIC podría ofrecerse la implementación de un prototipo sobre DSpace.

Informe sobre las funcionalidades del módulo "Authority Control of Metadata Values" en DSpace 1.6

Objetivo 3: Identificar las necesidades y requisitos de implementación del identificador único de autor para Recolecta

En la reunión plenaria del GT de 25 de septiembre se recopila una serie de tareas preliminares enfocadas a la implementación y puesta en marcha de un prototipo de identificador de autor. El objetivo de estos avances paralelos es obtener información o recursos que se consideran previos al desarrollo del prototipo. Entre estas tareas, para cuya finalización se fija un plazo de 31 de octubre, extensible en alguna de ellas hasta 15 de noviembre si fuera preciso, se encuentran las siguientes:


  • Solicitud de un técnico informático que pueda ofrecer soporte al GT a nivel de desarrollo en los trabajos para implementar el modelo de identificador en el/los prototipo/s.

A priori la recepción de la propuesta por parte de la FECYT es positiva. Se acuerda redactar por parte del GT una petición formal en forma de carta en la que se detallen las necesidades del perfil, en tanto que desde la FECYT se sondearán las posibilidades y modalidades de contratación de esta persona (que en principio trabajaría para todos los GTs simultáneamente). Existe una persona candidata, cuyo CV está ya en poder de FECYT.


  • Coordinación con FECYT a nivel de proyectos CVN y SIC: ¿se está empleando un modelo de identificador de scholar para el proyecto CVN? ¿Cómo se asigna y quién lo hace? ¿Interesaría compartirlo? ¿Cuál es el papel de las CC.AA.?

La persona de contacto para el proyecto CVN es Florencio Núñez. Se propone organizar una reunión (Florencio, Alicia, Pep y Pablo serían a priori los participantes) en la que se discutan estas y otras cuestiones importantes con vistas a una posible convergencia de los desarrollos. Interesaría que esta reunión se celebrara lo antes posible, dado que es relevante para la definición del modelo de datos para el registro de autor. Alicia se encargará de moverlo.

Existe documentación sobre el proyecto CVN en CVN, y hay también disponible una presentación reciente del proyecto: Presentación CVN (octubre 2009)

El Proyecto CVN hace referencia a otra línea importante que se propone coordinar en la reunión: los Sistemas de Información Curricular (SIC). En la reunión se propone tratar de determinar el grado de implantación de dichos SICs entre las instituciones participantes en el proyecto IPA, así como su grado de variación de unas a otras instituciones. Se propone lograr este objetivo a través de una encuesta sobre unas preguntas ya elaboradas que podría aplicarse en primer lugar a las instituciones participantes en el GT para después distribuirse desde la lista de distribución REBIUN-Directores a todas las Universidades y Centros de Investigación (nota: incluir el Instituto de Salud Carlos III en la lista o en el envío). En todo caso en esta página 11 se ofrece una información preliminar (a fecha octubre 2007, puede actualizarse en la reunión) que podría servir como punto de partida.

Modelo de encuesta para distribuir a las instituciones


  • Análisis de las particularidades de los softwares principales de repositorios (DSpace/E-Prints/Fedora) desde el punto de vista de la gestión de autoridades. A la hora de diseñar y desarrollar el prototipo de modelo de identificador se tratará de hacerlo lo más independiente de software que sea posible, pero en la implementación habrá que tener en cuenta las mayores facilidades que pueda ofrecer uno u otro modelo. Si la opción (razonable) de desarrollar prototipos en los diversos sistemas resultara excesivamente ambiciosa, sí convendría disponer al menos de un análisis de las características específicas de cada uno de ellos (módulo de autoridades de E-Prints y parche de DSpace entre otras).


  • Listar de manera explícita las ventajas de desarrollar un sistema IPA sobre repositorios, haciendo hincapié en los servicios de valor añadido que puede aportar esta opción frente a, por ejemplo, una que se limite a los SICs: listados de publicaciones intra- o interinstitucionales, esquema OAI-PMH de recolección de registros de autor, etc.


  • Completar el análisis del modelo de datos del registro de autor definido y presentado de manera preliminar en la reunión. Hay campos pendientes del resultado de las tareas de coordinación mencionadas en puntos anteriores, y la sección de Datos personales está sujeta a modificaciones (en particular los campos de Afiliación –con la propuesta de Alcira de normalizar las entradas mediante códigos- y de Líneas de investigación están sometidas a debate). Es importante tener en consideración las cuestiones de protección de datos por una parte, así como tratar de determinar previamente la manera en que se van a cumplimentar dichos registros de autor (se trataría de que fuera lo más automático posible, pero es una de las cuestiones que se resolverá en el momento en que empiece a implementarse el prototipo).

Estructura preliminar del modelo de datos para registros de autor

Consideraciones sobre la Ley de Protección de Datos


  • Realizar un análisis más detallado del proyecto británico de identificador de ámbito nacional MIMAS NAMES, actualmente en fase de implementación de prototipo. Existen informes finales de las fases de análisis preliminar disponibles en: NAMES Project. Sería conveniente hacer hincapié en las semejanzas y diferencias con el proyecto holandés DAI ya analizado más abajo (y que convendría asimismo mantener actualizado si se producen cambios sobre su diseño inicial) e incluirlo en un apartado de la wiki justo a continuación del análisis del DAI. Estos dos proyectos son a priori los que más se asemejan al tipo de desarrollo que el GT está abordando, de ahí la importancia de contar con análisis exhaustivos de los mismos.

Acta de la reunión mantenida entre miembros del Grupo IPA de Recolecta, miembros del proyecto CVN de FECyT y Alicia López

Objetivo 2.-

Identificar y analizar los principales proyectos relacionados con la agregación, uso y explotación de identificadores únicos de autores, especialmente en repositorios y recolectores, pero también en bases de datos de investigación o similares.

Tabla comparativa de diferentes sistemas de identificación de autor

Informe sobre Metadatos usados en los sistemas de id de autor



Comentarios

  • [Pablo] Con fecha 25/09/2009 se ha reemplazado la versión rtf dañada del segundo documento (Informe sobre metadatos) por una versión PDF en buen estado.


Proyecto DAI (Digital Author Identifier), Holanda

  • Ámbito de cobertura: investigadores que trabajan en las instituciones científicas y académicas de Holanda (aprox. 40.000 personas)
  • Instituciones participantes en el proyecto: 13 Universidades, KNAW (Real Academia de Artes y Ciencias), NWO (Consejo de Investigación Holandés), KB (Biblioteca Real), SURF, OCLC PICA. Lidera y coordina el desarrollo del proyecto la Universidad de Groningen.
  • Proyecto preliminar ORION (2003-2004): análisis de la viabilidad de desarrollar un IPA a nivel nacional con estudios previos en universidades.
  • Sistema METIS (1993- ): sistema unificado de gestión administrativa de la información científica a nivel de universitario (13 universidades lo utilizan), empleado como fuente de datos específicos para enriquecer los registros de autoridad.
  • Modelo de datos en 3 capas, similar al de los registros bibliográficos:

- Primera capa. Datos del catálogo compartido (GGC) + Tesauro holandés de nombres (NTA). Campos: Nationality, Language, Name (best known), Name (most complete), Maiden name, Name variants, Date of birth, Date of death, Date of birth / date of death, Profession / subject, Link to pseudonyms, notes, Entry date, Update date

- Segunda y tercera capas. Los datos de los registros de autor en METIS se añaden al registro de autoridad del catálogo colectivo cuando se produce una equivalencia de nombre (para lo que se emplea por ejemplo la fecha de nacimiento y las iniciales o el nombre de pila). Campos de 2ª y 3ª capas: Local researcher number, Metis name (preferred), Metis name, Sex, Code organisation, Name organisation, Start date employment, Enddate employment, Code function, Description of function, Code of employment, Notes, Entry date, Update date

  • Hay una opción para resolver la problemática a través de un DC extendido, pero en general el esquema de metadatos DC no se adapta bien para la tarea de la recolección del identificador de autor, siendo preferible emplear el modelo MODS en documentos DIDL.
  • Desarrollo piloto previo en la Universidad de Groningen (2005-2006) sobre 2800 autores. A continuación la experiencia se extendió a otras 7 instituciones, con lo que se alcanzaron los 20.000 autores con DAI. Ejemplo de registro de autoridad: http://www.narcis.info/person/RecordID/PRS1239022/query/van+der+waals/Language/en/
  • Se recalca la necesidad de desarrollar los servicios de valor añadido sobre el DAI que justifiquen la magnitud del trabajo realizado y ayuden a su buena recepción por parte del personal científico y académico (cuya colaboración en el desarrollo de los registros de autoridad sería extremadamente valiosa).
  • Como resultado de la exportación del estándar DAI al ámbito internacional, está ya en marcha el Proyecto ISO 27729 para crear un ISNI (International Standard Name Identifier).
  • El 25 de agosto de 2008 SURF hace público un comunicado en la web en el que anuncia que el sistema DAI ya está operativo (aunque su implementación está siendo gradual y lleva cierto retraso sobre la planificación temporal original): http://www.surffoundation.nl/smartsite.dws?fs=&bw=&ch=ENG&id=13854
  • La cuestión de la privacidad de los datos surgió como un serio obstáculo durante el desarrollo del proyecto, pero pudo resolverse trabajando en colaboración con la Agencia Holandesa de Protección de Datos. En los documentos del proyecto se menciona que en función de las restricciones que presente cada legislación nacional, tal vez no todos los países puedan resolver este problema con tanta facilidad.


Comentarios

  • [Pablo] Cabría plantearse que la BNE pudiera llevar a cabo un papel similar al de la KB, pero la cobertura de su fichero de autoridades a nivel de personal científico y académico es mediocre. Como alternativa se sugiere REBIUN, aunque este punto forma parte asimismo del análisis previo del proyecto IPA.
  • [Pablo] La falta de un estándar común de software de gestión administrativa de la información relativa a la actividad científica en las universidades es un hándicap para poder aplicar un esquema similar de modelo de datos en el proyecto IPA de Recolecta. Sería necesario realizar un estudio del nivel de coincidencia existente a este respecto en las universidades españolas.
  • [Julia] Proponer a las Universidades y Centros de Investigación crear un sistema unificado de gestión administrativa que permita disponer de una base de datos de investigadores al estilo de METIS en Holanda.
  • [Pep] Yo sería más expeditivo, definiría cómo lo queremos, le llevaría a cabo en versión beta y luego iría a llamar a esas puertas. Nosotros ya representamos a "Universidades y Centros de Investigación".