jueves, octubre 05, 2006

Resumen Seminario WoK-Granada sep06

Por Elena Larraz Zatarain
Fundación Española para la Ciencia y la Tecnología (FECYT)

1. Objetivos del seminario
La Fundación Española para la Ciencia y la Tecnología, en los dos años que lleva como gestora de las bases de datos de la Web of Knowledge, se ha encontrado en diversas ocasiones con las dificultades de los bibliómetras a la hora de reconocer y buscar las publicaciones en las bases de datos objeto de sus análisis. La diversidad de formas en las que muchos investigadores introducen en sus escritos los nombres de los centros de trabajo, de las áreas científicas y de sus propios apellidos, conduce en muchas ocasiones a perder información muy valiosa, en perjuicio del investigador y del análisis de los datos con fines de política científica. Habida cuenta de que en función de cómo se traten los campos, los resultados del análisis de las bases de datos son diferentes, se plantea la organización de un seminario de trabajo con el objetivo de que los diferentes grupos de bibliómetras aporten y consensúen los criterios básicos para normalizar los campos más críticos del análisis bibliométrico.


2. Presentación del Atlas de la Ciencia
En el debate que sigue a la presentación del Atlas de la Ciencia por Félix de Moya, se tratan principalmente dos temas. Por una parte, sale a colación la renegociación de la licencia de la gestión de la WoK con Thomson Scientific. Los asistentes sugieren varios puntos que sería conveniente tener en cuenta en la renegociación, entre ellos aclarar qué registros del ISI se pueden utilizar para el Atlas de Ciencia o facilitar el proceso de descarga de datos de WoS de España y a nivel mundial para la realización de estudios bibliométricos y procesos de normalización que, en su caso, se podrían presentar como contrapartida a Thomson para depurar sus bases y que, a su vez, permitirían gestionar la información según los intereses de la plataforma de normalización y prescindir de la contratación de otros servicios de Thomson Scientific para la gestión de datos (como los NCR). José Manuel Báez explica que alguna de estas cuestiones se ven limitadas, no tanto por la negociación, como por cuestiones técnicas de la propia infraestructura tecnológica de Thomson.Por otro lado, surgen cuestiones acerca de cómo se va a estructurar la plataforma de normalización (relación formal entre los distintos grupos de trabajo y admisión de nuevos miembros), de la necesidad de llegar a un consenso sobre el proceso de normalización y de definir la metodología de trabajo, de forma que, en un primer paso, se revise y se ponga en común tanto la información normalizada como la metodología de cada grupo de trabajo y, posteriormente, se establezca una estrategia común.

3. Normalización de palabras
Rafael Bailón, del grupo de Evaluación de la Ciencia y de la Comunicación Científica (EC3) de la Universidad de Granada, hace una presentación de CopalRed, una herramienta de utilidad para la normalización de palabras.
Según sus autores, CoPalRed es una aplicación que recoge la información contenida en las bases de datos y la transforma en nuevo conocimiento, que no estaba explícito en la información contenida en las bases de datos, sino que se genera a partir de la información contenida en ellas. Este sistema de conocimiento parte de la información contenida en las bases de datos mediante una estrategia de recuperación de la información de cualquier tipo: booleana, de hojeo (“Browsing”) de navegación, etcétera. CoPalRed es capaz de realizar una depuración previa de la información y lleva de forma totalmente automatizada tres tipos de análisis:
1.
Análisis estructural. Pone de manifiesto la estructura en forma de red del campo científico en estudio, definiendo los actores y sus relaciones.
2.
Análisis estratégico. Sitúa a cada actor en una posición relativa dentro de la red, definiéndolo según la intensidad de sus relaciones externas (centralidad) y según su cohesión interna (densidad)
3.
Análisis dinámico. A diferencia de otros sistemas, analiza las transformaciones (traducciones-translaciones) de los actores con el tiempo. Identifica acercamientos, bifurcaciones, apariciones y desapariciones de los actores.
Con el resultado de estos análisis se genera lo que se denomina una Base de Conocimiento que ya no contiene la información de las bases de datos de las que se partió, sino un conocimiento objetivo nuevo. Este conocimiento puede ser consultado y obtenerse distintas salidas (“outputs”). Estos conocimientos generados representan una visión inmediata, altamente comprensible y sintética que necesita un investigador o un gestor responsable en la toma de decisiones para hacerse una idea veraz y clara del estado de la cuestión en estudio. Estos conocimientos pueden ser a su vez la fuente de información de bases de datos, cerrándose y retroalimentándose el sistema.


4. Normalización de categorías
Se discute la idoneidad de usar unas bases de datos u otras como fuentes para la categorización de documentos y la forma de mapear unas con otras. Parece que hay consenso en que en el proceso de normalización es conveniente mantener, en una primera aproximación al menos, las categorías contempladas por ISI, aún siendo conscientes de sus limitaciones (emplea dos subconjuntos de categorías WoS y JCR que no coinciden entre sí y que varían en el tiempo), y tender, de forma secundaria o paralela, a completarlas y mapearlas con las de otras bases de datos más especializadas (Medline, INSPEC, MathSci,…). Se comenta particularmente el problema de variabilidad en el tiempo en la categorización de documentos (por reubicación de las revistas, aparición y desaparición de las categorías, cambios en la denominación de las mismas) que haría necesaria una categorización retrospectiva paralela, contemplando al mismo tiempo categorizaciones sincrónicas y diacrónicas.


5. Normalización de información sobre instituciones para la elaboración de indicadores de CyT
En su exposición, Isabel Gómez presenta una propuesta de categorización de sectores institucionales a partir de la cual se plantean varias cuestiones a discutir, entre ellas el nivel de desagregación de instituciones, la adscripción de hospitales universitarios, centros mixtos y asociados y nuevos centros intersectoriales o la variación de adscripción en el tiempo de las instituciones. El PRBB trabaja, en líneas generales, con una clasificación similar si bien contemplando las peculiaridades de los centros del sector sanitario en los que existe un nivel mayor de desagregación. En su caso, los centros multisectoriales son adscritos a todos los centros que figuren en la firma del registro. Sin embargo hay grupos, como el de la Universidad Carlos III de Madrid que consideran que los centros mixtos deberían tratarse como institución única. Tras un pequeño debate, se acuerda que Isabel reformulará el modelo de clasificación de sectores institucionales considerando un nivel más de desagregación en las instituciones sanitarias. Este modelo se podría integrar en el manual de instrucciones de buenas prácticas para la firma de los trabajos científicos que está elaborando el CINDOC (y que también han elaborado el grupo de Emilio Delgado) y que forma parte de la propuesta 1 incluida en la exposición. Una de las posibilidades, una vez finalizado y consensuado dicho manual, puede ser difundirlo a través del portal de la WoK. En cualquier caso esta clasificación de sectores institucionales correspondería más a un proceso interno de tratamiento de datos que de normalización.
Se discute también la propuesta 2, que consiste en la elaboración de un índice de autoridades o ‘master list’ de centros de investigación españoles con los nombres homologados. Sobre las cuestiones planteadas en la propuesta, se habla en la conveniencia de que las instituciones realicen un listado que recoja todas las variaciones aceptadas en su nomenclatura (incluidos acrónimos o traducciones a otros idiomas) y de llegar hasta un tercer nivel de desagregación en cada institución.
La propuesta 3 de elaboración de una serie de recomendaciones para obtener una visión más completa del sistema español de CyT, se afrontará en una fase más avanzada del proyecto.
En cuanto a la propuesta 4, la FECYT analizará y propondrá una estructura formal de relación y comunicación entre los distintos grupos que constituyen la plataforma de normalización. Además tendrá en cuenta en la renegociación de la licencia de la WoK con Thomson Scientific, las sugerencias manifestadas por los asistentes (recogidas en el punto 2 de este resumen).

5. Normalización de autores
En su exposición, el grupo del PRBB menciona problemas habituales en la normalización de autores como la existencia de homónimos y sinónimos y las limitaciones inherentes a una depuración semiautomatizada. Exponen una serie de ejemplos de su trabajo en la normalización de autores en el campo de la biomedicina y proponen la creación de una bbdd común en la que se mantengan y actualicen depuraciones resultantes de esfuerzos de los diferentes grupos y la existencia de un ‘DNI’ bibliográfico. Se discute ampliamente esta última cuestión, al surgir también en el debate el proyecto del Curriculum Vitae Normalizado (CVN) en el que se usará un código unívoco que identifique a cada uno de los autores inscritos en la base de datos. Se discute acerca de la posibilidad de utilizar ese mismo código para la normalización de autores y de la extracción pública de datos sin que afecte a lo que marca la LOPD (acceso a una forma encriptada de los datos, por ejemplo). Sin embargo, tanto por cuestiones de privacidad como porque el CVN aún no está habilitado, se conviene en la necesidad de utilizar otros códigos preexistentes establecidos por los distintos grupos de investigación bibliométrica de la plataforma y, a partir de ellos, crear de forma cooperativa un módulo de código común complementario que incluya el nombre correcto del autor (‘apellido1+apellido2+,+nombre’), asociado a uno o varios campos posibles que enriquezcan el registro (cuyo número será función del trabajo de normalización que haya realizado cada grupo). Para una primera fase, se desestima la opción de generar una tabla adicional de autores identificados unívocamente mediante un índice.
A este proceso de normalización podría ayudar el desarrollo de un nuevo servicio en el portal de la WoK, ‘Mi perfil de investigador’, que permitiera a los autores depurar de, entre una serie de alias bibliográficos recogidos en las bases de datos de Thomson, aquel o aquellos que les correspondieran (siguiendo el ejemplo del PRBB de usar un formulario web como herramienta para purgar una base de datos). Vuelve a surgir en este punto la conveniencia de difundir un manual de instrucciones de buenas prácticas para la firma de los trabajos científicos.

6. Currículum Vítae Normalizado
Debido a la mención en el debate al proyecto del Currículum Vítae Normalizado, proyecto dirigido por FECYT con la colaboración de la Junta de Andalucía, se procede ha hacer una breve presentación del mismo.
Este proyecto pretende la creación de un formato de currículum electrónico CVN-XML que sea el formato común para convocatorias de I+D+i. Este formato también facilitará la movilidad de los investigadores al ser aceptado por distintos sistemas de información curricular, posibilitando el intercambio de CVN-XML entre entidades (con el permiso del propietario del CV). Todo ello propiciara una mejora de los procesos de gestión.
Se presentan productos resultantes del grupo de trabajo CVN para la normalización de entidades. También se muestra el formato electrónico de currículum CVN-XML,
El proyecto se encuentra actualmente en fase de validación con vistas a su posterior publicación en el B.O.E. (más información en http://cv.normalizado.org).

7. Conclusiones y próximas acciones

a) Formalización de la relación entre los grupos de la plataforma: la FECYT propondrá una estructura formal de relación y comunicación entre los distintos grupos que constituyen la plataforma de normalización. Dicha propuesta se circulará entre los miembros y se recogerán comentarios o sugerencias a la misma. Finalmente, se constituirá la plataforma.

b) Manual de buenas prácticas para la firma de los trabajos científicos: Isabel Gómez y Emilio Delgado remitirán a la FECYT en un plazo de 2 a 4 semanas, una propuesta de manual de ayuda a los investigadores para la normalización del nombre de autores e instituciones a las que pertenecen. La FECYT circulará ambos documentos entre todos los grupos de la plataforma y se recogerán comentarios y sugerencias con los que se cerrará un único documento que podrá ser difundido a través del portal de la WoK u otros.

c) Normalización de categorías: Félix de Moya remitirá en un plazo de dos a cuatro semanas un documento con su propuesta de normalización de categorías.

d) Tipología de instituciones: Isabel Gómez elaborará un documento que recoja su propuesta desarrollando un segundo nivel de desagregación de las instituciones del sector sanitario. A partir de este documento se generará una master list de centros de investigación españoles común. Cabe la posibilidad de celebrar un seminario sobre este asunto.

e) Normalización de autores: se acuerda que introduzcan en todos los registros un campo nuevo que recoja el campo autor normalizado en forma [nombre completo, apellidos]. La FECYT por su parte, iniciará el diseño de un módulo para facilitar la normalización de autores.

Apuntes: - Evaristo Jiménez ofrece el programa presentado por su grupo para normalización de palabras, CopalRed, a toda aquella persona que le resulte de utilidad para su trabajo de normalización.

- Isabel Gómez hace mención de la 11ª conferencia internacional de la ISSI (International Society for Scientometrics and Infometrics), que tendrá lugar del 25 al 27 de junio de 2007 en el CINDOC (Madrid).