DOI GitHub License GitHub release

Research Funding Knowledge Graph (RFKG) + PipeGrobid

Esta documentacion describe el sistema RFKG + PipeGrobid. RFKG es la aplicacion final para analizar financiacion cientifica mediante un Knowledge Graph; PipeGrobid es el pipeline documental que convierte PDFs cientificos en XML TEI y genera la base necesaria para construir ese grafo.

La documentacion esta organizada en dos fases:

  • FASE 1: construccion de PipeGrobid como pipeline reproducible para convertir PDFs en XML TEI, extraer abstracts, figuras y enlaces, y generar salidas visuales.
  • FASE 2: construccion de RFKG como aplicacion basada en Knowledge Graph para analizar financiacion cientifica con n8n, Fuseki, research_api y Streamlit.

La FASE 2 se documenta en Research Funding Knowledge Graph.

Objetivo del proyecto

El objetivo del proyecto es construir una cadena reproducible capaz de:

  • procesar documentos cientificos en PDF mediante GROBID y PipeGrobid;
  • extraer informacion estructurada desde XML TEI;
  • enriquecer entidades, proyectos, autores, acknowledgements y topics;
  • generar un Knowledge Graph RDF;
  • consultarlo desde Fuseki mediante research_api;
  • visualizarlo en la app Streamlit RFKG.

El flujo del proyecto es:

PipeGrobid -> KG RDF/TTL -> Fuseki -> research_api -> Streamlit

Estructura del proyecto

/
|-- generated_files/        # Archivos generados por PipeGrobid
|-- pdfs/                   # PDFs de entrada
|-- xmls/                   # XML TEI generados por GROBID/PipeGrobid
|-- src/pipegrobid/         # Paquete principal de PipeGrobid
|-- test/                   # Tests del paquete principal
|-- assigment_2/            # Steps de ontologia, NER, topics y KG
|-- containers/             # Stack Docker, n8n, Fuseki, API y frontend
|-- docs/                   # Documentacion ReadTheDocs
|-- app.md                  # Documento operativo de RFKG
|-- CITATION.cff            # Como citar el software
|-- codemeta.json           # Metadatos del proyecto
|-- LICENSE                 # Licencia Apache 2.0
|-- README.md               # Documentacion principal
|-- poetry.lock             # Resolucion de dependencias
`-- pyproject.toml          # Metadatos y dependencias Python