Knight Center
Knight Center

Blog PERIODISMO EN LAS AMERICAS

Descifrando el 'data scraping': Herramientas para 'raspar' datos que facilitan el trabajo de los periodistas




¿Alguna vez ha oído hablar del "data scraping" o "raspado de datos"? El término puede parecer nuevo, pero la técnica ha sido utilizada por los programadores desde hace bastante tiempo y ha atraído la atención de los periodistas que necesitan acceder y organizar los datos para reportajes de investigación.

El raspado es la extracción de datos de sitios Web para transportarlos a un formato más sencillo y maleable para analizarlos y cruzarlos con mayor facilidad. A menudo, la información necesaria para mejorar un reportaje está disponible, pero los sitios de navegación son malos o las bases de datos son difíciles de usar. Para recopilar automáticamente y mostrar esta información, se recurre a software conocido como "scrapers".

Aunque pueda parecer algo para 'geeks', sin necesidad de cursar estudios avanzados en lenguajes de programación y aprender complicadas tareas para raspar datos. De acuerdo con el hackera Peter Markun, varios talleres emocionantes raspado en la Casa de la Cultura Digital en Sao Paulo, el nivel de conocimiento necesario para tomar ventaja de esta técnica es "muy básico".

"Los raspadores o scrapers son programas sencillos para hacer frente al gran desafío y el ejercicio constante es encontrar un patrón en los datos de páginas web - algunas páginas son muy sencillas, otras son un dolor de cabeza sin fin", dijo el Centro Knight para el Periodismo en las Américas.

Markun tiene un perfil público en Scraperwiki, el sitio que le permite escribir un raspado de datos en internet o acceder a bases de datos creadas por otras personas.

Al igual que Scraperwiki, hay otras herramientas en línea que facilitan la ampliación de los datos, tales como Mozenda, una interfaz de software sencilla que automatiza gran parte del trabajo, y Screen Scraper, una herramienta más compleja, que trabaja con varios lenguajes de programación para extraer datos de internet. Otra herramienta similar es Firebug (para Firefox).

Google ofrece Google Refine para manipular datos confusos y convertirlos en formatos más fáciles de interpretar.

También se puede descargar en forma gratuita Ruby, un lenguaje de programación sencillo y eficaz, que puede girar en Nokogiri para hacer scrapings de los documentos y sitios web

No todos los formatos de datos están en formatos abiertos y fáciles de utilizar. Los documentos escaneados, por ejemplo, primero se deben convertir a texto. Esta función se puede encontrar en Tesseract, un programa de OCR (Reconocimiento Óptico de Caracteres), creada por Google que "lee" el texto escaneado y lo convierte en texto virtual que pueda ser interpretado por la computadora.

La información y manuales sobre el uso de estas herramientas están disponibles en sitios como Propublica, un portal que ofrece diversos artículos y tutoriales para que los periodistas aprendan a usar estas herramientas, mientras que los videos de YouTube también pueden ser una herramienta útil.

Incluso si usted ha adoptado la filosofía de un hacker, en el que la lectura de guías y poner manos a la obra son su modo de aprendizaje, puede encontrarse algunas dudas y dificultades en el uso de estas herramientas. Una buena opción es ponerse en contacto con los programadores con más experiencia en grupos de discusión, tales como las comunidades de Scraperwiki y Thackday, que ofrecen alternativas tanto gratuitas como de pago para encontrar ayuda a la hora de hacer scraping.

El manejo de datos puede ser incluso algo de la vieja escuela para algunos periodistas, pero es necesario entender cómo extraer y organizar datos ya que esto ha cobrado importancia en la era de la saturación de información y por ello los periodistas deben tomar ventaja de este tipo de herramientas.



No comments

Enviar un comentario nuevo

El contenido de este campo se mantiene privado y no se mostrará públicamente.
By submitting this form, you accept the Mollom privacy policy.


Suscríbase a nuestro boletín

Reciba nuestro boletín semanal sobre el periodismo en las Américas.

Escoja su idioma:

English
Español
Português

Por favor, ingrese su correo electrónico:

Facebook

Comentarios recientes