Data Reports Series Introduction

English

The first phase of the Oceanic Exchanges project includes a detailed study of our various data sets; before we dig into the data, we need to know about its characteristics. What exactly does it comprise? How were these data sets made? And how might they talk to each other?

Answering these questions will help Oceanic Exchanges set its research purviews and begin to address the significant challenges of resolving different digital collections—the project uses national and commercial data sets of newspapers from across the world in six languages. Nor is it just the newspaper text that crosses linguistic boundaries; the metadata, or the information that surrounds and describes our texts, was devised and implemented in multiple languages as well as with different practical and cultural considerations.

Over the next two months, we will be discussing each of these datasets in detail. We will explore the shape and composition of each source collection, which newspapers it includes, and how they fit together to form a cohesive unit. We will also consider what these collections omit, ideologically and practically, and where researchers might go for further information.

These reports will form the foundation of a cross-collection understanding of how newspaper materials are computationally catalogued and how archivists and researchers might develop a deeper and more meaningful ontology to engage with nineteenth-century newspapers in their physical and digital forms. Reports will be published biweekly right here on the OcEx blog. Stay tuned!

Suomi

Oceanic Exchanges -hankkeen ensimmäinen vaihe koostuu projektin käytettävissä olevan aineiston tarkastelusta. Ennen kuin voimme louhia aineistoa on tärkeää tuntea sen ominaisuudet. Mitä se tarkkaan ottaen sisältää? Miten nämä aineistot ovat syntyneet? Ja miten ne saataisiin keskustelemaan keskenään?

Näihin kysymyksiin vastaaminen auttaa OcEx-hanketta rakentamaan tutkimuksellisia tavoitteitaan ja vastaamaan erilaisten digitaalisten kokoelmien yhdistämisen haasteeseen. OcEx käyttää sekä kansallisia että kaupallisia sanomalehtikokoelmia eri puolilta maailmaa, kuudella kielellä. Sanomalehtitekstit ovat ylittäneet kielellisiä rajoja, mutta metadata, tieto, joka ympäröivä ja kuvaa tekstejä, on myös luotu eri kielillä ja erilaisten käytännöllisten ja kulttuuristen olosuhteiden sisällä.

Tulevina kuukausina tarkastelemme koko tätä aineistoa yksityiskohtaisesti. Tutkimme jokaisen aineistokokoelman muotoa ja rakennetta: mitä sanomalehtiä se sisältää ja miten ne voidaan liittää kokonaisuudeksi. Pohdimme myös, mitä näistä kokoelmista puuttuu tai mitä ne välttävät, joko ideologisesti tai käytännöllisesti, ja miten tutkijat voisivat ratkaista tämän ongelman saadakseen lisätietoa.

Nämä datakuvaukset muodostavat perustan kokoelmien rajat ylittävälle ymmärrykselle: miten sanomalehtiaineistot on ylipäätään luetteloitu, ja miten voitaisiin kehittää vielä syvemmälle menevä ja toimivampi, sekä julkaisujen fyysiset että digitaaliset muodot huomioiva, 1800-luvun sanomalehtien ontologia. Nämä kuvaukset julkaistaan joka toinen viikko OcEx-hankkeen blogissa. Tervetuloa mukaan!

Deutsch

Am Anfang jedes Projekts steht für gewöhnlich eine erste, gründliche Sichtung der Datenlage - so auch in Oceanic Exchanges. Bevor systematisch wissenschaftliche Fragen an die zur Verfügung stehenden Datensets gestellt werden können, muss erst einmal geklärt werden, womit man es dabei überhaupt zu tun hat. Was genau beinhalten die Daten? Wie und wofür wurden sie erstellt? Und wie lassen sich etwa Verbindungen zwischen den unterschiedlichen Sammlungen herstellen?

Erst wenn Antworten auf diese Fragen gefunden sind, wird das Projekt in den Stand versetzt, seine Forschungsagenda festzulegen und sich tiefer mit den in den verschiedenen Datensets liegenden Informationen und Herausforderungen zu beschäftigen. Oceanic Exchanges greift dabei auf nationale und internationale, freie wie auch kommerzielle Sammlungen digitalisierter Zeitungen in insgesamt sechs Sprachen zurück. Aber nicht nur die Zeitungen selbst sind in unterschiedlichen Sprachen verfasst - auch die Metadaten und die beschreibenden Kontextinformationen für jede Zeitungssammlung liegen in verschiedenen Sprachen vor und sind meist ebenfalls durch die jeweiligen kulturellen und praktischen Hintergründe geprägt.

Im Laufe der kommenden Monate werden wir jedes Einzelne dieser Datensets im Detail hier vorstellen. Dabei werden deren Entstehungsgeschichte und Umfang diskutiert, welche Zeitungstitel enthalten sind und auch welche gemeinsamen Charakteristika die Sammlung zusammenhalten. Aber auch der Frage danach, welche Lücken eine Sammlung - sei es aus ideologischen oder rein praktischen Gründen - hat und wie Wissenschaftler*Innen weiterführende Informationen und Daten bekommen können, spielt dabei eine wichtige Rolle.

Diese Einzelberichte stellen dann wiederum die Grundlage für eine sammlungs- und nationenübergreifende Betrachtung darüber dar, wie Zeitungen katalogisiert und digitalisiert werden und wie Wissenschaftler*Innen und Bibliotheken bzw. Archive sich mit sowohl digitalen als auch analogen Zeitungen des 19. Jahrhunderts tiefergehender auseinandersetzen können. Die Darstellungen der einzelnen Sammlungen werden im 2-Wochen-Rhythmus auf diesem Blog erscheinen - schauen Sie also regelmäßig vorbei, um nichts zu verpassen!

Español

La primera fase del proyecto Oceanic Exchanges incluye un estudio detallado de nuestras diversas bases de datos. Antes de ahondar en éstas, necesitamos saber sus características: ¿Cómo están compuestas? ¿Cómo se recabaron las bases de datos? y ¿Cómo pueden comunicarse entre sí?

Contestar estas interrogantes ayudará a OcEx a establecer el alcance de la investigación y a comenzar a enfrentar los retos para empatar las diferentes colecciones digitales. OcEx usa bases de datos nacionales y comerciales de periódicos de todo el mundo en seis idiomas. No sólo los textos de los periódicos atraviesan las barreras lingüísticas; los meta-datos, la información alrededor de los textos y sus descripciones también fueron creadas e implementadas en múltiples lenguajes y con consideraciones prácticas y culturales diferentes.

En los siguientes dos meses, estaremos discutiendo a profundidad cada una de estas bases de datos. Investigaremos la forma y composición de la fuente de cada colección: cuáles periódicos incluye y cómo podrán unirse para forma una sola unidad. También consideraremos lo que estas colecciones omiten ideológica y prácticamente y a dónde podrán acudir los investigadores para obtener mayor información.

Estos reportes conformarán los cimientos para entender, a través de las diferentes colecciones, cómo son catalogados computacionalmente los materiales hemerográficos y cómo los archivistas e investigadores podrán desarrollar ontologías más profundas y significativas para abordar los periódicos del siglo XIX, tanto en forma digital como física. Los reportes serán publicados quincenalmente aquí en el blog de OcEx. ¡Manténgase al tanto!

Nederlands

De eerste fase van het project Oceanic Exchanges omvat een gedetailleerde analyse van onze verschillende datasets. Voordat we systematisch wetenschappelijke vragen aan het materiaal kunnen stellen, is het nodig om eerst te bepalen waaruit de datasets precies bestaan. Hoe zijn ze samengesteld? En hoe zouden ze met elkaar in verband kunnen worden gebracht?

De antwoorden op deze vragen zullen Oceanic Exchanges helpen om het onderzoeksgebied vast te stellen en een manier te vinden om te werken met de verschillende digitale collecties. Het project gebruikt zowel nationale als commerciële datasets van kranten uit de hele wereld in zes talen. Daarbij hebben we niet alleen te maken met krantenteksten die de taalgrenzen doorkruisen. Ook de metadata, de informatie die onze teksten beschrijft en omringt, is opgesteld in verschillende talen en is bovendien beïnvloed door de verschillende praktische en culturele achtergronden.

In de komende twee maanden zullen we deze datasets in detail presenteren. We zullen de vorm en samenstelling van elke collectie verkennen en nagaan welke krantentitels hierin aanwezig zijn. Ook onderzoeken we op welke manier deze data een samenhangend geheel vormen; wat de gemene deler is. Daarnaast zullen we ook nagaan wat de hiaten in de collecties zijn, zowel op ideologisch als op praktisch gebied, en hoe en waar onderzoekers meer informatie kunnen vinden.

Deze rapporten zullen de basis vormen van een collectie-overstijgend begrip van hoe kranten gecatalogiseerd en gedigitaliseerd worden en hoe onderzoekers, bibliotheken en archieven een samenhangende datastructuur (ontologie) kunnen opzetten om meer inzicht te krijgen in deze negentiende-eeuwse kranten, zowel in papieren als digitale vorm. Om de week zullen we een collectie aan u presenteren– surf daarom regelmatig voorbij om niets te missen!