The internet never forgets: A four-step scraping tutorial, codebase, and database for longitudinal organizational website data


Haans, Richard F.J. ; Mertens, Marc J.


[img] PDF
haans-mertens-2024-the-internet-never-forgets-a-four-step-scraping-tutorial-codebase-and-database-for-longitudinal.pdf - Veröffentlichte Version

Download (1MB)

DOI: https://doi.org/10.1177/10944281241284941
URL: https://journals.sagepub.com/doi/10.1177/109442812...
Weitere URL: https://www.researchgate.net/publication/385550928...
URN: urn:nbn:de:bsz:180-madoc-684725
Dokumenttyp: Zeitschriftenartikel
Erscheinungsjahr Online: 2024
Datum: 4 November 2024
Titel einer Zeitschrift oder einer Reihe: Organizational Research Methods : ORM
Band/Volume: tba
Heft/Issue: tba
Seitenbereich: 1-29
Ort der Veröffentlichung: Thousand Oaks, CA
Verlag: Sage
ISSN: 1094-4281 , 1552-7425
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Betriebswirtschaftslehre > Strategisches u. Internat. Management (Brauer 2014-)
Bereits vorhandene Lizenz: Creative Commons Namensnennung, nicht kommerziell 4.0 International (CC BY-NC 4.0)
Fachgebiet: 330 Wirtschaft
Freie Schlagwörter (Englisch): websites, web scraping, Wayback Machine, textual data, Compustat
Abstract: Websites represent a crucial avenue for organizations to reach customers, attract talent, and disseminate information to stakeholders. Despite their importance, strikingly little work in the domain of organization and management research has tapped into this source of longitudinal big data. In this paper, we highlight the unique nature and profound potential of longitudinal website data and present novel open-source code- and databases that make these data accessible. Specifically, our codebase offers a general-purpose setup, building on four central steps to scrape historical websites using the Wayback Machine. Our open-access CompuCrawl database was built using this four-step approach. It contains websites of North American firms in the Compustat database between 1996 and 2020—covering 11,277 firms with 86,303 firm/year observations and 1,617,675 webpages. We describe the coverage of our database and illustrate its use by applying word-embedding models to reveal the evolving meaning of the concept of “sustainability” over time. Finally, we outline several avenues for future research enabled by our step-by-step longitudinal web scraping approach and our CompuCrawl database.


Ökonomische NachhaltigkeitÖkologische NachhaltigkeitSoziale Nachhaltigkeit


Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.

Diese Publikation ist bisher nur Online erschienen. Diese Publikation nun als "Jetzt in Print erschienen" melden.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen