X-GTA:
Cross-Topic German Twitter Archive
Methodik, Implikationen und Erkenntnisse
2024-03-19
Regionalization of Stereotyping in Online Spaces
using Text Based Computational Sociology Methods
Wie könnte eine Infrastruktur aussehen könnte, die Forschung mit großen Datenmengen ermöglicht und eine zuverlässige Archivierung für kommende Generationen sicherstellt?
Anwendungsbeispiel: Stereotypen Analyse
tweets
Tabelle: t.
ist JSON root für jeden Tweet.
Column Name | Data Type | Description |
---|---|---|
id |
integer | t.id |
timestamp_ms |
integer | t.timestamp_ms |
place |
jsonb | t.place |
extended_tweet |
jsonb | t.extended_tweet |
in_reply_to_status_id |
integer | t.in_reply_to_status_id |
in_reply_to_user_id |
integer | t.in_reply_to_user_id |
source |
text | t.source |
quoted_status_id |
integer | t.quoted_status_id |
g_text |
text | t.tweet.extended_tweet.full_text if it exists, else t.text |
g_postdate |
date | t.timestamp_ms / 1000 as date, needed for partitioning |
g_coordinates_longitude |
float | first part of t.coordinates.coordinates |
g_coordinates_latitude |
float | second part of t.coordinates.coordinates |
g_isretweet |
boolean | if t.text begins with ‘RT’ |
profiles
Tabelle: t.
ist JSON root für jeden Tweet.
Column Name | Data Type | Description |
---|---|---|
id |
integer | t.user.id |
name |
text | t.user.name |
screen_name |
text | t.user.screen_name |
location |
text | t.user.location |
url |
text | t.user.url |
protected |
boolean | t.user.protected |
verified |
boolean | t.user.verified |
description |
text | t.user.description |
created_at |
text | t.user.created_at |
geo_enabled |
boolean | t.user.geo_enabled |
listed_count |
integer | t.user.listed_count |
friends_count |
integer | t.user.friends_count |
statuses_count |
integer | t.user.statuses_count |
followers_count |
integer | t.user.followers_count |
favourites_count |
integer | t.user.favourites_count |
profile_image_url |
text | t.user.profile_image_url |
profile_banner_url |
text | t.user.profile_banner_url |
withheld_in_countries |
text | t.user.withheld_in_countries |
g_tweet_id |
integer | t.id , needed for joining with tweets table |
g_postdate |
date | t.timestamp_ms / 1000 as date, needed for partitioning |
Wie könnte eine Infrastruktur aussehen könnte, die Forschung mit großen Datenmengen ermöglicht und eine zuverlässige Archivierung für kommende Generationen sicherstellt?
Wie könnte eine Infrastruktur aussehen könnte, die Forschung mit großen Datenmengen ermöglicht und eine zuverlässige Archivierung für kommende Generationen sicherstellt?
Computational Social Science:
Bridging Data and Methods with
Theory and Applications
Workshop
May 6-7, 2024 | Bielefeld University
Stefan Knauff
stefan.knauff@uni-bielefeld.de
@sknauff:uni-bielefeld.de
+49 521 106-67468
Dorian Tsolak
dorian.tsolak@uni-bielefeld.de
@dtsolak:uni-bielefeld.de
+49 521 106-4638
Simon Kühne
simon.kuehne@uni-bielefeld.de
@skuehne:uni-bielefeld.de
+49 521 106-4681