torstai 19. toukokuuta 2011

TUUKKA: User Groups in Social Networks (tutkimus, joka voi olla erityisesti Gigalaisten mieleen): aineistonhankinta ja analyysimenetelmät


Osa yhteisöllisistä verkkopalveluista (SNS) on puhtaasti sosiaalisia, kun taas  esimerkiksi YouTube on taas suuressa määrin sisältöön keskittynyt pitäessään yllä sosiaalisuutta. YouTuben kohdalla onkin siis syytä kysyä: miten sisältö ja kontaktit ovat suhteessa toisiinsa

Tutkimuksessa tarkasteltiin sosiaalisten aktiviteettien ja yhteisöjen piirteitä sisältöön keskittyvässä YouTubessa. Kahdenlaisia verkkoja tutkittiin. Ensinnäkin tilaamista (subscription) joka on sisältöön suuntautunut suhde, toisekseen ystävyyttä (friendship), joka on sosialisaatioon pyrkivää.

Tutkimuksessa tietoa haettiin Pythonilla ja Javalla luoduilla matelijoilla (crawlers). 

Ensi vaiheessa satunnaisia YouTube käyttäjiä hankittiin aineistoksi lumipallomallilla, joka alkoi "korkean tason käyttäjästä". YouTuben APIn http://en.wikipedia.org/wiki/API avulla kerättiin käyttäjätietoja, kuten ystävien määrää, tilauksia, tilaajia, sijaintia yms.  Luotiin keinotekoisia ja satunnaisia ryhmiä.

Toisessa vaiheessa kaikki ryhmätieto kerättiin, kuten ryhmän nimi, jäsenmäärä aiheet jne. Tieto kerättiin ruudunraaputusmenetelmin (screen-scraping). http://en.wikipedia.org/wiki/Data_scraping

Kolmannessa vaiheessa tutkittiin kaikki ryhmät, joissa oli jäseniä kolme tai enemmän. Kategoriaksi valittiin Koulutus, tiede ja teknologia. Kaikki videot ja jäsenet selvitettiin ryhmän kotisivulta. Kaikki ryhmän jäsenten ystävätiedot, tilaukset ja tilaajat selvitettiin.

Neljännessä vaiheessa Javan ja Pythonin matelija:-)ohjelmien avulla viiden muun kategorian tiedot  selvitettiin, jotta niiden erot saataisiin selville.
Nämä kategoriat olivat: 
1. Uutiset ja politiikka, keskimäärin suurin määrä jäseniä, videoita ja keskusteluja
2. Musiikki, suurin kategoria (kategoriassa oli liikaa ryhmiä, joten 3000 satunnaista tutkittiin)
3. Lemmikit ja eläimet, suuri korrelaatio ryhmän muuttujien välillä (jäsenmäärä, muistiinpanot, aiheet, videot)
4.Hyväntekeväisyys ja aktivismi, vähäinen vaihtelu ryhmämuuttujien välillä.
5. Urheilu, korkea jäsen-, video- ja keskustelumäärä, myös suuret korrelaatiot ryhmämuuttujien välillä.

Neljännen tason crawlaus tehtiin viisi kuukautta  ennen kolmannen vaiheen crawlausta. Koska YouTube oli suunnitellut sivunsa uudelleen AJAXilla ja HTMLllä, tarvittiin uutta matelijaa joka kirjoitettiin JAVAn Crawljax paketilla. 

Viidennessä vaiheessa, jotta saataisiin selville ryhmien muutos ajan saatossa, ryhmän Koulutus, tiede ja teknologia jäsenet crawlattiin uudelleen, kahden kuukauden jälkeen edellisestä crawlauksesta.

Sattuuko joku muuten tietämään, mitä tämä crawling ihan käytännössä tarkoittaa?

Ei kommentteja:

Lähetä kommentti