Julki§uuslaki.fi

Tutkimus- ja koulutussivusto


Opasmateriaali

Cirrus-sanapilvi Voyant Toolsissa

Tutkimushankkeessa on laadittu journalistiseen työhön parhaiten soveltuvalle tekstianalyysiohjelmalle, Voyant Toolsille, erilaista opasmateriaalia:

Sisällys:

< Takaisin hankkeen etusivulle

Kirjoitettu opasmateriaali:

Sisällys:

Voyant Tools -palvelimen lataaminen ja käynnistäminen

Voyant Toolsia voi käyttää selainpohjaisena pilvipalvelimella osoitteessa https://voyant-tools.org/. Tämä on kätevää julkisella aineistolla, kuten netistä ladattavilla verkkosivustoilla tai muilla julkistetuilla julkisilla asiakirjoilla.

Voyant Tools lähettää selainversioon syötetyt tiedostot pilvipalvelimelle Yhdysvaltoihin. Lähdesuoja- tai tietosuojasyistä omalle koneelle voi ladata palvelinversion. Ohjeet ja tiedostot löytyvät osoitteesta https://voyant-tools.org/docs/#!/guide/server

Voyant Toolsin palvelin vaatii toimiakseen myös Java ohjelmistoalustan. Sen voi ladata osoitteesta https://www.java.com/en/ . Voyant Toolsin laitteistovaatimukset ovat oikeastaan Javan laitteistovaatimukset. Voyant tools -palvelin on noin 320 Mt kokoisessa pakatussa .zip-tiedostossa, joka purettuna vie tilaa kiintolevyltä noin 450 Mt.

Voyant Tools käynnistetään tiedostolla VoyantServer.jar. Tämä on Javan tiedosto. Java avaa Voyant Server -ikkunan, ja avaa noin puoli minuuttia palvelinta, kunnes avaa Voyant Toolsin selainikkunaan. Mikäli mitään ei tapahdu automaattisesti, klikkaa "Start Server", ja kun alapuolisessa konsolissa lukee tekstiluettelon loppupuolella: "started", klikkaa "Open Web".

Kun Voyant Tools sammutetaan, kannattaa palvelinikkunasta klikata "Stop server" ennen lopetusta. Tämä helpottaa uudelleenkäynnistystä ensi kerralla.

Muuta tiedettävää palvelinikkunasta: File-valikosta vasemmalta ylhäältä löytyy Exit. Help-valikosta löytyy oiva ohjekirja. Oikealla Memory-kohdasta voi säätää, kuinka paljon muistia ohjelma enimmillään saa käyttää. Lukua voi muuttaa tarpeen mukaan - isot tiedostot voivat toimia nopeammin suuremmalla määrällä muistia. Testikäytössä 5000 oli riittävä määrä noin 500 eri mittaisen .pdf tiedoston analysointiin (kokonaiskoko 1 Gt).

Voyant Tools aukeaa selainikkunaan. Tiedät, että ohjelma ei ole yhteydessä pilvessä olevaan serveriin koneesi ulkopuolella, kun osoiterivillä on fyysinen osoite tyyliin "http://127.0.0.1:8888/". Tämä tarkoittaa, että selain osoittaa omalle koneellesi.

Voyant Toolsin käyttö

Käyttö aloitetaan lisäämällä tutkittava aineisto. Sen voi lisätä lataamalla tiedostot esimerkiksi .pdf, .txt., .word tai .html -muodossa napista "Upload", tai jopa copy/pastettamalla tekstiä laatikkoon.

Paras tapa toimia on laittaa kaikki tiedostot yhteen kansioon omalle koneelle. Sitten valitsee "Upload", valitsee kaikki tiedostot kansiossa esimerkiksi pikanäppäinyhdistelmällä painamalla nappeja CTRL ja A yhtäaikaa, sekä valitsemalla "Avaa".

Mikäli aineisto on hyvin suuri, kuten edellämainittu 499 .pdf-tiedostoa ja yhteensä 1Gt, voi Voyant Toolsilla kestää noin 1,5 minuuttia aineiston analysointiin. Tätä aikaa voi nopeuttaa selainversiossa käyttämällä nopeampaa verkkoyhteyttä, ja palvelinversiossa omalla koneella lisäämällä palvelinikkunassa muistin määrää.

Pöytäkoneella palvelimen käynnistyminen voi olla aavistuksen hitaampaa kuin verkkoversion käyttö, mutta asiakirjojen välillä siirtyminen ohjelman sisällä on nopeampaa pöytäkoneella. Lisäksi omalla koneella tietoturva on taattu, joskin varsinkin netistä suoraan ladatut julkiset asiakirjat ovat todennäköisesti melko turvallisia käyttää verkkoselainversiossa.

Voyant Toolsin oletusnäkymä:

Voyant Tools avaa viisi oletusnäkymää:

i. Sanapilvi (Cirrus)

Vasemmalla ylhäällä on sanapilvi, joka näyttää yleisimmät sanat aineistossa. Sen suurin hyöty on, että siitä näet heti ovatko näkyvät sanat tutkimuksesi kannalta relevantteja vai täynnä niin sanottuja hukkasanoja (stopwords), eli esimerkiksi lauseenjäseniä ja käsitteitä, joilla ei ole hakusi kannalta merkitystä. Kuten "ja", "että" tai "https://". Hukkasanalistan käytöstä ja luomisesta lisää näiden näkymäesittelyjen jälkeen.

Varsinainen päänäkymä tässä ikkunassa on Terms-välilehti. Sitä klikkaamalla saat näkyville listattuna kaikki aineistossa mainitut sanat ja lukumäärän, kuinka monta kertaa ne aineistossa mainitaan. Tämä on pienessä aineistossa selkeä sellaisenaan, suurella aineistolla tulee helposti kymmeniä tuhansia eri sanoja ja sanamuotoja, jolloin hukkasanalista on tarpeen.

Lukumäärän perässä on käyränäkymä siitä, missäpäin kutakin asiakirjaa sana yleisimmin sijaitsee. Tämän oikealle puolelle ilmestyy nuoli alaspäin, jos hiiren osoittimen laittaa siihen. Sieltä voi avata vielä muutaman muun sarakkeen ikkunaan tai poistaa nykyisiä, kuten tuon Trendin, nämä ovat lähinnä erilaisia tilastollisia lukuja. Mutta mukana on myös Comparison, jolla voi verrata nyt käsiteltävää aineistoa johonkin toiseen aineistoon, jos se on Options-valikosta valittu.

Klikkaamalla + -nappia sanan vasemmalla puolella saat tarkempaa tietoa sanasta: "Distribution", eli visuaalinen jana siitä, missäpäin aineistoa sana löytyy, jos kaikki aineiston asiakirjat on laitettu pötköön peräkkäin janalle. Tämä helpottaa näkemään heti, onko sana yleinen koko aineistossa vaiko vain yksittäisissä asiakirjoissa.

Collocates kertoo mitkä sanat ovat tavallisimmin aineistossa tämän sanan lähellä, Correlations taas mitkä sanat ovat lähekkäin JA tavallisimmin vain mikäli ovat toistensa kanssa läheisyydessä. Phrases taas on lausepoimintoja aineistossa, missä sanat esiintyvät. Items: -janaa kasvattamalla kasvatetaan näiden nostojen näytettyä lukumäärää.

Voyant tools ei tunnista erikseen suomea, joten jokainen taivutusmuoto on listattu omana sananaan. Tämä ei kuitenkaan juuri haittaa. Esimerkiksi näkymän alla on hakulaatikko, johon voi kirjoittaa mielenkiintoista asiasanaa: minkä tahansa sanan voi leikata mistä tahansa tähdellä *, jolloin haku kattaa kaikki mahdolliset sanan eripäätteiset taivutusmuodot tai yhdyssanat.

ii. Lukunäkymä

Keskimmäinen näkymä on tesktimuodossa yksittäisen aineiston asiakirjan lukunäkymä. Kulloinkin jossain toisessa näkymässä klikkaamasi asiakirja tai linkkiyhteys avaa kyseisen asiakirjan tähän näkymään.

Näkymästä näet, miten Voyant Tools "näkee" tekstin aineistossa. Ohjelma ei tee muutoksia tiedostoihin, vaan näyttää vain, mitä tekstiä tiedostossa on.

Jos näkymä on hyvin likainen, eli sisältää kirjain- ja numerosarjoja, voit harkita kyseisen asiakirjan poistamista aineistosta tai tiedoston muuttamista tekstiksi ennen Voyant Toolsia esimerkiksi PDFX Tools -nimisen työkalun ?mass convert?-työkalulla.

Kolmas näkymä ylhäällä oikealla näyttää valitun asiasanan yleisyyden kussakin asiakirjassa. Mikäli sana toistuu usein useassa asiakirjassa laajassa aineistossa, ei näkymällä ole paljonkaan käyttöarvoa. Tilalle voi valita jonkun hyödyllisemmän ikkunan viemällä hiiren osoittimen välilehtien tasolle, ja oikealta ylhäältä ilmestyvistä symboleista valiten toisen vasemmalta, jolloin pääsee erilaisten työkalujen listoihin.

Valtaosa muista työkaluista on erilaisia visuaalisia hahmotustyökaluja, joita voi kokeilla analyysin aluksi. Erityisen hauska on Google Mapsin kanssa toimiva työkalu DreamScape, joka näyttää kartalla maantieteelliset paikannimet, jotka aineistossa on. Tämä vaikuttaa toimivan huomattavasti paremmin kuin esimerkiksi OverViewn vastaava työkalu.

iv. Yhteenvetonäkymä (Summary)

Alhaalla vasemmalla oleva näkymä on yhteenvetonäkymä. Siitä näkyy erilaista yhteenvetotietoa, kuten kuinka monta asiakirjaa aineistossa on, kuinka sanaa, kirjainta kussakin asiakirjassa ja niin edelleen.

v. Konkordanssihaku (Context)

Oikealla alhaalla on Contexts, eli oikeastaan konkordanssihaku. Kirjoittamalla halutun sanan näkee listana sanojen ilmenemiset asiakirjoissa sekä sanan vasemmalla ja oikealla puolella olevat sanat.

Klikkaamalla sanaa saat keskimmäiseen lukijatyökaluun näkyviin kyseisen asiakirjan ja kyseisen kohdan asiakirjasta. Näytettyjen sanojen määrää voi kasvattaa tai supistaa context ja expand -liukutyökaluilla näkymän alaosassa. Scale-valikosta voi valita vain yksittäiset asiakirjat koko aineistosta.

Hukkasanalista

Voyant Toolsin käyttöön kannattaa olla lista hukkasanoista. Esimerkkilistan saa esimerkiksi verkkosivuiltamme, ja voit muokata omaa listaasi oman käyttösi mukaan ajan kanssa.

Hukkasanalistan tai päivityksen edelliseen hukkasanalistaan voit tehdä kätevästi näin:

Avaat tietokoneella Muistion (Notepad). Siihen hukkasanat kirjoitetaan kukin omalle rivilleen ja rivinvaihdolla eroteltuna. Tämän voi tehdä käsin tai vaikkapa viemällä ensin Voyant toolsissa merkityn sanalistan Exceliin ja copypastettamalla sarakkeen sanoja sieltä listalle.

Hukkasanalista otetaan käyttöön näin: Siirrä hiirenosoitin oikeaan ylänurkkaan haluamassasi näkymässä. Toinen symboli oikealla kysymysmerkin vieressä on Options-valikko, jota klikataan. Ensimmäisenä on valinta Stopwords, jonka vierestä valitaan Edit List. Avautuvan listan loppuun liitetään hukkasanalistasi.

Tämän voi tehdä esimerkiksi avaamalla omalla tietokoneellasi Muistio-aputyökalulla (Notepad englanninkielisessä Windowsissa, vastaava työkalu löytyy kaikista käyttöjärjestelmistä) listasi hukkasanoista, valitsemalla kaikki (CTRL + A), kopioimalla lista (CTRL + C), ja liittämällä se tähän Voyant Toolsin listaan (CTRL + V). Sitten valitaan Confirm.

Tietojen vieminen Voant Toolsista taulukkolaskentaohjelmaan

Viemällä hiirenosoittimen näkymän välilehtipalkkiin aukeaa oikeassa yläreunassa valikkosymboleja, joisa ensimmäisen laatikko jossa on nuoli oikealle ylös on vienti(Export)-valinta. Sieltä voi joko valitut sanat tai kaikki sanat viedä tarkempaa tarkastelua varten vaikkapa Excelissä tai Google Sheetissä. Tiedostomuotoja ovat HTML, .csv (txt) tai JSON.

Ehkä fiksuin tapa tehdä hukkasanalista on seuraava: viet kaikki sanat .csv-tiedostona ohjelmasta. Excelissä leikkaat sivuun sarakkeesta kaikki mielenkiintoiset sanat, ja kaikki loput sanat jätät sarakkeeseen. Kopioit nämä kaikki pikanäppäimillä Muistioon muokattavaan tekstitiedostoon ja käytät tätä hukkasanalistana. Halutessasi älä valitse täppää "Apply globally", jolloin hukkasanalista toimii vain tässä näkymässä.

< Takaisin hankkeen etusivulle