2. Pojęciowe i teoretyczne ramy analizy
2.1 Dane cyfrowe
2.1.5 Kategoryzacja danych
Zdefiniowanie pojęcia danych jest punktem wyjścia do umiejscowienia ich w procesie analitycznym oraz kategoryzacji. Takie uporządkowanie jest tym bardziej istotne, że ograniczeniem dla tego co w dobie digitalizacji i coraz większych możliwości obliczeniowych może być uznane za daną lub dane jest jedynie kreatywność badacza korzystającego z właściwie niewyczerpanych źródeł (Stephens-Davidowitz, 2017).
W praktyce proces ten oznacza odejście od uporządkowanych form danych zagregowanych np. w postaci ankiet oraz konieczność pracy na różnych często niezorganizowanych zbiorach jednocześnie (Stephens-Davidowitz, 2017). Jest on również równoznaczny z nowymi sposobami gromadzenia, czyszczenia i analizowania danych. Konsekwentnie, wzrasta znaczenie klasyfikacji danych, na które wskazują Coyle i in. (2020):
„[…] zbyt mało uwagi poświęca się w debacie rozróżnieniu pomiędzy odmiennymi typami i sposobami wykorzystania danych oraz prywatnej i publicznej wartości, którą można dzięki nim stworzyć […] (s. 1).
W literaturze przedmiotu dane są kategoryzowane ze względu na różne czynniki, m.in. etap procesu analitycznego, na którym są wykorzystywane, źródło pochodzenia, strukturę, wartość czy możliwości oraz zakres wykorzystania. W pracy zestawiono wybrane klasyfikacje danych kluczowe dla tematu ich eksploatacji w politykach publicznych z zakresu ochrony zdrowia.
Dane można sklasyfikować ze względu na etap procesu analitycznego, na którym są wykorzystywane. Dane mogą być przekształcone lub surowe (ang. raw data). Surowe, czyli nieuporządkowane i pozbawione odpowiedniego formatowania dane, nie mogą być jeszcze przedmiotem analizy. Mogą być one traktowane jako materiał analityczny dopiero po przekształceniu czyli oczyszczeniu, ustrukturyzowaniu i sformatowaniu (Haskel, Westlake, 2018). Dla Haskela i Westlake’a (2018), i to interpretacja przyjęta w ramach niniejszej pracy, oczyszczone, uporządkowane i w ten sposób przygotowane do analizy dane są równoznaczne z pojęciem informacji. Zestawienie ze sobą informacji z różnych źródeł i osadzenie ich w kontekście pozwala zaś na wytwarzanie wiedzy rozumianej jako:
[…] powiązania między informacjami, poparte dowodami, w celu zbudowania spójnego zrozumienia zjawiska. Wiedza nie może istnieć bez informacji, wiedza jest również wymagana, by w pełni zrozumieć i zinterpretować informację. Wiedza może zatem obejmować teorie, hipotezy, korelacje oraz związki przyczynowe obserwowane na podstawie informacji składających się z danych, które można analizować (Haskel, Westlake, 2018, s. 64).
Do zestawienia dane-informacje-wiedza Coyle i in. (2020) dodają jako ostatni element zrozumienie sytuacji, która jest przedmiotem pracy analitycznej. To właśnie dzięki danym przekształcanym w informacje powstaje wiedza, która pozwala na zgłębienie przedmiotu badania i wyciągnięcie wniosków. Co ważne, w procesie analitycznym niezbędne jest również odniesienie danych do kontekstu. Same dane bez osadzenia ich w kontekście są bowiem niewystarczające (Coyle i in., 2020).
Gromadzone i osadzane w kontekście dane mogą pochodzić z różnych źródeł, charakteryzować się odmienną strukturą oraz posiadać zróżnicowaną wartość. Ze względu na te trzy czynniki skategoryzowano dane w poniższej tabeli.
Tab. 4 Kategoryzacja danych ze względu na źródło pochodzenia, strukturę i wartość Kategoria podziału Wybrane typy danych
Źródło pochodzenia Jin i in. (2015) wyróżniają:
● dane pobierane z otaczającej badacza rzeczywistości – gromadzone przy pomocy sensorów lub specjalnie w tym celu zaprojektowanych eksperymentów;
● dane, których źródłem jest ludzka aktywność – na przykład dane odzwierciedlające mobilność, sposoby zarządzania finansami czy działanie w przestrzeni internetowej;
Stephens-Davidowitz (2017) wymienia:
● dane o parametrach istot żywych;
● dane w postaci tekstu;
● dane w postaci zdjęć;
Lazer i Radford (2017) dokonują – ze względu na miejsce ich gromadzenia – następującego podziału źródeł danych:
● zdigitalizowane życie społeczne (ang. digital life) – m.in. działania jednostek na platformach społecznościowych (np. Facebook, Twitter) lub w innych, skupiających ludzkie aktywności przestrzeniach sieci (np. Wikipedia) (Lazer, Radford, 2017, s. 21);
● zarejestrowane cyfrowo oznaki aktywności jednostek (ang. digital traces) – metadane, ślady dotyczące określonego działania (np. połączenia telefonicznego), nie zaś jego przebieg (Lazer, Radford, 2017, s. 22; Onnela i in., 2007, Toole i in., 2015 za: Lazer, Radford, 2017);
● digitalizowana codzienność (ang. digitalized life) – wytwarzanie cyfrowych odpowiedników codziennych aktywności (np. zapis działań mieszkańców miast przy pomocy monitoringu) oraz przedmiotów istniejących do tej pory jedynie analogowo (np. digitalizacja książek) (Lazer, Radford, 2017, s. 22; Michel i in., 2011 za: Lazer, Radford, 2017).
Struktura Jin i in. 2015 wyróżniają:
● dane ustrukturyzowane – posiadają jasną i łatwą do odczytania strukturę (np. w formie tabeli) (Desouza, Jacob, 2017);
● dane nieustrukturyzowane – takie jak np. tekst czy nagrania video, które nie są ograniczone żadną strukturą (Desouza, Jacob, 2017);
● dane częściowo ustrukturyzowane – zawierają elementy ułatwiające ich identyfikację (np. tagi opisujące materiał tekstowy); ich struktura nie przypomina jednak regularnej struktury tabeli (Desouza, Jacob, 2017).
Wartość danych Jin i in. (2015) dzielą dane na:
● dane wiarygodne;
● dane, do których badacz nie ma zaufania i które mogą zaburzać końcowe wyniki.
Możliwości wykorzystania danych powinny być analizowane z uwzględnieniem charakterystyki poszczególnych, badanych obszarów (Van Es, Schäfer, 2017).
Konsekwentnie, dane wykorzystywane w politykach z zakresu ochrony zdrowia scharakteryzowano więc jako odrębną grupę. Typy, sposoby i możliwości wykorzystywania danych w politykach z zakresu ochrony zdrowia są zróżnicowane. Ich źródła nie ograniczają się zaś jedynie do instytucji świadczących usługi zdrowotne, prowadzących projekty badawcze w tym zakresie czy samych pacjentów. Przydatne dane mogą być również wytwarzane przez (także niezwiązane bezpośrednio z działaniami w ochronie zdrowia) podmioty biznesowe, instytucje państwowe czy grupy społeczne i stowarzyszenia (Vayena, Dzenowagis, Brownstein, Sheikh, 2017). Mające zastosowanie w politykach zdrowotnych dane Vayena i in. (2017) dzielą ze względu na sposób ich generowania oraz podmioty je generujące.
Tab. 5 Podział danych w politykach z zakresu ochrony zdrowia ze względu na sposób ich generowania. Opracowanie na podstawie Vayena i in. (2017)
Źródła danych Przykłady typów danych Tradycyjne (ang.
standard)
Dane pochodzące z badań (ang. research):
● analizy genomu (ang. genomics);
● materiały biologiczne gromadzone z biobankach (ang.
biobanks);
● wyniki badań nad lekami (ang. clinical trials).
Dane o usługach zdrowotnych (ang. health services):
● informacje gromadzone przez podmioty ubezpieczające (ang. insurance);
● recepty (ang. prescribing);
● dane laboratoryjne oraz pochodzące z diagnostyki (ang. laboratory, diagnostics).
Dane dotyczące zdrowia publicznego (ang. public health):
● statystyki przemieszczania się ludności (ang. vital statistics);
● wskaźniki dotyczące szczepień czy zachorowalności (ang. immunization records, disease surveillance);
● informacje o stanie zdrowia publicznego (ang. public health reporting).
Poszerzone (ang.
extended)
Dane o warunkach środowiska (ang. environment):
● analiza zachowań transportowych (ang. transport);
● wskaźniki zanieczyszczeń i meteorologiczne (ang.
pollution, meteorological);
● dane geoprzestrzenne (ang. geospatial).
Dane o uwarunkowaniach społecznych i ekonomicznych oraz stylach źycia (ang. lifestyle and socioeconomic):
● informacje dotyczące poziomu wykształcenia i dochodów (ang. education, financial);
● informacje z programów lojalnościowych (ang.
loyalty cards)
● dane dotyczące lokalizacji (ang. location tracking).
Dane społeczne i behawioralne (ang. behavioral and social):
● dane internetowe, ze szczególnym uwzględnieniem informacji z mediów społecznościowych (ang. World Wide Web, social media);
● informacje dotyczące aktywności sportowych i prozdrowotnych (ang. wellness, fitness);
● dane gromadzone w ramach trendu quantified-self np.
przy pomocy czujników oraz urządzeń ubieralnych (ang. self-monitoring wearables and sensors).
Tab. 6 Podział danych w politykach z zakresu ochrony zdrowia ze względu na podmioty je generujące. Opracowanie na podstawie Vayena i in. (2017)
Podmioty
generujące dane
Przykłady źródeł i podmiotów generujących dane
Podmioty indywidualne i zbiorowe (ang.
individuals and groups)
● badani i leczący się (ang. patients)
● kupujący (ang. consumers)
● obywatele i społeczeństwo obywatelskie (ang.
citizens, civil socjety) Instytucje świadczące
usługi zdrowotne (ang.
health services)
● stowarzyszenia branżowe (ang. professional associations)
● podmioty świadczące usługi z zakresu zdrowia publicznego (ang. health-care providers and institutions)
● instytucje zajmujące się zdrowiem publicznym (ang.
public health agencies).
Instytuty badawcze i uniwersytety (ang.
research and academia)
● podmioty i środowiska badawcze (ang. research institutes and networks)
● jednostki akademickie (ang. universities)
● rejestry i archiwa (ang. registeries) Branża opieki zdrowotnej
(ang. health-care industry)
● przemysł farmaceutyczny i biotechnologiczny (ang.
pharmaceutical, biotechnology)
● podmioty świadczące usługi ubezpieczeniowe (ang.
insurences)
● biobanki gromadzące materiały biologiczne (ang.
biobanks) Branża
technologii informacyjno- komunikacyjnych, w tym technologii datafikacji (ang. data and ICT industry)
● firmy telekomunikacyjne (ang. telecommunications)
● podmioty komercyjne zajmujące się technologiami informacyjno-komunikacyjnymi (ang. ICT businesses)
● analityka danych konsumenckich (ang. analytics marketing)
Instytucje rządowe (ang.
government)
● instytucje odpowiadające za rozwój technologii informacyjno-komunikacyjnych i ochrony zdrowia (ang. ICT agencies, health agencies)
● organizacje o zasięgu międzynarodowym (ang.
international organizations)
● instytucje stanowiące prawo (ang. regulators)
2.1.6CZYNNIKI SPRZYJAJĄCE GROMADZENIU I WYKORZYSTYWANIU DANYCH W