Kategoryzacja danych - Dane cyfrowe - Pojęciowe i teoretyczne ramy analizy

2. Pojęciowe i teoretyczne ramy analizy

2.1 Dane cyfrowe

2.1.5 Kategoryzacja danych

Zdefiniowanie pojęcia danych jest punktem wyjścia do umiejscowienia ich w procesie analitycznym oraz kategoryzacji. Takie uporządkowanie jest tym bardziej istotne, że ograniczeniem dla tego co w dobie digitalizacji i coraz większych możliwości obliczeniowych może być uznane za daną lub dane jest jedynie kreatywność badacza korzystającego z właściwie niewyczerpanych źródeł (Stephens-Davidowitz, 2017).

W praktyce proces ten oznacza odejście od uporządkowanych form danych zagregowanych np. w postaci ankiet oraz konieczność pracy na różnych często niezorganizowanych zbiorach jednocześnie (Stephens-Davidowitz, 2017). Jest on również równoznaczny z nowymi sposobami gromadzenia, czyszczenia i analizowania danych. Konsekwentnie, wzrasta znaczenie klasyfikacji danych, na które wskazują Coyle i in. (2020):

„[…] zbyt mało uwagi poświęca się w debacie rozróżnieniu pomiędzy odmiennymi typami i sposobami wykorzystania danych oraz prywatnej i publicznej wartości, którą można dzięki nim stworzyć […] (s. 1).

W literaturze przedmiotu dane są kategoryzowane ze względu na różne czynniki, m.in. etap procesu analitycznego, na którym są wykorzystywane, źródło pochodzenia, strukturę, wartość czy możliwości oraz zakres wykorzystania. W pracy zestawiono wybrane klasyfikacje danych kluczowe dla tematu ich eksploatacji w politykach publicznych z zakresu ochrony zdrowia.

Dane można sklasyfikować ze względu na etap procesu analitycznego, na którym są wykorzystywane. Dane mogą być przekształcone lub surowe (ang. raw data). Surowe, czyli nieuporządkowane i pozbawione odpowiedniego formatowania dane, nie mogą być jeszcze przedmiotem analizy. Mogą być one traktowane jako materiał analityczny dopiero po przekształceniu czyli oczyszczeniu, ustrukturyzowaniu i sformatowaniu (Haskel, Westlake, 2018). Dla Haskela i Westlake’a (2018), i to interpretacja przyjęta w ramach niniejszej pracy, oczyszczone, uporządkowane i w ten sposób przygotowane do analizy dane są równoznaczne z pojęciem informacji. Zestawienie ze sobą informacji z różnych źródeł i osadzenie ich w kontekście pozwala zaś na wytwarzanie wiedzy rozumianej jako:

[…] powiązania między informacjami, poparte dowodami, w celu zbudowania spójnego zrozumienia zjawiska. Wiedza nie może istnieć bez informacji, wiedza jest również wymagana, by w pełni zrozumieć i zinterpretować informację. Wiedza może zatem obejmować teorie, hipotezy, korelacje oraz związki przyczynowe obserwowane na podstawie informacji składających się z danych, które można analizować (Haskel, Westlake, 2018, s. 64).

Do zestawienia dane-informacje-wiedza Coyle i in. (2020) dodają jako ostatni element zrozumienie sytuacji, która jest przedmiotem pracy analitycznej. To właśnie dzięki danym przekształcanym w informacje powstaje wiedza, która pozwala na zgłębienie przedmiotu badania i wyciągnięcie wniosków. Co ważne, w procesie analitycznym niezbędne jest również odniesienie danych do kontekstu. Same dane bez osadzenia ich w kontekście są bowiem niewystarczające (Coyle i in., 2020).

Gromadzone i osadzane w kontekście dane mogą pochodzić z różnych źródeł, charakteryzować się odmienną strukturą oraz posiadać zróżnicowaną wartość. Ze względu na te trzy czynniki skategoryzowano dane w poniższej tabeli.

Tab. 4 Kategoryzacja danych ze względu na źródło pochodzenia, strukturę i wartość Kategoria podziału Wybrane typy danych

Źródło pochodzenia Jin i in. (2015) wyróżniają:

● dane pobierane z otaczającej badacza rzeczywistości – gromadzone przy pomocy sensorów lub specjalnie w tym celu zaprojektowanych eksperymentów;

● dane, których źródłem jest ludzka aktywność – na przykład dane odzwierciedlające mobilność, sposoby zarządzania finansami czy działanie w przestrzeni internetowej;

Stephens-Davidowitz (2017) wymienia:

● dane o parametrach istot żywych;

● dane w postaci tekstu;

● dane w postaci zdjęć;

Lazer i Radford (2017) dokonują – ze względu na miejsce ich gromadzenia – następującego podziału źródeł danych:

● zdigitalizowane życie społeczne (ang. digital life) – m.in. działania jednostek na platformach społecznościowych (np. Facebook, Twitter) lub w innych, skupiających ludzkie aktywności przestrzeniach sieci (np. Wikipedia) (Lazer, Radford, 2017, s. 21);

● zarejestrowane cyfrowo oznaki aktywności jednostek (ang. digital traces) – metadane, ślady dotyczące określonego działania (np. połączenia telefonicznego), nie zaś jego przebieg (Lazer, Radford, 2017, s. 22; Onnela i in., 2007, Toole i in., 2015 za: Lazer, Radford, 2017);

● digitalizowana codzienność (ang. digitalized life) – wytwarzanie cyfrowych odpowiedników codziennych aktywności (np. zapis działań mieszkańców miast przy pomocy monitoringu) oraz przedmiotów istniejących do tej pory jedynie analogowo (np. digitalizacja książek) (Lazer, Radford, 2017, s. 22; Michel i in., 2011 za: Lazer, Radford, 2017).

Struktura Jin i in. 2015 wyróżniają:

● dane ustrukturyzowane – posiadają jasną i łatwą do odczytania strukturę (np. w formie tabeli) (Desouza, Jacob, 2017);

● dane nieustrukturyzowane – takie jak np. tekst czy nagrania video, które nie są ograniczone żadną strukturą (Desouza, Jacob, 2017);

● dane częściowo ustrukturyzowane – zawierają elementy ułatwiające ich identyfikację (np. tagi opisujące materiał tekstowy); ich struktura nie przypomina jednak regularnej struktury tabeli (Desouza, Jacob, 2017).

Wartość danych Jin i in. (2015) dzielą dane na:

● dane wiarygodne;

● dane, do których badacz nie ma zaufania i które mogą zaburzać końcowe wyniki.

Możliwości wykorzystania danych powinny być analizowane z uwzględnieniem charakterystyki poszczególnych, badanych obszarów (Van Es, Schäfer, 2017).

Konsekwentnie, dane wykorzystywane w politykach z zakresu ochrony zdrowia scharakteryzowano więc jako odrębną grupę. Typy, sposoby i możliwości wykorzystywania danych w politykach z zakresu ochrony zdrowia są zróżnicowane. Ich źródła nie ograniczają się zaś jedynie do instytucji świadczących usługi zdrowotne, prowadzących projekty badawcze w tym zakresie czy samych pacjentów. Przydatne dane mogą być również wytwarzane przez (także niezwiązane bezpośrednio z działaniami w ochronie zdrowia) podmioty biznesowe, instytucje państwowe czy grupy społeczne i stowarzyszenia (Vayena, Dzenowagis, Brownstein, Sheikh, 2017). Mające zastosowanie w politykach zdrowotnych dane Vayena i in. (2017) dzielą ze względu na sposób ich generowania oraz podmioty je generujące.

Tab. 5 Podział danych w politykach z zakresu ochrony zdrowia ze względu na sposób ich generowania. Opracowanie na podstawie Vayena i in. (2017)

Źródła danych Przykłady typów danych Tradycyjne (ang.

standard)

Dane pochodzące z badań (ang. research):

● analizy genomu (ang. genomics);

● materiały biologiczne gromadzone z biobankach (ang.

biobanks);

● wyniki badań nad lekami (ang. clinical trials).

Dane o usługach zdrowotnych (ang. health services):

● informacje gromadzone przez podmioty ubezpieczające (ang. insurance);

● recepty (ang. prescribing);

● dane laboratoryjne oraz pochodzące z diagnostyki (ang. laboratory, diagnostics).

Dane dotyczące zdrowia publicznego (ang. public health):

● statystyki przemieszczania się ludności (ang. vital statistics);

● wskaźniki dotyczące szczepień czy zachorowalności (ang. immunization records, disease surveillance);

● informacje o stanie zdrowia publicznego (ang. public health reporting).

Poszerzone (ang.

extended)

Dane o warunkach środowiska (ang. environment):

● analiza zachowań transportowych (ang. transport);

● wskaźniki zanieczyszczeń i meteorologiczne (ang.

pollution, meteorological);

● dane geoprzestrzenne (ang. geospatial).

Dane o uwarunkowaniach społecznych i ekonomicznych oraz stylach źycia (ang. lifestyle and socioeconomic):

● informacje dotyczące poziomu wykształcenia i dochodów (ang. education, financial);

● informacje z programów lojalnościowych (ang.

loyalty cards)

● dane dotyczące lokalizacji (ang. location tracking).

Dane społeczne i behawioralne (ang. behavioral and social):

● dane internetowe, ze szczególnym uwzględnieniem informacji z mediów społecznościowych (ang. World Wide Web, social media);

● informacje dotyczące aktywności sportowych i prozdrowotnych (ang. wellness, fitness);

● dane gromadzone w ramach trendu quantified-self np.

przy pomocy czujników oraz urządzeń ubieralnych (ang. self-monitoring wearables and sensors).

Tab. 6 Podział danych w politykach z zakresu ochrony zdrowia ze względu na podmioty je generujące. Opracowanie na podstawie Vayena i in. (2017)

Podmioty

generujące dane

Przykłady źródeł i podmiotów generujących dane

Podmioty indywidualne i zbiorowe (ang.

individuals and groups)

● badani i leczący się (ang. patients)

● kupujący (ang. consumers)

● obywatele i społeczeństwo obywatelskie (ang.

citizens, civil socjety) Instytucje świadczące

usługi zdrowotne (ang.

health services)

● stowarzyszenia branżowe (ang. professional associations)

● podmioty świadczące usługi z zakresu zdrowia publicznego (ang. health-care providers and institutions)

● instytucje zajmujące się zdrowiem publicznym (ang.

public health agencies).

Instytuty badawcze i uniwersytety (ang.

research and academia)

● podmioty i środowiska badawcze (ang. research institutes and networks)

● jednostki akademickie (ang. universities)

● rejestry i archiwa (ang. registeries) Branża opieki zdrowotnej

(ang. health-care industry)

● przemysł farmaceutyczny i biotechnologiczny (ang.

pharmaceutical, biotechnology)

● podmioty świadczące usługi ubezpieczeniowe (ang.

insurences)

● biobanki gromadzące materiały biologiczne (ang.

biobanks) Branża

technologii informacyjno- komunikacyjnych, w tym technologii datafikacji (ang. data and ICT industry)

● firmy telekomunikacyjne (ang. telecommunications)

● podmioty komercyjne zajmujące się technologiami informacyjno-komunikacyjnymi (ang. ICT businesses)

● analityka danych konsumenckich (ang. analytics marketing)

Instytucje rządowe (ang.

government)

● instytucje odpowiadające za rozwój technologii informacyjno-komunikacyjnych i ochrony zdrowia (ang. ICT agencies, health agencies)

● organizacje o zasięgu międzynarodowym (ang.

international organizations)

● instytucje stanowiące prawo (ang. regulators)

2.1.6CZYNNIKI SPRZYJAJĄCE GROMADZENIU I WYKORZYSTYWANIU DANYCH W

No documento Tworzenie cyfrowej opieki zdrowotnej w Estonii, Niemczech i Polsce. (páginas 45-51)