Soluție pentru execuția paralelă a prelucrărilor de date într-o rețea de noduri de procesare

Prelucrarea datelor masive necesită algoritmi specializați și numeroase resurse de procesare. CloudUT pune la dispoziția beneficiarilor o soluție flexibilă de definire a algoritmilor și de distribuire a execuției acestora în cadrul unei rețele de noduri de calcul.

Prin furnizarea unei metodologii vizuale și intuitive de reprezentare a prelucrărilor de date, soluția facilitează interacțiunea dintre utilizator și rețeaua de noduri de procesare. Prelucrările de date sunt reprezentate ca workflow-uri, compuse din operatii atomice. Această reprezentare este interpretată și transformată într-o colecție de prelucrări interdependente care sunt executate și monitorizate transparent față de utilizator.

Cerințe funcționale, tehnologice, date procesate

Aplicația oferă utilizatorului o interfață web prin intermediul căreia acesta are posibilitatea de a defini și a trimite spre execuție algoritmi de procesare a datelor masive. În acest sens, sunt posibile încărcarea datelor de intrare, descărcarea rezultatelor, definirea în limbaj de descriere a algoritmilor și monitorizarea execuției acestora.

Datele de intrare pot avea orice format, cu condiția să existe operatori potriviți pentru preluarea și procesarea acestora. În forma actuală, setul de operatori permite procesarea imaginilor satelitare în format TIF. La cererea utilizatorilor, se pot realiza operatori specializați pentru alte tipuri de date.

Limbajele folosite pentru dezvoltate sunt Python (Flask, SQLAlchemy) pentru partea de server, respectiv JavaScript pentru paginile web. Modulele software sunt instalate și configurate în containere Docker, iar gestionarea acestora se poate realiza prin Kubernetes/Rancher. Alternativ, se poate utiliza Docker Compose pentru pornirea unei rețele locale (în mașină virtuală) de containere.

Context de utilizare

Soluția este folosită pentru procesarea datelor din imagini satelitare și oferă posibilitatea de dezvoltarea unor seturi de operatori specializaintegrabili în soluția oferită.

Soluția este folosită pentru procesarea datelor din imagini satelitare și oferă posibilitatea de dezvoltarea a unor seturi de operatori specializți, integrabili în soluția oferită.

Beneficiari și beneficii

Potențialii beneficiari sunt colective din UTCN ale căror direcții de cercetare implică necesitatea de procesare repetitivă a datelor sau procesarea unor volume semnificative de date.

Data instalării

14.04.2022

Modalitate de accesare a serviciului

Serviciul este disponibil la adresa următoare: http://10.20.7.115:31000/index.html

Obs: Pentru a accesa serviciul de prelucrare a datelor spațiale folosind tehnici de analiză vizuală este nevoie de acces la VPN. Ghidul de configurare VPN pentru acces în infrastructura CloudUT este disponibil aici.

Tutorial: Execuția paralelă a prelucrărilor de date într-o rețea de noduri de procesare

Data:
29 martie 2022, ora : 14:00, link la tutorial

1 februarie 2022, orele : 10:00-11:00

Participare: Microsoft Teams

Autori:
Constantin Nandra, Victor Bacu

Descriere:
Tutorialul prezintă capabilitățile soluției dezvoltate pentru execuția paralelă a prelucrărilor de date. Aceasta utilizează tehnologiile Docker și Kubernetes pentru a asigura accesul la resursele de calcul virtualizate din cadrul CloudUT. Pe parcursul tutorialului se va demonstra posibilitatea utilizării soluției dezvoltate în contextul prelucrării datelor geospațiale, punându-se accent pe posibilitatea de extindere a funcționalității pentru acomodarea altor domenii de cercetare.

Obiective:
Familiarizarea utilizatorilor cu procedura de accesare a soluției în cadrul CloudUT, și demonstrarea capabilităților acesteia.

Beneficiari:
Membri ai colectivelor de cercetare care au nevoie de capabilități de prelucrare paralelă în contextul sarcinilor de calcul intensiv.

Planificare/Curiccula:

  1. Descrierea aplicației de prelucrare paralelă
  2. Prezentare demonstrativă – Utilizarea soluției în cadrul CloudUT
  3. Prezentare practică – Definirea fluxurilor de prelucrare a datelor în limbajul WorDeL
  4. Prezentare practică – Definirea unui flux de prelucrare aplicat în contextul datelor geospațiale
  5. Concluzii.
  6. Discutii şi întrebări.

Înregistrare video:

Cerințe funcționale

Soluția propusă pune la dispoziția utilizatorilor următoarele funcționalități:

  • Definirea prelucrărilor cu ajutorul unui limbaj de descriere
    • Reprezentare grafică a prelucrărilor
    • Unelte de editare a codului și analiza erorilor de sintaxă și topologie a prelucrărilor
  • Navigarea, editarea și selecția colecțiilor de operatori
    • Managementul bibliotecilor de operatori mapate pe domenii
  • Crearea și adaugarea de noi operatori prin încorporarea de unelte software de prelucrare specializate
    • Definirea operatorilor care încorporează unelte software disponibile în containere
    • Adăugarea unor containere pentru unelte software noi
  • Încărcarea și descărcarea datelor de intrare și ieșire
  • Definirea datelor de intrare în cadrul limbajului de descriere sau prin intermediul unei interfețe grafice
  • Lansarea în execuție a prelucrărilor definite și monitorizarea statusului acestora

Beneficiari

Beneficiarii soluției propuse sunt proiectele și grupurile de cercetare din UTCN care au nevoie de capabilitatea de a rula prelucrări complexe de date, fără a avea expertiza sau resursele necesare pentru dezvoltarea de programe care să poată exploata capabilitățile unui sistem distribuit.