Control Theory for Computing Systems: Application to big-data cloud services & location privacy protection

Sophie Cerf

Résumé

This thesis aims at investigating techniques to build and control efficient, dependableand privacy-preserving computing systems. Ad-hoc service configuration require a high level ofexpertise which could benefit from automation in many ways. A control algorithm can handle biggerand more complex systems, even when they are extremely sensitive to variations in their environment.However, applying control to computing systems raises several challenges, e.g. no physics governsthe applications. On one hand, the mathematical framework provided by control theory can be used toimprove automation and robustness of computing systems. Moreover, the control theory provides bydefinition mathematical guarantees that its objectives will be fulfilled. On the other hand, the specificchallenges of such use cases enable to expand the control theory itself. The approach taken in thiswork is to explore in details two application computing systems: location privacy and cloud services.A third use-case on the use of control for machine learning algorithm is presented in appendix. Thoseuse-cases are complementary in the nature of their technologies, scale and end-users.The widespread of mobile devices has fostered the broadcasting and collection of users’ locationdata. It enables users to benefit from a personalized service and service providers or any other thirdparty to derive useful information from the mobility databases, whereas it also exposes highly sensi-tive personal data. To overcome this privacy breach, algorithms have been developed that modify theuser’s mobility data, hopefully to hide some sensitive information, called Location Privacy ProtectionMechanisms (LPPMs). However, those tools are not easily configurable by non experts and are staticprocesses that do not adapt to the user’s mobility. We develop two tools, one for already collecteddatabases and one for online usage, that, by tuning the LPPMs, guarantee to the users objective-drivenlevels of privacy protection and of service utility preservation. First, we present an automated toolable to choose and configure LPPMs to protect already collected databases while ensuring a trade-offbetween privacy protection and database processing quality. Second, we present the first formulationof the location privacy challenge in control theory terms (plant and control, disturbance and per-formance signals), and a feedback controller to serve as a proof of concept. In both cases, design,implementation and validation has been done through experiments using data of real users.The surge in data generation of the last decades, the so-called bigdata, has lead to the developmentof frameworks able to analyze them, such as the well known MapReduce. Advances in computingpractices have also settled the cloud paradigms (online ready-to-use resources to rent) as premiumsolution for all kind of users. In this work, we focus on performance of MapReduce jobs running onclouds and thus develop advanced monitoring techniques of the jobs execution time and the platformavailability; by tuning the resource cluster size and realizing admission control, in spite of the unpre-dictable client workload. In order to deal with the non linearities of the MapReduce system, a robustadaptive feedback controller has been designed. To reduce the cluster utilization and costs, we presenta new event-based triggering mechanism formulation combined with an optimal predictive controller.Evaluation is done on a MapReduce benchmark suite running on a large-scale cluster, and using realjobs workloads.Learning algorithms are now prevalent in both the research and industry worlds. While they showimpressive results in terms of performance, other aspects has been neglected so far, such as automa-tion, robustness or privacy. Machine learning algorithms control is investigated in two complementaryways: robustness regarding noise in the dataset, and the parametrization of the algorithms, with theintroduction of feedback action. Results are validated using classic datasets and task-specific ones.

Un algorithme de contrôle peut gérer des systèmes complexes, même lorsqu’ils sontparticulièrement sensibles aux variations de leur environnement. Cependant, l’application du contrôleaux systèmes informatiques soulève plusieurs défis, par exemple dû au fait qu’aucune loi physiquene régisse leur comportement. D’une part, le cadre mathématique fourni par la théorie du contrôlepeut être utilisé pour améliorer l’automatisation, la robustesse et la fiabilité des systèmes informa-tiques. D’autre part, les défis spécifiques de ces cas d’étude permettent d’élargir la théorie du con-trôle elle-même. L’approche adoptée dans ce travail consiste à utiliser deux systèmes informatiquesd’application: la protection de vie privée liée à la mobilité et les performances des services clouds. Untroisième cas d’utilisation sur le contrôle des algorithmes d’apprentissage automatique est présentéen annexe. Ces cas d’utilisation sont complémentaires par la nature de leurs technologies, par leuréchelle et par leurs utilisateurs finaux.La popularité des appareils mobiles a favorisé la diffusion et la collecte des données de localisa-tion, que ce soit pour que l’utilisateur bénéficie d’un service personnalisé ou pour que le prestataire deservices tire des informations utiles des bases de données de mobilité, au prix de la diffusion de don-nées personnelles parfois très sensibles. Pour remédier à cette atteinte à la vie privée, des mécanismesde protection spécifiques aux données de mobilité (LPPM) ont été élaborés. Cependant, ces outils nesont pas facilement configurables par des novices et ne s’adaptent pas à la mobilité de l’utilisateur.Dans cette thèse, nous développons deux outils, l’un pour les bases de données déjà collectées etl’autre pour l’utilisation en ligne, qui garantissent aux utilisateurs des niveaux de protection de la vieprivée et de préservation de la qualité des services en configurant les LPPMs. Nous présentons lapremière formulation du problème en termes de théorie du contrôle (système et contrôleur, signauxd’entrée et de sortie), et un contrôleur PI pour servir de démonstration d’applicabilité. Dans les deuxcas, la conception, la mise en œuvre et la validation ont été effectuées par le biais d’expériencesutilisant des données réelles.L’essor récent des bigdata a conduit au développement de programmes capables de les analyser, telque MapReduce. Les progrès des pratiques informatiques ont également permis d’établir le modèle ducloud (location de ressources en ligne prêtes à l’emploi) comme une solution incontournable pour toustypes d’utilisateurs. Dans ce travail, nous nous intéressons aux performances des tâches MapReduceexécutées sur les clouds et développons des techniques avancées de contrôle du temps d’exécutiondes tâches et de la disponibilité de la plate-forme; en ajustant la taille du cluster de ressources et enréalisant un contrôle d’admission, fonctionnant quelle que soit la charge de clients. Afin de traiter lesnon linéarités, un contrôleur adaptatif a été conçu. Pour réduire l’utilisation du cluster et ses coûts,nous présentons une nouvelle formulation du mécanisme de déclenchement du contrôle événementiel,combiné à un contrôleur prédictif optimal. L’évaluation est effectuée sur un benchmark s’exécutanten temps réel sur un cluster, et en utilisant des charges de travail industrielles.Les algorithmes d’apprentissage automatiques sont maintenant répandus dans le monde industrielet académique. Malgré d’excellentes performances, d’autres aspects ont été négligés jusqu’à présent,tels que l’automatisation de leur configuration ou leur robustesse. Nous réalisons donc le contrôled’algorithmes d’apprentissage de deux manières complémentaires: garantie de la robustesse vis-à-visdu bruit de la base de données, et le paramétrage automatique des algorithmes par contre-réaction.Les résultats sont validés à l’aide de bases de données classiques et industrielles.

Control Theory for Computing Systems: Application to big-data cloud services & location privacy protection

Contrôle des systèmes informatiques: application aux services clouds et à la protection de vie privée.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager