اندازه گیری حریم خصوصی متفاوت می تواند تجزیه و تحلیل معنادار و امنیت داده ها را در مراقبت های بهداشتی متعادل کند

Newswise – در صنایعی مانند مراقبت های بهداشتی که در آن داده تولید می شود رشد 47 درصدی هر ساله، اطلاعات جمع آوری شده در پرونده الکترونیک سلامت می تواند به ارائه مراقبت های کارآمدتر یا تشخیص های دقیق تر کمک کند. با این حال، داده های سلامت شخصی به شدت محافظت می شود و تا حد زیادی توسط تحلیلگران و محققان دست نخورده باقی می ماند.

برای ایجاد تعادل بین ایمنی شخصی و نوآوری تحقیقاتی، محققان در آزمایشگاه ملی Oak Ridge وزارت انرژی از یک تکنیک ریاضی به نام حریم خصوصی متفاوت استفاده می کنند. برای ارائه تضمین های حفظ حریم خصوصی داده ها.

حریم خصوصی متفاوت معیاری است برای اینکه یک مکانیسم – مانند معادله، الگوریتم یا تجزیه و تحلیل – در هنگام اعمال بر مجموعه ای از داده ها برای ایجاد نتیجه چقدر قابل اعتماد است. این می تواند به اندازه گیری میزان تأثیر یک قطعه داده بر خروجی یک مجموعه داده کمک کند و بنابراین شناسایی شود. برای افزایش حریم خصوصی افتراقی، محققان نویز یا تصادفی را به مجموعه داده ها اضافه می کنند.

ORNL یک بستر آزمایشی عالی برای تحقیقات مبتکرانه در خصوص حریم خصوصی است که هم منابع محاسباتی با کارایی بالا و هم مجموعه وسیعی از داده‌ها را ارائه می‌کند که می‌تواند برای انواع برنامه‌های حریم خصوصی مفید باشد. محققان در ORNL ریاست علوم امنیت ملی با همتایان خود شریک شده اند ریاست کامپیوتر و علوم کامپیوتر. برای پیشرفت علم با حفظ حریم خصوصی داده ها.

چه چیزی «متفاوت» را در حریم خصوصی متفاوت قرار می دهد؟

داده‌های جمع‌آوری‌شده از افراد می‌تواند گرایش‌هایی را نشان دهد که در غیر این صورت برای محققان ناشناخته است، مانند الگوهای ترافیکی در برنامه‌های اشتراک‌گذاری سواری و بیماری‌ها در میان جمعیت‌های خاص. حذف اطلاعات شناسایی شخصی از داده های انبوه ممکن است برای حفظ ناشناس بودن کافی نباشد. به گفته وندی تومب، ریاضیدان کاربردی در گروه آمار فضایی ORNL، حذف نام ها و شناسه های شخصی برای ناشناس کردن داده ها برای از بین بردن هویت افراد در یک مجموعه داده کافی نیست.

تومز با رابرت (بابی) بریجز، محقق در بخش تاب آوری و هوش سایبری ORNL، برای ایجاد روشی جدید برای حفظ حریم خصوصی متفاوت کار کرد. فراگیری ماشین.

به گفته تامب، به نظر می رسد که حذف نام ها و شناسه های شخصی برای ناشناس کردن داده ها برای از بین بردن هویت افراد در یک مجموعه داده کافی نیست.

تومب گفت: «اطلاعات شناسایی می تواند بسیار بیشتر از نام یا تاریخ تولد شما باشد. وقتی اطلاعات دیگری در دسترس باشد، داده‌های به ظاهر بی‌گناه – مانند روزی که زایمان کردید – می‌توانند ناگهان به اطلاعات شناسایی تبدیل شوند.»

حفظ حریم خصوصی به قیمت دقت

حریم خصوصی ارائه شده توسط روش های مختلف حفظ حریم خصوصی به قیمت دقت خروجی است. در یک مثال از Tombs، مدلی که بدون حفظ حریم خصوصی روی یک مجموعه داده آموزش داده شده بود، دقت پایه 70% داشت. استفاده از مدل مشابه در مجموعه داده های مشابه، اما با استفاده از روش آموزش حریم خصوصی دیفرانسیل پیشرفته، تنها 20 درصد دقت را با سطح حریم خصوصی مورد نظر به دست آورد. این روش اگرچه در زمینه حفظ حریم خصوصی نوآورانه است، اما دارای معایبی است که در هر مرحله حریم خصوصی را از دست می دهد.

Tombs and Bridges روش جدیدی از دیفرانسیل شخصی را آزمایش می کند فراگیری ماشین که در حفظ دقت و در عین حال افزایش حریم خصوصی نسبت به مدل DPSGD نویدبخش بود.

بریجز گفت: «ما در تلاشیم تا شاه را از سلطنت خلع کنیم زیرا او پادشاه خوبی نیست. “(DPSGD) یک مدل بسیار اسراف کننده است.”

برای آغاز یک دوره جدید، پل ها و مقبره ها تکنیک هایی را از حریم خصوصی و خصوصی مختلف ترکیب کردند فراگیری ماشین جوامع روش جدید آنها یک توزیع خروجی بر روی توزیع مورد نظر ایجاد می کند فراگیری ماشین مدل سازی هوشمندانه مدل های با احتمال بالا بسیار دقیق هستند و توزیع برای ارائه حریم خصوصی دیفرانسیل قوی طراحی شده است.

این روش که مکانیسم نمایی نام دارد در سال 2007 کشف شد اما از کاربرد در آموزش حذف شده است. فراگیری ماشین مدل‌ها به دلیل یک مشکل عمده – در حال حاضر نمونه‌برداری از این توزیع خروجی غیرممکن است. در همین حال، فراگیری ماشین جامعه تکنیک های جدیدی را برای تولید توزیع های تقریبی که قابل ردیابی هستند، توسعه داده است. فرضیه Bridges & Tombs ترکیبی از این روش ها است و می تواند برای افراد دگرگون کننده باشد فراگیری ماشین. تا کنون، کار آنها نشان داده است که نمونه برداری از یک مدل از توزیع تقریبی، دقت بسیار بهتری را برای چنین حریم خصوصی ارائه می دهد. گام بعدی این است که به صورت ریاضی ثابت کنیم که تضمین حریم خصوصی توزیع تقریبی خروجی نزدیک به حریم خصوصی واقعی است.

فرزندخواندگی با سرعت اعتماد

مانند تمام فناوری‌ها و مدل‌های جدید، رویکرد جدید Bridges and Tombs برای حفظ حریم خصوصی متمایز باید بر روی داده‌های واقعی ثابت شود تا جذابیت بیشتری پیدا کند. این دو جست و جو را در نزدیکی خانه آغاز کردند و با هایدی هانسون، آمارشناس زیستی در این مرکز همکاری کردند بخش محاسبات پیشرفته در علوم بهداشتی در ORNL ریاست کامپیوتر و علوم کامپیوتر.. هانسون با موسسات مراقبت های بهداشتی و کارشناسان موضوعی برای پیاده سازی راه حل های علوم کامپیوتر در کلینیک همکاری می کند.

یکی از پروژه‌های زیر نظر هانسون کمک به مراکز بهداشتی برای به اشتراک گذاشتن داده‌های سرطان دوران کودکی به عنوان بخشی از ثبت ملی سرطان کودکان است. هانسون گفت، در حالی که به اشتراک گذاری داده ها می تواند به طور کلی در مراقبت های بهداشتی مفید باشد، به ویژه در فضای سرطان کودکان مهم است.

او گفت: سرطان های دوران کودکی نادر است. “برای یک موسسه انجام تحقیقات قوی با استفاده از مقادیر محدود داده های بیماران بسیار دشوار است، زیرا مجموعه داده های بزرگی برای قدرت آماری و آماری مورد نیاز است. فراگیری ماشین مواد و روش ها.”

از سوی دیگر، هانسون گفت، موسسات نیز در به اشتراک گذاری آشکار داده ها در یک سیستم متمرکز مردد هستند. در حالی که غیر متمرکز وجود دارد فراگیری ماشین روش های مقابله با این، مانند آموزش فدرالسطح پایین داده های موجود برای سرطان های نادر مانع از این تلاش ها می شود.

هانسون می‌گوید: «اگر فقط به چند مورد نویز اضافه کنید، دقت بسیار بالایی کسب خواهید کرد تا به سطحی از حریم خصوصی که ممکن است در برخی از این فضاها نیاز داشته باشید، برسید.

آموزش مدل‌های خصوصی متفاوت Bridges and Tomb به دنبال این است که مؤسسات را قادر به حفظ حریم خصوصی با فداکاری بسیار کمتری از دقت کنند. این تیم نتایج تجربی امیدوارکننده‌ای را بر روی داده‌های بقای سرطان موسسه ملی سرطان با استفاده از ORNL ارائه کرد قاب CITADEL برای رعایت قوانین حفظ حریم خصوصی مراقبت های بهداشتی فدرال.

هانسون این نتایج را ارائه دهد در نشست های مشارکت بین المللی برای داده های سرطان کودکان، بخشی از ابتکار عمل سرطان G7 در پاریس، فرانسه، در نوامبر 2023.

اجرای گسترده این روش جدید برای خصوصی دیفرانسیل فراگیری ماشین می تواند به پایش سرطان در زمان واقعی کمک کند، بیماران را با آزمایشات بالینی مناسب مطابقت دهد و به پیش بینی نتایج سرطان کمک کند.

هانسون گفت: «در طی سه سال آینده، ما واقعاً دوست داریم (این روش) به طور گسترده توسط افراد جامعه پزشکی مورد استفاده قرار گیرد تا بتوانیم مشکلات بزرگی را به‌ویژه برای بیماری‌های نادر مانند سرطان دوران کودکی حل کنیم.

UT-Battelle ORNL را برای دفتر علوم وزارت انرژی، بزرگترین حامی تحقیقات پایه در علوم فیزیکی در ایالات متحده، مدیریت می کند. دفتر علوم برای رسیدگی به برخی از مهم ترین چالش های زمان ما کار می کند. برای اطلاعات بیشتر لطفا مراجعه کنید به Energy.gov/science.

Source link