विशेषज्ञ से प्रश्न: क्या यह सच है कि सामाजिक नेटवर्क हमें देख रहे हैं

दिमित्री कुर्किन

अमेरिका के सवालों की प्रमुखता का विरोध करता है हम ऑनलाइन खोज करते थे। सामग्रियों की नई श्रृंखला में हम इस तरह के प्रश्न पूछते हैं: विभिन्न क्षेत्रों में पेशेवरों को जलाना, अप्रत्याशित या व्यापक -।

वर्ष की शुरुआत में सोशल नेटवर्क में लॉन्च की गई 10 साल की चैलेंज फ्लैश भीड़ ने न केवल साजिश के सिद्धांतों को जन्म दिया, बल्कि अभियान का लक्ष्य उपयोगकर्ताओं की तस्वीरों को इकट्ठा करना और उन्हें फेस रिकग्निशन सिस्टम को पहचानने के लिए प्रशिक्षित करना था, लेकिन साथ ही एक बार फिर उन्हें इस बारे में सोचने के लिए प्रेरित किया कि वे हमारे बारे में कितना जानते हैं। सामाजिक नेटवर्क और उनके साथ काम करने वाले तीसरे पक्ष (वाणिज्यिक कंपनियों से सरकारी एजेंसियों तक)।

तथ्य यह है कि प्रौद्योगिकी के दिग्गज रोजाना अरबों उपयोगकर्ताओं द्वारा छोड़े गए तथाकथित डिजिटल पैरों के निशान का विश्लेषण और संग्रह कर रहे हैं, यह किसी के लिए कोई रहस्य नहीं है। और इसके बारे में जागरूकता "बड़े भाई" के एक नए तरह के डर को जन्म देती है: सामाजिक नेटवर्क हमारे बारे में बहुत कुछ जानते हैं, लेकिन अगर वे हमारे बारे में बहुत अधिक जानते हैं तो क्या होगा? क्या किसी व्यक्ति, उसके अतीत और वर्तमान के सभी कनेक्शन, स्वाद, आदतों का पता लगाने के लिए बड़े डेटा का उपयोग किया जा सकता है? और यदि ऐसा है, तो ऑनलाइन नुकसान को कम करने की हमारी इच्छा क्या हो सकती है, जिसके लिए हम स्वेच्छा से अपने बारे में जानकारी साझा करते हैं?

हमने विशेषज्ञों से पूछा कि बड़ी कंपनियों द्वारा उपयोगकर्ता डेटा को कैसे संसाधित किया जाता है और सामाजिक नेटवर्क पर विरासत के लिए कितना बड़ा खतरा है।

लिलिया ज़मनुखोवा

सेंट पीटर्सबर्ग में यूरोपीय विश्वविद्यालय में विज्ञान और प्रौद्योगिकी अनुसंधान केंद्र में शोधकर्ता

एक डिजिटल पदचिह्न में सभी संभावित प्रकार के डेटा होते हैं - ग्रंथ, चित्र, ऑडियो और वीडियो रिकॉर्डिंग, जियोलोकेशन, और बहुत सारे मेटाडेटा (उदाहरण के लिए, गैजेट मॉडल, मोबाइल ऑपरेटर, ऑपरेटिंग सिस्टम, गतिशीलता और यात्राओं की अवधि, आदि)। और यह सिर्फ हमारे लिए नहीं है जो हमारे डिजिटल फुटप्रिंट की भरपाई करते हैं। सामाजिक नेटवर्क हमें तीन डेटा स्रोतों की मदद से उपयोगकर्ता के रूप में बनाते हैं: यह तथ्य कि हम खुद अपने बारे में रिपोर्ट करते हैं; कि दूसरे हमारे बारे में रिपोर्ट कर रहे हैं; और हमारे ज्ञान के बिना सबसे अधिक बार क्या हो रहा है। खासकर अपारदर्शी आखिरी। हम, एक नियम के रूप में, व्यक्तिगत डेटा के संग्रह और उपयोग के लिए उपयोगकर्ता समझौतों और नीतियों को नहीं पढ़ते हैं। हम केवल यह ध्यान दें कि यह "ब्लैक बॉक्स" किसी भी तरह हमारे उपयोगकर्ता अनुभव को प्रभावित करता है: लक्षित विज्ञापन, दोस्तों से सुझाव, संगीत के लिए सिफारिशें, समाचार लॉन्च करने की प्रक्रिया ... हम स्वयं इस अनुभव का एक छोटा हिस्सा बनाते हैं, जब हम मैन्युअल रूप से समाचार फ़ीड का निर्माण करते हैं, लेकिन मुख्य रूप से एल्गोरिदम डिफ़ॉल्ट प्रोफाइल में एम्बेडेड कार्य करते हैं। यही कारण है कि हम कभी भी प्रासंगिक विज्ञापन या समूहों के दखल देने वाले सुझावों या (नहीं) दोस्तों से छुटकारा नहीं पाएंगे। निगमों के रूप में सामाजिक नेटवर्क व्यावसायिक उद्देश्यों के लिए अपने उपयोगकर्ताओं के बारे में डेटा का उपयोग करते हैं, लक्षित सामग्री बेचने के लिए अपने मंच की पेशकश करते हैं। और जिस तरह से, वे हमारे बारे में डेटा एकत्र करना जारी रखते हैं: उदाहरण के लिए, यदि आपने कम से कम एक बार विज्ञापन के लिए भुगतान किया है, तो बैंक कार्ड और लेनदेन का डेटा भी कंपनी के पास रहता है। बड़ी जरूरत होने पर सरकारी एजेंसियों को डेटा भी प्रदान किया जा सकता है: उदाहरण के लिए, फेसबुक अमेरिकी सरकार की एजेंसियों के साथ नियमित रूप से सहयोग करता है, इसकी पारदर्शिता की नीति के अनुसार।

सामाजिक नेटवर्क की आंतरिक नीति के अलावा, एक और महत्वपूर्ण विवरण है: खातों को सैकड़ों हजारों अन्य अनुप्रयोगों और कार्यों के साथ जोड़ा जा सकता है। यह, उदाहरण के लिए, उपयोगकर्ता डेटा के लिए तीसरे पक्ष के उपयोग के बारे में पिछले साल बड़ी चर्चाओं का कारण था। डेवलपर्स की स्वतंत्रता को विनियमित करने का एक महत्वपूर्ण प्रयास यूरोपीय संघ में किया गया था - सामान्य डेटा संरक्षण विनियम (जीडीपीआर) पिछले साल लागू हुआ था। उन्होंने डेटा समस्याओं को स्थानांतरित नहीं करने का फैसला किया, लेकिन इस सवाल पर उपयोगकर्ताओं का ध्यान आकर्षित किया। यह हमें सभी उपयोगकर्ता समझौतों को पढ़ने के लिए बाध्य नहीं करता है, लेकिन यह हमें लगता है कि कम से कम हमारे डिजिटल पैरों के निशान के लिए अधिक जिम्मेदार है और डिजिटल स्वच्छता के प्राथमिक नियमों का पालन करता है।

वलेरिया करावेवा

स्पाइकिंग में डेटा वैज्ञानिक

हम कभी-कभी यह नहीं सोचते हैं कि हम वेब पर कितने ट्रैक छोड़ते हैं और बाद में यह कंपनियों को मदद करता है, न केवल सामाजिक नेटवर्क - हालांकि सामाजिक नेटवर्क भी। सामाजिक नेटवर्क न केवल खुद के लिए डेटा एकत्र करते हैं, वे उन्हें बेच सकते हैं - मुझे इसके बारे में पता है, क्योंकि मैंने एक विज्ञापन एजेंसी में काम किया था, और हमने फेसबुक के साथ डेटा खरीदा था। और सबसे अधिक बार हम, उपयोगकर्ता, इस पर ध्यान दिए बिना इसे सहमति देते हैं। लोग अपना आधा जीवन सोशल नेटवर्क पर बिताते हैं और अपने बारे में बहुत सी जानकारी देते हैं।

लेकिन इससे पहले डेटा एकत्र करना संभव था - इसलिए आपने हाल ही में बड़े डेटा के बारे में बात क्यों शुरू की है? सबसे पहले, क्योंकि कंप्यूटिंग शक्ति बढ़ती है और, तदनुसार, सस्ता हो जाता है। बड़े डेटा का मुख्य मुद्दा यह नहीं है कि डेटा कैसे इकट्ठा किया जाए - सिद्धांत रूप में, हम में से प्रत्येक आज जानकारी के टेराबाइट्स को इकट्ठा और संग्रहीत कर सकते हैं - लेकिन उनके साथ कैसे काम करें। सोशल नेटवर्क (टेक्स्ट, वॉयस, पिक्चर्स, वीडियो) से प्राप्त अधिकांश डेटा को किसी भी तरह से संरचित नहीं किया जाता है, इसलिए मशीन के बिना बड़ा डेटा सीखना बेकार है। अब, इस तथ्य के कारण कि शक्ति और मेमोरी सस्ती हो गई है, तंत्रिका नेटवर्क और गहन सीखने की मांग बढ़ गई है - हमने आखिरकार बड़े डेटा सरणियों को संसाधित करना सीखा।

उदाहरण के लिए, चित्र लें - और यह वास्तव में बड़ा डेटा है, वे बहुत सारी जानकारी दे सकते हैं। लाखों तस्वीरें हैं, लेकिन उनके साथ क्या करना है? आप उनसे कैसे लाभान्वित हो सकते हैं? वे आपको क्या पैटर्न देते हैं? मशीन लर्निंग, वास्तव में, इतनी दूर नहीं गई है। यह ऐसी सरल प्रक्रिया नहीं है जैसा कि ऐसा लगता है: ऐसी कोई बात नहीं है कि आप एक बटन दबाते हैं और एक हफ्ते में पूर्ण गणना प्राप्त करते हैं।

प्रत्यक्ष रूप से मशीन लर्निंग अधिक जटिल कार्यों से पहले है। समान चित्रों को पहले ठीक से संसाधित किया जाना चाहिए (उदाहरण के लिए, फसली, केंद्रित तस्वीरें; यह सीखने के लिए महत्वपूर्ण है) - यह पहला चरण है, जिसमें आमतौर पर एक लंबा समय लगता है। दूसरा चरण समस्या को हल करने के लिए उपयुक्त एक नेटवर्क आर्किटेक्चर चुनना है। मोटे तौर पर, आप दस अलग तंत्रिका नेटवर्क का निर्माण करते हैं, और वे दस अलग-अलग परिणाम देते हैं। फिर आपको किसी तरह परिणामों का मूल्यांकन करने की आवश्यकता है। और उसके बाद, आप उच्च संभावना के साथ, पहले चरण में वापस आ जाते हैं। किसी भी कार्य के लिए एक सार्वभौमिक नेटवर्क बनाना असंभव है: आप या तो इसे खरोंच से बनाते हैं या किसी मौजूदा को संशोधित करते हैं। चेहरा पहचानना एक कार्य है, बिल्लियों की पहचान एक और है।

मशीन लर्निंग की प्रक्रिया में, हम इसे बिना जाने भी भाग लेते हैं। उदाहरण के लिए, साइटों पर कैप्चा शुरू करना: कैप्चा का उपयोग करके, Google ने पुस्तकों को डिजिटल बनाने के लिए तंत्रिका नेटवर्क को प्रशिक्षित किया।

हमें यह समझना चाहिए कि बड़े डेटा एकत्र करने वाली कंपनियां हमारे व्यक्तिगत प्रोफाइल में रुचि नहीं रखती हैं। उन्हें बहुत से अलग-अलग लोगों के बारे में डेटा की आवश्यकता होती है जो किसी विशिष्ट चीज़ में रुचि रखते हैं। विशेष सेवाओं के लिए, मुझे लगता है कि वे सामाजिक नेटवर्क का सहारा लिए बिना डेटा एकत्र कर सकते हैं। मुझे लगता है कि हमारे डर कि हम देख रहे हैं जल्द ही गुजर जाएगा। यह नई दुनिया है: वेब का पता लगाना संभव नहीं है, लेकिन यह मुश्किल है। वेब पर दिखाई देना आसान नहीं है।

तस्वीरें: antonsov85 - stock.adobe.com