Konkretnie o dużych danych
Druga edycja BigData Technology Summit zgromadziła blisko 300 uczestników, którzy dyskutowali o technicznych aspektach wdrażania, rozwoju i użytkowania rozwiązań obsługujących wielkie zbiory danych: budowaniu i utrzymywaniu skalowalnych infrastruktur danych, popularnych narzędzia i framework-ach używanych w projektach Big Data – wszystko na tle case studies z kraju i zagranicy. Na konferencji obecni byli przedstawiciele zarówno dużych firm – banków, firm ubezpieczeniowych i telekomów – jak i firm informatycznych różnej wielkości, realizujących projekty BigData.
W kuluarach konferencji dało się słyszeć przede wszystkim dyskusje praktyków dzielących się uwagami – aczkolwiek uwagami zrozumiałymi tylko dla developerów, analityków czy data scientists’ów zajmujących się na co dzień narzędziami Big Data. Pewnie dlatego często można było usłyszeć równie, że „jest to jedyna konferencja dla specjalistów realizujących projekty Big Data umożliwiająca konkretną dyskusję na takim poziomie szczegółowości praktycznej”.
Chyba nikt nie powinien być zdziwiony jeśli w ciągu najbliższych kilku lat zaczniemy mówić o prawdziwej eksplozji zastosowań BigData. Liczba i skala projektów dotyczących wielkich zbiorów danych, prowadzonych w polskich przedsiębiorstwach, systematycznie wzrasta – podobnie zresztą jak liczba uczestników konferencji Big Data Technology Summit. Dotyczy to już nie tylko firm internetowych, dla których Big Data to chleb powszedni, ale także banków, instytucji finansowych, energetyki czy mediów.
Kluczowe trendy
W tym kontekście Adam Bartos z Big Data Competency Center w SAS Polska, występujący podczas sesji plenarnej, mówił o trzech kluczowych trendach w obszarze Big Data. Pierwszy z nich to wykorzystywanie w biznesie narzędzi open source, które z jednej strony stanowią konkurencję dla rozwiązań komercyjnych dostawców, „od zawsze” obecnych w świecie danych i analityki, ale z drugiej stanowią w pewnych obszarach uzupełnienie i są przez komercyjnych dostawców coraz częściej wykorzystywane. Drugi ważny trend to demokratyzacja wielkich danych, polegająca na udostępnianiu ich coraz szerszej grupie użytkowników poprzez zrozumiałe dla nich narzędzia – proste a zarazem coraz potężniejsze w swoich możliwościach. Trzeci trend z kolei to analityka strumienia danych, dokonywana w czasie rzeczywistym – czyli coś, co wydawało się przynależeć do dyskusji o przyszłości, a dzieje się już na naszych oczach.
Konferencja zaczęła się jednak od naprawdę wielkich danych, wielkich technologii i wielkich biznesów. Pierwszym z nich był Tal Sliwowicz, szef działu badań i rozwoju izraelskiej firmy Taboola, która specjalizuje się w odkrywaniu wzorów konsumowania treści w Internecie i na tej podstawie prezentowania rekomendacji kolejnych treści dla użytkowników. Tal Sliwowicz opowiadał, w jaki sposób historycznie rozwijana była infrastruktura obsługująca platformę, której istotnym elementem są technologie open source – takie jak Spark, Hadoop i Cassandra, wykorzystywaną m.in. przez NBC, USA Today, The Weather Channel oraz Fox Sports. Platforma Taboola serwuje 300 mld. rekomendacji dla 750 mln unikalnych użytkowników miesięcznie, co przekłada się na ponad 100 tys. zapytań na sekundę i 5TB danych każdego dnia.
O wykorzystaniu machine learning do zapewniania integralności i wysokiej jakości reklam opowiadał Dr. Daniel Olmedilla z Facebooka. Dla firmy obsługującej 2,5 mln aktywnych ogłoszeniodawców selekcja treści agresywnych, obraźliwych czy w jakikolwiek inny sposób mogących urazić użytkowników, to poważne wyzwanie (zarządzanie wyświetlaniem tych reklam dzieje się już całkowicie automatycznie). Dr. Daniel Olmedilla stoi na czele zespołu analityków i matematyków, którzy odpowiadają za wykorzystanie w tym celu zaawanasowanych technologii. Wyzwaniem jest tutaj rozumienie wielu różnych języków, w których tworzone są ogłoszenia czy analizowanie treści obrazów. Trzeba próbować sprawdzać różne hipotezy, ponieważ nie wiadomo, co możemy osiągnąć, dopóki nie spróbujemy. Teoria nie zawsze sprawdza się w praktyce, ale im większa jest liczba danych, tym lepsze są budowane modele. Think Big, Start small, Fail quick and Succeed fast – podsumował Dr. Daniel Olmedilla.
Dalsza część konferencji odbywała się trybie trzech ścieżek tematycznych koncentrujących się wokół zagadnień związanych budową i utrzymywaniem infrastruktury sprzętowej i aplikacyjnej, w tym systemami rozproszonymi (m.in. Hadoop, Cassandra, Storm); przykładów zastosowania technologii analitycznych Big Data w biznesie; oraz narzędzi, metod i innowacyjnych rozwiązań do pobierania i przetwarzania danych. Pośród prelegentów znaleźli się przedstawiciele takich firm jak Spotify, SoundCloud, ale także Allegro czy mBank.
Dużo dużych danych
Dr. Anders Arpteg, kierujący pracami działu badań analitycznych Spotify, mówił o znacznej skali działania firmy – 75 mln aktywnych użytkowników miesięcznie, 30 mln licencjonowanych utworów – i wyzwaniach z tym związanych. Technologie analityczne Big Data w Spotify wykorzystywane są m.in. do raportowania do wytwórni muzycznych i posiadaczy praw autorskich, na potrzeby funkcji udostępnianych użytkownikom, zapewniania wysokiej jakości danych w katalogu, a także analiz operacyjnych, analityki biznesowej oraz na potrzeby marketingu i rozwoju.
Opowiadał również o rozwoju narzędzi analitycznych w Spotify – od tradycyjnej analizy statystycznej, przez Big Data aż do obecnych technologii działających w czasie rzeczywistym i współpracujących z rozwiązaniami machine learning. Spotify wykorzystuje w tych celach wiele technologii open source m.in. Hadoop, Spark, Flink, Kafka, Storm czy Hive.
Anders Arpteg mówił, że wykorzystanie wielkoskalowego rozwiązania machine learning ma umożliwić wykorzystanie informacji o zachowaniach użytkowników, danych demograficznych oraz dotyczących ogłoszeń, do szacowania prawdopodobieństwa konwersji z wykorzystaniem modelu regresji logistycznej. Jako głównym wyzwaniem w związku z tym projektem Arpteg wskazywał duże zapotrzebowanie na “rozproszoną” szybkość działania systemu. Najważniejsze narzędzia, które są wykorzystywane w tym celu do IPython notebook, biblioteka Scikit oraz Spark w połączeniu z MLlib.
Natomiast Grzegorz Kołpuć z Thomson Reuters, największej międzynarodowej agencji informacyjnej, posiadającej ponad 200 biur na świecie, 2,5 tys. dziennikarzy oraz 600 fotografów (która ma swój ogromny ośrodek R&D w Trójmieście), przedstawiał rozproszone, oparte na technologii Elastic Search oraz open source Lucene, rozwiązanie umożliwiające przeszukiwanie pełnotekstowe wielkich zbiorów danych z funkcjami analitycznymi, które pozwalają na grupowanie wyników, prezentowanie statystyk i rozmaitych wskaźników.
Rozwiązanie Thomson Reuters także musi sprostać operacjom w znacznej skali: m.in. ponad 2,2 mln newsów rocznie, 580 tys. zdjęć i obrazów, 100 tys. relacji wideo. Firma zatrudnia łącznie ponad 60 tys. pracowników (w tym 1200 w Gdyni), z których aż 10 tys. zajmuje się technologiami.
Znacznym zainteresowaniem cieszyło się także wystąpienie Jakuba Kałużnego z SecuRing, który poruszył kwestie bezpieczeństwa w środowiskach Big Data. Swoją prezentację rozpoczął od przedstawienia specyfiki Hadoop w porównaniu do normalnych baz danych odnosząc się do tego co to znaczy naprawdę duża ilość danych na przykładzie Facebooka, Evil Corp.
Dalej mówił o analizie ryzyka i zagrożeniach – ich poznanie jest kluczowe dla zapewnienia ochrony. Na koniec przedstawił “zalecenia” pozwalające zapewnić ochronę dla środowiska Hadoop m.in. ograniczenie do minimum dostępu sieciowego i uprawnień użytkowników, wykonywanie testów penetracyjnych, kontrolowanie wszystkich komponentów rozwiązania, a także połączeń do systemów zewnętrznych.
Między nami praktykami
Konferencja zakończyła się dwiema rundami wielotematycznych sesji roundtables, podczas których uczestnicy w stosunkowo niewielkich grupach mogli wymieniać się wiedzą i doświadczeniami dotyczącymi szczególnie interesujących ich zagadnień. Całość zyskała wysokie noty w ocenach widocznych w ankietach wypełnianych przez uczestników – widać było, że BigData Technology Summit trwale wpisał się w krajobraz konferencji o dużych danych w Polsce, służąc społeczności praktyków realizujących wdrożenia BigData.
Zapraszamy za rok, w lutym 2017 roku!
Informacje w kontekście
Rozmowa z Dariuszem Śliwą, Big Data Solution (IM&G) Sales w HPE Software.
Podczas wystąpienia na konferencji zwracał Pan szczególną uwagę na dane niestrukturalne. Dlaczego?
Należałoby zacząć od tego, że obszar Big Data bardzo szybko się rozwija. Technologie coraz lepiej radzą się z wszystkimi typami danych strukturalnych – czyli takich, które najłatwiej pozyskać i analizować. Mamy jednak do dyspozycji ogromne ilości danych niestrukturalnych, tworzonych przez ludzi, które trzeba najpierw przetworzyć, żeby mogła je zrozumieć maszyna i dokonać analizy. Chodzi np. o zapisy konwersacji między ludźmi czy komunikację miedzy konsumentem a firmą. Nasi klienci potrzebują tego, by z tymi danymi też coś zrobić.
Jak wobec tego przedstawia się oferta HPE w obszarze Big Data – z czego się składa?
Podczas prezentacji mówiłem o naszej platformie Big Data HAVEn 2.0, której jednym z fundamentów jest tabelaryczna baza danych Vertica pozwalająca analizować dane w czasie rzeczywistym na olbrzymią skalę. To rozwiązanie jest popularne zwłaszcza pośród wielkich firm internetowych – zresztą można się było o tym przekonać na konferencji.
Drugim elementem jest przejęta wraz z firmą Autonomy technologia IDOL, która wykorzystując mechanizmy sztucznej inteligencji, pozwala na procesowanie i indeksowanie informacji. IDOL potrafi zrozumieć, zinterpretować informacje w sposób w zbliżony do ludzkiego. Może rozróżniać kontekst i rozumieć w jakim znaczeniu słowo zostało użyte w danym kontekście. IDOL potrafi dzięki temu monitorując media społecznościowe zrozumieć sentyment danej wypowiedzi – pozytywny, negatywny czy ironiczny. Przy tym technologia ta jest lingwistycznie niezależna, to znaczy, że większość języków używanych w biznesie, w tym polski, jest obsługiwana z jednakową jakością.
Gdzie znajdują zastosowanie te technologie?
IDOL jest używany w wielu rozwiązaniach programowych HPE. Jednym z przykładów jest Control Point. To jest oprogramowanie, która może zajrzeć do repozytoriów z „ludzkimi danymi”, przejrzeć zawartość dokumentów, rysunków, schematów, pozyskać informacje a następnie zindeksować je i zaklasyfikować. Warto dodać, że to najtrudniejsze zadanie, z jakim borykamy się w przypadku przetwarzania informacji generowanych przez człowieka.
Dzięki temu Control Point pozwala nie tylko na usuwanie duplikatów plików, co pozwala uwolnić przestrzeń w pamięci masowej, ale przede wszystkim ma zastosowanie w obszarze tzw. compliance. Kiedy firma wypracowuje politykę informacyjną, to chce później skutecznie ją egzekwować. Naruszenie polityki powinno zostać wychwycone i skorygowane a następnie powinny zostać podjęte działania naprawcze. ControlPoint to potrafi.
Każdy element przetworzony przez Control Point opisywany jest przy wykorzystaniu metadanych. Właśnie takie uzupełnienie „ludzkich danych” o metadane, pozwala później na ich wykorzystanie przez regularne mechanizmy Big Data. W tym miejscu docieramy do sedna sprawy: dzięki kontekstowi informacji jesteśmy w stanie osiągnąć o wiele więcej.
Jak postrzega Pan relacje pomiędzy rozwiązaniami komercyjnymi a open source w obszarze Big Data?
Open source to mechanizm zapewniający znaczną demokratyzację technologiczną. Narzędzia podstawowe i ludzka inteligencja to sprawdzony sposób na postęp, odkrycia oraz innowacje. Jeśli jednak mówimy o szybkości, wydajności produkcji, to narzędzia podstawowe przestają wystarczać. Biznes jest w stanie zapłacić za przewidywalne efekty, dostarczone w odpowiedniej jakości i stosunkowo szybko – to jest miejsce dla rozwiązań komercyjnych.
Rozwiązania open source i komercyjne nie są sobie przeciwstawne. Klienci skłonni do eksperymentowania, chętnie wykorzystują narzędzia otwarte. Inni, którym zależy na czasie, wydajności, elastyczności i oczekują gwarancji sukcesu, korzystają z rozwiązań komercyjnych.
Dla HPE open source jest integralną częścią rynku informatycznego. Nasza platforma sprzętowa jest w stanie wydajnie i efektywnie obsługiwać zarówno rozwiązania komercyjne jak i open source. Natomiast od strony programowej, chcemy być blisko klientów, którym zależy na wydajności, szybkości i przewidywalnych efektach.