Data Mining. Eksploracja danych w sieciach społecznościowych. Wydanie III

44,85 

Opis

Internetu nie można rozważać wyłącznie jako tworu techniki. Powstanie tej sieci doprowadziło do rozwoju różnych zjawisk społecznych. Z tej perspektywy na szczególną uwagę zasługują media społecznościowe. Są źródłem informacji, które, właściwie spożytkowane, mogą przynieść niezły dochód. Mogą też dać odpowiedzi na wiele pytań zadawanych przez naukowców z różnych branż. Sama eksploracja tych danych przynosi sporo satysfakcji i radości. Zaskakujące przy tym jest to, że przygotowanie zestawu potrzebnych narzędzi i nauka posługiwania się nimi zabiera naprawdę niewiele czasu i nie wymaga specjalnych talentów!To trzecie, zaktualizowane wydanie popularnego podręcznika dla osób, które chcą zająć się wydobywaniem danych z sieci społecznościowych. Uwzględniono tu zmiany interfejsów API wprowadzone do poszczególnych platform i dodano rozdział o eksploracji Instagrama. Dowiesz się, jak dzięki danym z mediów społecznościowych określić sieć powiązań użytkowników, zorientować się, kto o czym mówi i gdzie się znajduje. Treść bogato zilustrowano przykładami kodu w Pythonie, a także plikami Jupyter Notebook lub kontenerów Dockera. Ciekawym elementem książki jest zbiór receptur dotyczących rozwiązywania konkretnych problemów z Twitterem.W tej książce między innymi:wprowadzenie do świata mediów społecznościowychprzybliżenie bogactwa danych zawartych w mediach społecznościowycheksploracja danych za pomocą narzędzi Pythona 3zaawansowane techniki eksploracji danych, w tym współczynniki TFIDF, podobieństwo kosinusów i rozpoznawanie obrazówtworzenie wizualizacji pozyskanych danychJakie informacje dziś znajdziesz dzięki danym z Facebooka?Spis treści:Przedmowa 11CZĘŚĆ I. PRZEWODNIK PO SIECIACH SPOŁECZNOŚCIOWYCHWstęp 251. Eksploracja Twittera: odkrywanie trendów, dowiadywanie się, o czym się rozmawia, i trochę więcej 271.1. Przegląd 271.2. Dlaczego Twitter to jest „to”? 281.3. Odkrywanie API Twittera 301.3.1. Podstawowa terminologia związana z Twitterem 301.3.2. Tworzenie połączenia z API Twittera 331.3.3. Odkrywanie trendów 361.3.4. Wyszukiwanie tweetów 401.4. Analiza 140 (lub więcej) znaków 461.4.1. Wyodrębnianie podmiotów z tweetów 471.4.2. Analizowanie tweetów i występujących w nich podmiotów z wykorzystaniem analizy częstości 491.4.3. Obliczanie różnorodności leksykalnej tweetów 511.4.4. Badanie wzorców w retweetach 531.4.5. Wizualizacja danych częstości za pomocą histogramów 551.5. Uwagi końcowe 591.6. Zalecane ćwiczenia 601.7. Zasoby online 612. Eksploracja Facebooka: analizowanie fanpagey, znajomości i więcej 632.1. Przegląd 642.2. Interfejs API Graph Facebooka 642.2.1. Wprowadzenie do API Graph 662.2.2. Protokół Open Graph 702.3. Analiza połączeń grafu społecznościowego 752.3.1. Analizowanie stron Facebooka 782.3.2. Manipulowanie danymi z wykorzystaniem pakietu pandas 882.4. Uwagi końcowe 952.5. Zalecane ćwiczenia 962.6. Zasoby online 963. Eksploracja Instagrama: komputerowy wzrok, sieci neuronowe, rozpoznawanie obiektów i wykrywanie twarzy 993.1. Przegląd 1003.2. Poznawanie API Instagrama 1013.2.1. Tworzenie żądań do API Instagrama 1013.2.2. Odczytywanie własnego kanału na Instagramie 1033.2.3. Pobieranie medium według hashtagu 1053.3. Anatomia posta na Instagramie 1053.4. Szybki kurs na temat sztucznych sieci neuronowych 1083.4.1. Trening sieci neuronowej pod kątem „oglądania” zdjęć 1093.4.2. Rozpoznawanie cyfr pisanych odręcznie 1113.4.3. Rozpoznawanie obiektów na zdjęciach przy użyciu wstępnie przeszkolonych sieci neuronowych 1163.5. Wykorzystanie sieci neuronowych do postów na Instagramie 1193.5.1. Oznaczanie zawartości obrazu 1193.5.2. Wykrywanie twarzy na zdjęciach 1213.6. Uwagi końcowe 1223.7. Zalecane ćwiczenia 1233.8. Zasoby online 1244. Eksploracja sieci LinkedIn: stanowiska, współpracownicy i nie tylko 1274.1. Przegląd 1284.2. Poznawanie API LinkedIna 1284.2.1. Tworzenie żądań do API LinkedIn 1294.2.2. Pobieranie połączeń LinkedIn w pliku CSV 1324.3. Krótki kurs grupowania danych 1324.3.1. Normalizacja danych w celu umożliwienia analizy 1354.3.2. Mierzenie podobieństwa 1454.3.3. Algorytmy klasteryzacji 1474.4. Uwagi końcowe 1614.5. Zalecane ćwiczenia 1614.6. Zasoby online 1625. Eksploracja danych z plików tekstowych: obliczanie podobieństwa dokumentów, wyodrębnianie kolokacji i inne 1635.1. Przegląd 1645.2. Pliki tekstowe 1645.3. Wprowadzenie do TF-IDF 1665.3.1. Częstość terminu 1665.3.2. Odwrotna częstość dokumentu 1685.3.3. TF-IDF 1695.4. Odpytywanie danych w języku naturalnym za pomocą TF-IDF 1725.4.1. Natural Language Toolkit – wprowadzenie 1725.4.2. Zastosowanie współczynnika TF-IDF do języka naturalnego 1765.4.3. Wyszukiwanie podobnych dokumentów 1775.4.4. Analiza bigramów w języku naturalnym 1845.4.5. Refleksje na temat analizy danych języka naturalnego 1935.5. Uwagi końcowe 1945.6. Zalecane ćwiczenia 1955.7. Zasoby online 1956. Eksploracja stron internetowych: przetwarzanie językanaturalnego w celu zrozumienia języka ludzkiego, tworzenie podsumowańpostów na blogu i inne 1976.1. Przegląd 1986.2. Scraping, parsowanie i crawling stron internetowych 1996.2.1. Przeszukiwanie wszerz w crawlingu stron internetowych 2026.3. Odkrywanie semantyki przez dekodowanie składni 2056.3.1. Przetwarzanie języka naturalnego krok po kroku 2076.3.2. Wykrywanie zdań w danych w języku naturalnym 2106.3.3. Tworzenie streszczeń dokumentów 2146.4. Zmiana paradygmatu. Analiza obiektów 2226.4.1. Podsumowania danych w języku naturalnym 2266.5. Jakość analiz do przetwarzania danych w języku naturalnym 2306.6. Uwagi końcowe 2346.7. Zalecane ćwiczenia 2346.8. Zasoby online 2357. Eksploracja skrzynek pocztowych: analiza, kto rozmawia z kim, o czym, jak często i nie tylko 2377.1. Przegląd 2387.2. Uzyskiwanie i przetwarzanie korpusu danych pocztowych 2397.2.1. Uniksowe skrzynki pocztowe 2397.2.2. Pobieranie danych Enron 2437.2.3. Konwersja korpusu poczty na uniksowy format mbox 2457.2.4. Konwertowanie uniksowych skrzynek pocztowych na obiekty DataFrame biblioteki pandas 2477.3. Analiza korpusu Enron 2497.3.1. Zapytania według zakresu dat (godzin) 2507.3.2. Analiza wzorców w komunikacji nadawca-odbiorca 2537.3.3. Wyszukiwanie wiadomości e-mail według słów kluczowych 2577.4. Analiza własnych danych pocztowych 2587.4.1. Dostęp do Twojej skrzynki Gmail za pomocą OAuth 2607.4.2. Pobieranie i parsowanie wiadomości e-mail 2627.4.3. Wizualizacja wzorców w e-mailu za pomocą frameworka Immersion 2647.5. Uwagi końcowe 2657.6. Zalecane ćwiczenia 2657.7. Zasoby online 2668. Eksploracja serwisu GitHub: badanie nawykówpodczas współtworzenia oprogramowania, tworzenie grafówzainteresowań i nie tylko 2698.1. Przegląd 2708.2. Odkrywanie API GitHuba 2708.2.1. Tworzenie połączenia do API serwisu GitHub 2728.2.2. Tworzenie żądań do API GitHuba 2758.3. Modelowanie danych za pomocą grafów właściwości 2778.4. Analiza grafów zainteresowań serwisu GitHub 2808.4.1. „Wysiewanie” grafu zainteresowań 2818.4.2. Obliczanie miar centralności grafu 2848.4.3. Rozszerzanie grafu zainteresowań z wykorzystaniem krawędzi „śledzi” dla użytkowników 2878.4.4. Używanie węzłów jako punktów przestawnych w celu tworzenia bardziej wydajnych zapytań 2968.4.5. Wizualizacja grafów zainteresowań 3018.5. Uwagi końcowe 3038.6. Zalecane ćwiczenia 3048.7. Zasoby online 305CZĘŚĆ II. TWITTER. RECEPTURY9. Twitter. Receptury 3099.1. Dostęp do interfejsu API Twittera dla celów programistycznych 3109.2. Wykorzystanie OAuth w celu uzyskania dostępu do interfejsu API Twittera dla aplikacji produkcyjnych 3119.3. Odkrywanie trendów 3159.4. Wyszukiwanie tweetów 3169.5. Konstruowanie wygodnych wywołań funkcji 3189.6 Zapisywanie i przywracanie danych JSON z wykorzystaniem plików tekstowych 3199.7. Zapisywanie danych JSON i uzyskiwanie dostępu do nich za pomocą MongoDB 3209.8. Pobieranie próbek z mechanizmu firehose Twittera za pomocą API Streaming 3239.9. Pobieranie danych szeregów czasowych 3249.10. Wyodrębnianie podmiotów z tweetów 3269.11. Znajdowanie najpopularniejszych tweetów w kolekcji 3279.12. Znajdowanie najpopularniejszych obiektów w kolekcji tweetów 3299.13. Tabularyzacja analizy częstości 3309.14. Znajdowanie użytkowników, którzy retweetowali status 3319.15. Wyodrębnianie przypisania retweeta 3339.16. Wykonywanie odpornych na błędy żądań do Twittera 3349.17. Pobieranie informacji o profilu użytkownika 3379.18. Wyodrębnianie podmiotów tweeta z dowolnego tekstu 3389.19. Pobieranie wszystkich znajomych lub obserwatorów użytkownika 3399.20. Analiza znajomych i obserwatorów użytkownika 3419.21. Zbieranie tweetów użytkownika 3429.22. Crawling grafu znajomości 3449.23. Analiza treści tweetów 3469.24. Tworzenie streszczeń celów łączy 3479.25. Analizowanie ulubionych tweetów użytkownika 3509.26. Uwagi końcowe 3529.27. Zalecane ćwiczenia 3529.28. Zasoby online 353CZĘŚĆ III. ZAŁĄCZNIKIA. Informacje o maszynie wirtualnej przeznaczonej dla tej książki 357B. Elementarz OAuth 359C. Porady i wskazówki na temat Pythona i środowiska Jupyter Notebook 363Skorowidz 365

konin stryków, święty patryk ciekawostki, preikestolen, dni wieliczki 2020, dyscyplina budżetowa

yyyyy