MENU

Text Mining: metody, narzędzia i zastosowania

(eBook)

Wykorzystanie SAS Text Analytics

0.00  [ 0 ocen ]
 Dodaj recenzję
Rozwiń szczegóły »
  • Druk: Warszawa, 2016

  • Autor: Dominik Spinczyk, Mariusz Dzieciątko

  • Wydawca: Wydawnictwo Naukowe PWN

  • Formaty:
    mobi
    ePub
    (Watermark)
    Watermark
    Znak wodny czyli Watermark to zaszyfrowana informacja o użytkowniku, który zakupił produkt. Dzięki temu łatwo jest zidentyfikować użytkownika, który rozpowszechnił produkt w sposób niezgodny z prawem. Ten rodzaj zabezpieczenia jest zdecydowanie najbardziej przyjazny dla użytkownika, ponieważ aby otworzyć książkę zabezpieczoną Watermarkiem nie jest potrzebne konto Adobe ID oraz autoryzacja urządzenia.

Dostępne formaty i edycje
Rok wydania
Cena
Cena katalogowa: 59,00 zł
Najniższa cena z 30 dni: 29,50 zł
Cena produktu

Cena katalogowa – rynkowa cena produktu, często jest drukowana przez wydawcę na książce.

Najniższa cena z 30 dni – najniższa cena sprzedaży produktu w księgarni z ostatnich 30 dni, obowiązująca przed zmianą ceny.

Wszystkie ceny, łącznie z ceną sprzedaży, zawierają podatek VAT.

35,40
Dodaj do schowka
Dostępność: online po opłaceniu
Produkt elektroniczny Plik do pobrania po realizacji zamówienia

Text Mining: metody, narzędzia i zastosowania

SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.
Możliwości omówionych w książce narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników.

  • Sposób dostarczenia produktu elektronicznego
    Produkty elektroniczne takie jak Ebooki czy Audiobooki są udostępniane online po opłaceniu zamówienia kartą lub przelewem na stronie Twoje konto > Biblioteka.
    Pliki można pobrać zazwyczaj w ciągu kilku-kilkunastu minut po uzyskaniu poprawnej autoryzacji płatności, choć w przypadku niektórych publikacji elektronicznych czas oczekiwania może być nieco dłuższy.
    Sprzedaż terytorialna towarów elektronicznych jest regulowana wyłącznie ograniczeniami terytorialnymi licencji konkretnych produktów.
  • Ważne informacje techniczne
    Minimalne wymagania sprzętowe:
    procesor: architektura x86 1GHz lub odpowiedniki w pozostałych architekturach
    Pamięć operacyjna: 512MB
    Monitor i karta graficzna: zgodny ze standardem XGA, minimalna rozdzielczość 1024x768 16bit
    Dysk twardy: dowolny obsługujący system operacyjny z minimalnie 100MB wolnego miejsca
    Mysz lub inny manipulator + klawiatura
    Karta sieciowa/modem: umożliwiająca dostęp do sieci Internet z prędkością 512kb/s
    Minimalne wymagania oprogramowania:
    System Operacyjny: System MS Windows 95 i wyżej, Linux z X.ORG, MacOS 9 lub wyżej, najnowsze systemy mobilne: Android, iPhone, SymbianOS, Windows Mobile
    Przeglądarka internetowa: Internet Explorer 7 lub wyżej, Opera 9 i wyżej, FireFox 2 i wyżej, Chrome 1.0 i wyżej, Safari 5
    Przeglądarka z obsługą ciasteczek i włączoną obsługą JavaScript
    Zalecany plugin Flash Player w wersji 10.0 lub wyżej.
    Informacja o formatach plików:
    • PDF - format polecany do czytania na laptopach oraz komputerach stacjonarnych.
    • EPUB - format pliku, który umożliwia czytanie książek elektronicznych na urządzeniach z mniejszymi ekranami (np. e-czytnik lub smartfon), dając możliwość dopasowania tekstu do wielkości urządzenia i preferencji użytkownika.
    • MOBI - format zapisu firmy Mobipocket, który można pobrać na dowolne urządzenie elektroniczne (np.e-czytnik Kindle) z zainstalowanym programem (np. MobiPocket Reader) pozwalającym czytać pliki MOBI.
    • Audiobooki w formacie MP3 - format pliku, przeznaczony do odsłuchu nagrań audio.
    Rodzaje zabezpieczeń plików:
    • Watermark - (znak wodny) to zaszyfrowana informacja o użytkowniku, który zakupił produkt. Dzięki temu łatwo jest zidentyfikować użytkownika, który rozpowszechnił produkt w sposób niezgodny z prawem. Ten rodzaj zabezpieczenia jest zdecydowanie bardziej przyjazny dla użytkownika, ponieważ aby otworzyć książkę zabezpieczoną Watermarkiem nie jest potrzebne konto Adobe ID oraz autoryzacja urządzenia.
    • Brak zabezpieczenia - część oferowanych w naszym sklepie plików nie posiada zabezpieczeń. Zazwyczaj tego typu pliki można pobierać ograniczoną ilość razy, określaną przez dostawcę publikacji elektronicznych. W przypadku zbyt dużej ilości pobrań plików na stronie WWW pojawia się stosowny komunikat.
Wykaz oznaczeń                                                            IX

Wykaz skrótów                                                             XI

Wprowadzenie                                                              1

Część I. Wprowadzenie do eksploracji danych tekstowych                            5

1. Trendy w rozwoju systemów informatycznych eksploracji danych                  7

2. Metody eksploracji danych tekstowych                                      11
	2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych metod                                                    12
	2.2. Określenie celu, zakresu i kosztów analizy                            13
	2.3. Przekształcenie zbioru dokumentów źródłowych                       13
		2.3.1. Informacja o częstości występowania poszczególnych terminów     13
		2.3.2. Postać ustrukturyzowana                                    15
	2.4. Wybór metody obliczeniowej                                       15

3. Architektura oprogramowania do eksploracji danych tekstowych na przykładzie pakietu SAS Text Analytics firmy SAS Institute                    17
	3.1. Rozpoczęcie pracy z programem Enterprise Miner (Text Miner)         19
		3.1.1. Tworzenie nowego projektu i biblioteki                        19
		3.1.2. Tworzenie diagramów analizy danych                         21
		3.1.3. Określanie źródła danych projektu                            22
	3.2. Metodyka SEMMA                                                23
		3.2.1. Etap Próbkowanie                                          24
		3.2.2. Etap Eksploracja                                           24
		3.2.3. Etap Modyfikacja                                           25
		3.2.4. Etap Modelowanie                                          26
		3.2.5. Etap Ocena                                                27
	3.3. Text Miner – etapy przetwarzania                                   28
	3.4. Text Miner – komponenty                                          30
		3.4.1. Właściwości węzła Klastrowanie tekstu                        30
		3.4.2. Właściwości węzła Filtrowanie tekstu                         31
		3.4.3. Właściwości węzła Import tekstu                             32
		3.4.4. Właściwości węzła Parsowanie tekstu                         33
		3.4.5. Właściwości węzła Profil tekstu                              35
		3.4.6. Właściwości węzła Generator reguł tekstu                     35
		3.4.7. Właściwości węzła Temat tekstu                              36
	3.5. Przykład: Klasteryzacja zbioru zdań                                 37
		3.5.1. Konfiguracja diagramu przepływu danych                     37
		3.5.2. Konfiguracja poszczególnych węzłów i interpretacja wyników     38
		3.5.3. Podsumowanie                                             48

Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym                49

4. Wybór funkcji wagującej macierzy częstości występowania terminów             51
	4.1. Wagi częstości                                                    51
	4.2. Wagi wyrażenia                                                   52
	4.3. Przykład obliczeniowy                                             53
	4.4. Podsumowanie                                                   54

5. Redukcja wymiarowości macierzy częstości występowania terminów             57
	5.1. Analiza semantyczna zmiennych ukrytych                           57
		5.1.1. Rozkład SVD                                              58
		5.1.2. Przykład obliczeniowy rozkładu SVD                         58
	5.2. Podsumowanie                                                   62

6. Wybór algorytmu klastrowania dokumentów tekstowych                      63
	6.1. Określenie miary podobieństwa grupy dokumentów                   63
	6.2. Algorytmy klastrowania                                           63
	6.3. Grupowanie za pomocą węzła Klastrowanie tekstów                   66
		6.3.1. Węzeł Klastrowanie tekstu – algorytm Hierarchiczny            66
		6.3.2. Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań                                                 66
		6.3.3. Węzeł Klastrowanie tekstu – właściwość Terminy opisowe       66
	6.4. Grupowanie za pomocą węzła Temat tekstu                           69
		6.4.1. Tematy definiowane przez użytkownika                       72
	6.5. Posumowanie                                                    73

7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli                                           75
	7.1. Tworzenie modelu predykcyjnego                                   75
	7.2. Ocena błędu klasyfikacji                                           76
		7.2.1. Krzywe ROC                                              77
		7.2.2. Wykresy wzrostu                                           77
	7.3. Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych                                             78
		7.3.1. Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów                                                    79
	7.4. Podsumowanie                                                   83

8. Klastrowanie dokumentów nadzorowane przez użytkownika                    85
	8.1. Charakterystyka węzła Generator reguł tekstu                        85
	8.2. Podsumowanie                                                   88

Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji      89

9. Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji      91
	9.1. Wprowadzenie                                                   91
		9.1.1. SAS Crawler                                               92
		9.1.2. SAS Search and Indexing                                    93
		9.1.3. SAS Information Retrival Studio                              94
	9.2. Podsumowanie                                                   95

10. Klasyfikacja dokumentów                                                97
	10.1. SAS Content Categorization Studio                                  97
		10.1.1. Metody klasyfikacji dokumentów dostępne w SAS CCS          99
		10.1.2. Wydobywanie konceptów dostępne w SAS CCS               101
		10.1.3. Wydobywanie kontekstu dostępne w SAS CCS                106
		10.1.4. Zakładanie nowego projektu                                108
		10.1.5. Metodyka planowania projektu                              110
		10.1.6. Tworzenie nowej kategorii                                  113
		10.1.7. Zasady używania kategoryzatora statystycznego               114
		10.1.8. Zasady używania kategoryzatora generującego reguły automatycznie                                            117
		10.1.9. Zasady używania kategoryzatora bazującego na regułach        121
		10.1.10. Praca z konceptami                                        125
	10.2. Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki                      135
	10.3. Podsumowanie                                                  142

11. Analiza sentymentu                                                    143
	11.1. SAS Sentiment Analysis Studio                                    144
		11.1.1. Metoda oceny sentymentu dla dokumentu                    145
		11.1.2. Zakładanie nowego projektu                                147
		11.1.3. Testowanie istniejących modeli                              157
		11.1.4. Tworzenie modeli hybrydowych                             158
		11.1.5. SAS Sentiment Analysis Server                              158
	11.2. Przykład analizy sentymentu użytkowników telefonów komórkowych                                                   158
	11.3. Podsumowanie                                                  164

Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych                 165

12. Inne elementy przetwarzania danych tekstowych                            167
	12.1. Porównywanie dokumentów za pomocą metryk                      167
		12.1.1. Odległość kosinusowa                                     167
		12.1.2. Metryka Jaccarda                                          168
	12.2. Wydobywanie jednostek specjalnych z dokumentów                  171

Słownik pojęć związanych z eksploracją danych tekstowych                       173

Dodatek A: Podstawy obsługi środowiska SAS i język 4GL                          177
	A.1. Wprowadzenie do obsługi systemu SAS                             177
		A.1.1. Struktura zbioru danych SAS                                180
		A.1.2. Formaty i informaty                                       182
	A.2. Język 4GL                                                       182
		A.2.1. Blok typu DATA STEP                                     183
		A.2.2. Blok typu PROC STEP                                     183

Dodatek B: Podstawy języka makr                                            187
	B.1. Makrozmienne                                                  187
	B.2. Makroprogramy                                                 187
Dodatek C: Wizualna interpretacja danych                                      189
	C.1. Przegląd typów wykresów stosowanych dla danych tekstowych         190

Bibliografia                                                              193

Indeks pojęć                                                              195

Spis rysunków                                                            197

Spis tabel                                                                203
NAZWA I FORMAT
OPIS
ROZMIAR

Przeczytaj fragment

NAZWA I FORMAT
OPIS
ROZMIAR
(epub)
Brak informacji
(mobi)
Brak informacji

Inni Klienci oglądali również

13,13 zł
17,50 zł

Droga miodowa. Miodal i łabędź

Droga Miodowa to książka przygodowa dla małych i dużych dzieci. Opowiada o podróży misia Miodala do pięknych miejsc w Europie, w których przytrafiają mu się zaskakujące, raz miłe, raz dziwne przygody. Ale jest to podróż niezwykła.<...
31,50 zł
35,00 zł

Rynek książki w Polsce 2012. Papier

Piętnasta edycja sztandarowej publikacji Biblioteki Analiz. W pięciu tomach omówione zostały najważniejsze zagadnienia dotyczące funkcjonowania polskiej branży wydawniczo-księgarskiej w 2011 i pierwszej połowie 2012 roku.Tom po...
36,00 zł
40,00 zł

Rynek książki w Polsce 2012. Who is who

Piętnasta edycja sztandarowej publikacji Biblioteki Analiz. W pięciu tomach omówione zostały najważniejsze zagadnienia dotyczące funkcjonowania polskiej branży wydawniczo-księgarskiej w 2011 i pierwszej połowie 2012 roku.Leksykon bio...
4,30 zł
5,00 zł

Metody wielokryterialne we wspomaganiu prenegocjacyjnego przygotowania negocjatorów

Niniejsza praca składa się z 5 kolejnych rozdziałów i zakończenia.W rozdziale drugim przybliżono podstawowe zagadnienia związane z negocjacjami pojmowanymi jako proces.W rozdziale trzecim przedyskutowano zagadnienia związane z ...
16,34 zł
19,00 zł

Modelowanie procesów finansowych, gospodarczych i społecznych z zastosowaniem analizy wielorozdzielczej

Książka zapoznaje Czytelnika z przykładowymi aplikacjami analizy wielorozdzielczej na płaszczyźnie społecznej, ekonomicznej i finansowej. Przedstawiono w niej autorskie modele wraz z aplikacjami. Modele opisano za pomocą odpowiednich algorytmów....
28,80 zł
32,00 zł

Odczytać życie. Analiza opowieści o własnym życiu z wykorzystaniem narzędzi teorii literatury. Założenia i metoda

Czym właściwie jest opowieść o własnym życiu? Czy rzeczywiście opowiadamy historię życia; innymi słowy, czy opowiadając, mówimy prawdę? Czy prawdą jest, że człowiek „musi” opowiedzieć swoje życie, by mieć poczucie tożsamości, ciągłoś...
52,20 zł
69,60 zł

Oddychanie metodą Butejki

Nieprawidłowy oddech może prowadzić do zaburzeń psychicznych, chorób serca, a nawet udaru. Rozwiązaniem jest oddychanie metodą Butejki. To specjalne ćwiczenia oddechowe, które zmniejszają objętość oddechową i redukują skutki wywołane hipe...
11,18 zł
13,00 zł

Elementy programowania liniowego i metod sieciowych

Z niniejszej książki mogą korzystać studenci różnych kierunków, szczególnie ekonomicznych i technicznych. Pisana jest jednak głównie z myślą o studentach Wydziału Matematyki Stosowanej AGH, dla których Autor prowadzi ...
29,24 zł
34,00 zł

Ilościowe metody analizy incydentów w ruchu lotniczym

Myślą przewodnią monografii było przedstawienie współczesnych metod ilościowej analizy zdarzeń w transporcie lotniczym. Zaliczają się do nich zarówno metody klasyczne, które po dostosowaniu do stanu obecnej wiedzy są cały czas z po...

Recenzje

Nikt nie dodał jeszcze recenzji. Bądź pierwszy!