Twoja wyszukiwarka

BOGDAN MIŚ
INTERNET - UTAJNIONE SKARBY INTERNETU
Wiedza i Życie nr 11/2001
Artykuł pochodzi z "Wiedzy i Życia" nr 11/2001

Ogromne ilości zapisanych w Internecie informacji są dla przeciętnego użytkownika Sieci zupełnie niedostępne. Jak więc znaleźć w Internecie to, co nas interesuje?

Fot1. U góry internetowa strona naszego miesięcznika. Niżej ta sama strona w kodzie języka HTML. Tekst jest czytelny, jednak zamiast obrazków widać tylko ich nazwę i lokalizację

Oczywiście trzeba posłużyć się wyszukiwarką, np. AltaVista, Yahoo, Hotbot, IntelliSeek czy Google. Wynik takiego postępowania to najczęściej setki tysięcy adresów witryn. Mało kto zdaje sobie jednak sprawę, że jest to jedynie nieznaczna część poszukiwanych dokumentów. I to nie tylko dlatego, że dana wyszukiwarka ma przez swoje własne rozwiązania techniczne ograniczony zasięg. Potrafi ona odnaleźć dokument tylko w dwóch wypadkach: gdy zostanie bezpośrednio poinformowana o jego istnieniu przez twórcę (co robi znikomy odsetek autorów) lub gdy działający w niej specjalny program - robot indeksujący Sieć - na ów dokument natrafi. Ale jeśli wyszukiwarka została niedawno uruchomiona, to: jej robot mógł jeszcze nie dotrzeć do wszystkich dokumentów (zakładając, że to w ogóle jest możliwe); wyszukiwarka może ograniczać swoje działanie do wybranego obszaru (np. wyszukiwarki amerykańskie przede wszystkim indeksują "terytorium informatyczne" Stanów Zjednoczonych); dokument mógł także ulec zmianie lub mógł zostać przez robota niezauważony z przyczyn wręcz zasadniczych, o czym niżej.

Jeżeli robot indeksujący wyszukiwarki bada tylko tak zwane słowa kluczowe, którymi autor witryny ją opisał (a nie całą treść wszystkich tworzących ją stron, co wymaga znacznie dłuższego czasu), to z góry wiadomo, że mnóstwo dokumentów musi umknąć jego uwadze.

To jednak jeszcze nie wszystko. Całe obszary Internetu - według niektórych szacunków wręcz przytłaczająca jego część, około 400 razy (!) przekraczająca resztę - są dla klasycznych wyszukiwarek po prostu niedostępne. Rzecz w tym, iż podstawowym narzędziem, za pomocą którego tworzy się witryny, jest język programowania zwany HTML (Hyper Text Markup Language) lub jakaś jego odmiana. Zapis witryny w języku HTML jest w gruncie rzeczy dokumentem tekstowym zawierającym pewne stałe zwroty opisujące instrukcje - ale jednak tekstem.

Odczytanie go przez indeksujący program-robot nie nastręcza żadnych trudności, ale tylko dopóty, dopóki informacja jest jedynie słowna.

Fot2. Tak wygląda nasz artykuł zapisany w formacie PDF. Niżej ten sam dokument odczytany za pomocą programu Word Pad z systemu Windows

Jeśli jednak - to pierwszy kłopot - w witrynę wmontujemy obrazek, na którym będzie ważna informacja tekstowa (np. będzie to fotokopia historycznego dokumentu), to ta informacja pozostanie dla robota całkowicie nieczytelna. W języku HTML wmontowanie obrazka w witrynę sprowadza się do podania jego nazwy i lokalizacji. Niestety, ani nazwa, ani lokalizacja na ogół zupełnie nic nie mówią o treści... Jeśli zatem ktoś szuka powiedzmy - Konstytucji Trzeciego Maja, to zapewne znajdzie ją jedynie w postaci przepisanego przez kogoś tekstu. Jednak obrazu oryginału już nie zobaczy.

Drugi kłopot wiąże się z dokumentami zapisanymi w formacie PDF (Portable Document Format). Ten format to wspaniały wynalazek firmy Adobe. Dzięki niemu można bardzo szybko i prosto zapisywać kopie dokumentów wraz z ich "wystrojem graficznym" - ilustracjami, wyróżnieniami tekstu, układem druku. Tylko że zapisanych tak dokumentów nie można odczytać za pomocą zwykłego edytora tekstu, np. Notatnika z systemu Windows. Musimy mieć specjalny program czytający ten format dokumentu, czyli Adobe Acrobat Reader.

Nawet przeglądarki internetowe, takie jak Internet Explorer Microsoftu czy też Netscape, nie radzą sobie z dokumentem w formacie PDF, chyba że są wyposażone w specjalną "wtyczkę", czyli oddzielnie instalowany dodatkowy programik. Mówiąc inaczej, plik w formacie PDF jest więc dla robota indeksującego Sieć rodzajem obrazka: nie będzie on w stanie dostać się do jego wnętrza i odczytać treści. I to nawet tej zawartej w tekście!

Tymczasem w formacie PDF zarchiwizowano już miliony stron dokumentów. Żeby nie sięgać daleko: dostępne w Internecie archiwum Świata Nauki zawiera kopie stron tego pisma w formacie PDF.

O ile wiem, tylko jedna popularna wyszukiwarka potrafi wedrzeć się do dokumentu w formacie PDF i zanalizować jego treść. Tą wyszukiwarką jest Google (zainteresowanym polecam mniej znaną maszynę, wyspecjalizowaną w penetracji samych tylko dokumentów PDF: http://searchpdf.adobe.com). Dla AltaVisty czy Hotbota taki dokument po prostu nie istnieje.

Niestety, sprawa formatu PDF nie wyczerpuje tematu. Coraz więcej witryn powstaje przy użyciu znacznie bardziej skomplikowanych narzędzi niż zwykły język HTML. Żeby dać tylko jeden przykład (jest ich znacznie więcej): istnieje technika o nazwie Macromedia, dzięki której uzyskuje się na witrynie wspaniałe efekty; napisane w tej technice słowa mienią się, tańczą, wirują - i... są całkowicie nieczytelne dla robotów indeksujących.

Ale to jeszcze nie koniec. W Internecie jest coraz więcej dokumentów, których... tak naprawdę fizycznie wcale nie ma. To znaczy są, tylko nie w postaci zwykłych stron WWW. Tworzą specjalnie skonstruowaną bazę danych, która nie ma nic wspólnego z konwencjonalną witryną sieciową. Korzystanie z takiej bazy polega na tym, że trafiające do przechowującego ją komputera zapytanie (sformułowane za pośrednictwem zwykłej przeglądarki) powoduje samoczynne i błyskawiczne wygenerowanie odpowiedniej strony WWW, widocznej dla użytkownika tylko przez niezbędny mu czas. Użytkownik najczęściej zresztą w ogóle nie ma pojęcia, że widzi na monitorze stronę, która chwilę przedtem nie istniała fizycznie i która za moment istnieć przestanie. Jest to rozwiązanie wydajne i oszczędne: nie trzeba tworzyć dla każdego dokumentu odrębnej strony (czy choćby fragmentu strony), co dla administratora bazy mogłoby nawet - gdy jest ona bardzo zasobna - okazać się w krótkim czasie niewykonalne.

W zwykły sposób do przebogatych najczęściej treści, zawartych w takiej dynamicznej bazie, dotrzeć się nie da. Nie ma także mowy o ich zwyczajnym zindeksowaniu przez robota wyszukiwarki. A są to zasoby nie byle jakie. Wystarczy wymienić Bibliotekę Kongresu Stanów Zjednoczonych, która w ten właśnie sposób udostępnia internautom swoje - bagatela! - 110 mln dokumentów...

Instytucje zajmujące się profesjonalnym badaniem Internetu przyjmują, że 60 (tak jest, tylko sześćdziesiąt!) najzasobniejszych "niewidzialnych witryn" zawiera czterdzieści razy tyle informacji, co cała "widoczna" dla konwencjonalnych wyszukiwarek część Sieci!

W dodatku - jak podają te same źródła - tylko 5% (tzn. jedna dwudziesta) tych zasobów jest dostępne za jakąś opłatą. Z większości bezcennych a niewidocznych źródeł wiedzy możemy skorzystać zupełnie za darmo!

Jak więc dotrzeć do niewidzialnej części Internetu? Odpowiedź jest tyleż banalna, co zaskakująca: po prostu za pomocą... wyszukiwarki. Tyle że wyspecjalizowanej. Radzę zajrzeć do serwisu Invisible Web (adres http://www.invisibleweb.com). Pozostałe godne uwagi adresy - poniżej.

Tu znajdują się bramy do niewidzialnego Internetu:

www.allsearchengines.com
http://thebighub.com
www.completeplanet.com/index.asp
http://gwis2.circ.gwu.edu/%7Egprice/direct.htm
www.firstgov.gov
www.fossick.com
www.intelliseek.com
www.internets.com
http://dir.lycos.com/reference/searchable_databases
www.searchengineguide.com
www.searchpower.com
www.webdata.com