F O L K E T  I  B I L D / K U L T U R F R O N T  5/96
    e n v i r t u o s u p p l y s n i n g i

    ATT SÖKA PÅ NÄTET
    Bli vän med den digitala höstacken


    av Fredrik Sundström

    Nätsurfare går ibland ordentligt på grund. Kraftigt frustrerade över att varken finna ut eller in bland otalig och irrelevant information.
    De intressanta och nyttiga upplysningar som mycket väl kan existera därute blir ju tämligen värdelösa om man inte kan locka fram dem när man behöver.
    Nödvändigheten av ordning och struktur står i direkt proportion till mängden information och nätet är som bekant enormt stort. Men bara lugn!
    Här finns också god hjälp att hämta.

    Eftersom det är ett problem - för alla typer av användare - att hitta rätt på internet pga dess brist på struktur, uniformitet och kontinuitet; så blir sökmaskiner, kataloger och kunskapen om hur man använder dem en mycket viktig del av internet som informationskälla.
    Då det finns flera hundra sådana tjänster - varav de flesta bara söker i mycket begränsade delar av internet - är det också viktigt att veta vilken eller vilka som, utifrån sin utformning och sitt innehåll, är lämplig att använda beroende på vad man försöker hitta.
    Genom att gå igenom material, publicerat på internet eller i annan form, som handlar om olika sökmöjligheter och problem associerade med sådana, har jag sökt skaffa mig en bild av situationen på området.

    Här presenterar jag resultaten av mina efterforskningar i form av:

      En lägesbeskrivning.

      Ett informellt utnämnande av de generellt sett bästa sökmaskinerna.

      En snabbguide eller lathund i två delar till den söktjänst som visat sig vara bäst (eller åtminstone en av de allra bästa) - nämligen AltaVista.

      En bibliografisk referenslista med ett brett urval material i ämnet. Här finner du mer detaljerad information kring de frågor som behandlas i texten.


    Det inte speciellt kontroversiella valet av AltaVista

    Efter att ha läst otaliga dokument på nätet, i tidningar och tidskrifter (se bibliografin), samt provsökt med minst 15 av de största och populäraste katalogerna och sökmaskinerna, kan jag konstatera att AltaVista är den söktjänst som generellt sett är mest utvecklad och bäst.

    För att komma fram till detta har jag arbetat utifrån följande kriterier:

      1. Storleken på basen, mängden information som finns indexerad och därmed tillgänglig när man söker.

      2. Hur ofta den uppdaterar sitt innehåll. (En relativ svaghet hos AltaVista).

      3. De olika sökmöjligheterna eller sökfunktionerna.

      4. Hur sökresultaten presenteras och eventuella möjligheter att påverka presentationen av dem.

      5. Hur hög relevans sökresultaten har.

      6. Allmän användarvänlighet.

      7. Söktjänstens snabbhet i processandet.

    Jag förutsätter här att man lär sig använda de söktekniker som erbjuds (se snabbguide för sökning med AltaVista). AltaVista är en av de bästa i detta avseende och Open Text den mest omfattande. De hjälpfiler eller manualer som finns att tillgå för båda två är också mycket bra. Detta borde vara en självklarhet för alla dylika företag. Trenden är dock att man försöker tillhandahålla bättre och bättre dokumentation kring sin söktjänst.
    Några andra i toppen, omöjliga att rangordna på ett meningsfullt sätt, är Infoseek Guide, Lycos, Excite, Yahoo och Magellan.
    Det finns dock ingen tjänst som ensam är i närheten av att göra all nätets information tillgänglig. Därtill finns det fortfarande alltför många hinder.
    Den som idag vill utnyttja internet riktigt effektivt måste därför vänja sig vid att använda flera olika söktjänster, och därmed flera olika gränssnitt (söksyntax, grafisk presentation, osv.), samt även lära sig "djupsöka" med någon av de bästa tjänsterna, t. ex. AltaVista.
    Ett självklart faktum är ändå att man inte behöver kunna hitta precis allting; informatikerns våtaste dröm. Det räcker ju med att hitta det man behöver. En utopi är en utopi, åtminstone tillsvidare.


    Lite om framtiden (nuet?)

    Nya tjänster på nätet inkluderar HotBot och Ultraseek. Bägge erbjuder sökfunktioner eller möjligheter som AltaVista tidigare varit ensam om plus en del nya. Ultraseek lär träffa olika böjningsformer på sökta ord och båda företagen hävdar att de har databaser; lika stora som eller större än AltaVistas. Till dags dato har Ultraseek inte startat upp sin tjänst så den är omöjlig att testa i praktiken och HotBot verkar lovande men lider av barnsjukdomar i flera avseenden.
    AltaVista, sökmaskinernas Bob Beamon, hade premiär den 15 december 1995, slog alla med häpnad och riskerar nu - fem månader senare! - att bli akterseglad av Ultraseek som i förhandsreklamen beskrivs som en "AltaVista killer". Så egentligen väntar man redan med spänd förväntan på vem som ska komma att göra anspråk på titeln "The Ultraseek killer".

    Samtidigt planerar alla de inom området verksamma företagen - de som räknar med en fortsatt existens - olika typer av uppgraderingar. Både Lycos och Yahoo har nyligen utvidgat sina tjänster. Lycos med en ämnesstrukturerad katalog och Yahoo med ett register över sex miljoner e-postadresser, WWW-hemsidor, telefonnummer och gatuadresser. Samtidigt vidareutvecklar Yahoo också sin nät- och nyhetsguide. Webcrawler har uppgraderat sin tjänst med ny hårdvara och säger sig ha förbättrat relevansen och referensinformationen med något de kallar "smart summarisation".

    Redan idag slåss konkurrenterna för att komma in på denna marknad och demonstrera sina mjuk- och hårdvaror, eller för att få nätets bäst exponerade reklamyta att använda själv eller sälja. Denna utveckling är förstås en följd av att dessa sökmaskiner - av nödtvång - måste besökas av de allra flesta för att komma vidare på nätet.

    Nya kraftfullare sökmaskiner med bättre gränssnitt och kataloger, och kombinerade tjänster kommer att dyka upp. Att ingen redan producerat en "Search-engine/Test-engine" förvånar mig. Kanske beror det på svåröverstigliga tekniska problem. Jag har i alla fall inte funnit något på nätet som behandlar denna idé.
    Vidareutvecklingen av automatiska, personligt utformade informationstjänster pågår dock för fullt, och dessa kan man redan nu hämta hem från nätet. Denna teknik kallas med databasjargong för "stående sökningar", dvs sökningar som selekterar och sedan distribuerar information till användare.

    Program som själv kan identifiera och söka på koncept kommer snart, och därmed blir det också möjligt att bygga upp automatiskt genererade, ämnesspecifika kategorier av information.
    Lite längre fram kan man tänka sig en programvara som läser av användarens datoraktivitet, analyserar informationen och konstruerar sökningar. Och som sedan - utifrån vad i det inhämtade materialet hon/han intresserar sig för - lägger upp nya, mer specialiserade sökningar.

    Dessa saker, sammantaget med det subkulturella arv av gratis tjänster och information som redan finns på internet, gör det svårare för olika sorters betaltjänster att bli accepterade av nätets användare. Stora kommersiella - (sedan länge) "telefonuppkopplade" - databasvärdar, som t. ex. Dialog, har nu gjort tillgänglig sin meta-information, sina kataloger, nyheter mm. Detta gör man förstås för att ta tillfället i akt och hänga med på IT-vågen. Här når man ut till det stora antalet nya användare på internets World-Wide-Web, och kan konkurrera med bl. a. Compuserve, America On-line och med den av alla förmodade framtida giganten på området: Microsoft.
    Min egen ödmjuka uppskattning blir att individuella baser, som Medline och Inspec, eller hela familjer av baser kommer att bli en del av internet redan under nästa år.
    Informationsteknologins utveckling rasar vidare och det är redan omöjligt att ha en fullständig överblick över ett enda begränsat område, eller ens med bestämdhet göra någon begränsning.
    Alla påståenden man gör om nuet eller framtiden är ju redan lite mindre sanna eller relevanta dagen därpå. Följande information är dock än så länge att betrakta som riktig...



    Snabbguide: sökning med AltaVista - Simple query


    Om du inte får fram informationen du söker, genom att endast skriva in ord separerade med mellanslag, så finns det flera olika sätt att nå mer precisa sökträffar:

    Flerordssökning - Plustecken framför ett ord gör att de funna dokumenten "tvingas" innehålla det ordet. Ex. +music

    Minustecken framför ett ord eliminerar alla dokument innehållande det ordet. Ex. -rock

    Frassökning - En fras definieras genom att den omges med citationstecken. Ex. "mindre och bättre information"

    Trunkering - Tecknet * ger trunkering noll till max 5 tecken. Fungerar också inuti ord (maskering) och täcker då samma antal tecken. Endast högertrunkering (i slutet av ord).

    AltaVista trunkerar inte automatiskt.

    Fältbegränsad sökning - Sökningen sker då bara i det angivna fältet. Till exempel i titelfältet eller domänfältet: Ex. title:stravinskij respektive host:se (dvs [se] internets landskod för Sverige).

    Samma regler gäller för sökningar i USENET.

    Kombinerad sökning - Till exempel en fras med trunkering: Ex. "the secret life of igor stravinsk*"

    eller: Ex. +music +classic* -rock host:edu

    Rangordnande av träffar - AltaVistas Simple search rangordnar automatiskt sökresultaten utifrån:

    Antalet förekomster av de sökta orden,

    om de finns i början av dokumentet,

    och om de står nära varandra.

    Ifall man inte skriver flera ord som en fras så är den ordning man skriver dem i utan betydelse för rankningen. Tänk på att AltaVista träffar och rangordnar allt som innehåller något av de ord eller fraser du sökt på.

    Små eller stora bokstäver? - En sökning med endast små bokstäver ger träffar på alla ord, oberoende av om de innehåller stora eller små bokstäver. Användning av stora bokstäver begränsar istället sökningen till att följa det bokstavsstorleksval man skrivit in.

    Accent-tecken begränsar på samma sätt som användandet av stora bokstäver.

    För många och/eller irrelevanta träffar? - Lägg till ett ord. Sätt ett plus-tecken framför ett eller flera ord. Skriv in ett viktigt och lämpligt ord eller en fras i titelfältet. Eller fundera ut det mest speciella eller ovanliga ord du vill att träffarna skall innehålla. Till exempel ett egennamn eller ett svenskt ord om det är tillämpligt.

    Använd stor bokstav i början på namn som t. ex. "Per" och "Malm" så slipper du träffar på ord som "per capita" eller "malm" som i malmgruva. Tänk återigen på att AltaVista träffar och rangordnar allt som innehåller något av de ord eller fraser du sökt på.

    För få träffar? - Om du får 0 (noll) träffar har du med stor sannolikhet gjort någonting felaktigt. Kolla stavningen och det som hos AltaVista kallas för "Word Count" (antal ord). Kolla också eventuella felmeddelanden som t. ex. "Ignored", som kan visas samtidigt med att de första tio träffarna dyker upp på skärmen. Välj bort ett ord om du söker på flera. Ta bort eventuella minus och plustecken.



    Snabbguide: sökning med AltaVista - Advanced query


    Många av de sökfunktioner som finns i Simple query (Sq) fungerar också i Advanced query (Aq). Jag rekommenderar att man först lär sig Sq. Är man inte nöjd med den precision man får bygger man på med att lära sig använda Aq. Denna metodik ger möjlighet till precisare träffar men har ett mer komplicerat gränssnitt och är därför lite svårare att använda. Denna snabbguide förutsätter förkunskaper om Sq och gärna lite om boolsk mängdlära och andra begrepp som används vid sökning i databaser. Om inget annat anges så gäller samma regler som i Simple search.

    De två sökformulären - Om det skall vara någon mening med att använda den här avancerade sökformen i AltaVista ska definitivt man använda sig av båda formulären. Det övre kallas här för sökformuläret och det undre för rangordningsformuläret.

    I det övre formuläret utför man sökningar på ord och fraser med de boolska operatorerna istället för med de plus- och minustecken som användes i Sq.

    Närhetsoperatorn NEAR, trunkering och parenteser används här till att definiera delmängder.

    Ex. (ultraseek OR HotBot) NEAR (altavista AND Lycos)

    I det undre formuläret skriver man in de ord eller fraser som man vill ska styra rangordningen av träffarna.

    Man skulle, som exempel, kunna rangordna träffarna från den ovanstående sökningen på följande vis: comparison evaluation test shootout.

    Detta fält fungerar i princip som det ensamma formuläret i Simple search där träffarna automatisk rangordnas. Här kan man inte använda de ovan nämnda operatorerna eller parenteser. Om man inte skriver något i det här fältet kommer träffarna inte att rangordnas.

    Man kan förslagsvis börja en sökning med att skriva in ett par ord i det undre rangordningsformuläret, titta på det material man träffar och sedan ändra, minska och precisera träffmängden med hjälp av det övre sökformuläret.

    Boolska operatorer - AND, OR, NOT - AltaVista gör ingen skillnad på om man skriver operatorer med små eller stora bokstäver. När man gör kombinerade sökningar, sådana som innehåller mer än en operator, bör man använda parenteser för att definiera delmängderna. (Se exemplet ovan).

    Närhetsoperatorn - NEAR - Ger träffar på de dokument där de sökta orden eller fraserna står inom tio ord från varandra; alltså med maximalt nio ords mellanrum och då i vilken ordning som helst.

    Fältbegränsad sökning - Fungerar likadant i Aq som i Sq och kan användas i båda sökformulären. För mer detaljerad information, fler fältkoder och vilka fältkoder man kan använda när man söker i nyhetsgrupper (USENET); läser du AltaVistas egen hjälpfil.

    Datumbegränsning - Den data som avses här är det datum då det senast skedde en uppdatering av det sökta dokumentet. Datumbegränsning används huvudsakligen för att få en indikation på hur färsk en källa är eller för att sålla bort äldre information.

    Om någon av er önskar en mer djupgående information rekommenderar jag en genomläsning av AltaVistas egna hjälpfiler för Simple respektive Advanced query. God jaktlycka!




    Bibliografi

    Här följer ett urval av det material jag haft till underlag för lägesbeskrivningen av internet ur informationsförsörjningssynpunkt, och för mitt val av AltaVista som den generellt sett bästa söktjänsten.

    Tidskriftsartiklar

    Titel, utgåva, form- eller innehållsbeskrivning, publikation


    Find it on the net, januari 1996, Tips om att söka, PC World

    Seek and ye shall find, maj 1996, Utveckling och trender, Wired

    Searching the Web with Alta Vista, juni-juli 1996, Professionella söktips, Database

    Vem kan hjälpa dig hitta nålen i höstacken?, maj 1996, Allmänt om de vanligaste söktjänsterna, Corporate Computing (svensk)

    Så hittar du vad du söker på Internet, Nr 2 av 6 1996, Andra sätt att hitta än söktjänsterna, Tekno/Cyberworld (svensk)

    Advanced Searching: Tricks of the Trade, maj 1996, Avancerad sökteknik, Online magazine

    Internet categorization and search: a self-organizing approach, mars 1996, Forskning; automatisk kategorisering, Kohonen, Journal of Visual Communication and Image Representation


    Dokument publicerade på internet

    Titel, datering, form- eller ämnesbeskrivning, URL

    Observera att flera av dessa dokument uppdateras kontinuerligt.


    Beyond surfing: Tools and Techniques for searching the Web, januari 1996, Allmän introduktion,
    magi.com/~mmelick/it96jan.htm

    Literature about search services, juni 1996, Länkbibliotek i ämnet, www.ub2.lu.se/desire/radar/lit-about-search-services.html

    The Matrix of Internet Catalogs and Search Engines, juni 1996, Referenssamling och utvärdering, www.sils.umich.edu/~fprefect/matrix/matrix.shtml

    Understanding WWW Search Tools, februari 1996, Information om och länkar till söktjänster, www.indiana.edu/~librcsd/search/

    Best search engines for finding scientific information in the Net, juni 1996, Annorlunda testrapport, www.chem.msu.su/eng/comparison.html#database

    Search engines - Find a document on the Internet based on its contents, april 1996, Gradering av söktjänster, www.mtm.kuleuven.ac.be/Services/search01.html

    Important Search Engines, juni 1996, Direkt sökbart register med korta beskrivningar, ourworld.compuserve.com/homepages/Phil_Gibbs/search.htm

    Internet Search Engines & Finding Aids - Capabilities & Features, maj 1996, Ett urval med söktekniska data, www.imt.net/~notess/compeng.html

    Search Engine Showdown, maj 1996, Test och beskrivning av sökmaskiner, pubs.iworld.com/iwonline/May96/showdown.html

    Internet search engines, april 1996, Analys av olika problem i ämnet, www.ub2.lu.se/tk/demos/DO9603-meng.html

    Search engines - were to find anything on the net, februari 1996, Test av 19 tjänster, www.cnet.com/Content/Reviews/Compare/Search/

    Revamped search engines bring precision to the Web, maj 1996, Nyheter och trender om söktjänster, www.learned.co.uk/newswire/

    Advanced Searching: Tricks of the Trade, maj 1996, Avancerad sökteknik, www.onlineinc.com/online/onlinemag/MayOL/zorn5.html


    Ordförklaringar

    Gränssnitt är benämningen på de "kontaktytor" som finns mellan en dator och
    dess användare. En bildskärm, ett grafiskt dataprogram, en printer eller en dator-
    mus - är alla exempel på s. k. användargränssnitt.

    USENET är ett gruppindelat världsomspännande diskussionsforum på internet.

    Trunkering betyder i databassammanhang att man kortar av ett ord för att söka
    samtliga förekomster av ordet.



    Copyright © 1996 Fredrik Sundström


    Artikelförfattaren finns på e-postadressen fredrik.sundstrom@hadar.ideon.se och är utbildad i
    avancerad datasökning. Han arbetar som informationskonsult men föredrar under stundom att kalla
    sig Cybrarian - dvs "bibliotekarie i Cybervärlden".




    Exklusivt





    F O L K E T  I  B I L D / K U L T U R F R O N T  5/96