F O L K E T I B I L D / K U L T U R F R O N T 5/96
e n v i r t u o s u p p l y s n i n g i
ATT SÖKA PÅ NÄTET
Bli vän med den digitala höstacken
De intressanta och nyttiga upplysningar som mycket väl kan existera därute blir ju tämligen värdelösa om man inte kan locka fram dem när man behöver.
Nödvändigheten av ordning och struktur står i direkt proportion till mängden information och nätet är som bekant enormt stort. Men bara lugn!
Här finns också god hjälp att hämta.
Då det finns flera hundra sådana tjänster - varav de flesta bara söker i mycket begränsade delar av internet - är det också viktigt att veta vilken eller vilka som, utifrån sin utformning och sitt innehåll, är lämplig att använda beroende på vad man försöker hitta.
Genom att gå igenom material, publicerat på internet eller i annan form, som handlar om olika sökmöjligheter och problem associerade med sådana, har jag sökt skaffa mig en bild av situationen på området.
Här presenterar jag resultaten av mina efterforskningar i form av:
En lägesbeskrivning.
Ett informellt utnämnande av de generellt sett bästa sökmaskinerna.
En snabbguide eller lathund i två delar till den söktjänst som visat sig vara bäst (eller åtminstone en av de allra bästa) - nämligen AltaVista.
En bibliografisk referenslista med ett brett urval material i ämnet. Här finner du mer detaljerad information kring de frågor som behandlas i texten.
För att komma fram till detta har jag arbetat utifrån följande kriterier:
Jag förutsätter här att man lär sig använda de söktekniker som erbjuds (se snabbguide för sökning med AltaVista). AltaVista är en av de bästa i detta avseende och Open Text den mest omfattande. De hjälpfiler eller manualer som finns att tillgå för båda två är också mycket bra. Detta borde vara en självklarhet för alla dylika företag. Trenden är dock att man försöker tillhandahålla bättre och bättre dokumentation kring sin söktjänst.
Några andra i toppen, omöjliga att rangordna på ett meningsfullt sätt, är Infoseek Guide, Lycos, Excite, Yahoo och Magellan.
Det finns dock ingen tjänst som ensam är i närheten av att göra all nätets information tillgänglig. Därtill finns det fortfarande alltför många hinder.
Den som idag vill utnyttja internet riktigt effektivt måste därför vänja sig vid att använda flera olika söktjänster, och därmed flera olika gränssnitt (söksyntax, grafisk presentation, osv.), samt även lära sig "djupsöka" med någon av de bästa tjänsterna, t. ex. AltaVista.
Ett självklart faktum är ändå att man inte behöver kunna hitta precis allting; informatikerns våtaste dröm. Det räcker ju med att hitta det man behöver. En utopi är en utopi, åtminstone tillsvidare.
AltaVista, sökmaskinernas Bob Beamon, hade premiär den 15 december 1995, slog alla med häpnad och riskerar nu - fem månader senare! - att bli akterseglad av Ultraseek som i förhandsreklamen beskrivs som en "AltaVista killer". Så egentligen väntar man redan med spänd förväntan på vem som ska komma att göra anspråk på titeln "The Ultraseek killer".
Samtidigt planerar alla de inom området verksamma företagen - de som räknar med en fortsatt existens - olika typer av uppgraderingar. Både Lycos och Yahoo har nyligen utvidgat sina tjänster. Lycos med en ämnesstrukturerad katalog och Yahoo med ett register över sex miljoner e-postadresser, WWW-hemsidor, telefonnummer och gatuadresser. Samtidigt vidareutvecklar Yahoo också sin nät- och nyhetsguide. Webcrawler har uppgraderat sin tjänst med ny hårdvara och säger sig ha förbättrat relevansen och referensinformationen med något de kallar "smart summarisation".
Redan idag slåss konkurrenterna för att komma in på denna marknad och demonstrera sina mjuk- och hårdvaror, eller för att få nätets bäst exponerade reklamyta att använda själv eller sälja. Denna utveckling är förstås en följd av att dessa sökmaskiner - av nödtvång - måste besökas av de allra flesta för att komma vidare på nätet.
Nya kraftfullare sökmaskiner med bättre gränssnitt och kataloger, och kombinerade tjänster kommer att dyka upp. Att ingen redan producerat en "Search-engine/Test-engine" förvånar mig. Kanske beror det på svåröverstigliga tekniska problem. Jag har i alla fall inte funnit något på nätet som behandlar denna idé.
Vidareutvecklingen av automatiska, personligt utformade informationstjänster pågår dock för fullt, och dessa kan man redan nu hämta hem från nätet. Denna teknik kallas med databasjargong för "stående sökningar", dvs sökningar som selekterar och sedan distribuerar information till användare.
Program som själv kan identifiera och söka på koncept kommer snart, och därmed blir det också möjligt att bygga upp automatiskt genererade, ämnesspecifika kategorier av information.
Lite längre fram kan man tänka sig en programvara som läser av användarens datoraktivitet, analyserar informationen och konstruerar sökningar. Och som sedan - utifrån vad i det inhämtade materialet hon/han intresserar sig för - lägger upp nya, mer specialiserade sökningar.
Dessa saker, sammantaget med det subkulturella arv av gratis tjänster och information som redan finns på internet, gör det svårare för olika sorters betaltjänster att bli accepterade av nätets användare. Stora kommersiella - (sedan länge) "telefonuppkopplade" - databasvärdar, som t. ex. Dialog, har nu gjort tillgänglig sin meta-information, sina kataloger, nyheter mm. Detta gör man förstås för att ta tillfället i akt och hänga med på IT-vågen. Här når man ut till det stora antalet nya användare på internets World-Wide-Web, och kan konkurrera med bl. a. Compuserve, America On-line och med den av alla förmodade framtida giganten på området: Microsoft.
Min egen ödmjuka uppskattning blir att individuella baser, som Medline och Inspec, eller hela familjer av baser kommer att bli en del av internet redan under nästa år.
Informationsteknologins utveckling rasar vidare och det är redan omöjligt att ha en fullständig överblick över ett enda begränsat område, eller ens med bestämdhet göra någon begränsning.
Alla påståenden man gör om nuet eller framtiden är ju redan lite mindre sanna eller relevanta dagen därpå. Följande information är dock än så länge att betrakta som riktig...Flerordssökning - Plustecken framför ett ord gör att de funna dokumenten "tvingas" innehålla det ordet. Ex. +music
Minustecken framför ett ord eliminerar alla dokument innehållande det ordet. Ex. -rock
AltaVista trunkerar inte automatiskt.
Samma regler gäller för sökningar i USENET.
eller: Ex. +music +classic* -rock host:edu
Antalet förekomster av de sökta orden,
om de finns i början av dokumentet,
och om de står nära varandra.
Accent-tecken begränsar på samma sätt som användandet av stora bokstäver.
Använd stor bokstav i början på namn som t. ex. "Per" och "Malm" så slipper du träffar på ord som "per capita" eller "malm" som i malmgruva. Tänk återigen på att AltaVista träffar och rangordnar allt som innehåller något av de ord eller fraser du sökt på.Många av de sökfunktioner som finns i Simple query (Sq) fungerar också i Advanced query (Aq). Jag rekommenderar att man först lär sig Sq. Är man inte nöjd med den precision man får bygger man på med att lära sig använda Aq. Denna metodik ger möjlighet till precisare träffar men har ett mer komplicerat gränssnitt och är därför lite svårare att använda. Denna snabbguide förutsätter förkunskaper om Sq och gärna lite om boolsk mängdlära och andra begrepp som används vid sökning i databaser. Om inget annat anges så gäller samma regler som i Simple search. Om någon av er önskar en mer djupgående information rekommenderar jag en genomläsning av AltaVistas egna hjälpfiler för Simple respektive Advanced query. God jaktlycka!
De två sökformulären - Om det skall vara någon mening med att använda den här avancerade sökformen i AltaVista ska definitivt man använda sig av båda formulären. Det övre kallas här för sökformuläret och det undre för rangordningsformuläret.
I det övre formuläret utför man sökningar på ord och fraser med de boolska operatorerna istället för med de plus- och minustecken som användes i Sq.
Närhetsoperatorn NEAR, trunkering och parenteser används här till att definiera delmängder.
Ex. (ultraseek OR HotBot) NEAR (altavista AND Lycos)
I det undre formuläret skriver man in de ord eller fraser som man vill ska styra rangordningen av träffarna.
Man skulle, som exempel, kunna rangordna träffarna från den ovanstående sökningen på följande vis: comparison evaluation test shootout.
Detta fält fungerar i princip som det ensamma formuläret i Simple search där träffarna automatisk rangordnas. Här kan man inte använda de ovan nämnda operatorerna eller parenteser. Om man inte skriver något i det här fältet kommer träffarna inte att rangordnas.
Man kan förslagsvis börja en sökning med att skriva in ett par ord i det undre rangordningsformuläret, titta på det material man träffar och sedan ändra, minska och precisera träffmängden med hjälp av det övre sökformuläret.
Boolska operatorer - AND, OR, NOT - AltaVista gör ingen skillnad på om man skriver operatorer med små eller stora bokstäver. När man gör kombinerade sökningar, sådana som innehåller mer än en operator, bör man använda parenteser för att definiera delmängderna. (Se exemplet ovan).
Närhetsoperatorn - NEAR - Ger träffar på de dokument där de sökta orden eller fraserna står inom tio ord från varandra; alltså med maximalt nio ords mellanrum och då i vilken ordning som helst.
Fältbegränsad sökning - Fungerar likadant i Aq som i Sq och kan användas i båda sökformulären. För mer detaljerad information, fler fältkoder och vilka fältkoder man kan använda när man söker i nyhetsgrupper (USENET); läser du AltaVistas egen hjälpfil.
Datumbegränsning - Den data som avses här är det datum då det senast skedde en uppdatering av det sökta dokumentet. Datumbegränsning används huvudsakligen för att få en indikation på hur färsk en källa är eller för att sålla bort äldre information.

Titel, utgåva, form- eller innehållsbeskrivning, publikation
Titel, datering, form- eller ämnesbeskrivning,
URL| Ordförklaringar Gränssnitt är benämningen på de "kontaktytor" som finns mellan en dator och dess användare. En bildskärm, ett grafiskt dataprogram, en printer eller en dator- mus - är alla exempel på s. k. användargränssnitt. USENET är ett gruppindelat världsomspännande diskussionsforum på internet. Trunkering betyder i databassammanhang att man kortar av ett ord för att söka samtliga förekomster av ordet. |

Artikelförfattaren finns på e-postadressen fredrik.sundstrom@hadar.ideon.se och är utbildad i avancerad datasökning. Han arbetar som informationskonsult men föredrar under stundom att kalla sig Cybrarian - dvs "bibliotekarie i Cybervärlden". |
x
k
l
u
s
i
v
t
F O L K E T I B I L D / K U L T U R F R O N T 5/96

