Archive for the ‘Åpen kildekode’ Category

Vårt GoOpen foredrag om DN.no migrering til Solr

onsdag, mars 23rd, 2011

Vi holdt et foredrag på Fri Programvare/Åpen Kildekode-konferansen GoOpen 2011 i Oslo idag, sammen med vår kunde NHST representert ved Hans Jørgen Hoel. Foredraget var om prosessen de har gått gjennom med å bytte ut FAST søkemotoren de brukte før med Apache Solr for alle NHST’s publikasjoner og datakilder.

(mer…)

Solr-distroene kommer

fredag, november 12th, 2010

Åpen Kildekode-basert søk får et stadig økt momentum. Først hadde du Lucene (2001), som ga kraftig søk for programmerere. Så fikk vi Solr (2006) som gjorde søk tilgjengelig for ikke-programmerere, men fortsatt behov for et visst nivå med ekspertise. Og så kom Constellio, en åpen kildekode / fri programvare (GPL) bedrifts-søkemotor distribusjon (distro) bygget på Solr, men med et pent GUI, innholds-connectorer, web-crawling støtte og mer.

Hva sa du sa du? En Solr distro?

Jeg kaller det “distro” fordi jeg liker å sammenligne evolusjonen med hva vi har sett innenfor GNU/Linux. Først hadde vi Linux-kjernen. Så fikk vi GNU-verktøyene som gjorde Linux brukbar til noe, men fortsatt kun for ingeniører som er komfortable med kommando-linjen. Og så begynte firmaer som RedHat, Suse o.l. å bygge komplette distoer inkludert moderne GUI, ut-av-boksen verktøy som OpenOffice, Thunderbird og mer. Uten disse disroene ville Linux bare vært en kjerne, og overlatt til brukeren å legge til alle verktøyene og sukkeret rundt.

(mer…)

Kan Oracle stoppe Java fra å åpnes opp?

torsdag, november 11th, 2010

Det pågår en krig om den fremtidige åpenheten til Java-plattformen. Oracle prøver å kapitalisere på sitt eget eierskap eller forvalterskap av Java-plattformen (som de arvet fra Sun), ved å bl.a. ta betalt for en enterprise versjon av JVM, såvel som å stoppe konkurrenter som Google i å lykkes med Java. Oravle vil gjøre Java mer lukket, for å berike seg selv – en strategi som kun skader fellesskapet, brukerne, og til sist Oracle’s egne kunder.

Siste trekk er fra Apache Software Foundation, hvis Apache-lisensierte “Harmony” implemensjon av Java-VMen blir bannlyst av Oracle fordi de vil at deres OpenJDK skal være den eneste frie implementasjonen av Java (åpenbart for å kunne ha et salgsgrunnlag for JRockit fra Oracle, og for å beholde kontrollen). Som et gjensvar truer Apache denne uken med å forlate sin plass i JCP (Java Community Process) hvis Oracle ikke gir Harmony-prosjektet dens lovfestede rett til å bli en sertifisert Java-distribusjon ved hjelp av den såkalte TCK.

Personlig heier jeg på Apache og håper de andre JCP-medlemmene vil støtte kampanjen, og med hjelp fra Google (og forhåpentligvis IBM) til slutt se en sann åpen modell for forvalterskapet av Java, inkludert en Apache lisensiert JVM som alle kan bruke fritt. Det er det som virkelig ville hjulpet Java å tiltrekke seg mer momentum og flere utviklere i fremtiden.

Solr sammendrag Oktober

torsdag, november 11th, 2010

Vi fortsetter å gi deg sammendrag av hva som skjer på Solr fronten. Takk til Sematext for nok et bra referat.

Funksjonalitet som er committet (lagt inn i kildekoden)

Spennende funksjonalitet under utvikling

  • Fasettering er en mye brukt funksjonalitet, men av og til ønsker folk seg mer avanserte fasetter. Hierarchical faceting (hierarkiske fasetter) er en slik ting. Utviklingen har pågått en god stund, og til tross for at det også finnes noen patcher er den fortsatt ikke committet. En annen liknende issue er Pivot (aka Decision Tree) Faceting Component som blir å finne som en ny søke-komponent. Denne har sett endel mer aktivitet i det siste så vi kommer nok til å se utvidet fasetterings-støtte i Sorl etterhvert.

Interessant ny funksjonalitet

  • Det å utvide SchemaField med egne atributter jobbes det med i Custom SchemaField object issuen.
  • Det å forbedre relevans er alltid en stor og viktig aktivitet, og er ofte en stor del av våre konsulentoppdrag, uansett hvor god Solr sin ut-av-boksen relevas er. Et nyttig tillegg til vår verktøykasse kan komme fra Anti-phrasing funksjonen. Tanken er at visse ord-sekvenser i en spørring er irrelevante for spørringens innhold (som f.eks. “Hvor finner jeg” eller “Hvor er”), og kan/burde ignoreres i selve søket. Denne JIRA saken (som Jan Høydahl har laget) er fortsatt helt fersk, så ikke hold pusten for en implementering neste uke, men forvent den i en av de fremtidige Solr versjonene.
  • Hvis du ofte jobber med finansielle data kan du finne noe nyttig i denne: Money FieldType. Dette er en ny felt-type som støtter desimaltall og range spørringer, sortering og valutakurs-omregning.
  • Lucene sin ICUTokenizer er nyttig til flerspråklig tokenisering, men den har hittil ikke vært tilgjengelig for Solr. JIRA-saken Provide Solr FilterFactory for Lucene ICUTokenizer vil gi oss en FilterFactory som lar oss bruke denne fra Solr. Patchen finnes allerede og kan testes ut! Hvis du behøver ytterligere multispråk støtte i Solr kan du også kikke på Sematext’s Multilingual Indexer.

Diverse

  • Et emne som vi har skrevet om før og som skaper litt forvirring, handler om de ulike Solr versjonene. Emnet diskuteres fortsatt, og her er en tråd fra mailingslistene: Which version of Solr to use?. For å oppsummere. Solr 1.5 blir antakelig aldri sluppet. Kildekode-grenen branch_3x er stabil og danner grunnlag for neste versjon som er 3.1. Trunk-versjonen inneholder relativt stabil kode, og er utviklingsversjonen av hva som en dag vil bli Solr 4.0.
  • Hvis du bruker fasetter i din applikasjon kan du kanskje finne ideer til hvordan du kan optimalisere den her: Faceting and first letter of fields.
  • Det er også oppdaget at Solr har problemer med å kjøre på Tomcat 7. Dette gjelder alle versjoner av Solr. For å lese mer om dette kan du se på disse: Problems running on tomcat og SOLR-2022 .
  • Replikerings-funksjonen mellom master og slave fungerer ikke om disse kjører forskjellig versjon av Solr. Grunnen kan du se i denne saken: Cross-version replication broken by new javabin format. Det er altså fordi et nytt javabin format er lansert i versjon 3.x, så i tilfelle f.eks. master 1.4.1, og slave 3x vil du støte på problemet. Husk på det hvis du planlegger replikering på tvers av versjoner (noe som ikke er så lurt).

Dette var de mest interessante highlights for oktober. Les den engelske originalen her.

Foredrag på Lucene EuroCon

torsdag, mai 20th, 2010

Jan Høydahl vil holde foredrag på Lucene EuroCon in Praha 20-21 mai 2010. EuroCon er en ny årlig konferanse arrangert av Lucid Imagination. Her kommer hele Lucene/Solr miljøet sammen og diskuterer hvordan søk kan forbedre og øke lønnsomheten for ulike typer virksomheter.

Jan vil snakke om “Key topics when migrating from FAST to Solr”, rettet mot et Solr publikum. Det blir en kort oversikt over hva FAST ESP er, og en gjnnomgang av migreringsprosessen inkludert pain points og hvordan man kan håndtere de.