Lucene guru Mike McCandless har lansert et imponerende stykke arbeid på bloggen sin som visualiserer hvordan Lucene’s MergePolicy fungerer i praksis gjennom en rekke YouTube videoer. Han mater Solr først med en 10Gb Wikipedia dump og så med mer random add/delete data feed, og så logger hvert eneste segment som skrives eller merges gjennom hele prosessen.

Mike forklarer også hvordan en ny kul merge-policy, TieredMergePolicy (LUCENE-854) fungerer. Denne er mye smartere og noe mer effektiv enn det som er standard i Lucene/Solr nå. Håper dette kan bli den nye standarden i Solr på sikt!

Delta i live Solr chat

februar 18th, 2011

Har du noen gang behøvd umiddelbar hjelp med Solr/Lucene? Har du enda ikke en supportkontrakt og noen å ringe?

Jeg antar at du allerede er påmeldt mailing-listene og bruker de. Men hva ikke så mange vet er at Solr/Lucene brukermiljøet også drifter en live chat der du kan få hjelp skikkelig raskt, og profesjonelle fra hele kloden deltar. Magien er gjort mulig ved hjelp av en eldgammel teknologi kalt IRC (men IRC var ikke død) og serveren er irc.freenode.net med kanalene #solr og #lucene.

Det finnes mange IRC klienter, og det er nok verdt bryet å installere en hvis du kommer til å bruke det mye. Men for å komme igang har vi i Cominvent satt opp en web-basert IRC chatteside som åpner kanalene #solr og #lucene automatisk for deg.

Gå rett til Solr Chat ved å klikke linken eller på bildet.

Posted in Solr | No Comments »

Solr sammendrag november 2010

desember 13th, 2010

Vi oversetter nok en gang Sematext’s Solr Digest, denne gangen for November 2010.

Dette var ikke en måned med masse interessant utvikling, så her fokuserer vi på de mest interessante tingene:

Ferdig funksjonalitet

  • Alle som jobber med polsk språk vil være glad for at en Polsk stemmer nå er i 3_x branch og i trunk.

Interessant funksjonalitet under utvikling

Diverse

  • Sortering etter funksjoner har vært tilgjengelig siden før i år, og nå er en fiks for “Enable sorting by Function Query” snart ferdig. Denne er stor! Det var noen problemer med vektig av funksjoner, parsing av funksjonene, bruk av deprekert kode etc. Du kan teste patchen allerede.
  • Mange bruker allerede GEO-søk mulighetene vi har fått i Solr. Hvis du også tenker på det så vær klar over at det kun er støtte for ett punkt per dokument. Så selv om det er mulig å lage multiValued geo-felter så vil de ikke fungere med sortering etc. Det er ikke umulik å løse teknisk, Elastic Search er en motor som klarer det, så kryss fingrene for å se det i Solr en dag også. Du kan sjekke progressen i SOLR-2154.
  • Det er en alvorlig bug i DataImportHandler - den slipper ikke opp brukte JDBC forbindelser. Det er ikke relatert til noen bestemt database så dette er ganske sikkert en DIH bug. Sjekk ut SOLR-2045 for oppdateringer.
  • Hvis du foretrekker GIT over SVN så er nå Apache’s GIT repository oppe. Sjekk denne Mailingsliste-tråden for å lære mer.

Turbulente Java-tider

desember 13th, 2010

Det har vært turbulente tider i Java-leiren siden Oracle tok over Sun, og forsøkte å gjøre Java mindre åpen. Nå har Apache Software Foundation gjort alvor av sitt løfte å forlate JCP EC hvis Oracle fortsatte sitt ego-spill med Java.

Men hva er fremtiden for Java og like viktig, alle Åpen Kildekode prosjektene som er basert på Java? Mye avhenger av Oracle’s egne handlinger de neste månedene. Personlig håper jeg at deres bøllete oppførsel vil begynne å svi i deres merkevare-omdømme og kundetilfredshet at de desperat ser et behov for en ny Åpen KIldekode strategi og begynner å samarbeide med utviklerne istedenfor å slåss mot dem.

Men innen Ellison & co kommer til den konklusjonen har det nok rent mye vann i Glomma og det vil kanskje være for sent å forene Java-leiren. Majoriteten av utvikler-miljøet inklusiv Google og kanskje IBM vil være godt igang på egenhånd med å redde Java.

I sin meget interessante blog post “The case for a new Apache/Google “Java”“, leker Sola med et scenario der et nytt Java-liknende programmeringsspråk basert på Harmony tar over hele eko-systemet og at ASF deprekerer Java-versjonene av alle sine prosjekter til fordel for de nye. Wow, ganske drastisk, men kunne det fungere?

Solr-distroene kommer

november 12th, 2010

Åpen Kildekode-basert søk får et stadig økt momentum. Først hadde du Lucene (2001), som ga kraftig søk for programmerere. Så fikk vi Solr (2006) som gjorde søk tilgjengelig for ikke-programmerere, men fortsatt behov for et visst nivå med ekspertise. Og så kom Constellio, en åpen kildekode / fri programvare (GPL) bedrifts-søkemotor distribusjon (distro) bygget på Solr, men med et pent GUI, innholds-connectorer, web-crawling støtte og mer.

Hva sa du sa du? En Solr distro?

Jeg kaller det “distro” fordi jeg liker å sammenligne evolusjonen med hva vi har sett innenfor GNU/Linux. Først hadde vi Linux-kjernen. Så fikk vi GNU-verktøyene som gjorde Linux brukbar til noe, men fortsatt kun for ingeniører som er komfortable med kommando-linjen. Og så begynte firmaer som RedHat, Suse o.l. å bygge komplette distoer inkludert moderne GUI, ut-av-boksen verktøy som OpenOffice, Thunderbird og mer. Uten disse disroene ville Linux bare vært en kjerne, og overlatt til brukeren å legge til alle verktøyene og sukkeret rundt.

Read the rest of this entry »