<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD><TITLE>Message</TITLE>
<META http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<META content="MSHTML 5.50.4937.800" name=GENERATOR></HEAD>
<BODY>
<DIV><FONT face=Arial color=#0000ff size=2><SPAN 
class=288094115-05082004>!!!</SPAN></FONT></DIV>
<DIV><FONT face=Arial color=#0000ff size=2><SPAN class=288094115-05082004>It 
seems to work with the robot indexer instead of the index local. 
</SPAN></FONT></DIV>
<DIV><FONT face=Arial color=#0000ff size=2><SPAN class=288094115-05082004>Still 
to be fully tested. will provide informations soon.</SPAN></FONT></DIV>
<DIV><FONT face=Arial color=#0000ff size=2><SPAN 
class=288094115-05082004>question: why such ?</SPAN></FONT></DIV>
<BLOCKQUOTE dir=ltr style="MARGIN-RIGHT: 0px">
  <DIV></DIV>
  <DIV class=OutlookMessageHeader lang=en-us dir=ltr align=left><FONT 
  face=Tahoma size=2>-----Original Message-----<BR><B>From:</B> SPIELMANN 
  Christophe <BR><B>Sent:</B> 05 August 2004 17:31<BR><B>To:</B> 
  'Egothor-tech@egothor.org'<BR><B>Subject:</B> RE: Egothor with Pdf parsing: 
  unable to find out a word despite it seems to be into the 
  barrel<BR><BR></FONT></DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN class=226092915-05082004>I 
  forgot to specifed which commands i used: (NT4 with eclipse 
  )</SPAN></FONT></DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004></SPAN></FONT>&nbsp;</DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004>org.egothor.apps.Directory C:\\Dgpe\\Egothor_barrel 
  -lowercase -snippet C:\\Dgpe\\Egothor_from as <A 
  href="http://winold/manual/">http://winold/manual/</A></SPAN></FONT></DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004></SPAN></FONT>&nbsp;</DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004>org.egothor.test.TankerQuery C:\\Dgpe\\Egothor_barrel 
  krav</SPAN></FONT></DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004></SPAN></FONT>&nbsp;</DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004>org.egothor.test.Dumper -DLWP 
  C:\\Dgpe\\Egothor_barrel\\1\\</SPAN></FONT></DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004></SPAN></FONT>&nbsp;</DIV>
  <DIV><FONT face=Arial color=#0000ff size=2><SPAN 
  class=226092915-05082004>txs</SPAN></FONT></DIV>
  <BLOCKQUOTE dir=ltr style="MARGIN-RIGHT: 0px">
    <DIV></DIV>
    <DIV class=OutlookMessageHeader lang=en-us dir=ltr align=left><FONT 
    face=Tahoma size=2>-----Original Message-----<BR><B>From:</B> SPIELMANN 
    Christophe <BR><B>Sent:</B> 05 August 2004 17:21<BR><B>To:</B> 
    'Egothor-tech@egothor.org'<BR><B>Cc:</B> CLAUS Pascal<BR><B>Subject:</B> 
    Egothor with Pdf parsing: unable to find out a word despite it seems to be 
    into the barrel<BR><BR></FONT></DIV>
    <DIV><FONT face=Arial><FONT size=2>We are facing a problem with 
    the&nbsp;<SPAN class=835400315-05082004>result of a </SPAN>pdf 
    parsing:<BR>here is our point:<SPAN class=835400315-05082004>( </SPAN><SPAN 
    class=835400315-05082004>We use egothor 1.2.5rc6/ JDK 1.4.1_02 
    )</SPAN></FONT></FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial><FONT size=2><SPAN class=835400315-05082004>Despite a 
    word ("krav") is into a pdf,</SPAN>&nbsp;<SPAN class=835400315-05082004>we 
    are not able to fetch it from a basic query.</SPAN></FONT></FONT></DIV>
    <DIV><FONT face=Arial><FONT size=2><SPAN class=835400315-05082004>The 
    strange stuff is that we are able to find it using the Dumper or the Expand 
    command.</SPAN></FONT></FONT></DIV>
    <DIV><FONT face=Arial><FONT size=2><SPAN class=835400315-05082004>Any help 
    would be welcome.</SPAN></FONT></FONT></DIV>
    <DIV><SPAN class=835400315-05082004><FONT face=Arial size=2>we provide the 
    logs below:</FONT></SPAN></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>When parsing one directory with 
    files:<BR>-------------------------------------------------------</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>- danish.pdf ( danish pdf )<BR>- site.pdf 
    (english pdf )<BR>- index.html ( english html )</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>we got after parsing (state file 
    )<BR>------------------------------------------------</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>#Tanker state<BR>#Thu Aug 05 16:59:03 CEST 
    2004<BR>slotter.last=1<BR>egothor.capacity=32<BR>slotter.flat=false<BR>egothor.slot.2=1</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>the log of the Directory command 
    is:<BR>-----------------------------------------------------<BR>...<SPAN 
    class=835400315-05082004>/..</SPAN><BR>Aug 5, 2004 4:58:44 PM 
    org.egothor.crusher.Finder scanPackages<BR>INFO: 
    &lt;java.io.InputStream;15;java.io.Reader&gt;<BR>Switching lowercase to 
    true<BR>Switching Snippet support to true<BR>C:\DGPE\egothor_from as 
    </FONT><A href="http://winold/manual/"><FONT face=Arial 
    size=2>http://winold/manual/</FONT></A><BR><FONT face=Arial 
    size=2>danish.pdf<BR>Input<BR>java.lang.String<BR>Flags: 
    &lt;FILENAME&gt;&lt;PDF&gt;<BR>Output<BR>org.egothor.data.Document<BR>Flags: 
    &lt;HOME&gt;&lt;PUNCTUATION&gt;&lt;LOWERCASE&gt;&lt;SNIPPET&gt;<BR>Filtering 
    system found:<BR>--$0--&gt; via 
    org.egothor.crusher.IniPath:java.lang.String&lt;PDF&gt;&lt;FILENAME&gt; 
    --$1--&gt; via 
    org.egothor.crusher.connectors.InputStreamPath:java.io.InputStream&lt;BUFFERED&gt;&lt;PDF&gt;&lt;FILENAME&gt; 
    --$21--&gt; via 
    org.egothor.crusher.connectors.PDFPath:java.io.Reader&lt;BUFFERED&gt;&lt;PDF&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$31--&gt; via 
    org.egothor.crusher.connectors.TokenizerPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$36--&gt; via 
    org.egothor.crusher.connectors.PunctPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$38--&gt; via 
    org.egothor.crusher.connectors.LowerCasePath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;LOWERCASE&gt; 
    --$53--&gt; via 
    org.egothor.crusher.connectors.BHTML2Path:org.egothor.data.Document&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;HOME&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;SNIPPET&gt;&lt;LOWERCASE&gt;<BR>log4j:WARN 
    No appenders could be found for logger 
    (org.pdfbox.pdfparser.PDFParser).<BR>log4j:WARN Please initialize the log4j 
    system properly.<BR>index.html<BR>Input<BR>java.lang.String<BR>Flags: 
    &lt;FILENAME&gt;&lt;HTML&gt;<BR>Output<BR>org.egothor.data.Document<BR>Flags: 
    &lt;HOME&gt;&lt;PUNCTUATION&gt;&lt;LOWERCASE&gt;&lt;SNIPPET&gt;<BR>Filtering 
    system found:<BR>--$0--&gt; via 
    org.egothor.crusher.IniPath:java.lang.String&lt;HTML&gt;&lt;FILENAME&gt; 
    --$1--&gt; via 
    org.egothor.crusher.connectors.ReaderPath:java.io.Reader&lt;BUFFERED&gt;&lt;HTML&gt;&lt;FILENAME&gt; 
    --$6--&gt; via 
    org.egothor.crusher.connectors.HTML3Path:java.io.Reader&lt;BUFFERED&gt;&lt;HTML&gt;&lt;SEMANTICS&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$16--&gt; via 
    org.egothor.crusher.connectors.TokenizerPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;HTML&gt;&lt;SEMANTICS&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$21--&gt; via 
    org.egothor.crusher.connectors.PunctPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PUNCTUATION&gt;&lt;HTML&gt;&lt;SEMANTICS&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$23--&gt; via 
    org.egothor.crusher.connectors.LowerCasePath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;HTML&gt;&lt;PUNCTUATION&gt;&lt;SEMANTICS&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;LOWERCASE&gt; 
    --$38--&gt; via 
    org.egothor.crusher.connectors.BHTML2Path:org.egothor.data.Document&lt;BUFFERED&gt;&lt;PUNCTUATION&gt;&lt;HTML&gt;&lt;HOME&gt;&lt;SEMANTICS&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;SNIPPET&gt;&lt;LOWERCASE&gt;<BR>site.pdf<BR>Input<BR>java.lang.String<BR>Flags: 
    &lt;FILENAME&gt;&lt;PDF&gt;<BR>Output<BR>org.egothor.data.Document<BR>Flags: 
    &lt;HOME&gt;&lt;PUNCTUATION&gt;&lt;LOWERCASE&gt;&lt;SNIPPET&gt;<BR>Filtering 
    system found:<BR>--$0--&gt; via 
    org.egothor.crusher.IniPath:java.lang.String&lt;PDF&gt;&lt;FILENAME&gt; 
    --$1--&gt; via 
    org.egothor.crusher.connectors.InputStreamPath:java.io.InputStream&lt;BUFFERED&gt;&lt;PDF&gt;&lt;FILENAME&gt; 
    --$21--&gt; via 
    org.egothor.crusher.connectors.PDFPath:java.io.Reader&lt;BUFFERED&gt;&lt;PDF&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$31--&gt; via 
    org.egothor.crusher.connectors.TokenizerPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$36--&gt; via 
    org.egothor.crusher.connectors.PunctPath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt; 
    --$38--&gt; via 
    org.egothor.crusher.connectors.LowerCasePath:org.egothor.parser.Tokenizer&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;LOWERCASE&gt; 
    --$53--&gt; via 
    org.egothor.crusher.connectors.BHTML2Path:org.egothor.data.Document&lt;BUFFERED&gt;&lt;PDF&gt;&lt;PUNCTUATION&gt;&lt;HOME&gt;&lt;TAGGED&gt;&lt;FILENAME&gt;&lt;NOHTMLTAGS&gt;&lt;SNIPPET&gt;&lt;LOWERCASE&gt;<BR>Commit...<BR>...optimize()<BR>...commit()<BR>Done.<BR>Aug 
    5, 2004 4:58:55 PM org.egothor.dir.TankerImpl commit<BR>INFO: Saving 
    state</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>result of the query gives : 
    <BR>---------------------------------------<BR>Aug 5, 2004 4:59:31 PM 
    org.egothor.dir.TankerImpl loadState<BR>INFO: Loading state<BR>Query: 
    krav<BR>Aug 5, 2004 4:59:31 PM org.egothor.query.Executor query<BR>INFO: 
    [null:&lt;WORD&gt;krav r,p true,false]<BR>Aug 5, 2004 4:59:31 PM 
    org.egothor.dir.TankerImpl elements<BR>INFO: Dynamizer is dirty<BR>Aug 5, 
    2004 4:59:31 PM org.egothor.dir.TankerImpl elements<BR>INFO: Dynamizer is 
    dirty<BR>Aug 5, 2004 4:59:32 PM TermRunner constructor<BR>INFO: 
    setup<BR>0<BR>&lt;?xml version="1.0" 
    encoding="UTF-8"?&gt;<BR>&lt;query&gt;&lt;group required="no" 
    prohibited="no" unknown="no" excluded="no"&gt;&lt;term required="yes" 
    prohibited="no" unknown="no" excluded="no" value="&amp;lt;WORD&amp;gt;krav" 
    control="no" idf="1.001" 
    boost="1"/&gt;&lt;/group&gt;&lt;/query&gt;</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>result of the Expand gives : 
    <BR>---------------------------------------<BR>C:/Dgpe/Egothor_barrel expand 
    of &lt;WORD&gt;kr*<BR>Aug 5, 2004 4:59:03 PM org.egothor.dir.TankerImpl 
    loadState<BR>INFO: Loading state<BR>Aug 5, 2004 4:59:03 PM 
    org.egothor.dir.TankerImpl elements<BR>INFO: Dynamizer is 
    dirty<BR>&lt;WORD&gt;kraft<BR>&lt;WORD&gt;krav<BR>&lt;WORD&gt;kriterier<BR>&lt;WORD&gt;kræver<BR>Aug 
    5, 2004 4:59:03 PM org.egothor.dir.TankerImpl commit<BR>INFO: Saving 
    state</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>result of Dumper 
    gives<BR>---------------------------------<BR>0 [PDF/PS] : 
    [http://winold/manual//danish.pdf] :CM\531576DA.doc PE 344.027 Or. EN DA DA 
    EUROPA-PARLAMENTET BUDGETUDVALGET Meddelelse til medlemmerne Om: Håndbog for 
    nye udvalgsmedlemmer GENERALDIREKTORATET FOR INTERNE POLITIKKER 3. juni 2004 
    PE 344.027 2/9 CM\531576DA.doc DA Indledning Europ<BR>1 Struts for 
    Transforming XML with XSL (stxx) [http://winold/manual//index.html] :the 
    stxx site stxx Home Getting Started About Index License Download Who we are 
    FAQ Changes Todo Site as PDF Getting Involved Contributing...<BR>2 [PDF/PS] 
    : [http://winold/manual//site.pdf] :stxx Documentation Table of contents 1. 
    About.................................................................................................................................... 
    1 1.1. Struts for Transforming XML with XSL 
    (stxx).........................<BR>&lt;!VOLATILE&gt;depthrank 3 
    org.egothor.store.disc.RankFileIn<BR>0 w=9 : <BR>1 w=9 : <BR>2 w=9 : 
    <BR>&lt;ACRONYM&gt;e.g. 1 org.egothor.store.disc.IListFileIn<BR>2 w=1 : 
    3220<BR>&lt;APOSTROPHE&gt;action's 1 org.egothor.store.disc.IListFileIn<BR>2 
    w=1 : 6005<BR>&lt;APOSTROPHE&gt;apache's 1 
    org.egothor.store.disc.IListFileIn<BR>2 w=1 : 
    3934<BR>.../...<BR>&lt;WORD&gt;korrekt 1 
    org.egothor.store.disc.IListFileIn<BR>0 w=4 : 2168<BR>&lt;WORD&gt;kort 1 
    org.egothor.store.disc.IListFileIn<BR>0 w=14 : 338 1634 
    2342<BR>&lt;WORD&gt;kraft 1 org.egothor.store.disc.IListFileIn<BR>0 w=4 : 
    110<BR>&lt;WORD&gt;krav 1 org.egothor.store.disc.IListFileIn<BR>0 w=4 : 
    2590<BR>&lt;WORD&gt;kriterier 1 org.egothor.store.disc.IListFileIn<BR>0 w=4 
    : 668<BR>&lt;WORD&gt;kræver 1 org.egothor.store.disc.IListFileIn<BR>0 w=4 : 
    401<BR>&lt;WORD&gt;kun 1 org.egothor.store.disc.IListFileIn<BR>0 w=42 : 373 
    421 694 1115 1369 1891 1932 2193 2426<BR>&lt;WORD&gt;kunne 1 
    org.egothor.store.disc.IListFileIn<BR>../...</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2>Christophe Spielmann</FONT></DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV><FONT face=Arial size=2></FONT>&nbsp;</DIV>
    <DIV>&nbsp;</DIV></BLOCKQUOTE></BLOCKQUOTE></BODY></HTML>