一、向Solr提交索引的方式
(2)使用java -jar post.jartest4 testagain http://www.163.com
[root@jediael44 exampledocs]# java -Durl=http://ip:8080/solr/update -jar post.jar test.xmlSimplePostTool version 1.5Posting files to base url http://ip:8080/solr/update using content-type application/xml..POSTing file test.xml1 files indexed.COMMITting Solr index changes to http://localhost:8080/solr/update..Time spent: 0:00:00.135(3)查看post.jar的用法
[root@jediael44 exampledocs]# java -jar post.jar --helpSimplePostTool version 1.5Usage: java [SystemProperties] -jar post.jar [-h|-] [(4)默认情况下,使用xml文件作数据源,若使用其他方式。例如以下[ ...]]Supported System Properties and their defaults: -Ddata=files|web|args|stdin (default=files) -Dtype= (default=application/xml) -Durl= (default=http://localhost:8983/solr/update) -Dauto=yes|no (default=no) -Drecursive=yes|no| (default=0) -Ddelay= (default=0 for files, 10 for web) -Dfiletypes= [, ,...] (default=xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log) -Dparams=" = [& = ...]" (values must be URL-encoded) -Dcommit=yes|no (default=yes) -Doptimize=yes|no (default=no) -Dout=yes|no (default=no)This is a simple command line tool for POSTing raw data to a Solr port. Data can be read from files specified as commandline args, URLs specified as args, as raw commandline arg strings or via STDIN.Examples: java -jar post.jar *.xml java -Ddata=args -jar post.jar ' ' java -Ddata=stdin -jar post.jar < hd.xml java -Ddata=web -jar post.jar http://example.com/ java -Dtype=text/csv -jar post.jar *.csv java -Dtype=application/json -jar post.jar *.json java -Durl=http://localhost:8983/solr/update/extract -Dparams=literal.id=a -Dtype=application/pdf -jar post.jar a.pdf java -Dauto -jar post.jar * java -Dauto -Drecursive -jar post.jar afolder java -Dauto -Dfiletypes=ppt,html -jar post.jar afolderThe options controlled by System Properties include the Solr URL to POST to, the Content-Type of the data, whether a commit or optimize should be executed, and whether the response should be written to STDOUT. If auto=yes the tool will try to set type and url automatically from file name. When posting rich documents the file name will be propagated as "resource.name" and also used as "literal.id". You may override these or any other request parameterthrough the -Dparams property. To do a commit only, use "-" as argument. The web mode is a simple crawler following links within domain, default delay=10s. 42
java -Dtype=application/json -jar post.jar *.json
3、使用SolrJ进行索引
(1)使用SolrJ进行简单索引
package org.ljh.test.solr;import org.apache.solr.client.solrj.SolrServer;import org.apache.solr.client.solrj.impl.HttpSolrServer;import org.apache.solr.common.SolrInputDocument;public class BasicSolrJIndexDemo { public static void main(String[] args) throws Exception { /* * 注意,尽管使用地址http://ip:8080/solr/#/collection1来訪问页面。但应该通过http:/ * /ip:8080/solr/collection1来进行文档的提交 */ String serverUrl = (args != null && args.length > 0) ?
args[0] : "http://localhost:8080/solr/collection1"; SolrServer solrServer = new HttpSolrServer(serverUrl); SolrInputDocument doc1 = new SolrInputDocument(); doc1.setField("id", "solrJTest3"); doc1.setField("url", "http://www.163.com/"); solrServer.add(doc1); SolrInputDocument doc2 = new SolrInputDocument(); doc2.setField("id", "solrJTest4"); doc2.setField("url", "http://www.sina.com/"); solrServer.add(doc2); solrServer.commit(true,true); } }
(2)使用SolrJ进行简单查询package org.ljh.test.solr;import org.apache.solr.client.solrj.SolrQuery;import org.apache.solr.client.solrj.SolrServer;import org.apache.solr.client.solrj.impl.HttpSolrServer;import org.apache.solr.client.solrj.response.QueryResponse;import org.apache.solr.common.SolrDocument;import org.apache.solr.common.SolrDocumentList;public class BasicSolrJSearchDemo { public static void main(String[] args) throws Exception { String serverUrl = (args != null && args.length > 0) ?
args[0] : "http://localhost:8080/solr/collection1"; SolrServer solrServer = new HttpSolrServer(serverUrl); //读取输入參数作为查询keyword。若无keyword,则查询所有内容。
String queryString = (args != null && args.length > 1) ?
args[1] : "url:163"; SolrQuery solrQuery = new SolrQuery(queryString); solrQuery.setRows(5); QueryResponse resp = solrServer.query(solrQuery); SolrDocumentList hits = resp.getResults(); for(SolrDocument doc : hits ){ System.out.println(doc.getFieldValue("id").toString() + " : " + doc.getFieldValue("url")); } } }
4、使用第三方工具(1)DIH
(2)ExtractingRequestHandler, aka Solr Cell
(3)Nutch
二、schema.xml : 定义文档的格式
schema.xml定义了被索引的文档应该包含哪些Field、这个Filed的类型。以及其他相关信息。
1、演示样例
Nutch为Solr提供的schema.xml例如以下:
以上文档包含5个部分:id content
(1)FiledType:域的类型
(2)Field:哪些域被索引、存储等。以及这个域是什么类型。 (3)uniqueKey:哪个域作为id。即文章的唯一标识。 (4)defaultSearchField:默认的搜索域 (5)solrQueryParser:OR,即使用OR来构建Query。2、Field元素
一个或者多个Field元素组成一个Fields元素,Nutch中使用了此结构。但solr的example中没有Fileds元素。而是直接将Fields元素作为schma元素的下一级元素。FieldType与此类似。
一个Filed的示比例如以下:
Filed的几个基本属性例如以下:
(1)name属性
域的名称
(2)type属性
域的类型
(3)stored属性
是否存储这个域,仅仅有存储了。才干在搜索结果中查看这个域的完整内容。
(4)indexed属性
是否索引这个域,索引了就能够用作搜索域,除此之外,即使你不须要对这个域进行搜索,但须要排序、分组、查询提示、facet、function queries等,也须要对这个域进行索引。
比如,查询一本书时,一般不会通过销售的数量进行搜索,但会依据销售的数量进行排序。
In addition to enabling searching, you will also need to mark your field as indexed if you need to sort, facet, group by, provide query suggestions for, or execute function queries on values within a field.
(5)multiValued属性
若一个域中同意存在多个值,则设置multiValued为true。
若使用SolrJ。则使用addField方法取代setField方法。............ lucene solr
doc.addField("tag","lucene");doc.addField("tag","solr");
(6)required属性
Solr使用required属性来指定每一个提交的文档都必须提供这个域。注意uniqueKey元素中指定的域隐含了required=true。
<field name="url" type="url" stored="true" indexed="true" required="true"/>
3、dynamicField元素
(1)一般而言。不要使用动态域,除非是下面三种情况
4、copyField
copyFiled用于下面2种情形
copy fields support two use cases that are common in most search applications:
■ Populate a single catch-all field with the contents of multiple fields. ■ Apply different text analysis to the same field content to create a new searchable field.即
(1)将多个域拷贝到一个单一的域,以方便搜索等。
如:
则搜索时仅仅对text进行搜索就可以。
(2)对同一个域进行多次不同的分析处理,如:
在上述样例中。若对一个域进行索引,则将词汇词干化。但在搜索提示时,就不正确词汇进行词干化。...
5、FieldType元素
(1)FiedlType定义了Filed的类型,它将在Filed中的type属性中被引用。
(2)Solr内置的FiledType有下面类型:
(3)有2大类FieldType:
一类是要对其进行分析后再索引的非结构化数据,如文章 的正文等。如StrField,TrieLongField等。
还有一类是不须要对其进行分析。而直接索引的的结构批数据,如url。id,人名等,主要是TextField。
(4)在schema.xml中看到 的solr.*代表的是org.apache.solr.schema.*,如
表示类型为org.apache.solr.schema.StrField。
(5)StringField
StringField中的内容不应该被分析。它包括的是结构化数据。
StringField。用类org.apache.solr.schema.StrField表示。
(6)DateField
DateField一般使用TrieDateField来表示。当中Trie数据能够方便的进行范围搜索。
DateField的默认格式:In general, Solr expects your dates to be in the ISO-8601 Date/Time format (yyyy-MMddTHH:mm:ssZ); the date in our tweet (2012-05-22T09:30:22Z) breaks down to
yyyy = 2012 MM = 05 dd = 22 HH = 09 (24-hr clock) mm = 30 ss = 22 Z = UTC Timezone (Z is for Zulu)能够通过下面方式截取其内容:
<field name="timestamp">2012-05022T09:30:00Z/HOUR</fileld>
表示截取到小时的粒度,即其值为:2012-05022T09:00:00Z
(7)NumericField
有多个实现类型。如TrieDoubleField,TrieFloatField,TrieIntField,TrieLongField等。
(8)type有多个属性,主要包含
sortMissingFirst:当依据使用这个类型的域进行排序时。若这个域没有值,则在排序时,将此文档放在最前面。
sortMissingLast::当依据使用这个类型的域进行排序时,若这个域没有值,则在排序时,将此文档放在最后面。
precisionStep:
positionIncrementGap:见solr in action 5.4.4节。
6、UniqueKey元素
(1)Solr使用<uniqueKey>元素来标识一个唯一标识符,类似于一个数据库表的主键。如:
必须选择一个Field作为一个uniqueKey。使用uniqueKey标识的字段,每个进行索引的文档都必须提供。id
(2)Solr不要求为每一个文档提供一个唯一标识符,但建议为每一个文档都提供一个唯一标识符。以用于避免反复等。
(3)当向solr提交一个文档时,若此文档的id已经存在,则此文档会覆盖原有的文档。
(4)假设solr被部署在多个server中,则必须提供uniqueKey。
(5)使用基本类似来作为uniqueKey,不要使用复杂类型。 One thing to note is that it’s best to use a primitive field type, such as string or long, for the field you indicate as being the <uniqueKey/> as that ensures Solr doesn’t make
any changes to the value during indexing三、SolrConfig.xml中与索引相关的内容
下面为一个演示样例
${solr.ulog.dir:} ${solr.autoCommit.maxTime:15000} false ${solr.autoSoftCommit.maxTime:-1}