IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 纯python全文检索whoosh例子 -> 正文阅读

[Python知识库]纯python全文检索whoosh例子

Whoosh 是一个纯 Python 实现的全文搜索框架,包括Analyzer、建索引、查询等功能。

官方文档地址? Whoosh 2.7.4 文档 — Whoosh 2.7.4 文档icon-default.png?t=L892https://www.osgeo.cn/whoosh/index.html

先需要创建的就是 index 对象,index 对象是一个全局索引,需要先创建一个定义索引feild属性的 schema 对象。ix.writer() 获取IndexWriter 对象,IndexWriter 对象 add_document(**kwargs) 方法索引文档。? 分词器和过滤器组合使用能实现复杂的分词效果。

from whoosh.qparser import QueryParser  
from whoosh.index import create_in  
from whoosh.index import open_dir  
from whoosh.fields import *  
from whoosh.analysis import RegexAnalyzer,StemmingAnalyzer
from whoosh.analysis import StemFilter,DelimitedAttributeFilter,IntraWordFilter
from whoosh.analysis import RegexTokenizer
from jieba.analyse import ChineseAnalyzer  
#from get_comment import SQL  
from whoosh.sorting import FieldFacet  

def showAnalyResult( doc, tokenizer ):
    print( [token.text for token in tokenizer(doc)] )

def indexDoc():
    #导入中文分词工具
    analyser = ChineseAnalyzer()
    #analyser = RegexAnalyzer() | StemmingAnalyzer() | ChineseAnalyzer()   #错误
    analyser = ChineseAnalyzer() | IntraWordFilter() | StemFilter()
    tkn = RegexTokenizer() | IntraWordFilter() | StemFilter()
    # 创建索引结构
    schema = Schema(phone_name=TEXT(stored=True, analyzer=analyser), price=NUMERIC(stored=True),  
                        phoneid=ID(stored=True))
    #indexpath 为索引创建的地址,indexname为索引名称
    ix = create_in("indexpath", schema=schema, indexname='indexname')   
    writer = ix.writer()
    #显示分词结果
    showAnalyResult( 'iphone6' , tkn )
    writer.add_document(phone_name='iphone6',price ="6800",phoneid ="1") #  IntraWordFilter会拆分数字
    writer.add_document(phone_name='redmik40',price ="3000",phoneid ="2") #  搜索词是redmik,redmi无结果
    writer.add_document(phone_name='红米k40',price ="3000",phoneid ="6")
    writer.add_document(phone_name='xiaomi10',price ="4000",phoneid ="3")
    writer.add_document(phone_name='xiaomi11',price ="4500",phoneid ="4")
    writer.add_document(phone_name='redmi-k30',price ="1800",phoneid ="5")
    writer.add_document(phone_name='红米k30',price ="1800",phoneid ="7") 
    print("建立完成一个索引")  
    writer.commit()  
    

indexDoc()

检索时,先读取索引文件,建立QueryParser对象,解析检索关键词和检索语法,通过Search对象检索数据。QueryParser对象通过插件机制支持多关键词、多字段及and or逻辑查询。

def query():
    new_list = []  
    index = open_dir("indexpath", indexname='indexname')  #读取建立好的索引
    with index.searcher() as searcher: 
        parser = QueryParser("phone_name", index.schema)  #要搜索的项目,比如“phone_name
        myquery = parser.parse("redmi")  #搜索的关键字
        facet = FieldFacet("price", reverse=True)  #按序排列搜索结果  
        results = searcher.search(myquery, limit=None, sortedby=facet)  #limit为搜索结果的限制,默认为10
        for result1 in results:  
            print(dict(result1))  
            new_list.append(dict(result1))  


query()


Whoosh 有一些很有用的预定义 field types,你也可以很easy的创建你自己的。
whoosh.fields.ID
这个类型简单地将field的值索引为一个独立单元(这意味着,他不被分成单独的单词)。这对于文件路径、URL、时间、类别等field很有益处。
whoosh.fields.STORED
这个类型和文档存储在一起,但没有被索引。这个field type不可搜索。这对于你想在搜索结果中展示给用户的文档信息很有用。
whoosh.fields.KEYWORD
这个类型针对于空格或逗号间隔的关键词设计。可索引可搜索(部分存储)。为减少空间,不支持短语搜索。
whoosh.fields.TEXT
这个类型针对文档主体。存储文本及term的位置以允许短语搜索。
whoosh.fields.NUMERIC
这个类型专为数字设计,你可以存储整数或浮点数。
whoosh.fields.BOOLEAN
这个类型存储bool型
whoosh.fields.DATETIME
这个类型为 datetime object而设计(更多详细信息)
whoosh.fields.NGRAM? 和 whoosh.fields.NGRAMWORDS
这些类型将fiel文本和单独的term分成N-grams(更多Indexing & Searching N-grams的信息

多字段查询语法

qp = qparser.QueryParser(None, myschema)
>>> qp.add_plugin(qparser.MultifieldPlugin(["a", "b"])
>>> qp.parse("alfa c:bravo")
And([Or([Term("a", "alfa"), Term("b", "alfa")]), Term("c", "bravo")])


?

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-03 17:02:17  更:2021-10-03 17:02:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 17:59:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码