- 软件介绍
- 相关专题
- 下载地址
spaCy简介
spaCy提供语法解析功能。您可以在软件中分析语法,并可以构建各种转换器管道分析语法,以便软件能够准确解析语法。对优化项目很有帮助。该软件提供了许多用于分析的组件。可以根据自己的项目配置管道组件,构建可视化分析方案,构建神经网络模型分析方案,将分析过程添加到可视化界面进行分析。为分析大型项目提供更自由的组合模型,方便更多的工作流分析。软件提供了新的训练和配置系统,新的内置组件,新的自定义组件API,新的方法和属,为用户解析语法提供了更多的帮助!
spaCy基本介绍
spaCy是Python和Cython中高级自然语言处理的库。根据最新的研究,它从第一天起就被设计用于实用产品。
spaCy有预培训管道,目前支持60多种语言的阅卷和培训。它具有最新的标记、解析、命名实体识别、文本分类等速度和神经网络模型,具有BERT等预训练转换器的多任务学习,以及可用于生产的训练系统和简单的模型打包、部署和工作流管理。spaCy是商业开源软件,在麻省理工学院的许可下分发。
spaCy软件功能
支持60多种语言
经过训练的管道可以处理不同的语言和任务。
使用像BERT这样的预训练变压器的多任务学习
支持预训练的词向量和嵌入
最先进的速度
生产准备培训系统
语言驱动的标记
用于命名实体识别、词标记、依存分析、句子分割、文本分类、语义、形态分析、实体链接等的组件。
使用自定义组件和类别轻松扩展。
支持PyTorch、TensorFlow等框架中的自定义模型
语法和NER的内置可视化工具
简单的模型打包、部署和工作流管理。
稳健、经过严格评估的准确性
spaCy软件特色
项目模板
spaCy项目使您能够管理和共享不同用例和域的端到端spaCy工作流,并协调培训、打包和服务定制管道。您可以从克隆预定义的项目模板开始,根据需要进行调整,加载数据,训练管道,将其导出为Python包,将输出上传到远程存储,并与团队共享结果。
1.pipelines:一个模板,用于在不同的语料库上训练具有不同组件的NLP管道。
2.tutoals:一个通过特定NLP用例进行端到端工作的模板。
3.集成:模板展示了与第三方库和工具的集成,这些库和工具用于管理数据和实验,迭代演示和原型化,并将模型交付给生产。
4.基准:模板可以重现我们的基准并产生可量化的结果,这可以很容易地与其他系统或spaCy版本进行比较。
5.experial:实验性工作流程和其他尖端工具要求你自担风险。
spaCy使用说明
想法
使用pip,spaCy版本可以作为源文件包和二进制文件提供。在安装spaCy及其依赖项之前,请确保您的pip、setuptools和wheel是最新的。
使用pip时,通常建议在虚拟环境中安装软件包,以避免修改系统状态:
训练管道和模型
根据您自己的数据培训和更新组件,并集成定制模型。
统计模型支持spaCy的标记、解析器、文本分类器和许多其他组件。这些组件的每个“决策”(例如,要分配的单词标签或单词是否是命名实体)都基于模型的当前权重值。权重值是根据模型在训练过程中看到的例子来估计的。为了训练模型,您首先需要训练数据文本示例,以及您希望模型成为的标签。这可以是单词标签、命名实体或其他任何东西。
训练是一个迭代过程,将模型与参考注释进行比较,以估计损失梯度。损失梯度用于通过反向传播计算重量梯度。渐变表示应如何更改权重值,以使模型随着时间的推移与参考标签更加相似。
在训练模型时,我们不仅希望它记住我们的例子,还希望它提出一个可以在不可见数据上扩展的理论。毕竟,我们不仅希望模型知道这里的“亚马逊”例子是一家公司,还希望它知道在这种情况下“亚马逊”最有可能是一家公司。因此,训练数据应该始终代表我们要处理的数据。在维基百科上训练的模型(其中第一人称句子很少)在推特上可能表现不佳。同样,在浪漫小说中训练出来的模特,在法律写作方面可能也很差。
这也意味着,要了解模型的功能以及你是否在学习正确的东西,你不仅需要训练数据,还需要评估数据。如果你只使用训练有素的数据来测试模型,你不会知道它是如何总结的。如果你想从头开始训练模型,你通常至少需要几百个例子来训练和评估。
如果需要标注大量数据,请查看Pdigy,这是一款具有主动学习功能的全新标注工具。Pdigy速度快,可扩展,自带现代Web应用,可以帮助你更快地收集训练数据。它与spaCy无缝集成,预先选择最相关的示例进行注释,并允许您训练和评估现成的spaCy管道。
快速输入新内容
推荐的SpaCy管道训练方法是通过命令行上的spacy train命令。它只需要一个包含所有设置和超级参数的config.cfg配置文件。您可以选择覆盖命令行上的设置,并将其加载到Python文件中,以注册自定义函数和架构。这个快速入门小部件可以帮助您生成启动器配置,并为特定的使用情形提供建议的设置。在spaCy中,它也可以用作init config命令。
和模型架构。
通过自定义神经网络为SpaCy组件供电
模型架构是引导THINodel实例的函数。它将内部运行的神经网络描述为spaCy管道中组件的一部分。为了定义实际的架构,逻辑可以直接在Thinc中实现,或者Thinc可以用作PyTorch、TensorFlow和MXNet等框架的紧凑包装器。每个模型还可以用作更大网络的子层,这样您可以自由地将不同框架的实现组合成一个模型。
spaCy的内置组件要求模型通过配置系统将实例传递给它们。要更改现有组件的模型模式,您只需要更新配置以引用其他注册的函数。使用此配置创建组件后,您不能更改它。架构就像网络的配方。一旦菜做好了,食谱就不能改变了。你必须做一个新的。
不能保证具有相同签名类型的两个模型可以互换使用。还有许多其他不兼容的方式。但是,如果类型不匹配,它们几乎肯定不兼容。验证过程非常有帮助,尤其是如果您配置了编辑器或其他工具,并且很早就突出显示了这些错误。在培训开始时,还将验证配置文件,以验证所有类型是否正确匹配。
提示:编辑器中的静态键入
如果您正在使用像Visual Studio Code这样的现代编辑器,则可以使用自定义Thinc插件来设置、mypy并在编写代码时获得关于不匹配类型的实时反馈。
交换模型体系结构
如果没有文本分类器,默认情况下,该文本分类器使用该体系结构。这种架构将简单的词袋模型与神经网络相结合,通常可以得到最准确的结果,但代价是速度。该型号的配置文件如下:
spaCy有两个额外的内置textcat架构,您可以通过交换textcat模型的定义来轻松使用。例如,使用简单快速的单词包模型TextCatBOW,您可以将配置更改为:
定义子层
模型架构函数通常接受一个子层作为参数,因此您可以尝试用网络替换另一个层。根据架构功能的结构,您可以通过配置系统使用定义的层来完全定义网络结构。
在自然语言处理中使用的大多数神经网络模型中,网络最重要的部分是我们所说的嵌入和编码步骤。这些步骤共同计算令牌的密集、上下文相关的表示,它们的组合形成了典型的Tok2Vec层:
通过明确定义这些子层,您可以轻松地将一个子层更改为另一个子层,例如,将第一个子层更改为嵌入式角色体系结构:
spaCy的大多数默认架构使用tok2vec层作为更大的特定任务神经网络中的子层。这使得在transformer、BiLSTM或其他特征提取方法之间切换变得容易。变压器的文档部分显示了替换模型的标准示例。tok2vec的变压器层。而且,如果想定义自己的解决方案,只需要注册一个架构函数,就可以在任何spaCy组件中尝试。模型[列表[文档],列表[浮动2d]]
打包PyTorch、TensorFlow等框架
Thinc允许您使用统一的应用编程接口来打包用其他机器学习框架(如PyTorch、TensorFlow和MXNet)编写的Model模型。这使得使用在不同框架中实现的模型来为spaCy管道中的组件供电变得容易。例如,要将PyTorch模型包装为Thinc模型,可以使用Thinc的PyTorchWrapper:
让我们使用PyTorch来定义一个非常简单的神经网络,它由两个带有ReLU激活和退出功能的Linear隐藏层和一个softmax激活的输出层组成:
以这种方式包装的结果模型可以直接用作自定义模式或更大模型的子组件。例如,我们可以使用Thinc的链式组合器(Sequential如何在PyTorch中工作)将打包的模型与更大网络中的其他组件组合在一起。这实际上意味着您可以轻松地从不同的框架中打包不同的组件,并用Thinc“粘合”它们:
在上面的例子中,我们将自定义的PyTorch模型与spaCy定义的字符嵌入层相结合。的嵌入角色以作为输入返回模型的,并输出。为了确保包装的PyTorch模型接收到有效的输入,我们使用Thinc的助手。列表[文档]列表[浮动2D]带_数组
您还可以实现一个模型,该模型仅使用PyTorch作为转换器层,使用“本地”Thinc层进行灵活的输入和输出转换,并添加特定于任务的“头”,因为效率不是这些部分的考虑因素。网络。
- 安卓合集
- 软件合集
- 浏览器
- 电脑管家
- 安卓游戏
软件排行榜
热门推荐
-
VMware InstallBuilder Enterprise破解版
v20.12.0 / 347 MB / 简体中文
-
Spark Studio官方版
v2.6.3 / 7.78 MB / 简体中文
-
Yearning SQL审核平台官方版
v2.3.2 / 10.2 MB / 简体中文
-
Protege官方版
v5.5 / 38.3 MB / 简体中文
-
HUAWEI LiteOS Studio官方版
v1.45.6 / 115 MB / 简体中文
-
Huawei LiteOS官方版
v5.0.0 / 87.6 MB / 简体中文
-
C语言代码实例助手官方版
v1.0 / 38.5 MB / 简体中文
-
idle python中文汉化版
v3.7 / 1.62 MB / 简体中文
-
Metabase官方版
v0.37.5 / 45.8 MB / 简体中文
-
编程猫硬件助手官方版
v1.4.1.0 / 39.3 MB / 简体中文
装机必备软件
-
word文档密码破解工具应用软件
-
冰点还原永久免费版系统软件
-
人生日历应用软件
-
一彩送货单管理系统应用软件
-
Process View系统软件
-
开心手机恢复大师其他类别
-
pdf文件阅读器应用软件
-
视频剪辑格式工厂应用软件
-
PhotoMetri应用软件
-
specinker应用软件
-
miwifi驱动驱动工具
-
海洋色音效助手影音软件
-
乐播投屏影音软件
-
seo外链助手网络软件
-
AES安全加密记事本安全相关





