找传奇、传世资源到传世资源站!

PYTHON自然语言处理.pdf

8.5玩家评分(1人评分)
下载后可评
介绍 评论 失效链接反馈

from clipboard目录PYTHON 自然语言处理中文翻译...................................................................................... 2译者的话................................................................................................................... 2PYTHON 自然语言处理.............................................................................................3目录................................................................................................................................. 6前言............................................................................................................................... 15读者........................................................................................................................ 15强调........................................................................................................................ 16你将学到什么?....................................................................................................... 16篇章结构................................................................................................................. 16为什么使用 Python?................................................................................................17软件安装需求.......................................................................................................... 18自然语言工具包(NLTK)....................................................................................... 18教师请看................................................................................................................. 19本书使用的约定....................................................................................................... 20使用例子代码.......................................................................................................... 20Safari®联机丛书...................................................................................................... 21如何联系我们.......................................................................................................... 21致谢........................................................................................................................ 22版税........................................................................................................................ 22第 1 章 语言处理与 Python.............................................................................................. 231.1 语言计算:文本和单词...................................................................................... 23Python 入门.......................................................................................................23NLTK 入门........................................................................................................24搜索文本.......................................................................................................... 26计数词汇.......................................................................................................... 281.2 近观 Python:将文本当做词链表........................................................................ 30链表................................................................................................................. 30索引列表.......................................................................................................... 32变量................................................................................................................. 34字符串.............................................................................................................. 351.3 计算语言:简单的统计...................................................................................... 36频率分布.......................................................................................................... 36细粒度的选择词................................................................................................ 38词语搭配和双连词(bigrams).......................................................................... 39计数其他东西................................................................................................... 391.4 回到 Python:决策与控制..................................................................................... 41条件................................................................................................................. 41对每个元素进行操作......................................................................................... 42嵌套代码块....................................................................................................... 437条件循环.......................................................................................................... 441.5 自动理解自然语言.................................................................................................... 45词意消歧.......................................................................................................... 46指代消解.......................................................................................................... 46自动生成语言................................................................................................... 46机器翻译.......................................................................................................... 47人机对话系统................................................................................................... 48文本的含义....................................................................................................... 49NLP 的局限性................................................................................................... 491.6 小结......................................................................................................................... 501.7 深入阅读.................................................................................................................. 501.8 练习......................................................................................................................... 51第 2 章 获得文本语料和词汇资源....................................................................................542.1 获取文本语料库..................................................................................................54古腾堡语料库................................................................................................... 54网络和聊天文本................................................................................................ 56布朗语料库....................................................................................................... 57路透社语料库................................................................................................... 59就职演说语料库................................................................................................ 59标注文本语料库................................................................................................ 60在其他语言的语料库......................................................................................... 62文本语料库的结构............................................................................................ 64载入你自己的语料库......................................................................................... 652.2 条件频率分布.................................................................................................... 66条件和事件....................................................................................................... 66按文体计数词汇................................................................................................ 66绘制分布图和分布表......................................................................................... 67使用双连词生成随机文本.................................................................................. 682.3 更多关于 Python:代码重用............................................................................... 70使用文本编辑器创建程序.................................................................................. 70函数................................................................................................................. 70模块................................................................................................................. 712.4 词典资源........................................................................................................... 72词汇列表语料库................................................................................................ 73发音的词典....................................................................................................... 75比较词表.......................................................................................................... 782.5 WordNet..............................................................................................................79意义与同义词................................................................................................... 79WordNet 的层次结构......................................................................................... 81更多的词汇关系................................................................................................ 82语义相似度....................................................................................................... 832.6 小结.................................................................................................................. 842.7 深入阅读........................................................................................................... 852.8 练习.................................................................................................................. 858第 3 章 加工原料文本..................................................................................................... 883.1 从网络和硬盘访问文本...................................................................................... 88电子书.............................................................................................................. 88处理的 HTML................................................................................................... 90处理搜索引擎的结果......................................................................................... 91读取本地文件................................................................................................... 92从 PDF、MS Word 及其他二进制格式中提取文本.............................................. 93捕获用户输入................................................................................................... 93NLP 的流程...................................................................................................... 933.2 字符串:最底层的文本处理............................................................................... 94字符串的基本操作............................................................................................ 95输出字符串....................................................................................................... 96访问单个字符................................................................................................... 97访问子字符串................................................................................................... 98更多的字符串操作............................................................................................ 99链表与字符串的差异......................................................................................... 993.3 使用 Unicode 进行文字处理.............................................................................. 100什么是 Unicode?............................................................................................ 100从文件中提取已编码文本................................................................................ 101在 Python 中使用本地编码............................................................................... 1033.4 使用正则表达式检测词组搭配.......................................................................... 104使用基本的元字符...........................................................................................104范围与闭包..................................................................................................... 1053.5 正则表达式的有益应用.....................................................................................107提取字符块..................................................................................................... 107在字符块上做更多事情....................................................................................108查找词干.........................................................................................................109搜索已分词文本.............................................................................................. 1103.6 规范化文本...................................................................................................... 111词干提取器..................................................................................................... 112词形归并.........................................................................................................1133.7 用正则表达式为文本分词................................................................................. 113分词的简单方法.............................................................................................. 114NLTK 的正则表达式分词器............................................................................. 115分词的进一步问题...........................................................................................1163.8 分割.................................................................................................................116断句................................................................................................................116分词................................................................................................................1173.9 格式化:从链表到字符串................................................................................. 120从链表到字符串.............................................................................................. 120字符串与格式..................................................................................................120排列................................................................................................................122将结果写入文件.............................................................................................. 123文本换行.........................................................................................................12493.10 小结............................................................................................................... 1243.11 深入阅读........................................................................................................ 1253.12 练习............................................................................................................... 126第 4 章 编写结构化程序................................................................................................ 1314.1 回到基础..........................................................................................................131赋值................................................................................................................131等式................................................................................................................133条件语句.........................................................................................................1334.2 序列.................................................................................................................134序列类型上的操作...........................................................................................135合并不同类型的序列....................................................................................... 136产生器表达式..................................................................................................1384.3 风格的问题...................................................................................................... 138Python 代码风格.............................................................................................. 138过程风格与声明风格....................................................................................... 139计数器的一些合理用途....................................................................................1414.4 函数:结构化编程的基础................................................................................. 142函数的输入和输出...........................................................................................142参数传递.........................................................................................................143变量的作用域..................................................................................................144参数类型检查..................................................................................................145功能分解.........................................................................................................145文档说明函数..................................................................................................1474.5 更多关于函数...................................................................................................148作为参数的函数.............................................................................................. 148累计函数.........................................................................................................149高阶函数.........................................................................................................150参数的命名..................................................................................................... 1504.6 程序开发..........................................................................................................152Python 模块的结构.......................................................................................... 152多模块程序..................................................................................................... 153误差源头.........................................................................................................154调试技术.........................................................................................................155防御性编程..................................................................................................... 1564.7 算法设计..........................................................................................................157递归................................................................................................................157权衡空间与时间.............................................................................................. 159动态规划.........................................................................................................1614.8 Python 库的样例................................................................................................163Matplotlib 绘图工具......................................................................................... 163NetworkX........................................................................................................ 165CSV................................................................................................................ 166NumPy............................................................................................................ 166其他 Python 库.................................................................................................167104.9 小结.................................................................................................................1674.10 深入阅读........................................................................................................ 1684.11 练习............................................................................................................... 168第 5 章 分类和标注词汇................................................................................................ 1725.1 使用词性标注器............................................................................................... 1725.2 标注语料库...................................................................................................... 173表示已标注的标识符....................................................................................... 173读取已标注的语料库....................................................................................... 174简化的词性标记集...........................................................................................175名词................................................................................................................176动词................................................................................................................177形容词和副词..................................................................................................178未简化的标记..................................................................................................178探索已标注的语料库....................................................................................... 1795.3 使用 Python 字典映射词及其属性..................................................................... 181索引链表 VS 字典........................................................................................... 181Python 字典..................................................................................................... 182定义字典.........................................................................................................184默认字典.........................................................................................................184递增地更新字典.............................................................................................. 185复杂的键和值..................................................................................................187颠倒字典.........................................................................................................1875.4 自动标注..........................................................................................................188默认标注器..................................................................................................... 189正则表达式标注器...........................................................................................189查询标注器..................................................................................................... 190评估................................................................................................................1925.5 N-gram 标注......................................................................................................192一元标注(Unigram Tagging)......................................................................... 192分离训练和测试数据....................................................................................... 193一般的 N-gram 的标注..................................................................................... 193组合标注器..................................................................................................... 194标注生词.........................................................................................................195存储标注器..................................................................................................... 195性能限制.........................................................................................................196跨句子边界标注.............................................................................................. 1975.6 基于转换的标注............................................................................................... 1975.7 如何确定一个词的分类.....................................................................................199形态学线索..................................................................................................... 199句法线索.........................................................................................................199语义线索.........................................................................................................200新词................................................................................................................200词性标记集中的形态学....................................................................................2005.8 小结.................................................................................................................201115.9 深入阅读..........................................................................................................2015.10 练习............................................................................................................... 202第六章 学习分类文本................................................................................................... 2066.1 有监督分类...................................................................................................... 206性别鉴定.........................................................................................................207选择正确的特征.............................................................................................. 208文档分类.........................................................................................................211探索上下文语境.............................................................................................. 213序列分类.........................................................................................................214其他序列分类方法...........................................................................................2166.2 有监督分类的更多例子.....................................................................................216句子分割.........................................................................................................216识别对话行为类型...........................................................................................217识别文字蕴含..................................................................................................218扩展到大型数据集...........................................................................................2196.3 评估.................................................................................................................219测试集............................................................................................................ 220准确度............................................................................................................ 220精确度和召回率.............................................................................................. 221混淆矩阵.........................................................................................................222交叉验证.........................................................................................................2226.4 决策树............................................................................................................. 223熵和信息增益..................................................................................................2246.5 朴素贝叶斯分类器............................................................................................225潜在概率模型..................................................................................................227零计数和平滑..................................................................................................227非二元特征..................................................................................................... 228独立的朴素..................................................................................................... 228双重计数的原因.............................................................................................. 2286.6 最大熵分类器...................................................................................................229最大熵模型..................................................................................................... 229熵的最大化..................................................................................................... 230生成式分类器对比条件式分类器......................................................................2316.7 为语言模式建模............................................................................................... 231模型告诉我们什么?....................................................................................... 2326.8 小结.................................................................................................................2326.9 进一步阅读...................................................................................................... 2326.10 练习............................................................................................................... 233第七章 从文本提取信息................................................................................................ 2357.1 信息提取..........................................................................................................235信息提取结构..................................................................................................2367.2 分块.................................................................................................................237名词短语分块..................................................................................................237标记模式.........................................................................................................23812用正则表达式分块...........................................................................................239探索文本语料库.............................................................................................. 239加缝隙............................................................................................................ 240块的表示:标记与树....................................................................................... 2417.3 开发和评估分块器............................................................................................242读取 IOB 格式与 CoNLL2000 分块语料库........................................................ 242简单评估和基准.............................................................................................. 243训练基于分类器的分块器................................................................................ 2457.4 语言结构中的递归............................................................................................249用级联分块器构建嵌套结构.............................................................................249树................................................................................................................... 250树遍历............................................................................................................ 2517.5 命名实体识别...................................................................................................2527.6 关系抽取..........................................................................................................2547.7 小结.................................................................................................................2557.8 进一步阅读...................................................................................................... 2567.9 练习.................................................................................................................256第 8 章 分析句子结构................................................................................................... 2598.1 一些语法困境...................................................................................................259语言数据和无限可能性....................................................................................259普遍存在的歧义.............................................................................................. 2608.2 文法有什么用?............................................................................................... 262超越 n-grams................................................................................................... 2628.3 上下文无关文法............................................................................................... 264一种简单的文法.............................................................................................. 264写你自己的文法.............................................................................................. 266句法结构中的递归...........................................................................................2678.4 上下文无关文法分析................................................................................. 268递归下降分析..................................................................................................268移进-归约分析.................................................................................................270左角落分析器..................................................................................................271符合语句规则的子串表....................................................................................2718.5 依存关系和依存文法........................................................................................ 274配价与词汇..................................................................................................... 276扩大规模.........................................................................................................2778.6 文法开发..........................................................................................................278树库和文法..................................................................................................... 278有害的歧义..................................................................................................... 279加权文法.........................................................................................................2818.7 小结.................................................................................................................2838.8 进一步阅读...................................................................................................... 2838.9 练习.................................................................................................................284第 9 章 建立基于特征的文法......................................................................................... 2879.1 文法特征..........................................................................................................28713句法协议.........................................................................................................288使用属性和约束.............................................................................................. 290术语................................................................................................................2939.2 处理特征结构...................................................................................................295包含和统一..................................................................................................... 2979.3 扩展基于特征的文法........................................................................................ 300子类别............................................................................................................ 300核心词回顾..................................................................................................... 302助动词与倒装..................................................................................................303无限制依赖成分.............................................................................................. 304德语中的格和性别...........................................................................................3079.4 小结.................................................................................................................3109.5 进一步阅读...................................................................................................... 3109.6 练习.................................................................................................................311第 10 章 分析句子的意思.............................................................................................. 31410.1 自然语言理解................................................................................................. 314查询数据库..................................................................................................... 314自然语言、语义和逻辑....................................................................................31710.2 命题逻辑........................................................................................................ 31910.3 一阶逻辑........................................................................................................ 321句法................................................................................................................322一阶定理证明..................................................................................................324一阶逻辑语言总结...........................................................................................325真值模型.........................................................................................................325独立变量和赋值.............................................................................................. 327量化................................................................................................................328量词范围歧义..................................................................................................329模型的建立..................................................................................................... 33010.4 英语句子的语义............................................................................................. 332基于特征的文法中的合成语义学......................................................................332λ演算............................................................................................................ 333量化的 NP....................................................................................................... 335及物动词.........................................................................................................336再述量词歧义..................................................................................................33810.5 段落语义层.................................................................................................... 341段落表示理论..................................................................................................341段落处理.........................................................................................................34310.6 小结............................................................................................................... 34510.7 进一步阅读.................................................................................................... 34510.8 练习............................................................................................................... 346第 11 章 语言数据管理.................................................................................................. 34911.1 语料库结构:一个案例研究............................................................................ 349TIMIT 的结构..................................................................................................349主要设计特点..................................................................................................35114基本数据类型..................................................................................................35211.2 语料库生命周期............................................................................................. 353语料库创建的三种方案....................................................................................353质量控制.........................................................................................................353维护与演变..................................................................................................... 35411.3 数据采集........................................................................................................ 355从网上获取数据.............................................................................................. 355从字处理器文件获取数据................................................................................ 356从电子表格和数据库中获取数据......................................................................357转换数据格式..................................................................................................358决定要包含的标注层....................................................................................... 359标准和工具..................................................................................................... 359处理濒危语言时特别注意事项......................................................................... 36011.4 使用 XML...................................................................................................... 362语言结构中使用 XML......................................................................................362XML 的作用....................................................................................................363ElementTree 接口............................................................................................. 364使用 ElementTree 访问 Toolbox 数据.................................................................366格式化条目..................................................................................................... 36811.5 使用 Toolbox 数据...........................................................................................368为每个条目添加一个字段................................................................................ 368验证 Toolbox 词汇........................................................................................... 36911.6 使用 OLAC 元数据描述语言资源.................................................................... 372元数据是什么?.............................................................................................. 372OLAC:开放语言档案社区..............................................................................37211.7 小结............................................................................................................... 37311.8 进一步阅读.................................................................................................... 37411.9 练习............................................................................................................... 374后记:语言的挑战.........................................................................................................376语言处理与符号处理....................................................................................... 376当代哲学划分..................................................................................................377NLTK 的路线图...............................................................................................378Envoi .............................................................................................................. 379参考文献.......................................................................................................................380NLTK 索引....................................................................................................................380一般索引.......................................................................................................................380关于作者.......................................................................................................................381书的末页.......................................................................................................................382

评论

发表评论必须先登陆, 您可以 登陆 或者 注册新账号 !


在线咨询: 问题反馈
客服QQ:174666394

有问题请留言,看到后及时答复