首页 > 资讯 > 后端开发 > Python >利用Python实现翻译HTML中的文本字符串

831

分享到

利用Python实现翻译HTML中的文本字符串

2024-04-02 19:04:59 831人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

相信大家都用过浏览器的翻译网页功能，例如对于下图这个英文网页：一键翻译成中文以后是这样的：你可能会觉得这个功能很简单，不就是字符串替换吗？那你可以试一试把下面这个html片段

相信大家都用过浏览器的翻译网页功能，例如对于下图这个英文网页：

一键翻译成中文以后是这样的：

你可能会觉得这个功能很简单，不就是字符串替换吗？那你可以试一试把下面这个html片段中的标签下面的英文翻译成中文。其它标签中的不要改动：

<div>
 <p>if you want to parse date and time, your could use <em>datetime</em>, by use this library, you can generate now time by one line code <span>datetime.datetime.now()</span> this is so easy.</p>
</div>

在标签中的datetime和标签中的datetime.datetime.now()不需要翻译。

你一拍脑袋，马上写出了下面这几行代码（假设你已经有了一个现成的translate()函数，传入英文，输出中文）：

from lxml.html import fromstring
source = '''<div>
 <p>if you want to parse date and time, your could use <em>datetime</em>, by use this library, you can generate now time by one line code <span>datetime.datetime.now()</span> this is so easy.</p>
</div>
'''

selector = fromstring(source)
text_list = selector.xpath('//p/text()')
for text in text_list:
    chinese = translate(text)
    ...

当你写到这里，你应该会愣一下。因为你突然发现一个问题，怎么把中文替换回去？

不用尝试去百度了。在今天（2022-06-20）之前，整个中文网络里面，你找不到解决方法。

一个比较笨的办法是直接对原始的HTML字符串进行文本替换：

for text in text_list:
    chinese = translate(text)
    source = source.replace(text, chinese)

但这样做，效率非常低。因为你要不停扫描整个HTML字符串。一般一个中型网站的HTML就有几千上万行，十几二十万个字符。你每翻译一小段就全文替换一次，这个时间会非常漫长。

那有没有办法只对当前这一个标签里面的文本进行替换呢？关键的问题来了，你替换可以，但是怎么才能不影响这个标签下面的两个子标签？要保证文本和子标签的相对位置不改变。

如果标签下面只有一段文本，没有子标签，那么非常简单，如下图所示：

但现在的问题是，标签下面有三段文本。每段文本之间还插入了其它的子标签。我们怎么样对每一段文本进行替换，但是又保持文本的相对顺序，并且还不能影响子标签？

p.text这种写法首先就可以排除了，因为它没有办法指定替换第几段文本。

你之所以会觉得这个问题很难解决，是因为你有一个错觉，请看上面这张截图，我打印了text_list。打印出来是一个包含字符串的列表。所以你可能会觉得。使用lxml写Xpath的时候，/text()返回的总是包含字符串的列表。

但实际上，返回的列表里面的元素并不是字符串，而是_ElementUnicodeResult对象。如下图所示：

不是字符串就简单了，那么我们可以获取每一个文本对象的父标签。然后修改父标签下面的文本就可以了。

看到这里，你肯定会问，这三个文本节点的父标签，不都是同一个吗？如果你觉得是，那你就犯了想当然的错误。我们用代码来看看：

其实只有第一段文本的父标签是。第二段文本的父标签，竟然是的子标签。第三段文本的父标签，是。

等等，如果第二段文本的父标签是，那么datetime里面的datetime的父标签是什么？它的父标签也是！那么问题来了，的text()文本节点，怎么可能又是datetime，又是下面的第二段文本呢？

实际上，的text()始终都是datetime。如下图所示：

那么，的第二段文本跟这个标签是什么关系？实际上，这个关系叫做tail。如下图所示：

在一个标签里面，只有第一段text是它真正的text()，如果这个标签有子标签，那么位于子标签后面的文本，是这个子标签的tail。只不过当我们在正则表达式里面写/text()的时候，lxml会帮我们把所有子标签的tail都算作当前标签的text。

我们可以使用文本节点的.is_text和.is_tail来判断它属于哪种文本。最终运行效果如下图所示：

以上就是利用python实现翻译HTML中的文本字符串的详细内容，更多关于Python翻译HTML中字符串的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 利用Python实现翻译HTML中的文本字符串

本文链接: https://www.lsjlt.com/news/118788.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

利用Python实现翻译HTML中的文本字符串

本篇文章演示代码以及资料文档资料下载

利用Python实现翻译HTML中的文本字符串

如何利用Python实现翻译HTML中的文本字符串

利用perl、python、php、shell、sed、awk、c 实现字符串的翻转

怎么利用python、php或c语言等实现字符串的翻转

Java利用Map实现计算文本中字符个数

利用Java如何实现去掉字符串中的数字0

利用Java实现求字符串中出现次数最多的字符及次数

利用PHP8中的函数str_contains()实现快速字符串匹配

python中根据字符串调用函数的实现方法

使用Python去除字符串中某个字符的多种实现方式比较

利用python3随机生成中文字符的实现方法

使用Java怎么实现统计字符串中汉字与英文的数量

如何使用Python中的字符串操作函数处理大规模文本数据

使用Go语言文档中的strings.Join函数实现字符串拼接

C++中怎么利用LeetCode实现最多有两个不同字符的最长子串

利用Java设置Word文本框中的文字旋转方向的实现方法

怎么使用正则替换的方式实现清除字符串中所有的HTML标签

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容