成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一日一技:如何正確使用正則表達(dá)式的字符串替換

開(kāi)發(fā) 前端
在日常工作中,可能需要一次性給大模型發(fā)送N篇文章,讓其幫忙提取并返回Markdown格式的產(chǎn)品信息。然后,讓大模型從這N篇文章中提取出產(chǎn)品信息,標(biāo)明對(duì)應(yīng)產(chǎn)品的出處URL,并以Markdown表格返回。

在日常工作中,可能需要一次性給大模型發(fā)送N篇文章,讓其幫忙提取并返回Markdown格式的產(chǎn)品信息。假設(shè)這N篇文章的json格式如下:

[
{"id": 1, "title": "xxx", "content": "yyyy", "url": "https://..."},
{"id": 2, "title": "xxx", "content": "yyyy", "url": "https://..."}
{"id": 3, "title": "xxx", "content": "yyyy", "url": "https://..."}
]

然后,讓大模型從這N篇文章中提取出產(chǎn)品信息,標(biāo)明對(duì)應(yīng)產(chǎn)品的出處URL,并以Markdown表格返回。返回的Markdown格式如下:

| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | https://xxxx |
| yy | 200 | https://yyyyy |

但上述這種直接處理方法有兩個(gè)弊端。一是有些網(wǎng)站的URL很長(zhǎng),讓大模型原樣將URL返回出來(lái),會(huì)浪費(fèi)輸出token,且輸出token一般都比較貴。二是大模型容易出錯(cuò),可能會(huì)生成假的URL。

因此,一種常見(jiàn)的做法是讓大模型用文章ID來(lái)代替出處URL這一列。上述示例如下:

| 產(chǎn)品名稱 | 產(chǎn)品價(jià)格 | 出處 |
| --- | --- | --- |
| xx | 100 | article_1 |
| yy | 200 | article_2 |

這里提醒大家一下,如果文章ID是1、2、3這種簡(jiǎn)單的數(shù)字,建議拼接一個(gè)前綴,否則在進(jìn)行替換時(shí)容易將其他字段正常的數(shù)字給替換掉。例如,這里我使用article_1來(lái)表示文章ID。

這樣我們?cè)谀玫椒祷氐奈谋疽院螅€需要寫(xiě)很長(zhǎng)的replace語(yǔ)句將文章ID全部替換成Markdown格式的網(wǎng)址,如下:

answer = ask_llm(參數(shù))
answer = (answer.replace('article_1', f'[{article["title"]}]({article["url"]})')
          .replace('article_2', f'[第二個(gè)標(biāo)題](第二個(gè)連接)')
          .replace('article_3', f'[第3個(gè)標(biāo)題](第3個(gè)連接)')
          。。。
          )

上述replace寫(xiě)法的代碼長(zhǎng)得太丑了。另一方面,每次replace都會(huì)完整掃描一次文本,如果返回的Markdown很長(zhǎng)的話,非常浪費(fèi)時(shí)間。

最近發(fā)現(xiàn)一個(gè)非常簡(jiǎn)單的辦法,只需要掃描一次Markdown就可以完成全部替換。就是使用re.sub并且把第二個(gè)參數(shù)改寫(xiě)成函數(shù)。

一般使用re.sub的時(shí)候,第二個(gè)參數(shù)都是字符串,例如:

re.sub('目標(biāo)正則表達(dá)式', '新的字符串', '原始字符串')

下面例子是使用re.sub將一段話中的具體郵箱地址替換為[EMAIL],手機(jī)號(hào)替換為[PHONE]。

圖片圖片

但是re.sub的第二個(gè)參數(shù)實(shí)際上也可以是函數(shù)。下面用一個(gè)例子來(lái)展示。

首先定義一個(gè)字典:

article_id_url_map = {
    "article_1": '[文章標(biāo)題1](https://example.com/article1)',
    "article_2": '[文章標(biāo)題2](https://example.com/article2)',
    "article_3": '[文章標(biāo)題3](https://example.com/article3)',
}

然后使用如下代碼:

answer = re.sub('(article_\d+)', lambda x: article_id_url_map[x.group(1)], answer)

就搞定了。

運(yùn)行效果如下:

圖片圖片

這樣可以在處理返回包含 URL 的 Markdown 時(shí),僅掃描一次就完成全部替換,提高效率。

責(zé)任編輯:武曉燕 來(lái)源: 未聞Code
相關(guān)推薦

2024-05-29 00:00:01

字符串Python縮進(jìn)

2021-06-15 20:56:39

Python正則表達(dá)式

2022-06-10 12:19:24

正則表達(dá)式可讀性

2022-11-06 21:04:49

字符串字段參數(shù)

2024-07-30 08:16:18

Python代碼工具

2010-03-15 16:13:11

Python正則表達(dá)式

2022-06-20 19:37:59

Python字符串HTML

2021-05-08 19:33:51

移除字符零寬

2021-09-14 21:29:01

項(xiàng)目環(huán)境變量

2021-06-08 21:36:24

PyCharm爬蟲(chóng)Scrapy

2021-10-20 20:02:47

字符變量函數(shù)

2021-10-15 21:08:31

PandasExcel對(duì)象

2022-06-28 09:31:44

LinuxmacOS系統(tǒng)

2022-03-12 20:38:14

網(wǎng)頁(yè)Python測(cè)試

2025-05-28 03:15:00

Scrapy數(shù)據(jù)sleep

2010-03-25 18:25:36

Python正則表達(dá)式

2024-08-27 22:08:13

2020-12-04 06:39:25

爬蟲(chóng)網(wǎng)頁(yè)

2009-08-14 17:44:46

C#中使用正則表達(dá)式匹

2021-04-27 22:15:02

Selenium瀏覽器爬蟲(chóng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 涩涩视频网 | a毛片| 国产精品99久久久久久动医院 | 欧美一区二区在线播放 | 欧美1区| 五月天婷婷丁香 | 国产精品美女久久久久久久网站 | 91精品国产一区二区三区蜜臀 | 国产欧美一区二区三区另类精品 | 一区二区免费 | 久久久久欧美 | 欧美91| 亚洲精品乱码久久久久久9色 | 久久亚洲国产 | 国产成人艳妇aa视频在线 | 亚洲精品1区2区3区 91免费看片 | 91精品国产美女在线观看 | 亚洲国产欧美在线 | 丁香一区二区 | 久久亚洲91| 国产欧美二区 | 日韩一级电影免费观看 | 最新中文在线视频 | 久久99精品久久久久久 | 色接久久 | 午夜影院 | 亚洲一区二区三区免费在线 | 日韩在线成人 | 中文字幕av亚洲精品一部二部 | 国产一区二区精华 | 91极品视频 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 久久精品久久久久久 | 找个黄色片 | 日日夜夜精品视频 | 亚洲电影在线播放 | 亚洲综合色视频在线观看 | 羞羞视频网站免费观看 | 天天看夜夜 | 一区二区电影网 | 欧美日韩激情 |