标签: ai

  • 堵不如疏,用LLMS.TXT对ai爬虫进行引导

    最近发现网站访问量异常。脚标的“当前浏览次数”数字异常。看了一下后台数据貌似是被刷流量了?搜索了一下ip才发现是被ai爬虫爬的。吐槽一下阿里云的ECS,CPU到70%就直接卡死了。面对ai爬虫,2C2G的小机感觉压力好大。想起来之前读的ruanyifeng的 科技爱好者周刊(第 343 期):如何阻止 AI 爬虫 ,里面提到了两种防止ai爬虫的方案:

    • Cloudflare
    • Anubis

    其中Anubis的逻辑大概是:

    页面会在用户的浏览器上,执行一段 JS 程序,进行大量的数学计算。直到计算答案正确,才可以访问目标网站。

    这个过程有时很耗时,可能需要1~2分钟。
    ……
    那么,Anubis 到底让爬虫计算什么?

    具体来说,就是下面这行代码,计算一个哈希值。

    const hash = await sha256(${challenge}${nonce});

    可以看到,它就是用 SHA256 算法,计算一个字符串的哈希值。

    这个字符串由两部分组成,第一部分challenge,由用户的一些公开信息连接而成,包括用户的 IP 地址、浏览器 user-agent 字段、当前日期、Anubis 的公钥等。

    第二部分nonce,表示迭代次数,第一次计算就是1,第二次计算就是2,以此类推。

    Anubis 的默认设定是,计算出来的哈希值的前五位必须都为0,否则 nonce 自动加1,再次进行计算,直到满足要求为止。

    有时,可能需要计算几百万次,才能得到合格的哈希值。熟悉比特币的同学,应该一眼看出来了,这就是比特币的算法。比特币是非常耗费算力的,所以 Anubis 也能很有效地消耗爬虫的 CPU。

    但是这对一个个人网站实在太无厘头了!文章最开始提到了使用robots.txt来拒绝爬虫,但貌似AI的爬虫都不遵守robots.txt的内容… 经过我的搜索了解,我找到了llms.txt ,你可以理解为这是面对ai的robots.txt ,它可以大幅度减少ai爬虫对资源的无意义消耗。这里是本站点的 LLMs.txt

    下面我讲简单介绍一下llms.txt,以及如何使用它。


    llms.txt 的作用

    llms.txt 似乎是一种新兴的网站标准,旨在为大型语言模型(LLMs)提供一个简洁的总结,帮助它们快速获取网站的核心信息。它通常是一个 Markdown 文件,放在网站根目录(如 /llms.txt),包含网站的背景、指南和指向详细文档的链接。这对于 LLMs 来说非常有用,因为它们的上下文窗口有限,无法处理整个网站的复杂 HTML 结构。研究表明,它特别适用于需要快速访问技术文档和 API 的场景,如软件开发环境。

    如何使用 llms.txt

    对于网站所有者,可以按照以下步骤创建和使用 llms.txt:

    • 创建文件: 在网站根目录创建一个名为 llms.txt 的文件,使用 Markdown 格式编写。
    • 添加内容: 包括标题(H1)、摘要(使用 blockquote)、可选的详细部分和链接。例如:
    # My Website
    
    > This is a brief summary of what my website offers.
    Here are some key points:
    - It provides [API documentation](https://example.com/api.md)
    - It includes [tutorials](https://example.com/tutorials.md)
    • 提供 Markdown 版本: 为关键页面提供 Markdown 版本,通过在 URL 后加 .md 实现。
    • 使用工具: 可以利用如 llms.txt 生成器 自动生成文件,简化过程。

    对于 LLMs,系统会检查网站是否有 /llms.txt 文件,并使用其中的信息快速了解网站,通过链接找到更多详情。

    关于周边

    为什么我上面会提到大幅度减少呢?因为这是一个新的民间协议,是一个新生的,约定俗成的内容。面对蓬勃发展的ai产业,很多产品经理不会要求自家ai爬虫遵守规则的。

    llms.txt 是一种 2024 年 9 月由 Jeremy Howard 提出的网站标准,旨在增强大型语言模型(LLMs)对网站内容的理解和利用,特别是在推理阶段。其设计初衷是解决 LLMs 上下文窗口有限的问题,使其能够高效处理网站信息,而无需解析复杂的 HTML 结构。

    llms.txt 的主要作用是为网站提供一个结构化、简洁的 LLM 友好内容入口。证据倾向于认为,它通过提供简短的摘要、背景信息和链接,帮助 LLMs 快速了解网站的目的和内容,避免处理复杂的网页元素如导航、广告和 JavaScript。这对于 LLMs 来说尤为重要,因为它们的上下文窗口通常无法容纳整个网站的全部内容。

    使用方法与结构

    对于网站所有者,创建和使用 llms.txt 的方法如下:

    创建文件:

    • 在网站根目录创建一个名为 llms.txt 的文件。
    • 使用 Markdown 格式编写,确保内容适合人类阅读,也适合 LLMs 解析。

    文件结构:

    • 标题(H1):必须包含项目或网站的名称,例如 # 搬砖日记
    • 摘要:使用 blockquote 格式提供简短描述,例如 > 白天给代码写对象,深夜给自己写日记
    • 详细部分(可选):可以包括段落或列表,但不使用额外的标题,例如:
    Here are some key points about my website:
    - It provides [API documentation](https://example.com/api.md)
    - It includes [tutorials](https://example.com/tutorials.md)
    • 文件列表(可选):使用 H2 标题分隔,包含超链接和可选说明,例如:
    ## Resources
    - [Detailed Guide](https://example.com/guide.md): Comprehensive user manual
    • “Optional”部分(可选):用于次要信息,LLMs 可以选择跳过,例如:
    ## Optional
    - [Additional Resources](https://example.com/more.md)

    如果你储存的txt文件在访问时出现中文乱码,那么你应该修改服务器配置:

    Nginx

        # Serve .txt files with the correct Content-Type
        location ~ \.txt$ {
            default_type text/plain;
            charset utf-8;    # Ensure charset is specified as UTF-8
        }

    Apache

    # Ensure the default charset is set to UTF-8
        AddDefaultCharset UTF-8
    
        # Configure specific file types with UTF-8 charset
        <FilesMatch "\.(txt)$">
            ForceType 'text/plain; charset=UTF-8'
        </FilesMatch>

    以上均为需要在配置文件中新添加的内容,请勿覆盖原有内容


    最近Github多次从多个技术层面对大陆ip/用户进行了筛选封锁,据说是被CSDN的搬空Github给整的… 无论如何,虽然我不是ai从业者,但是如果恰好有相关的朋友看到这里,我给了一些小建议:

    • 在访问网站时,首先检查是否存在 /llms.txt 文件。
    • 使用文件中的信息快速了解网站的目的,并通过提供的链接找到详细内容,例如 API 文档或教程。
    • 可以结合工具如 llms_txt2ctx 解析文件,生成适合 LLMs 的上下文。

    毕竟前台页面是给人看的。如果有winwin的方案,何乐而不为呢?

  • 世界不是 AI 主题乐园

    今天打开github weekly榜单,清一色全是ai相关的内容…我想起来前几天刷producthunt,连续几天排行榜全是ai产品。过去 72 小时的新产品榜单上,42 款产品名称包含 “AI-powered”,7 款在描述中强调 “no AI involved” 以示清流,唯一敢用中性描述的,是某款 AI 检测工具。

    这种似曾相识的狂热,让我想起 1975 年全美超市货架摆满宠物石(Pet Rock)的荒诞场景。当时广告商人加里・达尔把普通鹅卵石装进纸盒,附上 32 页《养护手册》宣称 “永不死亡、无需喂食”,三个月狂销 150 万颗石头。今天的 AI 创业公司们正在复刻这种黑色幽默:某团队融资 500 万美元开发的 “AI 日程管家”,实际功能是把谷歌日历事件转成 emoji 表情;估值 1.2 亿美元的 “智能邮件助手”,核心技术竟是定时发送邮件的 crontab 脚本。

    资本市场的推波助澜让这场闹剧愈发魔幻。宠物石当年催生了镶水钻的豪华版和 “分离焦虑症治疗课程”,如今 VC 们正在批量制造 “AI + 区块链知识图谱”、”多模态元宇宙助理” 等缝合怪项目。Y Combinator 最新批次的初创公司中,83% 的商业计划书首页印着 “revolutionize XX industry with AI”,而实际产品往往只是给现有服务套了层 ChatGPT 的对话外壳。

    更危险的趋势在于核心技术的空心化。宠物石热潮至少创造了纸盒包装和手册设计的就业机会,而今某些 “AI 原生应用” 连基本功能都漏洞百出:某明星项目标榜的 “自主任务分解” 实为固定流程模板,其开源代码库里 90% 的 commit 记录是在修改 README 文档;某融资千万的 AI 绘画工具,被开发者扒出底层调用的仍是 Stable Diffusion 1.5 接口。

    历史总在提醒我们集体癔症的代价。1976 年宠物石滞销时,达尔将库存改造成镇纸才避免破产,今天那些 All in AI 的团队或许该提前准备 Plan B—— 当投资人说 “请讲个 AI 之外的故事” 时,至少能掏出块质感温润的石头。毕竟在 2025 年的科技丛林里,一块不会崩溃死机、无需云端订阅的实体鹅卵石,或许才是真正的颠覆式创新。

    当 Humane 公司以 1.16 亿美元贱卖 AI 业务时,其联合创始人伊姆兰・乔杜里或许会想起三年前 TED 演讲台上那个意气风发的自己。彼时他描绘的无屏 AI 世界,如今只剩服务器关闭后用户设备里被清空的记忆,以及科技博主 MKBHD”史上最差产品” 的判词。这不仅是某个创业公司的滑铁卢,更是整个行业陷入 AI 异化的缩影。

    在资本市场的狂欢中,科技公司正陷入集体癔症:某电动自行车将 ChatGPT 塞进控制系统,声称能生成 “诗意骑行路线”;某智能花瓶强行嫁接大模型,试图用 AI 生成的鸡汤文学替代真实的插花艺术;更有企业将语音助手植入旅行鞋,让鞋子在用户行走时朗诵历史故事。这些荒诞的 AI 嫁接,如同给蒸汽机车安装触摸屏般充满违和感,暴露出行业对技术本质的深刻误解。

    这种技术滥用正在形成危险的恶性循环。某 “AI 私人助理” 软件收取 129 元会员费后,生成的视频素材仅能实现图片缩放特效;某笔记本电脑搭载的写作 AI 在付费后,产出内容质量反而断崖式下跌。当企业把 AI 视为融资密码而非解决方案时,产品就沦为资本市场的行为艺术 ——Rabbit R1 预售两日售罄的盛况,与后续曝光的系统漏洞形成黑色幽默,恰似给马车装上火箭引擎却忘记安装刹车。

    更深层的危机在于,这种 AI 崇拜正在摧毁科技产品的完整性。微软 Copilot 被制药公司 CIO 怒斥为 “中学生水平的 PPT 生成器”,其图标在 1080P 显示器上都会产生视觉畸变;魅族 All in AI 的战略转型,本质是对智能手机基础体验丧失信心的逃亡。当科技巨头都沉迷于给计算器添加语音交互功能时,整个行业正在集体上演 “皇帝的新衣”。

    回归理性或许需要一场行业层面的戒断治疗。惠普收购 Humane 团队后组建的 IQ 部门,选择将 AI 深度集成到打印机和会议系统,这种 “润物细无声” 的路径反而展现出生命力;影视行业用 AI 生成故宫场景取代实景拍摄的务实选择,证明技术赋能不应等同于颠覆重构。正如导演在航母拍摄现场领悟的:AI 可以生成舰载机,但驾驭战鹰的必须是活生生的飞行员。

    科技史反复证明,任何脱离场景价值的技术炫技终将沦为电子坟场的展品。当我们在博物馆凝视上世纪 90 年代的语音控制微波炉时,不该让子孙后代以同样戏谑的目光打量这个时代的 AI 胸针和会朗诵诗歌的花瓶。停止这场荒诞的 AI 化竞赛,或许才是科技行业重拾尊严的开始。

  • 一行代码没写,我通过ai搭建了个网站

    收藏夹是我强行称呼的。其实就是一个列表。你可以访问 linkpark.site 。实现效果如下:

    _20241207133002.png

    实现的效果:

    1. 读取我手动维护的静态文件(markdown文件)来生成网页列表
    2. 列表搜索
    3. 随机跳转某个Link的按钮
    4. 在随机列表获取一张图片作为背景图
    5. 获取到背景图的主要颜色设置为按钮的配色

    如果你对这个内容有兴趣,你可以参考一下下面的代码:

    <!DOCTYPE html>
    <html lang="zh">
    <head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>LINKPARK.SITE</title>
    <link rel="icon" href="./icon.png">
    <style>
            body {
                font-family:  "Ubuntu","Noto Sans SC",sans-serif;
                background-color: #f4f4f4;
                margin: 0;
                display: flex;
                justify-content: center;
                align-items: center;
            }
            .container {
                max-width: 800px;
                background-color: rgba(255, 255, 255, 0.1);
                border-radius: 12px;
                backdrop-filter: blur(10px);
                padding: 30px;
                margin: 0;
            }
            h1 {
                text-align: center;
                color: #333;
                margin-bottom: 10px;
            }
            input[type="text"] {
                box-sizing: border-box;
                width: 100%; 
                padding: 12px;
                border: 1px solid #ccc;
                border-radius: 6px;
                margin: 0 auto 20px; 
                font-size: 16px;
                display: block; 
                transition: border-color 0.3s;
            }
            input[type="text"]:focus {
                border-color: #555;
                outline: none;
            }
            .button-container {
            border: medium; /* 去掉边框 */
            border-radius: 4px;
            background-color: #EEEEEE; 
            display: flex;
            justify-content: space-between;
            margin-bottom: 20px;
            color: #fff;
            }
            button {
            flex: 1; /* 使按钮平分可用空间 */
            margin:  10px; /* 添加左右间距 */
            padding: 10px;
            color: #fff; /* 按钮文字颜色 */
            border: none; /* 去掉边框 */
            border-radius: 4px; /* 圆角边框 */
            cursor: pointer; /* 鼠标悬停时变成手指图标 */
            transition: background-color 0.3s; /* 添加过渡效果 */
            }
            button:hover {
            background-color: #0056b3; /* 悬停时变色 */
            color: #fff;
            }
            ul {
                list-style-type: none;
                padding: 0;
            }
            li {
                display: flex;
                flex-direction: column;
                position: relative;
                overflow: hidden;
                margin: 10px 0;
                border-radius: 6px;
                background-color: #f9f9f9; 
                transition: background-color 0.3s, transform 0.3s;
                padding: 15px;
                box-shadow: 0 2px 5px rgba(0, 0, 0, 0.1);
            }
            li:hover {
                background-color: #eeeeee;
                transform: translateY(-2px);
            }
            img {
                width: 20px; 
                height: 20px; 
                margin-right: 10px; 
            }
            .subtitle {
                color: #888; 
                font-size: 14px; 
                margin-top: 5px; 
            }
            .title {
                font-size: 18px;
                font-weight: 600;
            }
            a {
                text-decoration: none;
                color: inherit;
                display: block; 
                height: 100%; 
            }
            @media (min-width: 768px) {
                .container {
                    margin: 5vh 0; 
                }
            }
        </style>
    <script type="module" src="https://linkpark.site/markdown.js" onload="loadMarkdown()"></script>
    </head>
    <body>
    <div class="container">
    <h1>linkpark<span style="color:#007bff">.</span>site</h1>
    <p style="color:#333;padding: 5px;word-break: break-all; font-size:12px">本页面为个人收藏列表页。从未有意冒用各网站商标,如果您认为您的内容或权益受到侵犯,请联系 m@linkpark.site 。本页面不收集任何信息。</p>
    <input type="text" id="search" placeholder="搜索列表项..." oninput="filterList()">
    <!-- 按钮容器 -->
    <div class="button-container">
    <button onclick="setSearchValue('划水')">划水</button>
    <button onclick="setSearchValue('设计')">设计</button>
    <button onclick="setSearchValue('ai')">ai</button>
    <button onclick="setSearchValue('开发')">开发</button>
    <button id="randomButton">无聊</button>
    </div>
    
    <hr style="border-style: dashed; border-color: #ccc;">
    <ul id="itemList"></ul>
    </div>
    
    <canvas id="colorCanvas" style="display:none;"></canvas>
    
    <script>
        
        async function loadMarkdown() {
        try {
            const response = await fetch('https://linkpark.site/links.md');
            if (!response.ok) {
                throw new Error('网络响应不是 OK');
            }
            const text = await response.text();
            const html = marked.parse(text);
            
            const container = document.createElement('div');
            container.innerHTML = html;
    
            const table = container.querySelector('table');
            const itemList = document.getElementById('itemList');
            itemList.innerHTML = '';
    
            if (table) {
                const rows = table.querySelectorAll('tr');
    
                for (let i = 1; i < rows.length; i++) {
                    const cols = rows[i].querySelectorAll('td');
                    if (cols.length >= 4) {
                        const imgSrc = cols[0].querySelector('img')?.src; 
                        const title = cols[1].innerText; 
                        const description = cols[2].innerText; 
                        const link = cols[3].querySelector('a')?.href; 
    
                        // 将 <a> 标签放在 <li> 标签外部
                        const newLi = document.createElement('li');
                        newLi.innerHTML = `
                                <div style="display: flex; align-items: center;">
                                    <img src="${imgSrc}" alt="icon">
                                    <span class="title">${title}</span>
                                </div>
                            <div class="subtitle">${description}</div>
                        `;
                        
                        // 创建链接并将其包裹在 <li> 外部
                        const anchor = document.createElement('a');
                        anchor.href = link;
                        anchor.appendChild(newLi);
                        itemList.appendChild(anchor);
                    }
                }
            }
        } catch (error) {
            console.error('加载 Markdown 失败:', error);
        }
    }
    
    
    function filterList() {
        const searchInput = document.getElementById('search').value.toLowerCase();
        const items = document.querySelectorAll('#itemList li');
    
        items.forEach(item => {
            const text = item.textContent.toLowerCase();
            item.style.display = text.includes(searchInput) ? '' : 'none';
        });
    }
    
    // 设置搜索框的值
    function setSearchValue(value) {
        document.getElementById('search').value = value;
        filterList(); // 更新过滤列表
    }
    
    function redirectTo(url) {
        window.location.href = url;
    }
    
            // 图片链接列表
            const imageUrls = [
                'https://linkpark.site/1.jpg',
                'https://linkpark.site/2.jpg',
                'https://linkpark.site/3.jpg',
                'https://linkpark.site/4.jpg',
                'https://linkpark.site/5.jpg',
                'https://linkpark.site/6.jpg',
                'https://linkpark.site/7.jpg',
                'https://linkpark.site/8.jpg',
                'https://linkpark.site/9.jpg',
                'https://linkpark.site/10.jpg'
            ];
    
            // 随机选择一个链接
            const randomImageUrl = imageUrls[Math.floor(Math.random() * imageUrls.length)];
            document.body.style.background = `url('${randomImageUrl}') no-repeat center center fixed`;
            document.body.style.backgroundSize = 'cover'; // 让背景图覆盖整个屏幕
    
            const canvas = document.getElementById('colorCanvas');
            const ctx = canvas.getContext('2d');
    
            function getDominantColor(image) {
                const width = image.width;
                const height = image.height;
                canvas.width = width;
                canvas.height = height;
                ctx.drawImage(image, 0, 0, width, height);
    
                const imageData = ctx.getImageData(0, 0, width, height);
                const data = imageData.data;
    
                let r = 0, g = 0, b = 0, count = 0;
    
                for (let i = 0; i < data.length; i += 4) {
                    r += data[i];     // Red
                    g += data[i + 1]; // Green
                    b += data[i + 2]; // Blue
                    count++;
                }
    
                r = Math.floor(r / count);
                g = Math.floor(g / count);
                b = Math.floor(b / count);
    
                return `rgb(${r}, ${g}, ${b})`;
            }
    
            const img = new Image();
            img.crossOrigin = "Anonymous"; // 解决跨域问题
            img.src = randomImageUrl; // 使用随机选择的图片链接
            img.onload = () => {
                const dominantColor = getDominantColor(img);
                document.querySelectorAll('button').forEach(button => {
                    button.style.backgroundColor = dominantColor; // 设置按钮背景色
                    button.style.color = '#ffffff'; // 设置按钮文字颜色为白色
                });
            };
    </script>
    <script type="module" src="https://linkpark.site/linkpark.js""></script>
    </body>
    </html>