<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
   <channel>
      <title>笔记 by 车东</title>
      <link>http://www.chedong.com/tech/</link>
      <description>为而不有……</description>
      <language>en</language>
      <copyright>Copyright 2010</copyright>
      <lastBuildDate>Thu, 06 Sep 2007 00:28:05 +0800</lastBuildDate>
      <generator>http://www.sixapart.com/movabletype/</generator>
      <docs>http://blogs.law.harvard.edu/tech/rss</docs> 

            <item>
         <title>面向站长和网站管理员的Web缓存加速指南[翻译]</title>
         <description><![CDATA[<p>原文（英文）地址： <a href="http://www.mnot.net/cache_docs/">http://www.mnot.net/cache_docs/</a>&nbsp; 版权声明：<a href="http://creativecommons.org/licenses/by-nc-nd/2.0/deed.zh">署名-非商业性使用-禁止演绎 2.0</a><br /></p><p>这是一篇知识性的文档，主要目的是为了让Web缓存相关概念更容易被开发者理解并应用于实际的应用环境中。为了简要起见，某些实现方面的细节被简化或省略了。如果你更关心细节实现则完全不必耐心看完本文，后面参考文档和更多深入阅读部分可能是你更需要的内容。<br /></p><ol><li>什么是Web缓存，为什么要使用它？</li><li>缓存的类型：</li><ol><li>浏览器缓存；</li><li>代理服务器缓存；</li></ol><li>Web缓存无害吗？为什么要鼓励缓存？</li><li>Web缓存如何工作：</li><li>如何控制（控制不）缓存：</li><ol><li>HTML Meta标签 vs. HTTP头信息；</li><li>Pragma HTTP头信息（为什么不起作用）；</li><li>使用Expires（过期时间）HTTP头信息控制保鲜期；</li><li>Cache-Control（缓存控制） HTTP头信息；<br /></li><li>校验参数和校验；</li></ol><li>创建利于缓存网站的窍门；</li><li>编写利于缓存的脚本；</li><li>常见问题解答；</li><li> 缓存机制的实现：Web服务器端配置；</li><li> 缓存机制的实现：服务器端脚本；</li><li>参考文档和深入阅读；</li><li>关于本文档；</li></ol>]]></description>
         <link>http://www.chedong.com/tech/cache_docs.html</link>
         <guid>http://www.chedong.com/tech/cache_docs.html</guid>
        
        
         <pubDate>Thu, 06 Sep 2007 00:28:05 +0800</pubDate>
      </item>
            <item>
         <title>mod_gzip：Apache的HTTP压缩优化</title>
         <description>HTTP压缩对于纯文本内容可压缩至原大小的40％一下，从而提供60％以上的数据传输节约，虽然WEB服务器会因为压缩导致CPU占用的略微上升，但是可以节约大量用于传输的网络IO。对于数据压缩带来的用户浏览速度提升（让页面符合8秒定律），这点总体负载5%-10%上升是非常值得的。毕竟通过数据压缩会比通过不规范的HTML代码优化要方便得多。</description>
         <link>http://www.chedong.com/tech/compress.html</link>
         <guid>http://www.chedong.com/tech/compress.html</guid>
        
        
         <pubDate>Wed, 10 Sep 2003 18:15:12 +0800</pubDate>
      </item>
            <item>
         <title>ACDSee的HTML相册生成</title>
         <description><![CDATA[<p>内容摘要：<br>
随着数码相机的普及，每次出游回来都会面对数量上百的照片整理，处理效率还是非常重要的因素。ACDSee
3.1（完整版）仍然是我目前最常用的照片查看/归档工具。以下是使用ACDSee进行照片整理和HTML相册生成的经验总结，大部分操作都可以完全只使
用键盘操作完成。<br>

</p>
]]></description>
         <link>http://www.chedong.com/tech/acdsee.html</link>
         <guid>http://www.chedong.com/tech/acdsee.html</guid>
        
        
         <pubDate>Tue, 09 Sep 2003 14:41:27 +0800</pubDate>
      </item>
            <item>
         <title>基于鼠标点击跟踪的用户点击行为分析</title>
         <description><![CDATA[<p>内容摘要：<br /> 在像网站首页这样的资源比较集中的页面中，那些栏目最经常被用户点击？居左居右对广告的点击率的影响是什么？<br /> &ldquo;一切用数字说话&rdquo;：以上问题都可以通过跟踪浏览器客户端的鼠标行为，按区块对页面进行点击行为的分析。</p>]]></description>
         <link>http://www.chedong.com/tech/click.html</link>
         <guid>http://www.chedong.com/tech/click.html</guid>
        
        
         <pubDate>Wed, 06 Aug 2003 18:02:51 +0800</pubDate>
      </item>
            <item>
         <title>Google排名优化－面向搜速引擎的广告模式</title>
         <description><![CDATA[<p>如果说新一代搜索引擎Google所依赖的PageRank技术更真实的突出了超链接(hyperlink)在互联网中互联互通的本质，大型门户网站是否也应该反思一下传统的广告投放/统计模式，也许让广告回归到最原始的静态链接形式，通过间接提升广告客户自身网站在大型搜索引擎中的排名这种模式也许更能突出大型门户网站自身的优势。</p>
<p>你完全不必耐心的看完后面所有的内容，因为结论无非以下一句话：
互联网上链接就是一切：来自其他网站相关主题的直接静态链接是唯一对提升自身站点在搜索引擎中的排名提升有长期作用的广告形式。</p>]]></description>
         <link>http://www.chedong.com/tech/google_ads.html</link>
         <guid>http://www.chedong.com/tech/google_ads.html</guid>
        
        
         <pubDate>Wed, 06 Aug 2003 17:44:53 +0800</pubDate>
      </item>
            <item>
         <title>BBS2Blog—让BBS和Weblog互通</title>
         <description><![CDATA[<p>内容摘要：<br>
拥有大量的历史积累的各种论坛系统中的内容往往很难被搜索引擎收录，BBS2BLOG是一个bbs改造思路：通过对现有BBS加入按“个人”的归档机制，
让这些丰富内容都可以成为整个可搜索互联网知识库的一部分。<br>
</p>
]]></description>
         <link>http://www.chedong.com/tech/weblog.html</link>
         <guid>http://www.chedong.com/tech/weblog.html</guid>
        
        
         <pubDate>Wed, 06 Aug 2003 17:43:08 +0800</pubDate>
      </item>
            <item>
         <title>GNU工具箱</title>
         <description><![CDATA[<p>内容摘要：<br>
GNU很推崇“工具箱”哲学：很多复杂的问题都可以通过几个更简单的工具通过一定的组合加以解决的。<br>
</p>
<ul>
  <li><a href="#edit">编辑器：vi pico</a><br>
  </li>
  <li><a href="#line">行处理：awk sed perl grep sort uniq</a></li>
  <li><a href="#wget">下载/解包：wget tar gzip<br>

    </a></li>
</ul>
<p>shell 脚本本身的一些变量：  $_ shell环境名称 如 /bin/sh ;  $0 shell脚本本身，如 test.sh ; $1 $2 ..$9 命令行参数 test.sh -a -b 的$1 = -a  $2 = -b </p>
]]></description>
         <link>http://www.chedong.com/tech/gnu.html</link>
         <guid>http://www.chedong.com/tech/gnu.html</guid>
        
        
         <pubDate>Sun, 06 Jul 2003 17:40:11 +0800</pubDate>
      </item>
            <item>
         <title>NAT网关安装笔记</title>
         <description><![CDATA[<ul>
  <li><a href="#freebsd">FreeBSD 4.7上的NAT网关安装笔记</a></li>
  <li><a href="#iptables">RedHat 8上的NAT网关安装笔记</a></li>
</ul>
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!<br>
!!!绝对不要远程调试防火墙配置!!!<br>
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!<br>
<br>
硬件需求：<br>
&nbsp;&nbsp;&nbsp; 双网卡<br>
&nbsp;&nbsp;&nbsp; 内存 &gt; 64M<br>
&nbsp;&nbsp;&nbsp; 硬盘 &gt; 1G<br>
<br>
注：<br>
NAT网关本身效率都很高，所以即使在配置很低的机器上运行效率也是足够的（仍建议尽可能多的增加内存 &gt; 256M），<br>
如果需要记录日志做分析，则会产生很大的I/O操作并占用大量硬盘空间，建议使用SCSI硬盘并做日志轮循。<br />
假设2块网卡分别按照以下网段设置：<br>
内网网卡IP地址：192.168.0.1/255.255.255.0&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
本身为网关<br>
外网网卡IP地址：111.222.111.222/255.255.255.192 网关：111.222.111.1<br>
<br>
安全策略：<br>
<ul>
  <li> 作为网关，安全性非常重要，建议除了远程登录用的SSH外，尽可能多的停掉所有不相关服务。</li>

  <li>本安装文档只是最简单的配置，没有任何安全过滤规则，更多安全过滤规则需要根据实际情况补充。</li>
</ul>
]]></description>
         <link>http://www.chedong.com/tech/nat.html</link>
         <guid>http://www.chedong.com/tech/nat.html</guid>
        
        
         <pubDate>Mon, 09 Jun 2003 15:14:20 +0800</pubDate>
      </item>
            <item>
         <title>基于反相代理的Web缓存加速——可缓存的CMS系统设计</title>
         <description><![CDATA[<p>内容摘要：<br>
对于一个日访问量达到百万级的网站来说，速度很快就成为一个瓶颈。除了优化
内容发布系统的应用本身外，如果能把不需要实时更新的动态页面的输出结果转化成静态网页来发布，速度上的提升效果将是显著的，因为一个动态页面的速度往往
会比静态页面慢2－10倍，而静态网页的内容如果能被缓存
在内存里，访问<a href="#test">速度甚至会比原有动态网页有2－3个数量级的提高</a>。<br>

</p>
<ul>
  <li><a href="#compare">动态缓存和静态缓存的比较</a></li>
  <li><a href="#site">基于反向代理加速的站点规划</a><br>
  </li>
  <li><a href="#apache">基于apache mod_proxy的反向代理加速实现</a></li>
  <li><a href="#squid">基于squid的反向代理加速实现</a></li>
  <li><a href="#page">面向缓存的页面设计</a></li>

  <li><a href="#compatible">应用的缓存兼容性设计</a>：<br>
HTTP_HOST/SERVER_NAME和REMOTE_ADDR/REMOTE_HOST需要用
HTTP_X_FORWARDED_HOST/HTTP_X_FORWARDED_SERVER代替</li>
</ul>
后台的内容管理系统的页面输出遵守可缓存的设计，这样就可以把性能问题交给前台的缓存服务器来解决了，从而大大简化CMS系统本身的复杂程度。<br>]]></description>
         <link>http://www.chedong.com/tech/cache.html</link>
         <guid>http://www.chedong.com/tech/cache.html</guid>
        
        
         <pubDate>Fri, 06 Jun 2003 17:27:18 +0800</pubDate>
      </item>
            <item>
         <title>Google排名优化－面向Google(Search Engine Friendly)的URL设计</title>
         <description><![CDATA[<p>内容摘要：不得不承认，将动态网页链接rewriting成静态链接是最保险和稳定的面向搜索引擎优化方式</p>
<p>此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性，如果网站想更好地被搜索引擎收录，网站设计除了面向用户友好（User
Friendly）外，<a href="http://www.chedong.com/tech/google.html">搜索引擎友好
（Search
Engine Friendly）的设计也是非常重要的</a>。进入搜索引擎的页面内容越多，则被用户用不同的关键词找到的几率越大。<a
 href="http://pr.efactory.de/e-number-of-pages.shtml">在Google的算法调查</a>一文
中提到一个站点被Google索引页面的数量其实对PageRank也是有一定影响的。由于Google
突出的是整个网络中相对静态的部分（动态网页索引量比较小）,链接地址相对固定的静态网页比较适合被Google索引（怪不得很多大网站的邮件列表归档和BLOG按日期归档的文档很容被搜的到），因此很多关于面向搜索引擎
URL设计优化(URI
Pretty)的文章中提到了很多利用一定机制将动态网页参数变成像静态网页的形式：<br>
比如可以将：<a href="http://phpunixman.sourceforge.net/index.php?mode=man&amp;parameter=ls"><br>
http://phpunixman.sourceforge.net/index.php?mode=man&amp;parameter=ls</a><br>

变成：<a href="http://phpunixman.sourceforge.net/index.php/man/ls">http://phpunixman.sourceforge.net/index.php/man/ls</a><br>
</p>
]]></description>
         <link>http://www.chedong.com/tech/google_url.html</link>
         <guid>http://www.chedong.com/tech/google_url.html</guid>
        
        
         <pubDate>Sat, 10 May 2003 18:15:12 +0800</pubDate>
      </item>
            <item>
         <title>基于Lucene/XML的站内全文检索解决方案：WebLucene</title>
         <description><![CDATA[<p>内容摘要：<br /> 为Lucene做一个通用XML接口一直是我最大的心愿：更方便的在WEB应用中嵌入全文检索功能，2004年时类似应用还很不成熟，但现在也许应该优先试试<a href="http://lucene.apache.org/solr/">以Lucene为核心的Solr</a>全文应用引擎；<a href="http://lucene.apache.org/solr/"><br /></a></p> <ul>   <li>提供了XML的数据输入接口：适合将原有基于各种数据库的数据源导入到全文索引中，保证了数据源的平台无关性；</li>    <li>通过了基于XML的搜索结果输出：方便了通过XSLT进行前台的结果显示；</li> </ul> <pre><br />    MySQL  \                                                  / JSP    <br />    Oracle - DB      -  ==&gt;   XML ==&gt; (Lucene Index) ==&gt; XML  -  ASP    <br />    MSSQL  /                                                  -  PHP            <br />             MS Word /                                        \         / XHTML<br />                 PDF /                                         =XSLT=&gt; -  TEXT<br />                                                                        \ XML                                                                     <br />                                \_________WebLucene__________/ <br />使用过程如下：<br /></pre>  <ol>   <li>将数据用脚本导出成XML格式；</li>   <li>将XML数据源导入LUCENE索引；</li>   <li>从WEB界面得到XML结果输出，并通过XSLT生成HTML页面</li> </ol> ]]></description>
         <link>http://www.chedong.com/tech/weblucene.html</link>
         <guid>http://www.chedong.com/tech/weblucene.html</guid>
        
        
         <pubDate>Tue, 06 May 2003 18:28:08 +0800</pubDate>
      </item>
            <item>
         <title>多服务器的日志合并统计——apache日志的cronolog轮循</title>
         <description><![CDATA[内容摘要：你完全不必耐心地看完下面的所有内容，因为结论无非以下2点：<br>
1 用 cronolog 干净，安全地轮循apache“日”志<br>
2 用 sort -m 合并排序多个日志<br>
或者用： <a href="http://www.chedong.com/blog/archives/001280.html">clfmerge合并日志</a>
<br>
根据个人的使用经历：<br>
1 先介绍apache日志的合并方法；<br>
2 然后根据由此引出的问题说明日志轮循的必要性和解决方法，介绍如何通过cronolog对apache日志进行轮循；<br>
中间有很多在设计日志合并过程中一些相关工具的使用技巧和一些尝试的失败经历……<br>
我相信解决以上问题的路径不止这一条途径，以下方案肯定不是最简便或者说成本最低的，希望能和大家有更多的交流。<br>
<br>
<br>
</p>]]></description>
         <link>http://www.chedong.com/tech/rotate_merge_log.html</link>
         <guid>http://www.chedong.com/tech/rotate_merge_log.html</guid>
        
        
         <pubDate>Sat, 12 Apr 2003 11:38:26 +0800</pubDate>
      </item>
            <item>
         <title>AWStats简介：Apache/Windows IIS的日志分析工具的下载，安装，配置样例和使用（含6.9中文定义补丁）</title>
         <description><![CDATA[<p>你完全不必耐心看完所有内容：简要安装说明如下<br /> <strong>安装</strong><br /> http://sourceforge.net/projects/awstats/ 下载安装包后：<br /> GNU/Linux：tar zxf awstats-version.tgz<br /> awstats的脚本和静态文件缺省都在wwwroot目录下：将cgi-bin目录下的文件都部署到 cgi-bin/目录下：/home/apache/cgi-bin/awstats/ <br /> mv awstats-version/wwwroot/cgi-bin /path/to/apache/cgi-bin/awstats<br /> 把图标等文件目录复制到WEB的HTML文件发布目录下，例如：/home/apache/htdocs/ 下发布<br />  更多的批量更新脚本等在tools 目录下，可以一并放到cgi-bin/awstats/ 目录下<br /> 升级国内主要<a href="http://www.chedong.com/tech/lib.tgz">搜索引擎和蜘蛛定义</a>，安装GeoIP的应用库：C<br /><a href="http://geolite.maxmind.com/download/geoip/api/c/GeoIP.tar.gz">http://www.maxmind.com/download/geoip/api/c/</a> 解包，编译安装<br />perl -MCPAN -e 'install &quot;Geo::IP&quot;' 或者使用纯Perl包&nbsp; perl -MCPAN -e 'install &quot;Geo::IP::PurePerl&quot;'<br />下载GeoIP/GeoIPCityLite包：解包并部署到awstats目录下:<br /></p><blockquote>wget&nbsp; <a href="http://geolite.maxmind.com/download/geoip/database/GeoLiteCity.dat.gz">http://geolite.maxmind.com/download/geoip/database/GeoLiteCity.dat.gz</a><br />wget&nbsp; <a href="http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz">http://geolite.maxmind.com/download/geoip/database/GeoLiteCountry/GeoIP.dat.gz</a><br /></blockquote><p> <strong>配置</strong><br /> 将缺省awstats.model.conf 命名成common.conf<br /> 修改其中的一些配置选项：<br /> LoadPlugin=&quot;decodeutfkeys&quot;<br />LoadPlugin=&quot;geoip GEOIP_STANDARD /home/apache/chedong.com/cgi-bin/awstats/GeoIP.dat&quot;<br />LoadPlugin=&quot;geoip_city_maxmind GEOIP_STANDARD /home/apache/chedong.com/cgi-bin/awstats/GeoLiteCity.dat&quot;<br /> <br /> 创建awstats下创建：data 目录用于统计数据输出，缺省的统计输出是按月汇总的；对于日志非常大的最好选择<a href="http://www.chedong.com/blog/archives/001293.html">按天统计输出</a>，并<a href="http://www.chedong.com/blog/archives/001452.html">修改awstats.pl: 设置LIMITFLUSH加10倍</a>；<br />$LIMITFLUSH =<br />&nbsp; <span style="font-weight: bold">50000</span>;&nbsp;&nbsp; # Nb of records in data arrays after how we need to flush data on disk<br />可以有效提高统计的速度（减少磁盘IO），并避免按月汇总数据导致的统计文件过大；</p><p>按照一下样例设置配置文件：<br /> Include &quot;common.conf&quot;<br /> LogFile=&quot;/home/apache/logs/access_log.%YYYY-24%MM-24%DD-24&quot;<br /> SiteDomain=&quot;www.chedong.com&quot;<br /> HostAliases=&quot;chedong.com&quot;<br /> DefaultFile=&quot;index.html&quot;<br /> DirData=&quot;/home/apache/cgi-bin/awstats/data/&quot; </p>]]></description>
         <link>http://www.chedong.com/tech/awstats.html</link>
         <guid>http://www.chedong.com/tech/awstats.html</guid>
        
        
         <pubDate>Wed, 09 Apr 2003 16:45:38 +0800</pubDate>
      </item>
            <item>
         <title>基于Google的学习过程</title>
         <description><![CDATA[<p>内容摘要：
</p>
<p><a href="http://www.oreilly.com/catalog/googlehks/">Google的使用如此重要，
O'Reilly有本专门的书介绍了如何优化网站面向Google的设计，和使用Google的一些技巧：<br>
http://www.oreilly.com/catalog/googlehks/</a> 这里我很想把以前遇到类似问题时在Google上寻找资料的思路和大家分享一下：</p>

]]></description>
         <link>http://www.chedong.com/tech/study.html</link>
         <guid>http://www.chedong.com/tech/study.html</guid>
        
        
         <pubDate>Sun, 06 Apr 2003 17:41:58 +0800</pubDate>
      </item>
            <item>
         <title>内容管理系统(CMS)的设计和选型</title>
         <description><![CDATA[<p>内容摘要：<br>
</p>
<ul>
  <li><a href="#intro">内容管理系统概述</a></li>
  <li><a href="#cms">内容管理系统的选型</a></li>
  <li><a href="#ads">广告管理系统的选型</a></li>
  <li><a href="#bbs">论坛/社区系统的选型</a><br>
  </li>

  <li><a href="#wysiwyg">所见即所得编辑器的选型</a><br>
  </li>
  <li><a href="#upload">图片上传和文件管理组件</a><br>
  </li>
</ul>
]]></description>
         <link>http://www.chedong.com/tech/cms.html</link>
         <guid>http://www.chedong.com/tech/cms.html</guid>
        
        
         <pubDate>Thu, 06 Mar 2003 18:05:51 +0800</pubDate>
      </item>
      
   </channel>
</rss>
