<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>fxposter&#039;s wave &#187; DomDocument</title>
	<atom:link href="http://blog.fxposter.org/tag/domdocument/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.fxposter.org</link>
	<description>Stories about Ruby, JavaScript, Objective-C and other cool tools</description>
	<lastBuildDate>Sun, 25 Jul 2010 08:46:52 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>DomDocument &#8211; кодировка в HTML-документах</title>
		<link>http://blog.fxposter.org/2008/07/20/domdocument-encoding-in-html/</link>
		<comments>http://blog.fxposter.org/2008/07/20/domdocument-encoding-in-html/#comments</comments>
		<pubDate>Sun, 20 Jul 2008 16:53:32 +0000</pubDate>
		<dc:creator>fxposter</dc:creator>
				<category><![CDATA[Web]]></category>
		<category><![CDATA[Программирование]]></category>
		<category><![CDATA[Работа]]></category>
		<category><![CDATA[DOM]]></category>
		<category><![CDATA[DomDocument]]></category>
		<category><![CDATA[HTML]]></category>
		<category><![CDATA[PHP]]></category>

		<guid isPermaLink="false">http://blog.fxposter.org/?p=474</guid>
		<description><![CDATA[На этот пост меня сподвигла неправильная (на мой взгляд работа fillin-фильтра в Symfony). Итак, поехали. DOM - это мощный компонент PHP для работы с Document Object Model. Почитать о его возможностях можно здесь (php manual). Я же хочу заострить внимание на том, что это расширение, в отличии от SimpleXML, например, может работать как с HTML, [...]]]></description>
			<content:encoded><![CDATA[<p>На этот пост меня сподвигла неправильная (на мой взгляд работа fillin-фильтра в Symfony). Итак, поехали.</p>
<p>DOM - это мощный компонент PHP для работы с Document Object Model. Почитать о его возможностях можно <a href="http://ua.php.net/manual/en/book.dom.php">здесь</a> (php manual). Я же хочу заострить внимание на том, что это расширение, в отличии от SimpleXML, например, может работать как с HTML, так и с XML.</p>
<p>DomDocument - один из классов компонента DOM, который отвечает за полный XML или HTML-документ.</p>
<p>И вот хотелось бы поговорить и показать, как этот DomDocument работает с кодировками и символами, отличными от латиницы.</p>
<p style="padding-left: 30px;">Для начала - небольшое отступление: DomDocument я создаю вот так: <code class="php">new DomDocument('1.0', 'UTF-8')</code>, указывая в качестве кодировки (&#8221;The encoding of the document as part of the XML declaration.&#8221;) UTF-8, так как, судя по моему опыту - указание кодировки здесь не дает вообще ничего.</p>
<p>Рассказывать тут особо нечего, поэтому я приведу код и результаты, а потом их проанализирую.</p>
<p><em>Весь текст в скриптах в кодировке UTF-8.</em></p>
<h3>Код класса &#8220;тестов&#8221;</h3>
<pre><code class="php">class Test_DomDocument_HTML_Charset {
  protected $dom;

  protected $html =
        '&lt;!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd"&gt;
        &lt;html&gt;
        &lt;head&gt;
          &lt;meta http-equiv="Content-type" content="text/html; charset=UTF-8"&gt;
          &lt;title&gt;Тестовая страничка&lt;/title&gt;
        &lt;/head&gt;
        &lt;body&gt;
          &lt;p&gt;Привет&lt;/p&gt;
        &lt;/body&gt;
        &lt;/html&gt;';

  protected $html_without_charset =
        '&lt;!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd"&gt;
        &lt;html&gt;
        &lt;head&gt;
          &lt;title&gt;Тестовая страничка&lt;/title&gt;
        &lt;/head&gt;
        &lt;body&gt;
          &lt;p&gt;Привет&lt;/p&gt;
        &lt;/body&gt;
        &lt;/html&gt;';

  protected function checkTestFunction($function)
  {
    return (strpos($function, 'test') === 0);
  }

  public function execute($callback) {
    $functions = get_class_methods(get_class($this));
    $functions = array_filter($functions, array($this, 'checkTestFunction'));
    foreach($functions as $function) {
      $this-&gt;setUp();
      $result = $this-&gt;$function();
      $callback($result, $function);
      $this-&gt;tearDown();
    }
  }

  protected function setUp() {
    $this-&gt;dom = new DomDocument('1.0', 'UTF-8');
  }

  protected function tearDown() {
  }

  /**
   * Возвращает кодировку документа.
   * Используется документ, в котором не указана кодировка.
   *
   * @return string
   */
  protected function testWithoutCharset() {
    $this-&gt;dom-&gt;loadHTML($this-&gt;html_without_charset);
    return $this-&gt;dom-&gt;encoding;
  }

  /**
   * Возвращает документ, после обработки его DomDocument'ом.
   * Используется документ, в котором не указана кодировка.
   *
   * @return string
   */
  protected function testWithoutCharsetHtml() {
    $this-&gt;dom-&gt;loadHTML($this-&gt;html_without_charset);
    return $this-&gt;dom-&gt;saveHTML();
  }

  /**
   * Возвращает кодировку документа.
   * Используется документ, в котором указана кодировка.
   *
   * @return string
   */
  protected function testWithCharset() {
    $this-&gt;dom-&gt;loadHTML($this-&gt;html);
    return $this-&gt;dom-&gt;encoding;
  }

  /**
   * Возвращает документ, после обработки его DomDocument'ом.
   * Используется документ, в котором указана кодировка.
   *
   * @return string
   */
  protected function testWithCharsetHtml() {
    $this-&gt;dom-&gt;loadHTML($this-&gt;html);
    return $this-&gt;dom-&gt;saveHTML();
  }

}</code></pre>
<h3>Код, показывающий результаты</h3>
<pre><code class="php">function echoHTMLResult($result, $function)
{
  echo "&lt;h3&gt;$function&lt;/h3&gt;\n";
  echo '&lt;pre&gt;&lt;code&gt;';
  if(is_string($result))
    $result = str_replace('&lt;', '&amp;lt;', str_replace('&gt;', '&amp;gt;', $result));
  var_dump($result);
  echo '&lt;/code&gt;&lt;/pre&gt;';
}</code></pre>
<pre><code class="html">&lt;?php $test = new Test_DomDocument_HTML_Charset(); ?&gt;
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd"&gt;
&lt;html&gt;
&lt;head&gt;
  &lt;meta http-equiv="Content-type" content="text/html; charset=UTF-8"&gt;
  &lt;title&gt;Тестовая страничка&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
&lt;?php $test-&gt;execute('echoHTMLResult') ?&gt;
&lt;/body&gt;
&lt;/html&gt;</code></pre>
<h3>Результаты</h3>
<p><a href="http://blog.fxposter.org/wp-content/uploads/2008/07/dom_html.png"><img class="alignnone size-medium wp-image-476" title="Test_DomDocument_HTML_Charset" src="http://blog.fxposter.org/wp-content/uploads/2008/07/dom_html-300x187.png" alt="" width="300" height="187" /></a></p>
<h3>Выводы</h3>
<p>Как можно понять из результатов - кодировка документа при использовании HTML определяется исключительно через тег meta, а точнее - через charset, который там указан:</p>
<pre><code class="html">&lt;meta http-equiv="Content-type" content="text/html; charset=UTF-8"&gt;</code></pre>
<p>При отсутствии указанного тега/charset&#8217;а в нём - <code class="php">$dom-&gt;encoding</code> будет равен NULL (что можно с успехом использовать).</p>
<p>В общем-то всё, в ближайшие дни еще будет статья про кодировку в XML-документах, где всё немного интереснее.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.fxposter.org/2008/07/20/domdocument-encoding-in-html/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>
